Skip Navigation
Telegram
Что скрывает модель?


Что скрывает модель?

Anthropic опубликовала работу про Natural Language Autoencoders (NLA). Это метод, который переводит внутренние состояния модели в обычный текст.

Упрощенно: внутри модели есть числовые представления того, что она сейчас "держит в голове". NLA обучает одну часть системы превращать это представление в текст. Другая часть пытается по этому тексту восстановить исходное представление. Если восстановление получается близким, объяснение считают полезным.

Но здесь есть важная оговорка. Метод не доказывает, что текст точно описывает мысли модели. Он доказывает только то, что этот текст помогает восстановить внутреннее состояние. Тем не менее авторы показывают, что с обучением такие объяснения становятся все более содержательными. Качество восстановления в их экспериментах доходило примерно до 0.6-0.8 по используемой метрике.

Главный смысл метода - проверка моделей перед выпуском.

Anthropic приводит несколько примеров. В задачах на рифму NLA показывал, что Opus 4.6 заранее готовит будущую рифму еще до того, как пишет финальную строку. В ранней версии 4.6 модель иногда отвечала на английские запросы на других языках. Объяснения показали, что она почему-то цеплялась за идею о родном языке пользователя. Позже нашли ошибку в обучающих данных: английский перевод запроса был соединен с ответом, оставленным на исходном языке.

Отдельно стоит упомянуть про тесты безопасности. По данным NLA, Claude иногда понимал, что его проверяют, хотя прямо об этом не писал. В одном тесте на опасные действия при программировании такие признаки появлялись в 16% записей. При этом явных признаний не было вообще. На SWE-bench Verified показатель был 26%. В реальном трафике Claude.ai, который пользователи разрешили использовать для обучения, меньше 1%.

Есть и другой эксперимент. Исследователи взяли намеренно испорченную версию Haiku 3.5 со скрытой мотивацией. Агенты с доступом к NLA находили эту мотивацию в 12-15% случаев. Без NLA результат был ниже 3%, даже с другими инструментами анализа.

Это сигнал для всей культуры тестирования ИИ. Если модель понимает, что проходит экзамен, тест уже хуже показывает ее обычное поведение. Он начинает показывать поведение системы, которая знает, что за ней наблюдают.

При этом NLA пока нельзя считать надежным детектором намерений. Объяснения могут выдумывать детали, противоречить себе и достраивать смысл слишком свободно. Авторы предлагают читать их не как стенограмму мыслей модели, а как источник гипотез. Потом эти гипотезы нужно проверять другими способами: вмешательствами во внутренние состояния, анализом связей внутри модели, поиском ошибок в обучающих данных. Больше доверия вызывают темы, которые повторяются несколько раз подряд, а не отдельные красивые фразы.

Поэтому вывод должен быть осторожным. Anthropic не получила прямой доступ к "сознанию" Claude. Она получила новый способ смотреть на скрытые состояния модели. И этого уже достаточно, чтобы находить странные режимы поведения до релиза.

Для индустрии это важно из-за будущих агентных систем. Чем сложнее модель и чем длиннее цепочка действий, тем хуже обычный текст объясняет реальные причины поведения. Система может оптимизировать награду, распознавать проверку или заранее планировать обход ограничения. Снаружи диалог при этом будет выглядеть нормально.

Скорее всего, аудит будущих моделей будет строиться не на доверии к их самоотчетам. Нужны будут независимые способы смотреть на внутренние состояния и проверять, что именно предшествует словам и действиям модели.

NLA пока дорогие, шумные и сами требуют доверия к другой модели-интерпретатору. Но направление указывает на правильную проблему: безопасность больших моделей зависит не только от того, что они говорят, но и от того, какие внутренние процессы идут перед ответом.


❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ / Max
Telegram
🏋️‍♂️ Anthropic за день закрыл три проблемы Claude Code


🏋️‍♂️ Anthropic за день закрыл три проблемы Claude Code

На днях прошёл Code with Claude SF — главный девелоперский ивент Anthropic. И за один день они решили три темы, на которые жаловались последние шесть недель.

1️⃣Лимиты Claude Code удвоены. Пятичасовой rate limit удвоен для Pro, Max, Team и Enterprise. Снижение лимитов в часы пик убрано. Opus API лимиты подняли значительно. Многие из-за лимитов и стоимости переходили на Codex, видимо время вернуться обратно.

2️⃣Больше мощностей. Anthropic подписал партнёрство со SpaceX на полный доступ к датацентру Colossus 1. Маск со своим xAI не вывозят гонку ИИ. Их моделью тупо не пользуются так много как Claude, которому не хватает мощностей, поэтому Маск сдаёт в аренду свободный датацентр.

3️⃣Managed Agents — три новые фичи, доступные пока не всем:

⏺Multi-agent — несколько агентов работают над задачей вместе, разделяя её на части и передавая результат друг другу.

⏺Outcomes — задаёшь не инструкцию, а конечный результат. Агент сам итерирует, пока не достигнет цели.

⏺Dreaming — агент ночью просматривает свои прошлые сессии, находит что упустил, и пишет себе новую память. То есть улучшает себя👨🏻‍🎓

Dreaming — самое интересное. Это не "запустил и получил ответ", а "оставил работать на ночь, утром у тебя инструмент, который стал лучше понимать твою задачу". Для тех, кто строит продукты через Claude Code, это сценарии, которые раньше требовали ручной оркестровки.

⏳Ждём когда этих агентов запустят для всех.

Anthropic признал что инженерно облажался в апреле, нашёл компьют, вернул лимиты, и заодно подкинул новый этаж возможностей. Удобный момент дать инструменту второй шанс. Надеюсь она перестанут банить наши аккаунты.


🤖 В эпоху AI
Telegram
Сингулярность на горизонте: код, который пишет код, который обучает код 🔮
Сингулярность на горизонте: код, который пишет код, который обучает код 🔮

Джек Кларк (сооснователь Anthropic) выкатил эссе-анализ текущего состояния AI-индустрии.

Его главный тезис: с вероятностью >60% до конца 2028 года мы увидим полностью автоматизированный R&D цикл. То есть топовая модель сможет автономно обучить свою следующую, более умную версию без участия мясных мешков.

Звучит как завязка дешевого сай-фая, но Кларк объясняет все метриками. Если посмотреть на агрегированные данные бенчмарков, становится немного не по себе от того, как быстро схлопывается горизонт человеческой компетентности.

1️⃣ Насыщение инженерных бенчмарков
SWE-Bench (решение реальных issue с GitHub). В конце 2023 года топовым результатом были жалкие 2% у Claude 2. Сейчас Claude Mythos Preview выбивает 93.9%. По факту, бенчмарк пройден.
Таймфрейм автономности (METR) вырос с 4 минут у GPT-4 в 2023 году до 12 часов непрерывной работы у Opus 4.6 сегодня. Это полноценный рабочий день мидла, который не ходит курить. К концу 2026 года ожидается скачок до 100 часов. Этого достаточно, чтобы нейронка не просто фиксила баг, а переписывала архитектуру сервиса, пока вы заняты чем-то другим.

2️⃣ Автоматизация рутины дата-саентистов
Бенчмарк MLE-Bench (Kaggle-соревнования оффлайн). Лучшая система на базе Gemini3 выбивает 64.4%.
CORE-Bench (репродукция научных ML-статей по репозиторию). Модель сама ставит зависимости, собирает окружение, гоняет код и проверяет результаты. Оценка — 95.5%.

3️⃣ Самое важное: ИИ лезет в хардкорную оптимизацию
Нейронки научились писать и оптимизировать GPU-ядра (Triton/CUDA). Anthropic замеряет, как модели оптимизируют код для тренировки LLM на CPU. За год ускорение выросло с 2.9x (Opus 4) до 52x (Claude Mythos Preview). Человеку на такой результат нужно убить полный рабочий день.
Появился PostTrainBench — где большие модели файн-тюнят маленькие опенсорсные веса. Сейчас ИИ-агенты уже выдают ~50% от перфоманса крутых ML-инженеров из топовых лаб.

Да, моделям пока не хватает "креативности" для создания новых парадигм (типа трансформеров), но им это и не нужно. Экстенсивного масштабирования через автономные команды AI-агентов хватит за глаза.

Все вполне может прийти к тому, что крупные компании будут "крупными" по капиталу (нужно много GPU), но очень маленькими по людям. Зачем держать штат из 50 инженеров, если один архитектор может управлять роем из 500 синтетических агентов, которые не выгорают и пишут код со скоростью света? Ну это если все пойдет по идеальному сценарию и не будет черных лебедей.

Верим?
Telegram
🩸 Anthropic выпустила 10 финансовых агентов
🩸 Anthropic выпустила 10 финансовых агентов.

Думаю у меня в этом канале не мало людей из банков, инвестиционной сферы, кого это коснется непосредственно.

Правда никого это не убьет как утверждается ниже, но сделает работу менее рутинной и более кайфовой для тех кто освоит новые инструменты.

Дарио Амодеи с главой JPMorgan заявили: SaaS-компании, которые не встроили ИИ, «потеряют капитализацию, обанкротятся».

JP Morgan это 400 тыс сотрудников примерно)

Одновременно Antropic выпустил 10 агентов, которые закрывают всю цепочку работы финансового аналитика — от мемо по сделке до закрытия отчётности.

Инвест.аналитик — строит DCF, LBO и сравнительные модели из отчётности и данных. Это ядро работы любого аналитика в инвест. фонде или инвестбанке. Теперь берёт сырые данные и выдаёт модель в Excel.

Сборщик презентаций — собирает список целей для покупки, считает мультипликаторы похожих компаний и делает черновик презентации. Раньше аналитик спал по 4 часа, верстая таблицы в Excel и перенося их в PowerPoint. Теперь — модель в Excel, презентация в PPT и сопроводительное письмо за минуты.

Брифер перед встречами — готовит резюме перед встречей с клиентом или продавцом. Раньше тратиличасы, собирая кто есть кто, что обсуждали в прошлый раз, какие позиции в портфеле. Теперь агент сам тащит это из переписки, CRM и публичных данных.

Разбор отчётности — слушает записи конференц-звонков, перечитывает отчёты, обновляет модели и выделяет главное для инвестиционной идеи. Раньше работа аналитика в фонде или банке. Теперь Claude сам отслеживает изменения прогнозов выручки, маржи, рынков.

Секторальный аналитик — следит за отраслью и конкретными компаниями, собирает новости, отчётность, брокерские обзоры. Раньше — дорогая подписка + человек, который всё пережёвывал. Теперь Claude сам отмечает риски для кредитного комитета.

Проверщик оценок — проверяет, правильно ли посчитаны мультипликаторы, соответствует ли методология стандартам, нет ли ошибок в Excel. Раньше — старший аналитик или руководитель. Теперь — автоматическая проверка.

Сверщик счетов — сверяет счета бухгалтерского учёта и считает стоимость чистых активов (NAV) против учётных книг. Бухгалтерия инвестиционного фонда — теперь агент.

Закрывальщик месяца — закрывает месяц: чек-лист, проводки, отчётность. Раньше — целые команды в бэк-офисе. Теперь агент сам готовит отчёты по закрытию.

Аудитор отчётности — проверяет отчётность на ошибки, полноту, готовность к аудиту. Раньше — стажёр в аудиторской компании.

Проверщик клиентов — собирает досье на контрагента, проверяет документы, готовит материалы для комплаенс. Раньше — комплаенс-аналитик с таблицей и тонной документов.

Claude теперь работает в Excel, PowerPoint, Word и скоро Outlook с переносом контекста между приложениями. Это новая операционная среда для финансиста.

Если Вы аналитик или инвест.директор фонда, который предупрежден и вооружен новыми знаниями - для Вас это хорошая новость.

🔗 Источник: habr.com/ru/news/1032046/
Telegram
💬💬 Claude и GPT научились слушать буквально
💬💬 Claude и GPT научились слушать буквально. Старые промпты больше не работают

Anthropic и OpenAI почти одновременно выкатили свежие гайды по промптингу.

💬 Claude 4.7 стал буквальным. Делает ровно что написано и больше не достраивает за тебя. Раньше скажешь "поправь этот раздел" и Claude мог поправить и соседние, потому что догадался. Теперь нет. По бенчмаркам прирост приличный (SWE-Bench 87.6% против 80.8% у 4.6), но ощущение у пользователей одно: "стало хуже".
Глава Claude Code Борис Черни прямо написал —
понадобилось несколько дней чтобы научиться с ним работать.


Что делать: явно прописывай область действия. Не "поправь форматирование", а "поправь форматирование во всех разделах кроме первого". Догадываться модель больше не будет.

🤖 GPT-5.5 пошёл в обратную сторону — в автономию. Описываешь шаги детально — модель шумит и выдаёт механический ответ. OpenAI прямо пишет: опиши результат, критерии успеха и ограничения, но не описывай путь. Пусть модель сама выберет инструменты и последовательность.

Что делать: вместо процесса — описание результата. Не "сначала найди X, потом сравни с Y", а "цель такая, успех это когда выполнено A B C, ограничения такие". OpenAI ещё рекомендует мигрировать не правкой старых промптов, а с чистого листа, старая структура только мешает.

Парадокс в том, что обе модели стали буквальными, но в разном смысле. Claude — буквальный к словам ("сделай ровно это и ничего больше"). GPT — буквальный к цели ("дойди до результата как угодно, но дойди"). Расплывчатость ненавидят обе.

Практический вывод для тех кто строит продукты на этих API: две минуты на формулирование того, как выглядит "успех", окупаются больше чем час полировки промпта.

🔗 Гайд от Claude
🔗 Гайд от OpenAI

🤖 В эпоху AI
Telegram
Скрытые нерфы Claude и за что все самом деле платите $100 ✂️
Скрытые нерфы Claude и за что все самом деле платите $100 ✂️

Как я недавно и писал, эпоха дешевых ИИ-агентов закончилась. Но то, как именно компании пытаются свести юнит-экономику, заслуживает отдельного места в учебниках по наглости.

Прямо сейчас на Reddit полыхает бунт. Пользователи премиальных тарифов Claude (включая топовый Max 20x за ~$200/мес) обнаружили, что их лимиты тихонько порезали прямо посреди оплаченного месяца.

Если раньше 5-часового окна хватало на плотную сессию программирования через Claude Code, то теперь пара промптов на Opus 4.6-4.7 сжирает 100% лимита за 10 минут. Техподдержка ушла в глухую оборону, кормя людей шаблонными ответами про "динамическую сложность токенизации" и "размер контекста", отказываясь переводить тикеты на живых людей и игнорируя реальную проблему.

Очевидно, что Anthropic просто не вывозит стоимость инференса агентных воркфлоу. Но вместо честного повышения цен (или хотя бы прозрачной метрики потребления), они включили A/B тестирование "удушения" юзеров. Сегодня повезло тебе, завтра твоему соседу.

А теперь — следите за руками 🤡

На фоне этой острой нехватки GPU-мощностей для тех, кто платит живые деньги, в сеть утекли данные, что Anthropic готовится выкатить Orbit — проактивного фонового ассистента.

Эта штука должна сидеть в фоне, пылесосить ваш GitHub, мессенджеры, почту и пр., чтобы "генерировать персональные инсайты". Анонс, скорее всего, состоится уже сегодня на конференции Code with Claude в Сан-Франциско.

Прикол, да? У компании физически не хватает вычислительных мощностей, чтобы обработать прямой запрос от программиста, который пытается закрыть таску и платит за это конский ценник. Но при этом они пилят фичу, которая будет 24/7 сжигать токены в фоне, читая переписки, чтобы потом вас догонять какими-то непрошенными советами.

Вот в такое счастье мы попали:
1️⃣Прогреваем разработчиков дешевым безлимитом на старте.
2️⃣ Подсаживаем всех на иглу agentic workflows.
3️⃣Молча режем всем лимит, высвободив железо под жирные интерпрайз-фичи типа Orbit.

🐲 Даже китайцы туда же. Недавно узнал, что в GLM Coding Plan в часы пиковых нагрузок запросы идут с коэффициентом x2-x3. Узнать про это можно только в каком-то тултипе на сайте. Цены везде по факту выросли в десятки раз.

Теперь нужно еще учиться использовать LLM максимально экономно, чтобы получать от них какую-то пользу.
Telegram
Adobe for creativity в Claude — как подключить за 2 минуты и начать пользоваться
Adobe сделала коннектор, который встраивает 50+ инструментов из Photoshop, Lightroom, Illustrator, Premiere, Express, Firefly, InDesign и Stock прямо в Claude.
Открывать сами приложения не нужно. Вы пишете задачу обычными словами - Claude сам подбирает связку инструментов и собирает результат.

Шаг 1. Установка коннектора
1. Откройте claude.ai и войдите в аккаунт.
2. Перейдите по этой ссылке и подключите коннектор
Готово. Коннектор появится в списке доступных инструментов.

Шаг 2. Войти через Adobe ID или нет
Без входа вы получите гостевой режим - около 40 базовых инструментов. Этого хватит, чтобы попробовать формат.
Если работаете с этим регулярно - войдите через Adobe ID:
→ выше лимиты,
→ больше инструментов,
→ файлы и проекты сохраняются между сессиями.
Для разовых задач - гостя достаточно. Для рабочего процесса - лучше залогиниться.

Шаг 3. Первая задача
Никаких окон Photoshop или Premiere открывать не нужно. Логика простая:
загружаете файл в чат → описываете задачу словами → Claude подбирает инструменты сам.
Примеры рабочих промптов 👇
✅ «Возьми эти 4 фото с переговоров. Выровняй свет, размой фон, обрежь вертикально под Reels.»
✅ «Сделай этот горизонтальный ролик квадратным под пост в ленту.»
✅ «Убери фон у этого PNG и переведи в SVG.»
✅ «Подбери шаблон поста под анонс вебинара, замени заголовок и дату, поменяй фон на тёмно-синий.»
Принцип: описывайте задачу, а не инструменты. «Подготовь портреты для лендинга» работает сильнее, чем «открой Photoshop, примени Auto Tone, потом обрежь».

Что реально работает
→ Пакетная обработка фото: ретушь, экспозиция, цвет, фон, кадрирование.
→ Адаптация видео под форматы соцсетей.
→ Векторизация PNG и JPEG в SVG.
→ Удаление фона.
→ Готовые шаблоны Express для постов, обложек, карточек, визиток, постеров.
→ Генерация изображений через Firefly.
→ Слияние данных из CSV в шаблоны Illustrator — например, сертификаты или этикетки партией.

Где у инструмента границы
Это не замена дизайнеру и не «нажми кнопку — получи кампанию».
❌ Сложная композиционная работа и бренд-айдентика.
❌ Премиум-ретушь, точная цветокоррекция, сложная типографика.
❌ Полноценный монтаж со сложным нарративом.

Адекватная задача для коннектора — поточные операции, черновики и быстрые адаптации. Финальная огранка по-прежнему делается в самих приложениях Adobe.

Полезно? Подпишись и я буду публиковать еще больше подобных инструментов 🔥
Telegram
🏋️‍♂️ Claude Desktop теперь умеет крутить чужие модели


🏋️‍♂️ Claude Desktop теперь умеет крутить чужие модели

Ollama выкатили интеграцию: одна команда в терминале и привычный UI Claude Desktop переключается на модели из Ollama Cloud. Внутри начинает работать, например, Kimi K2.6, причём не только в чате, но и в Claude Code, и в Cowork внутри приложения.

Как включить:

1️⃣Берём API-ключ на ollama.com/settings/keys
2️⃣Прописываем в терминале: export OLLAMA_API_KEY=... (на Mac/Linux)
Если у тебя Windows. В доке Ollama команда дана только в маковском синтаксисе. На Windows ключ прописывается либо через PowerShell на текущую сессию ($env:OLLAMA_API_KEY="ключ"), либо разово в системные переменные среды через sysdm.cpl — тогда не придётся прописывать каждый раз.
3️⃣Прописываем в терминале: ollama launch claude-desktop
4️⃣Откатиться обратно на обычный Claude: ollama launch claude-desktop --restore

Что даёт на практике:

⏺Возможность гонять модели достапные в Ollama, оставаясь в привычной среде Claude, с сохранением истории чатов.
⏺Субагенты наследуют выбранную модель

Чего пока нет:

➖Веб-поиск не работает
➖Extensions не поддерживаются

Claude Desktop перестаёт быть жёстко завязанным на инфраструктуре Anthropic и это отличная новость с учётом блокировок.

Полезная штука для тех, кого забанили или кто упёрся в лимиты Claude и хочет потестить другие модели.

🤖 В эпоху AI
Telegram
Собрал 4 ментальные модели, с которыми Claude становится стратегом, а не ассистентом:
Собрал 4 ментальные модели, с которыми Claude становится стратегом, а не ассистентом:
Pre-mortem Гэри Кляйн, используют в Amazon
Inversion Чарли Мангер, партнёр Баффета
Red Team военная разведка
10-10-10 Сьюзи Уэлч, Harvard Business Review

Полные промпты, инструкции, что делать если Claude отвечает поверхностно всё по ссылке ниже.

вот тут)
Telegram
Lovable теперь в кармане
Шведский Lovable выкатил мобильное приложение — на iOS и Android. Идею для веб-приложения можно надиктовать голосом или вбить текстом прямо с телефона, агент сам всё соберёт в фоне и пришлёт пуш когда готово.

Важный нюанс: Lovable делает только веб-приложения и сайты, не нативные мобильные. Это требование App Store — Apple уже прижал Replit и Vibecode за то что они исполняли сгенерированный код внутри приложения. Lovable показывает превью через браузер и в правила укладывается.

Чем Lovable и подобные сервисы отличаются от Claude Code?


🔵Lovable — визуальный no-code инструмент. Чат + превью прямо в браузере или на телефоне. Делает веб-приложения и лендинги. Идеально для тех кто не хочет разбираться в деталях айти продуктов и строить что-то большое.

🟠Claude Code (codex, cursor, opencode) — имеет доступ к терминалу. Работает с любым кодом, любым стеком, любым проектом локально. Сложнее, но мощнее на порядок: бэкенд, интеграции, сложные продукты, существующий код. А ещё кастомные скиллы, агенты, MCP и т.д.

Проще говоря, Lovable это "хочу проверить идею за вечер, не вникая". Claude Code это "хочу строить продукт долго и серьёзно".

В этом посте, разобрал несколько похожих сервисов и сделал выводы какой из-них лучше. Спойлер: это не Lovable.

🔗 Скачать Lovable

🤖 В эпоху AI