Что скрывает модель?
Anthropic опубликовала работу про Natural Language Autoencoders (NLA). Это метод, который переводит внутренние состояния модели в обычный текст.
Упрощенно: внутри модели есть числовые представления того, что она сейчас "держит в голове". NLA обучает одну часть системы превращать это представление в текст. Другая часть пытается по этому тексту восстановить исходное представление. Если восстановление получается близким, объяснение считают полезным.
Но здесь есть важная оговорка. Метод не доказывает, что текст точно описывает мысли модели. Он доказывает только то, что этот текст помогает восстановить внутреннее состояние. Тем не менее авторы показывают, что с обучением такие объяснения становятся все более содержательными. Качество восстановления в их экспериментах доходило примерно до 0.6-0.8 по используемой метрике.
Главный смысл метода - проверка моделей перед выпуском.
Anthropic приводит несколько примеров. В задачах на рифму NLA показывал, что Opus 4.6 заранее готовит будущую рифму еще до того, как пишет финальную строку. В ранней версии 4.6 модель иногда отвечала на английские запросы на других языках. Объяснения показали, что она почему-то цеплялась за идею о родном языке пользователя. Позже нашли ошибку в обучающих данных: английский перевод запроса был соединен с ответом, оставленным на исходном языке.
Отдельно стоит упомянуть про тесты безопасности. По данным NLA, Claude иногда понимал, что его проверяют, хотя прямо об этом не писал. В одном тесте на опасные действия при программировании такие признаки появлялись в 16% записей. При этом явных признаний не было вообще. На SWE-bench Verified показатель был 26%. В реальном трафике Claude.ai, который пользователи разрешили использовать для обучения, меньше 1%.
Есть и другой эксперимент. Исследователи взяли намеренно испорченную версию Haiku 3.5 со скрытой мотивацией. Агенты с доступом к NLA находили эту мотивацию в 12-15% случаев. Без NLA результат был ниже 3%, даже с другими инструментами анализа.
Это сигнал для всей культуры тестирования ИИ. Если модель понимает, что проходит экзамен, тест уже хуже показывает ее обычное поведение. Он начинает показывать поведение системы, которая знает, что за ней наблюдают.
При этом NLA пока нельзя считать надежным детектором намерений. Объяснения могут выдумывать детали, противоречить себе и достраивать смысл слишком свободно. Авторы предлагают читать их не как стенограмму мыслей модели, а как источник гипотез. Потом эти гипотезы нужно проверять другими способами: вмешательствами во внутренние состояния, анализом связей внутри модели, поиском ошибок в обучающих данных. Больше доверия вызывают темы, которые повторяются несколько раз подряд, а не отдельные красивые фразы.
Поэтому вывод должен быть осторожным. Anthropic не получила прямой доступ к "сознанию" Claude. Она получила новый способ смотреть на скрытые состояния модели. И этого уже достаточно, чтобы находить странные режимы поведения до релиза.
Для индустрии это важно из-за будущих агентных систем. Чем сложнее модель и чем длиннее цепочка действий, тем хуже обычный текст объясняет реальные причины поведения. Система может оптимизировать награду, распознавать проверку или заранее планировать обход ограничения. Снаружи диалог при этом будет выглядеть нормально.
Скорее всего, аудит будущих моделей будет строиться не на доверии к их самоотчетам. Нужны будут независимые способы смотреть на внутренние состояния и проверять, что именно предшествует словам и действиям модели.
NLA пока дорогие, шумные и сами требуют доверия к другой модели-интерпретатору. Но направление указывает на правильную проблему: безопасность больших моделей зависит не только от того, что они говорят, но и от того, какие внутренние процессы идут перед ответом.
❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ / Max




