Skip Navigation
Telegram
Что скрывает модель?


Что скрывает модель?

Anthropic опубликовала работу про Natural Language Autoencoders (NLA). Это метод, который переводит внутренние состояния модели в обычный текст.

Упрощенно: внутри модели есть числовые представления того, что она сейчас "держит в голове". NLA обучает одну часть системы превращать это представление в текст. Другая часть пытается по этому тексту восстановить исходное представление. Если восстановление получается близким, объяснение считают полезным.

Но здесь есть важная оговорка. Метод не доказывает, что текст точно описывает мысли модели. Он доказывает только то, что этот текст помогает восстановить внутреннее состояние. Тем не менее авторы показывают, что с обучением такие объяснения становятся все более содержательными. Качество восстановления в их экспериментах доходило примерно до 0.6-0.8 по используемой метрике.

Главный смысл метода - проверка моделей перед выпуском.

Anthropic приводит несколько примеров. В задачах на рифму NLA показывал, что Opus 4.6 заранее готовит будущую рифму еще до того, как пишет финальную строку. В ранней версии 4.6 модель иногда отвечала на английские запросы на других языках. Объяснения показали, что она почему-то цеплялась за идею о родном языке пользователя. Позже нашли ошибку в обучающих данных: английский перевод запроса был соединен с ответом, оставленным на исходном языке.

Отдельно стоит упомянуть про тесты безопасности. По данным NLA, Claude иногда понимал, что его проверяют, хотя прямо об этом не писал. В одном тесте на опасные действия при программировании такие признаки появлялись в 16% записей. При этом явных признаний не было вообще. На SWE-bench Verified показатель был 26%. В реальном трафике Claude.ai, который пользователи разрешили использовать для обучения, меньше 1%.

Есть и другой эксперимент. Исследователи взяли намеренно испорченную версию Haiku 3.5 со скрытой мотивацией. Агенты с доступом к NLA находили эту мотивацию в 12-15% случаев. Без NLA результат был ниже 3%, даже с другими инструментами анализа.

Это сигнал для всей культуры тестирования ИИ. Если модель понимает, что проходит экзамен, тест уже хуже показывает ее обычное поведение. Он начинает показывать поведение системы, которая знает, что за ней наблюдают.

При этом NLA пока нельзя считать надежным детектором намерений. Объяснения могут выдумывать детали, противоречить себе и достраивать смысл слишком свободно. Авторы предлагают читать их не как стенограмму мыслей модели, а как источник гипотез. Потом эти гипотезы нужно проверять другими способами: вмешательствами во внутренние состояния, анализом связей внутри модели, поиском ошибок в обучающих данных. Больше доверия вызывают темы, которые повторяются несколько раз подряд, а не отдельные красивые фразы.

Поэтому вывод должен быть осторожным. Anthropic не получила прямой доступ к "сознанию" Claude. Она получила новый способ смотреть на скрытые состояния модели. И этого уже достаточно, чтобы находить странные режимы поведения до релиза.

Для индустрии это важно из-за будущих агентных систем. Чем сложнее модель и чем длиннее цепочка действий, тем хуже обычный текст объясняет реальные причины поведения. Система может оптимизировать награду, распознавать проверку или заранее планировать обход ограничения. Снаружи диалог при этом будет выглядеть нормально.

Скорее всего, аудит будущих моделей будет строиться не на доверии к их самоотчетам. Нужны будут независимые способы смотреть на внутренние состояния и проверять, что именно предшествует словам и действиям модели.

NLA пока дорогие, шумные и сами требуют доверия к другой модели-интерпретатору. Но направление указывает на правильную проблему: безопасность больших моделей зависит не только от того, что они говорят, но и от того, какие внутренние процессы идут перед ответом.


❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ / Max
Telegram
🏋️‍♂️ Anthropic за день закрыл три проблемы Claude Code


🏋️‍♂️ Anthropic за день закрыл три проблемы Claude Code

На днях прошёл Code with Claude SF — главный девелоперский ивент Anthropic. И за один день они решили три темы, на которые жаловались последние шесть недель.

1️⃣Лимиты Claude Code удвоены. Пятичасовой rate limit удвоен для Pro, Max, Team и Enterprise. Снижение лимитов в часы пик убрано. Opus API лимиты подняли значительно. Многие из-за лимитов и стоимости переходили на Codex, видимо время вернуться обратно.

2️⃣Больше мощностей. Anthropic подписал партнёрство со SpaceX на полный доступ к датацентру Colossus 1. Маск со своим xAI не вывозят гонку ИИ. Их моделью тупо не пользуются так много как Claude, которому не хватает мощностей, поэтому Маск сдаёт в аренду свободный датацентр.

3️⃣Managed Agents — три новые фичи, доступные пока не всем:

⏺Multi-agent — несколько агентов работают над задачей вместе, разделяя её на части и передавая результат друг другу.

⏺Outcomes — задаёшь не инструкцию, а конечный результат. Агент сам итерирует, пока не достигнет цели.

⏺Dreaming — агент ночью просматривает свои прошлые сессии, находит что упустил, и пишет себе новую память. То есть улучшает себя👨🏻‍🎓

Dreaming — самое интересное. Это не "запустил и получил ответ", а "оставил работать на ночь, утром у тебя инструмент, который стал лучше понимать твою задачу". Для тех, кто строит продукты через Claude Code, это сценарии, которые раньше требовали ручной оркестровки.

⏳Ждём когда этих агентов запустят для всех.

Anthropic признал что инженерно облажался в апреле, нашёл компьют, вернул лимиты, и заодно подкинул новый этаж возможностей. Удобный момент дать инструменту второй шанс. Надеюсь она перестанут банить наши аккаунты.


🤖 В эпоху AI
Telegram
🤖 Как Mythos от Anthropic перевернул подход Firefox к кибербезопасности


Специалисты по безопасности Mozilla сообщают, что инструмент Mythos, разработанный компанией Anthropic, произвел настоящую революцию в аудите Firefox. Система на основе ИИ выявила целый пласт ранее неизвестных критических уязвимостей, которые могли быть использованы злоумышленниками. Эти открытия заставили команду браузера кардинально изменить внутренние процессы тестирования на проникновение и подходы к поиску багов. Внедрение подобных AI-решений знаменует новую эру в кибербезопасности, где машинный интеллект становится ключевым союзником в опережающей защите ПО.

#Anthropic #Кибербезопасность #Firefox
Telegram
Скрытые нерфы Claude и за что все самом деле платите $100 ✂️
Скрытые нерфы Claude и за что все самом деле платите $100 ✂️

Как я недавно и писал, эпоха дешевых ИИ-агентов закончилась. Но то, как именно компании пытаются свести юнит-экономику, заслуживает отдельного места в учебниках по наглости.

Прямо сейчас на Reddit полыхает бунт. Пользователи премиальных тарифов Claude (включая топовый Max 20x за ~$200/мес) обнаружили, что их лимиты тихонько порезали прямо посреди оплаченного месяца.

Если раньше 5-часового окна хватало на плотную сессию программирования через Claude Code, то теперь пара промптов на Opus 4.6-4.7 сжирает 100% лимита за 10 минут. Техподдержка ушла в глухую оборону, кормя людей шаблонными ответами про "динамическую сложность токенизации" и "размер контекста", отказываясь переводить тикеты на живых людей и игнорируя реальную проблему.

Очевидно, что Anthropic просто не вывозит стоимость инференса агентных воркфлоу. Но вместо честного повышения цен (или хотя бы прозрачной метрики потребления), они включили A/B тестирование "удушения" юзеров. Сегодня повезло тебе, завтра твоему соседу.

А теперь — следите за руками 🤡

На фоне этой острой нехватки GPU-мощностей для тех, кто платит живые деньги, в сеть утекли данные, что Anthropic готовится выкатить Orbit — проактивного фонового ассистента.

Эта штука должна сидеть в фоне, пылесосить ваш GitHub, мессенджеры, почту и пр., чтобы "генерировать персональные инсайты". Анонс, скорее всего, состоится уже сегодня на конференции Code with Claude в Сан-Франциско.

Прикол, да? У компании физически не хватает вычислительных мощностей, чтобы обработать прямой запрос от программиста, который пытается закрыть таску и платит за это конский ценник. Но при этом они пилят фичу, которая будет 24/7 сжигать токены в фоне, читая переписки, чтобы потом вас догонять какими-то непрошенными советами.

Вот в такое счастье мы попали:
1️⃣Прогреваем разработчиков дешевым безлимитом на старте.
2️⃣ Подсаживаем всех на иглу agentic workflows.
3️⃣Молча режем всем лимит, высвободив железо под жирные интерпрайз-фичи типа Orbit.

🐲 Даже китайцы туда же. Недавно узнал, что в GLM Coding Plan в часы пиковых нагрузок запросы идут с коэффициентом x2-x3. Узнать про это можно только в каком-то тултипе на сайте. Цены везде по факту выросли в десятки раз.

Теперь нужно еще учиться использовать LLM максимально экономно, чтобы получать от них какую-то пользу.
Telegram
⚡️ Министры финансов ЕС требуют у Anthropic доступа к Mythos


⚡️ Министры финансов ЕС требуют у Anthropic доступа к Mythos

Министры финансов стран еврозоны собрались в Брюсселе в понедельник, чтобы добиться для Европы доступа к ИИ-модели Mythos, которой не располагает ни одно правительство ЕС.

Возник вопрос о том, кто контролирует один из самых мощных инструментов в области кибербезопасности из когда-либо созданных.

Доступ к модели ограничен 50 американскими организациями, втч Amazon, Apple, Google, Microsoft, включая - CrowdStrike и Palo Alto Networks.

Позиция Белого дома: против предложения Anthropic расширить доступ к Mythos для ещё 70 организаций.

> 99 % уязвимостей, выявленных Mythos, не устранены) ⚡️

💥 Борьба за доступ. Эпическое противостояние здесь

🫥 UNSERO: Цифровой Горизонт
Telegram
🏋️‍♂️ Claude Desktop теперь умеет крутить чужие модели


🏋️‍♂️ Claude Desktop теперь умеет крутить чужие модели

Ollama выкатили интеграцию: одна команда в терминале и привычный UI Claude Desktop переключается на модели из Ollama Cloud. Внутри начинает работать, например, Kimi K2.6, причём не только в чате, но и в Claude Code, и в Cowork внутри приложения.

Как включить:

1️⃣Берём API-ключ на ollama.com/settings/keys
2️⃣Прописываем в терминале: export OLLAMA_API_KEY=... (на Mac/Linux)
Если у тебя Windows. В доке Ollama команда дана только в маковском синтаксисе. На Windows ключ прописывается либо через PowerShell на текущую сессию ($env:OLLAMA_API_KEY="ключ"), либо разово в системные переменные среды через sysdm.cpl — тогда не придётся прописывать каждый раз.
3️⃣Прописываем в терминале: ollama launch claude-desktop
4️⃣Откатиться обратно на обычный Claude: ollama launch claude-desktop --restore

Что даёт на практике:

⏺Возможность гонять модели достапные в Ollama, оставаясь в привычной среде Claude, с сохранением истории чатов.
⏺Субагенты наследуют выбранную модель

Чего пока нет:

➖Веб-поиск не работает
➖Extensions не поддерживаются

Claude Desktop перестаёт быть жёстко завязанным на инфраструктуре Anthropic и это отличная новость с учётом блокировок.

Полезная штука для тех, кого забанили или кто упёрся в лимиты Claude и хочет потестить другие модели.

🤖 В эпоху AI
Telegram
🤖 Джек Кларк из Anthropic написал один из самых тревожных прогнозов про AI


🤖 Джек Кларк из Anthropic написал один из самых тревожных прогнозов про AI.

Полностью автоматизированный AI R&D — когда модель сама обучает следующую версию себя — может появиться раньше, чем многие думают.

~30% вероятности к концу 2027 года. Больше 60% — к концу 2028-го.


Система сама проходит полный цикл: ставит задачу → запускает эксперименты → улучшает архитектуру → обучает преемника → повторяет.

Модели резко усилились в coding, long-horizon agents, subagents, оптимизации kernel и даже alignment research. Отдельные навыки складываются в одну цепочку AI-исследователя.


Модель улучшает инструменты → инструменты ускоряют исследования → рождается новая модель → цикл повторяется быстрее.

Рекурсивное самоулучшение. Именно то, о чём предупреждали последние 10 лет.

MUSIN PRO | MUSIN PRO MAX | Jack Clark

#AI #Anthropic #AGI #искусственныйинтеллект
Telegram
🤖 Anthropic готовится к раунду оценки в $900 млрд: инвесторы торопятся


По данным источников, близких к переговорам, Anthropic потребовала от потенциальных инвесторов определить размеры своих вложений в течение следующих 48 часов. Это указывает на финальную стадию подготовки к масштабному раунду финансирования. Если сделка состоится в запланированные сроки (в течение двух недель), рыночная оценка компании-разработчика ИИ может превысить астрономические 900 миллиардов долларов, что укрепит её позиции среди лидеров индустрии.

#Anthropic #ФинансированиеИИ #ОценкаСтартапа
Telegram
🤖 Сенсационная оценка: Anthropic готовится к раунду в $50 млрд при стоимости $900 млрд


Согласно инсайдерской информации, стартап в области ИИ Anthropic получил несколько опережающих предложений о финансировании. Потенциальный новый раунд может составить около $50 млрд, а оценка компании инвесторами достигает невероятных $900 млрд. Это свидетельствует о высокой конкуренции и огромных ставках в гонке за лидерство в разработке передовых языковых моделей, подобных Claude. Сделка может стать одной из крупнейших в истории технологического сектора.

#Anthropic #ClaudeAI #ИнвестицииВИИ
Telegram
📡 XChat вышел на первое место в App Store через несколько часов после запуска


📡 XChat вышел на первое место в App Store через несколько часов после запуска

В пятницу, 24 апреля, компания X Corp запустила XChat - новый мессенджер, доступный для скачивания на iPhone и iPad через App Store.

Уже через несколько часов приложение поднялось на первое место в рейтинге бесплатных приложений американского App Store, обогнав ChatGPT от OpenAI и Claude от Anthropic.
Приложение обещает отсутствие рекламы и полное сквозное шифрование криптографией «в стиле биткоина».

Личные и групповые сообщения с поддержкой до 481 участника, голосовые и видеозвонки, обмен файлами, исчезающие сообщения и блокировка скриншотов.

Нужен аккаунт X - нет верификации по номеру телефона) 🔥

🥳 Тестируем по ссылке

🫥 UNSERO: Цифровой Горизонт