Сингулярность на горизонте: код, который пишет код, который обучает код 🔮

Сингулярность на горизонте: код, который пишет код, который обучает код 🔮

Джек Кларк (сооснователь Anthropic) выкатил эссе-анализ текущего состояния AI-индустрии.

Его главный тезис: с вероятностью >60% до конца 2028 года мы увидим полностью автоматизированный R&D цикл. То есть топовая модель сможет автономно обучить свою следующую, более умную версию без участия мясных мешков.

Звучит как завязка дешевого сай-фая, но Кларк объясняет все метриками. Если посмотреть на агрегированные данные бенчмарков, становится немного не по себе от того, как быстро схлопывается горизонт человеческой компетентности.

1️⃣ Насыщение инженерных бенчмарков
SWE-Bench (решение реальных issue с GitHub). В конце 2023 года топовым результатом были жалкие 2% у Claude 2. Сейчас Claude Mythos Preview выбивает 93.9%. По факту, бенчмарк пройден.
Таймфрейм автономности (METR) вырос с 4 минут у GPT-4 в 2023 году до 12 часов непрерывной работы у Opus 4.6 сегодня. Это полноценный рабочий день мидла, который не ходит курить. К концу 2026 года ожидается скачок до 100 часов. Этого достаточно, чтобы нейронка не просто фиксила баг, а переписывала архитектуру сервиса, пока вы заняты чем-то другим.

2️⃣ Автоматизация рутины дата-саентистов
Бенчмарк MLE-Bench (Kaggle-соревнования оффлайн). Лучшая система на базе Gemini3 выбивает 64.4%.
CORE-Bench (репродукция научных ML-статей по репозиторию). Модель сама ставит зависимости, собирает окружение, гоняет код и проверяет результаты. Оценка — 95.5%.

3️⃣ Самое важное: ИИ лезет в хардкорную оптимизацию
Нейронки научились писать и оптимизировать GPU-ядра (Triton/CUDA). Anthropic замеряет, как модели оптимизируют код для тренировки LLM на CPU. За год ускорение выросло с 2.9x (Opus 4) до 52x (Claude Mythos Preview). Человеку на такой результат нужно убить полный рабочий день.
Появился PostTrainBench — где большие модели файн-тюнят маленькие опенсорсные веса. Сейчас ИИ-агенты уже выдают ~50% от перфоманса крутых ML-инженеров из топовых лаб.

Да, моделям пока не хватает "креативности" для создания новых парадигм (типа трансформеров), но им это и не нужно. Экстенсивного масштабирования через автономные команды AI-агентов хватит за глаза.

Все вполне может прийти к тому, что крупные компании будут "крупными" по капиталу (нужно много GPU), но очень маленькими по людям. Зачем держать штат из 50 инженеров, если один архитектор может управлять роем из 500 синтетических агентов, которые не выгорают и пишут код со скоростью света? Ну это если все пойдет по идеальному сценарию и не будет черных лебедей.

Верим?

Комментарии