Skip Navigation
Oleg Bulygin

Oleg Bulygin

@obulygin91
126 постов 1 коммун
Сообщества
79 символов: архаизм или инженерный дзен?



79 символов: архаизм или инженерный дзен?

Каждый, кто хоть раз видел, как линтер (или коллега с синдромом вахтёра) подсвечивает красным 80-й символ, задавался вопросом: мы до сих пор живём в 1970-х?

Спойлер: отчасти да.

👻 Призраки прошлого
Перфокарты IBM на 80 колонок — это "легаси" в самом чистом виде. Мы давно не пробиваем дырки в картоне, но наши инструменты до сих пор живут в рамках этих ограничений. Это тот случай, когда форма определила содержание на десятилетия вперёд.

🛠 Почему это всё ещё актуально:

1. Side-by-side diffs. Когда вы открываете два файла в IDE рядом (или в GitHub/GitLab), узкие строки позволяют видеть код без постоянного скролла влево-вправо. Если у вас "портянка" на 200 символов, то уже неудобно.
2. Когнитивная нагрузка. Узкие блоки кода читаются быстрее. Глаз меньше скачет по строке. Внимательный разраб заметит баг быстрее, если код не "размазан" по ширине вашего 32-дюймового монитора.

В реальности всё прагматичнее:
🔵Если вы используете Black (а вы должны его использовать), он по умолчанию ставит 88. Это золотая середина между "классикой" и реальностью современных мониторов.
🔵Если вы работаете в команде, где в конфигах flake8 прописано 120 символов — окей, ставьте 120. Главное — чтобы это было единообразно.

В общем, не фанатейте от 79 символов ради самих 79 символов. Но и не пишите колбасы на полтора экрана. Хороший код должен быть читаемым, а не длинным.

#так_сложилось

Telegram
Реальность наносит ответный удар: почему хваленый ИИ набирает 0% в новом бенчмарке 🔨


Реальность наносит ответный удар: почему хваленый ИИ набирает 0% в новом бенчмарке 🔨

Вот только что я эссе Джека Кларка о скорой сингулярности и порванном в клочья SWE-Bench, где фигурировали красивые цифры: топовые ИИ выбивают 93.9% на SWE-Bench, почти автономно закрывая реальные issue с GitHub. Казалось бы, пора удалять IDE и идти учиться на баристу.

Но вот ребята из Стэнфорда и Гарварда выкатили новый бенчмарк — ProgramBench. И он публично унизил все существующие frontier-модели.

Спойлер: результат GPT-5.4, Claude Opus 4.7 и Gemini 3.1 Pro — ровно 0%.

В чем суть?
Агенту дают скомпилированный бинарник (от условного jq до монстров вроде FFmpeg или SQLite) и документацию.
Задача — с нуля написать кодовую базу, которая на 100% воспроизведет поведение оригинала.

Отдельный кек в том, как авторам пришлось огораживать песочницу. Изначально, когда доступ в сеть был открыт, нейронки вместо "написания кода" просто парсили --help, находили нужный репозиторий на GitHub и делали git clone. Когда сеть отрезали, агенты пытались качать исходники через пакетные менеджеры или тупо писали bash-обёртки вокруг исходного бинарника.

Чтобы закрыть эту клоунаду, контейнеры полностью изолировали, а бинарникам выставили права 111 (только исполнение). Никакого чтения. Чистый black-box реверс-инжиниринг: кормишь инпуты, смотришь аутпуты, пишешь реализацию на любом Тьюринг-полном языке.

И тут выяснилась потрясающая вещь. Одно дело — скормить нейронке готовый репозиторий с выстроенной архитектурой, где ей нужно лишь написать патч из 50 строк. И совершенно другое — заставить её спроектировать систему.

Как только ИИ лишается "костылей" в виде готовых абстракций, придуманных мясными инженерами, он сыпется. Выясняется, что модели не умеют в системный дизайн, декомпозицию и построение интерфейсов. Они физически не могут удержать в "голове" архитектуру с нуля, если им не дать жесткие рамки. И это при том, что модели сжигали до $5000 за один прогон, не упираясь в лимиты контекста.

Короче, мясные мешки еще повоюют. 💪
Telegram
Сингулярность на горизонте: код, который пишет код, который обучает код 🔮
Сингулярность на горизонте: код, который пишет код, который обучает код 🔮

Джек Кларк (сооснователь Anthropic) выкатил эссе-анализ текущего состояния AI-индустрии.

Его главный тезис: с вероятностью >60% до конца 2028 года мы увидим полностью автоматизированный R&D цикл. То есть топовая модель сможет автономно обучить свою следующую, более умную версию без участия мясных мешков.

Звучит как завязка дешевого сай-фая, но Кларк объясняет все метриками. Если посмотреть на агрегированные данные бенчмарков, становится немного не по себе от того, как быстро схлопывается горизонт человеческой компетентности.

1️⃣ Насыщение инженерных бенчмарков
SWE-Bench (решение реальных issue с GitHub). В конце 2023 года топовым результатом были жалкие 2% у Claude 2. Сейчас Claude Mythos Preview выбивает 93.9%. По факту, бенчмарк пройден.
Таймфрейм автономности (METR) вырос с 4 минут у GPT-4 в 2023 году до 12 часов непрерывной работы у Opus 4.6 сегодня. Это полноценный рабочий день мидла, который не ходит курить. К концу 2026 года ожидается скачок до 100 часов. Этого достаточно, чтобы нейронка не просто фиксила баг, а переписывала архитектуру сервиса, пока вы заняты чем-то другим.

2️⃣ Автоматизация рутины дата-саентистов
Бенчмарк MLE-Bench (Kaggle-соревнования оффлайн). Лучшая система на базе Gemini3 выбивает 64.4%.
CORE-Bench (репродукция научных ML-статей по репозиторию). Модель сама ставит зависимости, собирает окружение, гоняет код и проверяет результаты. Оценка — 95.5%.

3️⃣ Самое важное: ИИ лезет в хардкорную оптимизацию
Нейронки научились писать и оптимизировать GPU-ядра (Triton/CUDA). Anthropic замеряет, как модели оптимизируют код для тренировки LLM на CPU. За год ускорение выросло с 2.9x (Opus 4) до 52x (Claude Mythos Preview). Человеку на такой результат нужно убить полный рабочий день.
Появился PostTrainBench — где большие модели файн-тюнят маленькие опенсорсные веса. Сейчас ИИ-агенты уже выдают ~50% от перфоманса крутых ML-инженеров из топовых лаб.

Да, моделям пока не хватает "креативности" для создания новых парадигм (типа трансформеров), но им это и не нужно. Экстенсивного масштабирования через автономные команды AI-агентов хватит за глаза.

Все вполне может прийти к тому, что крупные компании будут "крупными" по капиталу (нужно много GPU), но очень маленькими по людям. Зачем держать штат из 50 инженеров, если один архитектор может управлять роем из 500 синтетических агентов, которые не выгорают и пишут код со скоростью света? Ну это если все пойдет по идеальному сценарию и не будет черных лебедей.

Верим?
Telegram
Расцвет эпохи стартапов из одного человека?
🤔

В продолжение недавнего поста про то, как Oracle заставили инженеров обучить ИИ, а потом выкинули 30 000 человек на мороз ради экономии на бонусах — если вы думали, что это разовая акция корпоративной жадности, то добро пожаловать в структурную перестройку рынка.

Брайан Армстронг (CEO Coinbase) опубликовал письмо, в котором буднично сообщил об увольнении 14% штата. Они не просто режут косты. Они перестраивают компанию под AI-native формат. Главные тейка из его письма:

1️⃣ Смерть "чистых менеджеров". Ноль «чистых» менеджеров. Теперь каждый лид в Coinbase обязан быть индивидуальным контрибьютором. Если ты последние три года только и делал, что организовывал дейлики, двигал тикеты и спрашивал «как дела» на 1-to-1 — твоя должность упразднена. Менеджер теперь — играющий тренер по локоть в коде.
Уровней иерархии оставили максимум 5 от CEO до дна. Слои замедляют работу и создают «налог на координацию».
2️⃣ One-person team. Компания переходит на микро-команды и "команды из одного человека" (инженер + ИИ-агенты, заменяющие дизайн и продакт-менеджмент).

И это не локальная шиза Армстронга. Это тенденция. «Ведомости» опубликовали отличный срез рынка. В феврале Apple купила стартап invrs.io, который состоял ровно из одного сотрудника. Корпорации теперь покупают не команды, а экспертизу одного человека, помноженную на ИИ.

В YCombinator 25% стартапов текущего набора на 95% состоят из сгенерированного кода. Соло-основатели выходят в плюс за полгода. "Работающий продукт" больше не стоит ничего — его можно собрать за выходные стоимостью в пару чашек кофе. На этом фоне совокупная оценка платформ для этого действа (Cursor, Lovable, Replit) только за прошлый год улетела за $36 млрд.

Бизнес прочухал, что ему больше не нужны огромные галеры разработчиков и армия скрам-мастеров, чтобы эти галеры как-то плыли в одну сторону. Им нужен один человек с продуктовым мышлением, который с помощью ИИ-инструментов закроет задачи целого подразделения образца пятилетней давности.

То есть программисты уже почти не нужны? 😲
А вот хрен там плавал.

В этой же статье есть прекрасная цифра от Veracode: ИИ создает в 9 раз больше уязвимостей, чем живой разработчик. Слитые ключи, дырявая аутентификация, детские ошибки в архитектуре. ИИ не понимает контекста безопасности, он просто радостно выполняет команду.

Получается такая картина: бизнес режет косты, выкидывает менеджеров-паразитов и мидлов-кодеров. Одиночки клепают MVP из говна и палок на космических скоростях. А расхлебывать это всё будут оставшиеся хардкорные инженеры.

Ну хоть дебильных созвонов и согласований будет меньше, уже хорошо. 🤷‍♂️
Telegram
Скрытые нерфы Claude и за что все самом деле платите $100 ✂️
Скрытые нерфы Claude и за что все самом деле платите $100 ✂️

Как я недавно и писал, эпоха дешевых ИИ-агентов закончилась. Но то, как именно компании пытаются свести юнит-экономику, заслуживает отдельного места в учебниках по наглости.

Прямо сейчас на Reddit полыхает бунт. Пользователи премиальных тарифов Claude (включая топовый Max 20x за ~$200/мес) обнаружили, что их лимиты тихонько порезали прямо посреди оплаченного месяца.

Если раньше 5-часового окна хватало на плотную сессию программирования через Claude Code, то теперь пара промптов на Opus 4.6-4.7 сжирает 100% лимита за 10 минут. Техподдержка ушла в глухую оборону, кормя людей шаблонными ответами про "динамическую сложность токенизации" и "размер контекста", отказываясь переводить тикеты на живых людей и игнорируя реальную проблему.

Очевидно, что Anthropic просто не вывозит стоимость инференса агентных воркфлоу. Но вместо честного повышения цен (или хотя бы прозрачной метрики потребления), они включили A/B тестирование "удушения" юзеров. Сегодня повезло тебе, завтра твоему соседу.

А теперь — следите за руками 🤡

На фоне этой острой нехватки GPU-мощностей для тех, кто платит живые деньги, в сеть утекли данные, что Anthropic готовится выкатить Orbit — проактивного фонового ассистента.

Эта штука должна сидеть в фоне, пылесосить ваш GitHub, мессенджеры, почту и пр., чтобы "генерировать персональные инсайты". Анонс, скорее всего, состоится уже сегодня на конференции Code with Claude в Сан-Франциско.

Прикол, да? У компании физически не хватает вычислительных мощностей, чтобы обработать прямой запрос от программиста, который пытается закрыть таску и платит за это конский ценник. Но при этом они пилят фичу, которая будет 24/7 сжигать токены в фоне, читая переписки, чтобы потом вас догонять какими-то непрошенными советами.

Вот в такое счастье мы попали:
1️⃣Прогреваем разработчиков дешевым безлимитом на старте.
2️⃣ Подсаживаем всех на иглу agentic workflows.
3️⃣Молча режем всем лимит, высвободив железо под жирные интерпрайз-фичи типа Orbit.

🐲 Даже китайцы туда же. Недавно узнал, что в GLM Coding Plan в часы пиковых нагрузок запросы идут с коэффициентом x2-x3. Узнать про это можно только в каком-то тултипе на сайте. Цены везде по факту выросли в десятки раз.

Теперь нужно еще учиться использовать LLM максимально экономно, чтобы получать от них какую-то пользу.
Telegram
Эффект "свой-чужой" в IT-найме: почему писать резюме руками статистически невыгодно 🤖
Эффект "свой-чужой" в IT-найме: почему писать резюме руками статистически невыгодно 🤖

Свежее исследование математически доказало системный баг в современных пайплайнах найма.

На рынке сложилась ситуация, когда кандидаты генерируют резюме нейросетками, а компании используют те же LLM для первичного скрининга. Исследователи измерили, что происходит, когда эти два процесса сталкиваются.

Они взяли 2245 реальных человеческих резюме, сгенерировали на их основе копии через разные LLM (хард-скиллы и опыт оставались 1:1, менялись только формулировки и подача) и скормили их LLM-оценщикам.

И вот что вышло:

1️⃣ Self-preference bias (Предпочтение себя). Модели обладают встроенным механизмом самораспознавания и систематически выбирают текст, написанный ими же. Уровень предвзятости против текстов, написанных живым человеком, составляет от 67% до 82% для GPT-4o, DeepSeek-V3 и LLaMA-3.3-70B.

2️⃣ Конверсия в шорт-лист. Кандидат, чье резюме отполировано той же LLM, которую использует компания для скрининга, имеет на 23–60% больше шансов получить приглашение на интервью. При абсолютно идентичном бэкграунде.

3️⃣ Слепота к качеству. В слепых тестах живые разметчики часто признавали оригинальные человеческие резюме более понятными и логичными. Но LLM-скринеры всё равно выбирали сгенерированные версии, просто потому что узнавали собственные лингвистические паттерны.

Отдельная статистика есть по битвам между самими моделями, если кандидат и компания используют разные инструменты:
▫️ DeepSeek-V3 обладает самым высоким уровнем "нарциссизма": он выбирает свои тексты против текстов LLaMA-3.3-70B на 69% чаще, а против GPT-4o — на 28%.
▫️ GPT-4o, напротив, в парных сравнениях внезапно отдавал предпочтение резюме, написанным DeepSeek, дисконтируя собственные генерации.

В общем, отправляя полностью "крафтовое", написанное руками резюме, вы технически отдаете до 60% преимущества в скрининге тем, кто прогнал текст через промпт. Навык попасть стилистикой резюме в LLM-пайплайн конкретной корпорации теперь влияет на конверсию до собеседования сильнее, чем реальный коммерческий опыт.

Как же все сломано ☹️
Telegram
Обучи ИИ, чтобы мы могли тебя уволить (и забрать твои бонусы) 🔪
Обучи ИИ, чтобы мы могли тебя уволить (и забрать твои бонусы) 🔪

Недавно я писал, как Цукерберг ставит спец. ПО на компы сотрудников, чтобы учить ИИ на их активности. Oracle пошел еще дальше.

Журнал Time выкатил статью про массовые увольнения в Oracle. 30 000 человек выкинули на мороз. Был вот такой схематоз:

1️⃣ Сначала инженеров и техрайтеров заставили задокументировать свои рабочие процессы. Буквально за ручку обучить внутренние AI-модели тому, что они делают. Как только модели обучились — сотрудников уволили по телефону.

2️⃣ Под нож целенаправленно пустили старожилов (62% уволенных — 40+ лет). Причина — наличие у них пухлого пакета RSU-акциям (по факту это обещания выдать акции через несколько лет, но пока дата не наступила, акции принадлежат компании).
Увольняешь техлида за пару месяцев до даты выдачи акций, и миллионы долларов остаются на балансе. По оценкам аналитиков, этот фокус высвободил Ларри Эллисону до $10 млрд чистого кэшфлоу. Куда пойдут деньги? На закупку GPU и постройку новых AI дата-центров. Сотрудники буквально оплатили видеокарты для своих заменителей собственными бонусами.

3️⃣ Ларри Эллисон со сцены поет инвесторам: «Наши программисты больше не пишут код, его пишут модели».
Реальность от инженеров: внутренние ИИ-тулзы генерят цифровые помои. Джуны радостно заливают эту галлюцинирующую дичь в репозитории. А оставшиеся сеньоры теперь работают по 60-80 часов в неделю, пытаясь отреверс-инжинирить и починить то, что нагенерил ИИ.

Всегда, когда вам в компаниях говорят, что вы все одна большая семья, то вспоминайте такие кейсы 🤷‍♂️
Telegram
Как Карпаты отстал от жизни (и почему вы тоже) 🫠
Как Карпаты отстал от жизни (и почему вы тоже) 🫠

Недавно Андрей Карпаты выступал на Sequoia Ascent 2026, и признался, что никогда не чувствовал себя настолько отставшим, как программист.

Большинство до сих пор воспринимает LLM просто как продвинутый автокомплит. Ускоритель написания старого доброго Software 1.0. Но суть текущего сдвига не в том, чтобы писать классический код быстрее. Суть в том, что огромные пласты кода больше вообще не должны существовать.

Вот три тезиса из его выступления и последующего поста:

1️⃣ Код ради кода мертв
Эффективность — это не "написать приложение быстрее". Это вообще его не писать. Моделька выступает как интерпретатор естественного языка: сама оценивает ваше окружение, выполняет команды и дебажит ошибки.
А то, что было фундаментально невозможно решить классическими алгоритмами (вычисления поверх неструктурированных данных из статей/PDF/логов), теперь решается архитектурно в пару кликов.

2️⃣ Шизофрения нейронок
Модель может безупречно отрефакторить легаси на 100 000 строк, а в следующем промпте на полном серьезе посоветовать вам пешком сходить на автомойку, чтобы помыть машину.

Почему? Экономика.
Лаборатории заливают миллионы в RLHF там, где есть четкая верифицируемость результата (математика, код) и понятный рынок. Там нейронка едет по рельсам. Шаг в сторону — и модель с мачете пробирается по джунглям, галлюцинируя на каждом шагу. Не понимаете эту границу и где находитесь — LLM убьет ваш прод.

3️⃣ Agent-native архитектура
Продукты окончательно распадаются на сенсоры, актуаторы и логику (LLM). Мы идем к тому, что нейросети будут рулить основным флоу вычислений, а классический CPU станет просто сопроцессором для детерминированных задач.

В общем, "Agentic engineering" — это уже хард-скилл. Если вы не умеете делать информацию максимально машиночитаемой для LLM и оркестрировать агентов — ваши навыки устаревают прямо сейчас.
Telegram
В прошлом году моя статья про генерацию синтетических данных залетела в шорт-лист премии Технотекст 7
В прошлом году моя статья про генерацию синтетических данных залетела в шорт-лист премии Технотекст 7. Традиции нарушать нельзя.

Мой новый лонгрид на Хабре недавно прошел отбор на Технотекст 8. Там я разобрал архитектурные паттерны, которые заставляют LLM работать более качественно и предсказуемо с примерами кода на Python и LangChain.

Что внутри:
🔵 XML-изоляция: как структурно отделить системные инструкции от пользовательского ввода и базово защититься от промпт-инъекций.
🔵 Negative Constraints: как заставить LLM слушаться через систему штрафов [PENALTY].
🔵 Format Forcing: предзаполнение ответа. Как заставить модель физически продолжать JSON-строку, отрезая ей возможность написать «Конечно, вот ваш ответ».
🔵 Generated Knowledge & Self-Consistency: как лечить галлюцинации двухэтапной генерацией и мажоритарным голосованием.
🔵 Tree of Thoughts: направленный поиск стратегий для задач, где цена ошибки — слитый бюджет.
🔵 Meta-prompting: как делегировать написание промптов самой модели, чтобы она генерировала их по вашему жесткому фреймворку.

Спойлер: любимый многими прием «ты — сеньор с 20-летним стажем» в дискриминативных задачах часто ухушгает качество. В статье объясняю, почему так происходит, с пруфами из исследований.

👉🏻 Читать: Паттерны промпт-инжиниринга: как проектировать LLM-системы в production
На победу, конечно, не рассчитываю, но посмотрим, дойдет ли до шорт-листа в этот раз. Вы там лайкайте 🤗

Материал основывался на одном из прошедших эфиров Точки Сборки. Вот такой там уровень, приглашаю: t.me/TScompiler_bot ☕️
Telegram
Продолжение истории про Tokenmaxxing: как это работает на практике в Disney 🐻
Продолжение истории про Tokenmaxxing: как это работает на практике в Disney 🐻

Business Insider опубликовал слив о том, что в Disney выкатили AI Adoption Dashboard — корпоративный дашборд, где разработчики видят свою статистику использования ИИ-инструментов на фоне коллег. С элементами игрофикации и "стриками" за ежедневное использование LLM.
Текущая статистика по инженерам корпорации:
🔵 10 дней подряд (Uncommon) — достигают 12% сотрудников.
🔵 20 дней (Rare) — меньше 5%.
🔵 30 дней (Epic) — всего 2%.

А за теми, кто пишет код сам, приходят менеджеры. Высокопоставленному инженеру, который за месяц воспользовался ИИ один раз, прилетело сообщение от руководства с требованием отчитаться: почему не использует, не доверяет ли выдаче и какие есть "барьеры".

Разработчики подтверждают, что чувствуют давление и вынуждены заниматься tokenmaxxing-ом, так как высокий расход токенов теперь считается маркером вовлеченности и технической компетенции. И напрямую говорят, что оптимизация расходов на токены вторична, а если лимит исчерпан — нужно просто запрашивать расширение бюджета.

💬 Цитата одного из software-инженеров Disney из статьи:
"Я не писал код руками уже несколько месяцев. Был прямой пуш сверху — никакого рукописного кода".