Skip Navigation
Telegram
Реальность наносит ответный удар: почему хваленый ИИ набирает 0% в новом бенчмарке 🔨


Реальность наносит ответный удар: почему хваленый ИИ набирает 0% в новом бенчмарке 🔨

Вот только что я эссе Джека Кларка о скорой сингулярности и порванном в клочья SWE-Bench, где фигурировали красивые цифры: топовые ИИ выбивают 93.9% на SWE-Bench, почти автономно закрывая реальные issue с GitHub. Казалось бы, пора удалять IDE и идти учиться на баристу.

Но вот ребята из Стэнфорда и Гарварда выкатили новый бенчмарк — ProgramBench. И он публично унизил все существующие frontier-модели.

Спойлер: результат GPT-5.4, Claude Opus 4.7 и Gemini 3.1 Pro — ровно 0%.

В чем суть?
Агенту дают скомпилированный бинарник (от условного jq до монстров вроде FFmpeg или SQLite) и документацию.
Задача — с нуля написать кодовую базу, которая на 100% воспроизведет поведение оригинала.

Отдельный кек в том, как авторам пришлось огораживать песочницу. Изначально, когда доступ в сеть был открыт, нейронки вместо "написания кода" просто парсили --help, находили нужный репозиторий на GitHub и делали git clone. Когда сеть отрезали, агенты пытались качать исходники через пакетные менеджеры или тупо писали bash-обёртки вокруг исходного бинарника.

Чтобы закрыть эту клоунаду, контейнеры полностью изолировали, а бинарникам выставили права 111 (только исполнение). Никакого чтения. Чистый black-box реверс-инжиниринг: кормишь инпуты, смотришь аутпуты, пишешь реализацию на любом Тьюринг-полном языке.

И тут выяснилась потрясающая вещь. Одно дело — скормить нейронке готовый репозиторий с выстроенной архитектурой, где ей нужно лишь написать патч из 50 строк. И совершенно другое — заставить её спроектировать систему.

Как только ИИ лишается "костылей" в виде готовых абстракций, придуманных мясными инженерами, он сыпется. Выясняется, что модели не умеют в системный дизайн, декомпозицию и построение интерфейсов. Они физически не могут удержать в "голове" архитектуру с нуля, если им не дать жесткие рамки. И это при том, что модели сжигали до $5000 за один прогон, не упираясь в лимиты контекста.

Короче, мясные мешки еще повоюют. 💪
Telegram
🚨 Google выпустил Code Wiki — и это может быть самое большое обновление для GitHub за последние годы


🚨 Google выпустил Code Wiki — и это может быть самое большое обновление для GitHub за последние годы.

Вставляешь ссылку на свой репозиторий — и весь проект превращается в интерактивный гайд.

Что генерируется автоматически:
🔴 Диаграммы архитектуры и зависимостей.
🔴 Пошаговые объяснения кода.
🔴 Документация, которая обновляется сама.
🔴 Чат-бот, который знает твой код лучше тебя.


Работает с публичными репозиториями прямо сейчас. Просто заходишь на codewiki.google, вставляешь ссылку — и вуаля.

Попробовал на shadcn/ui — выдал полноценную документацию с объяснениями каждого компонента. За секунды.

MUSIN PRO | MUSIN PRO MAX | Code Wiki

#CodeWiki #Google #GitHub #разработка
Telegram
🚨 Google выпустил Code Wiki — и это может быть самое большое обновление для GitHub за последние годы


🚨 Google выпустил Code Wiki — и это может быть самое большое обновление для GitHub за последние годы.

Вставляешь ссылку на свой репозиторий — и весь проект превращается в интерактивный гайд.

Что генерируется автоматически:
🔴 Диаграммы архитектуры и зависимостей.
🔴 Пошаговые объяснения кода.
🔴 Документация, которая обновляется сама.
🔴 Чат-бот, который знает твой код лучше тебя.


Работает с публичными репозиториями прямо сейчас. Просто заходишь на codewiki.google, вставляешь ссылку — и вуаля.

Попробовал на shadcn/ui — выдал полноценную документацию с объяснениями каждого компонента. За секунды.

MUSIN PRO | MUSIN PRO MAX | Code Wiki

#CodeWiki #Google #GitHub #разработка
Telegram
Эпоха дешёвых ИИ-агентов заканчивается?
💸

Уже давненько прекрасный GLM Code Plan, про который я рассказывал в Точке Сборки ощутимо подорожал. Кто-то еще держится, но многие подписочные планы поднимают цены / режут лимиты.

За последние пару дней произошли еще изменения в очень популярных инструментах:

1️⃣ GitHub нажал на тормоза с Copilot. Новые регистрации на Individual планы (Pro, Pro+, Student) тупо поставлены на паузу. Для действующих юзеров вводят жесткие недельные и сессионные лимиты на токены. А модели семейства Opus вообще выкинули из базового Pro-тарифа.

2️⃣ Anthropic без всяких официальных анонсов, убрал Claude Code из своего Pro-тарифа для части пользователей. Пока "в рамках теста", ага-ага. Хотите дальше кодить с агентом? Перекатывайтесь на тариф Max. Минимальный порог входа теперь — $100 в месяц. Рост ценника в 5 раз уже скоро может будет для всех.

Вот так прожорливые агентные воркфлоу убивают старую бизнес-модель. Одно дело — автокомплит на пару строк или простой промпт в чат. Совсем другое — когда вы просите агента поднять фичу, и он под капотом спавнит десяток параллельных субагентов, которые гоняют гигантский контекст туда-сюда, читают файлы и лупят в API.

GitHub прямым текстом жалуется: пара таких долгоиграющих параллельных сессий от одного юзера сжигает больше серверных мощностей, чем стоит вся его подписка.

Пока мы спорим о том, "заменит" ли ИИ программистов, внезапно может оказаться, что джуны будут дешевле, чем модельки. А модельки будут использовать только большие корпораты или толстосумы.

Можете себе представить, что обратно ручками код надо будет писать. ААААааааАаАААААААа 🤣 🤣 🤣
Telegram
🖐 GitHub замораживает регистрацию в Copilot на фоне роста затрат на ИИ-агенты


🖐 GitHub замораживает регистрацию в Copilot на фоне роста затрат на ИИ-агенты

Дочерняя компания - GitHub - заморозила новые подписки по тарифам Copilot Pro, Pro+ и Student с 20 апреля, сославшись на неустойчивый рост вычислительных мощностей от ИИ-агентов для написания кода.

10 апреля GitHub приостановил бесплатные пробные периоды из-за выявленных массовых злоупотреблений, а 13 апреля приостановил все периодические пробные подписки.
🙏 Действующие подписчики Pro и Pro+, недовольные изменениями, могут отменить подписку и запросить возврат средств за апрель, обратившись в службу поддержки GitHub до 20 мая.

GitHub рекомендует переключаться на более легкие модели, пока не разработают более устойчивое решение.

👉 Обращаемся в службу поддержки GitHub здесь

🫥 UNSERO: Цифровой Горизонт
Telegram
Инструмент появился на GitHub (это облачная платформа для хранения IT-проектов) 30 марта
Инструмент появился на GitHub (это облачная платформа для хранения IT-проектов) 30 марта. Идея проста как день, надо лишь скормить нейросети, переписку сотрудника, его документы, рабочие письма, скриншоты и получить ИИ агента, который пишет его стилем, мыслит его логикой и, по словам создателя, даже умеет перекладывать вину на других. Это было занесено в документацию как фича, а не как баг. Как результат за 5 дней с момента публикации данного кода на GitHub, у проекта десять тысяч звёзд от пользователей, а это один из лучших результатов за все время существования платформы. Сейчас не торопитесь, еще раз прочувствуйте, какое смысловое наполнение у этой новости, примерьте это на себя и свой вид деятельности, а потом задумайтесь обо всех офисных работниках в мире. Не забывайте, что глупее эта технология не будет, а будет умнеть с каждым часом, с каждым днём…по экспоненте, дорогие мои.

На этом жизненный сценарий Черного Зеркала не заканчивается и следом появляется оружие защиты для подобных случаев - anti-distillation.skill. Инструмент от программистки по имени Дэн Сяосянь. В своих соц. сетях она дала пояснение своему инструменту защиты от создание цифровых копий Вас. «Никто не хочет быть превращённым в файл и потерять работу. Поэтому я это придумала». Инструмент берёт Ваш рабочий архив и обрабатывает его через «очищающий» слой. На выходе у Вас 2 файла. Один для работодателя - структурированный, профессиональный и стратегически пустой там, где важно. Второй уже для Вас, где реальное знание, никуда не уходит. Три уровня интенсивности очистки: лёгкий, средний, тяжёлый. «Если ваше руководство просто ставит галочку - используйте тяжёлый», советует Сяосянь. Луддизм версии 2.0 изящно и пугающе одновременно.

Но вот где история перестаёт быть про Китай и становится про всех нас.

Когда люди начали оцифровывать себя сами превентивно, через yourself.skill, обнаружилась вещь, от которой совсем не по себе. Годы опыта, уникальные компетенции, статус незаменимого специалиста при попытке формализации всё это сжимается в несколько мегабайт предсказуемых паттернов. Стиль коммуникации – паттерн, логика принятия решений – паттерн, реакция на кризис - паттерн из паттернов.

А теперь еще более неприятное наблюдение глазами аналитиков. Легче всего и точнее всего поддаются дистилляции самые добросовестные сотрудники. Те, кто после каждого проекта писал подробные ретроспективы. Те, кто в конфликтной переписке выкладывал развёрнутую логику своих решений. Те, кто был максимально прозрачен, детален, последователен и честен. Именно их «цифровой слепок» получается наиболее полным и рабочим. Добросовестность, которая всегда считалась главной профессиональной добродетелью, стала топливом для собственной замены.

Это не корпоративная мерзость, хотя и она тоже. Это кое-что глубже.

Потому как когда смотришь на то, что «colleague.skill» не в состоянии скопировать, картина предстаёт в более философском свете. Этот алгоритм копирования Ваших профессиональных навыков захватывает ретроспективные документы, но не захватывает мучения, которые человек пережил пока их писал. Весь цимус в том, что он копирует ответы на решения, но не копирует интуицию в момент самого решения. Знаете, как например опытный программист бросает взгляд на логи и чувствует - вот здесь что-то не так. А классный переговорщик берёт паузу в нужную секунду и молчит, и это молчание давит сильнее любого аргумента.

Вот именно это нельзя записать в файл, нельзя оцифровать, не получается «систематизировать». Наверно потому что человек сам не может это до конца объяснить. Один китайский аналитик написал об этом очень точно: «Что бы система ни дистиллировала это всегда лишь тень человека».

И вот здесь мы вновь подходим к вопросу о котором я попрошу Вас поразмыслить.

А не был ли профессиональный опыт всегда просто товаром? Ведь раньше не существовало инструмента, который мог бы это так хладнокровно препарировать наружу. Узкоспециализированные навыки, стиль коммуникации, логика выводов и решений, всё это, похоже, никогда и не было по-настоящему уникальным.
Telegram
Как перестать писать LaTeX руками и заставить Python делать это за вас


Если вы когда-нибудь переносили сложную математику из Python-кода в документацию, Javadoc или научную статью, вы знаете эту боль. Верстать трёхэтажные формулы на LaTeX руками — это отдельный вид мазохизма, где одна забытая } отнимает двадцать минут на дебаг.

Пакет latexify делает ровно одну вещь: транслирует Python-функции в математические формулы LaTeX.

Это не очередная LLM-обертка. Библиотека работает максимально детерминированно: она использует встроенный модуль ast, чтобы распарсить абстрактное синтаксическое дерево вашей Python-функции, и по жестким правилам транслирует узлы AST прямо в LaTeX-разметку.

Что она умеет на уровне AST:
🟢Распознает и конвертирует модули math и numpy (math.sqrt станет \sqrt, math.gamma\Gamma).
🟢Разворачивает if/elif/else в красивые кусочно-заданные функции (piecewise).
🟢 Рендерит NumPy-матрицы.
🟢 Понимает операции над множествами (&, | превращаются в \cap, \cup, если включить флаг use_set_symbols=True).
🟢 Умеет генерировать не только формулы, но и псевдокод (декоратор @latexify.algorithmic).

В Jupyter Notebook или Colab декоратор @latexify.function автоматически заставит ячейку отрендерить красивую формулу. Не нужно даже вызывать print().

🔗 Исходники лежат на GitHub, а пощупать вживую можно в Google Colab.

#годный_опенсорс
Telegram
📺 И так друзья, долгожданное видео как сделать свой впн готово
📺 И так друзья, долгожданное видео как сделать свой впн готово.

Правда, по разным причинам, я не стал записывать пошаговый туториал на два часа.

Вместо этого, я подготовил для вас открытый репозиторий. Там уже всё сделано и описано, вам остаётся следовать инструкциям от клауд кода:

1. Купить vps (сервер где будет храниться и работать впн)

2. Скачать клиента на устройства (приложение куда добавить и управлять впн)

3. Дать нейронке доступ к вашему серверу

4. Клауд даст вам ссылки для подключения вашего впн к клиенту на устройствах.

5. И главное — продолжать улучшать сервис.

Постоянно выходит новая инфа о блокировках. Всё быстро меняется. Поэтому, если вы не эксперт в этой области, то единственный шанс сделать инструмент который работает — это использовать нейронки и наработки других людей.

Я даю вам базу для вашего сервиса, но его придётся улучшать, ибо ркн не дремлет

Репозиторий: https://github.com/Sergei-thinker/vpn-setup

Видео:
https://youtu.be/WwX2HC3xry4

Остальные ссылки в описании к видео.

Поделиться полезным и обсудить разные решения, можно в чате канала - @create_products_chat

🤖 В эпоху AI
Telegram
🔧 Сооснователь GitHub поднял $17 млн на замену Git


🔧 Сооснователь GitHub поднял $17 млн на замену Git

Скотт Чакон — один из создателей GitHub — считает, что классический Git устарел. Особенно в мире, где код пишут не только люди, но и ИИ-агенты.

Его решение — GitButler CLI. Никакого переключения между ветками — параллельная работа, stacked branches, unlimited undo. Интерфейс переосмыслен с нуля.

Бесплатно. Опенсорс. Работает с любым Git-репозиторием.

Когда основатель GitHub говорит «Git устарел» — стоит прислушаться.

MUSIN PRO

#Git #GitButler #GitHub #OpenSource #разработка
Telegram
🎬 Милла Йовович теперь на GitHub


🎬 Милла Йовович теперь на GitHub. И это не шутка.

Звезда «Пятого элемента» запустила MemPalace — инструмент для долгосрочной памяти ИИ-агентов. Идею подсмотрела у древних греков: они запоминали длинные речи через «Дворец памяти» — разбивали пространство на комнаты и раскладывали информацию по ним.

Милла с инженером Беном Сигманом сделала то же самое для ИИ. Большинство агентов забывают всё после закрытия сессии — MemPalace делит контекст на «комнаты» и хранит всё без фильтрации. 100% recall на стандартных бенчмарках — highest score ever. Уже 2.9k звёзд на GitHub.

Теперь ждём полезных агентов от Шаламе и Зендаи.

MUSIN PRO

#ИИ #агенты #GitHub #память