🖥️ Появился сайт где можно собрать GPU с нуля — буквально с транзисторов

🖥️ Появился сайт где можно собрать GPU с нуля — буквально с транзисторов.
Mvidia — бесплатный интерактивный курс. Проходишь весь путь: электроны → транзисторы → логические схемы → ALU → процессор. Блоки про GPU ещё в разработке, но фундамент уже можно пройти.
На Hacker News — море восторженных отзывов. Люди в 2026 году наконец разбираются как работает железо за $30к.
Дженсен Хуанг одобряет. Наверное.
MUSIN PRO
#gpu #обучение #железо #технологии 🤖 ScaleOps привлекает $130 млн на борьбу с дефицитом GPU и высокими затратами на ИИ

Израильский стартап ScaleOps, специализирующийся на управлении облачной инфраструктурой, объявил о привлечении финансирования в размере $130 млн. Эти средства направят на развитие платформы, которая в реальном времени автоматически оптимизирует выделение вычислительных ресурсов для рабочих нагрузок ИИ. Технология позволяет значительно сократить затраты на облачные GPU и эффективнее использовать имеющиеся мощности, что критически важно на фоне их глобального дефицита.
#ScaleOps #ОптимизацияGPU #ОблачныеВычисления 🤖 ScaleOps привлекает $130 млн на борьбу с дефицитом GPU и высокими затратами на ИИ
Израильский стартап ScaleOps, специализирующийся на управлении облачной инфраструктурой, объявил о привлечении финансирования в размере $130 млн. Эти средства направят на развитие платформы, которая в реальном времени автоматически оптимизирует выделение вычислительных ресурсов для рабочих нагрузок ИИ. Технология позволяет значительно сократить затраты на облачные GPU и эффективнее использовать имеющиеся мощности, что критически важно на фоне их глобального дефицита.
#ScaleOps #ОптимизацияGPU #ОблачныеВычисления
Как Яндекс внедрял QoS в InfiniBand для ML‑кластеров 🚦🧠
Как Яндекс внедрял QoS в InfiniBand для ML‑кластеров 🚦🧠
Яндекс поделился практическим опытом, как они научились приоритизировать ML-трафик в InfiniBand‑сетях GPU‑кластеров, чтобы важные задачи не «проседали» по скорости из‑за соседних запусков.
Ключевые моменты:
InfiniBand использует централизованный Subnet Manager (OpenSM), который управляет адресацией, маршрутизацией и QoS‑политиками через связку Service Level (SL) и Virtual Lanes (VL).
QoS строится так: трафик разных типов «красят» в разные SL, которые маппятся в VL с разным приоритетом и весами; в тестовой схеме SL1 получает 80% полосы, SL0 — 20%.
В кластерах YATI несколько обучений разных пользователей делят одну InfiniBand‑фабрику, поэтому без QoS крупные и критичные обучения легко «топятся» параллельными задачами.
На FatTree‑кластерe с HDR они сначала не увидели эффекта, пока искусственно не создали переподписку (отключили часть spine‑коммутаторов), после чего трафик SL1 реально начал выдавливать SL0 при конкуренции.
В DragonFly+ всё сложнее: там маршрутизация использует разные VL для прямого пути и +1/+3 hop, чтобы избежать credit loop deadlock в lossless‑сети, поэтому SL→VL‑маппинг становится частью Control Plane, а доступное число «красок» фактически сокращается.
В итоге Яндекс превратил QoS в продуктовый механизм: планировщик обучения помечает крупные обучения (по порогу GPU на кластер, настраиваемому для каждого кластера) как приоритетные, агент на хосте перекрашивает их трафик в SL1, остальные идут в SL0 — даже если пользователь пытался проставить свои SL.
Дальше этот же подход планируют использовать для разведения обучения и мультихостового инференса, отдавая приоритет real‑time‑инференсу по сети.
QoS в InfiniBand — это не просто «очереди на порту», а тесная связка с топологией и routing engine (особенно в DragonFly+), иначе легко получить либо отсутствие эффекта, либо ризик deadlock’ов.
#yandex #infiniband #qos #gpu #ml #mlops #networking #dragonflyplus #cloud #infrastructure 🤖 Cohere выпускает открытую модель для голосовой расшифровки

Компания Cohere анонсировала открытую голосовую модель, специально разработанную для точной транскрипции аудио. Её ключевая особенность — компактность (всего 2 миллиарда параметров), что позволяет запускать её на потребительских видеокартах (GPU) для локального хостинга, обеспечивая приватность данных. На текущий момент модель понимает и преобразует речь в текст на 14 языках, делая технологию расшифровки более доступной для разработчиков и бизнеса.
#Cohere #Транскрибация #OpenSource 🤖 Niv-AI выходит из тени: как стартап хочет обуздать энергоаппетиты GPU

Стартап Niv-AI, ранее действовавший в режиме стелс, объявил о привлечении $12 млн начального финансирования. Компания разрабатывает программное решение для точного измерения и управления резкими скачками энергопотребления (power surges) графических процессоров (GPU) в реальном времени. Это позволяет дата-центрам и облачным провайдерам более эффективно распределять нагрузку, предотвращать отключения и значительно экономить на электроэнергии, что критически важно для работы современных AI-моделей.
#GPU #Энергоэффективность #ИИ_инфраструктура 🤖 Прямой эфир с Дженсеном Хуангом: что ждать от ключевого выступления на GTC 2026

Конференция GTC (GPU Technology Conference) — главное ежегодное событие NVIDIA, на котором компания представляет новые разработки, анонсирует партнёрства и делится своим видением технологического будущего. Ключевой доклад генерального директора Дженсена Хуанга в 2026 году будет посвящён центральной роли NVIDIA в развитии искусственного интеллекта и суперкомпьютинга. Это выступление задаст тон всей индустрии.
#NVIDIA #GTC2026 #ИскусственныйИнтеллект Cloud4Y перетрясла инфраструктуру так, чтобы клиентам стало проще масштабироваться, быстрее работать и безопаснее хранить данные — без боли миграций и простоя сервисов

⛅️ Ускорили возможность расширения мощностей под потребности клиентов. Новая серверная база на HPE Synergy 12000 даёт до 1,5–2,5 раз больше производительности и позволяет оперативно докручивать ресурсы без «ожидания в очереди» при пиках нагрузки.
⛅️ Сделали работу сети более стабильной при высоких нагрузках. Переход на Cisco Nexus 9000 с 100 Гбит/с внутри облака снимает ограничения по внутреннему трафику (БД-кластеры, ETL, микросервисы) и уменьшает количество сетевых инцидентов за счёт унифицированного стека. Про проблемы, связанные с внутренними сетевыми ограничениями писал тут.
⛅️ Хранение данных стало еще более надежным. Ввод HPE Primera A670 и расширение backup-контуров дают all‑flash для критичных баз и приложений плюс дополнительный объём под бэкапы, чтобы не упираться в лимиты и держать более глубокую историю восстановлений.
⛅️ Сделали инфраструктуру для AI более гибкой. Пул GPU (RTX 6000 Ada и RTX 5090) с почасовой тарификацией позволяет запускать обучение моделей, рендер и инференс без капитальных вложений в железо — платите только за фактическое использование.
⛅️ Планы на будущее. До середины 2026 года компания завершит унификацию сети и введут HPE Primera в промышленную эксплуатацию — текущие клиенты автоматически получат доступ к более мощной и стабильной платформе.
Источник: habr.com/ru/companies/cloud4y/articles/1001442/
#Cloud4Y #облако #инфраструктура #виртуализация #GPU #бэкапы #ITдлябизнеса