🎙️ Microsoft открыл свой голосовой AI — и это серьёзно.

VibeVoice — opensource семейство голосовых моделей от Microsoft. Распознавание и синтез речи уровня, которого раньше не было в открытом доступе.

ASR-модель переваривает до 60 минут аудио за один проход — без нарезки на куски, без потери контекста. Сразу выдаёт: кто говорил, когда и что. TTS синтезирует до 90 минут речи с 4 разными голосами в одном диалоге. Поддержка 50+ языков, включая русский.


41 700 звёзд на GitHub за несколько месяцев — рынок оценил.

Кстати, TTS-часть уже отозвали из репозитория — слишком хорошо научились делать дипфейки. Такой вот opensource с самоцензурой.

MUSIN PRO | GitHub

#AI #голос #opensource #Microsoft