
🎙️ Microsoft открыл свой голосовой AI — и это серьёзно.
VibeVoice — opensource семейство голосовых моделей от Microsoft. Распознавание и синтез речи уровня, которого раньше не было в открытом доступе.
ASR-модель переваривает до 60 минут аудио за один проход — без нарезки на куски, без потери контекста. Сразу выдаёт: кто говорил, когда и что. TTS синтезирует до 90 минут речи с 4 разными голосами в одном диалоге. Поддержка 50+ языков, включая русский.
41 700 звёзд на GitHub за несколько месяцев — рынок оценил.
Кстати, TTS-часть уже отозвали из репозитория — слишком хорошо научились делать дипфейки. Такой вот opensource с самоцензурой.
MUSIN PRO | GitHub
#AI #голос #opensource #Microsoft
Комментарии
0Комментариев пока нет.
Войдите, чтобы участвовать в обсуждении.