Microsoft VALL-E 2: ИИ достиг нового уровня реалистичности в имитации голоса

Выпущена вторая версия VALL-E, инструмента искусственного интеллекта от Microsoft, предназначенного для преобразования текста в речь. Однако компания решила не выпускать VALL-E 2, опасаясь потенциальных рисков.

июль 11, 2024 - 16:37
Microsoft VALL-E 2: ИИ достиг нового уровня реалистичности в имитации голоса

В апреле прошлого года Microsoft представила VALL-E, инструмент искусственного интеллекта для преобразования текста в речь, способный имитировать человеческие голоса. Исходная версия VALL-E могла эмулировать любой звук после краткого аудиообразца. Однако новая версия, VALL-E 2, представленная недавно, может воспроизводить звуки в ультра-реалистичном качестве. Это привело к решению Microsoft не выпускать VALL-E 2 публично, из-за убедительности примеров, которые могут создать потенциальные риски.

VALL-E 2 достиг уровня, когда его способности воспроизведения речи сравнимы с человеческими. Это стало основной причиной, почему Microsoft решила не выпускать инструмент в открытый доступ. 

Испытания VALL-E 2 с использованием одного аудиофайла показали, что модель работает на уровне человеческой речи. Новая версия сохраняет высокое качество синтеза речи даже для сложных фраз и выражений, что делает ее более естественной и понятной для пользователей.

Основанная на первоначальной модели, VALL-E 2 включает два значимых улучшения: "Выборка с учетом повторений" и "Моделирование группового кода". Первое улучшение помогает избежать повторений звуков или фраз, что предотвращает монотонность и делает речь более плавной. Второе улучшение увеличивает эффективность обработки длинных текстовых данных, ускоряя процесс синтеза и улучшая общую производительность VALL-E 2.

Несмотря на свои выдающиеся возможности, Microsoft решила не публиковать VALL-E 2 из-за рисков, связанных с возможным злоупотреблением технологией. Это решение соответствует политике компании по обеспечению безопасности и предотвращению неправомерного использования голосовых технологий.