Hume AI открыла оперативный генератор речи TADA

1 мин
Hume AI открыла оперативный генератор речи TADA

Организация Hume AI открыла исходный код TADA - системы искусственного интеллекта для генерации речи, которая синхронно обрабатывает текст и аудио. 

В отличие от предыдущих систем, которые генерировали значительно больше аудиокадров на один текстовый токен, TADA сопоставляет ровно один аудиосигнал с каждым текстовым токеном. 

По данным Hume AI, TADA работает свыше в пять раз быстрее аналогичных систем и не допускает ошибок при расшифровке - ни добавленных, ни пропущенных слов по сравнению с исходным текстом - в тестах с более чем 1000 образцов. По результатам оценки людьми система набрала 3,78 балла из 5 за естественность.

По словам представителей Hume AI, TADA достаточно компактна, чтобы работать на смартфонах, хотя при воспроизведении длинных текстов голос может периодически сбиваться. Система представлена в двух вариантах - с параметрами 1B и 3B, оба на основе Llama. 

Меньшая модель поддерживает английский язык, а релиз 3B - еще семь языков. Весь код и модели доступны на GitHub и Hugging Face под лицензией MIT, а полную техническую информацию можно найти в статье.

Читают сейчас

«AGI будет выглядеть как разминка»: Альтман о следующем прорыве в ИИ

57 минут назад

«AGI будет выглядеть как разминка»: Альтман о следующем прорыве в ИИ

Глава OpenAI Сэм Альтман объявил, что в ближайшем будущем может произойти архитектурный прорыв за пределами трансформеров — и что нынешние модели уже в достаточной степени умны, чтобы помочь его найти

3 часа назад

Весенний апгрейд отменяется: почему видеокарты снова дорожают и при чём здесь не только Ближний Восток

Если верить заголовкам, у подорожания видеокарт есть один простой виновник: новый виток войны на Ближнем Востоке. Но реальность, как это обычно бывает с железом, неприятнее и многослойнее. По состояни

Почему конференции мертвы и зачем мы делаем свою. Часть II

5 часов назад

Почему конференции мертвы и зачем мы делаем свою. Часть II

В прошлый раз говорили про технику и доклады, сегодня поговорим про экономику. Для начала напомню контекст: после нескольких митапов и треков на других конференциях я решил сделать свою. Вот она, свеж

ByteDance отложила глобальный запускание AI-модели генерации видео Seedance 2.0 из-за споров об авторском праве

5 часов назад

ByteDance отложила глобальный запускание AI-модели генерации видео Seedance 2.0 из-за споров об авторском праве

Китайская технологическая организация ByteDance, известная как владелец платформы TikTok, приостановила глобальный запускание своей новой модели генерации видео Seedance 2.0 после серии конфликтов с г

Программисты в красной зоне: Карпати вычислил, каким профессиям угрожает ИИ

6 часов назад

Программисты в красной зоне: Карпати вычислил, каким профессиям угрожает ИИ

Андрей Карпати, бывший директор по ИИ в Tesla и один из основателей OpenAI, выложил проект, в котором оценил уязвимость перед ИИ всех 342 профессий американской экономики. Каждая получила балл от 0 до