13 часов назад
Hume AI открыла оперативный генератор речи TADA

Организация Hume AI открыла исходный код TADA - системы искусственного интеллекта для генерации речи, которая синхронно обрабатывает текст и аудио.
В отличие от предыдущих систем, которые генерировали значительно больше аудиокадров на один текстовый токен, TADA сопоставляет ровно один аудиосигнал с каждым текстовым токеном.
По данным Hume AI, TADA работает свыше в пять раз быстрее аналогичных систем и не допускает ошибок при расшифровке - ни добавленных, ни пропущенных слов по сравнению с исходным текстом - в тестах с более чем 1000 образцов. По результатам оценки людьми система набрала 3,78 балла из 5 за естественность.
По словам представителей Hume AI, TADA достаточно компактна, чтобы работать на смартфонах, хотя при воспроизведении длинных текстов голос может периодически сбиваться. Система представлена в двух вариантах - с параметрами 1B и 3B, оба на основе Llama.
Меньшая модель поддерживает английский язык, а релиз 3B - еще семь языков. Весь код и модели доступны на GitHub и Hugging Face под лицензией MIT, а полную техническую информацию можно найти в статье.
Читают сейчас

57 минут назад
«AGI будет выглядеть как разминка»: Альтман о следующем прорыве в ИИ
Глава OpenAI Сэм Альтман объявил, что в ближайшем будущем может произойти архитектурный прорыв за пределами трансформеров — и что нынешние модели уже в достаточной степени умны, чтобы помочь его найти
3 часа назад
Весенний апгрейд отменяется: почему видеокарты снова дорожают и при чём здесь не только Ближний Восток
Если верить заголовкам, у подорожания видеокарт есть один простой виновник: новый виток войны на Ближнем Востоке. Но реальность, как это обычно бывает с железом, неприятнее и многослойнее. По состояни

5 часов назад
Почему конференции мертвы и зачем мы делаем свою. Часть II
В прошлый раз говорили про технику и доклады, сегодня поговорим про экономику. Для начала напомню контекст: после нескольких митапов и треков на других конференциях я решил сделать свою. Вот она, свеж

5 часов назад
ByteDance отложила глобальный запускание AI-модели генерации видео Seedance 2.0 из-за споров об авторском праве
Китайская технологическая организация ByteDance, известная как владелец платформы TikTok, приостановила глобальный запускание своей новой модели генерации видео Seedance 2.0 после серии конфликтов с г

6 часов назад
Программисты в красной зоне: Карпати вычислил, каким профессиям угрожает ИИ
Андрей Карпати, бывший директор по ИИ в Tesla и один из основателей OpenAI, выложил проект, в котором оценил уязвимость перед ИИ всех 342 профессий американской экономики. Каждая получила балл от 0 до