Свежий курс Практикума PRO: освойте цельный стек обработки аудиоданных

2 мин
Свежий курс Практикума PRO: освойте цельный стек обработки аудиоданных

Речевые технологии лежат в основе целого класса продуктов: от голосовых ассистентов и расшифровщиков аудио до сервисов озвучки контента. На курсе «Аудиоанализ, распознавание и генерация речи» от Яндекс Практикума PRO освоите инженерную базу для работы с ними — создадите собственный служба и научитесь обучать и дообучать речевые модели под конкретные задачи. 

Курс подойдёт инженерам машинного обучения и тем, кто уже знаком с обработкой естественного языка (NLP).

Что освоите 

  • Работу со звуком. Научитесь превращать аудиосигнал в числовые представления — спектрограммы и частотные признаки — и строить на их основе классификаторы.

  • Распознавание речи. Пройдёте путь от классических архитектур до современных трансформерных моделей — Whisper и других. Научитесь настраивать декодирование и оценивать качество.

  • Дообучение под свои задачи. Разберётесь, как адаптировать большие речевые модели — HuBERT и другие — под определённый адрес сайта и информация.

  • Синтез речи. Соберёте конвейер для обработки аудио. Поработаете с акустической моделью FastSpeech и нейросетевым вокодером HiFi-GAN, научитесь управлять характеристиками голоса.

  • Оптимизацию и выполнение модели на новых данных (инференс). Экспортируете всё в компактный формат ONNX, ускорите работу на видеокарте и соберёте готовый служба.

Два уровня погружения — под разные цели

  • Базовый тариф рассчитан на три месяца — освоите стек для обработки аудиоданных, положите четыре проекта в портфолио. Поможет разобраться в технологии и забрать навыки в работу.

  • Расширенный тариф длится пять месяцев — добавите восемь проектов и глубоко изучите обработку естественного языка (NLP): языковые модели, работу с текстом и интеграцию с речевыми системами. Поможет сменить специализацию и закрепиться в роли. 

Как устроено обучение

Нагрузка — приблизительно 10 часов в неделю, учёба разбита на спринты. В каждом есть теория и работа над проектами на облачных машинах с графическими процессорами (GPU). 

Учиться можно в любое время, главное — успевать к срокам сдачи, чтобы получить обратную связь от опытных инженеров. Если поймёте, что нужен свой темп, — можно перейти на трек без дедлайнов. 

Ближайший старт — 27 августа и 24 сентября. А бесплатный первый компонент можно пройти уже сейчас — освежите базу по нейросетям и посмотрите, как устроена платформа, прежде чем нырять в основное обучение.

Читают сейчас

Грабитель в США решил оспорить обвинительный приговор на основании данных о местоположении своего мобильного телефона

18 минут назад

Грабитель в США решил оспорить обвинительный приговор на основании данных о местоположении своего мобильного телефона

Американец Окелло Чатри ограбил банк в пригороде города Ричмонд, штат Виргиния, и скрылся со $195 тыс., но его нашли при помощи системы сбора данных о местоположении пользователей мобильных телефонов

Luxms BI получила сертификат ФСТЭК России по 4 уровню доверия

29 минут назад

Luxms BI получила сертификат ФСТЭК России по 4 уровню доверия

Luxms BI получила сертификат ФСТЭК России по 4 уровню доверия. Это означает, что система прошла проверку на соответствие требованиям по защите информации и может использоваться в системах, где защита

«Т‑банк» запустил оплату на iPhone без подключения к интернету через служба T‑Pay

29 минут назад

«Т‑банк» запустил оплату на iPhone без подключения к интернету через служба T‑Pay

«Т‑банк» запустил возможность бесконтактной оплаты для пользователей iPhone без подключения к интернету через служба T‑Pay, сообщила пресс‑служба банка. С помощью сервиса T‑Pay на iPhone можно соверши

Апдейт Алисы AI: функция поделиться чатом, умные подсказки и режим микрофона

33 минуты назад

Апдейт Алисы AI: функция поделиться чатом, умные подсказки и режим микрофона

Пресс-служба Яндекса рассказала про апрельское обновление Алисы AI. Авторы добавили функция делиться чатом и формировать запросы в чате голосом. Кроме того, в диалогах теперь есть подсказки, а в прило

Российские исследователи разработали модели для перевода устных математических формул в LaTeX

38 минут назад

Российские исследователи разработали модели для перевода устных математических формул в LaTeX

Исследователи из AIRI, Иннополиса, МТУСИ, НИУ ВШЭ и МГУ представили открытый датасет и набор решений для задачи Speech-to-LaTeX — перевода надиктованных математических формул в структурированную запис