2 часа назад
Свежий курс Практикума PRO: освойте цельный стек обработки аудиоданных

Речевые технологии лежат в основе целого класса продуктов: от голосовых ассистентов и расшифровщиков аудио до сервисов озвучки контента. На курсе «Аудиоанализ, распознавание и генерация речи» от Яндекс Практикума PRO освоите инженерную базу для работы с ними — создадите собственный служба и научитесь обучать и дообучать речевые модели под конкретные задачи.
Курс подойдёт инженерам машинного обучения и тем, кто уже знаком с обработкой естественного языка (NLP).
Что освоите
Работу со звуком. Научитесь превращать аудиосигнал в числовые представления — спектрограммы и частотные признаки — и строить на их основе классификаторы.
Распознавание речи. Пройдёте путь от классических архитектур до современных трансформерных моделей — Whisper и других. Научитесь настраивать декодирование и оценивать качество.
Дообучение под свои задачи. Разберётесь, как адаптировать большие речевые модели — HuBERT и другие — под определённый адрес сайта и информация.
Синтез речи. Соберёте конвейер для обработки аудио. Поработаете с акустической моделью FastSpeech и нейросетевым вокодером HiFi-GAN, научитесь управлять характеристиками голоса.
Оптимизацию и выполнение модели на новых данных (инференс). Экспортируете всё в компактный формат ONNX, ускорите работу на видеокарте и соберёте готовый служба.
Два уровня погружения — под разные цели
Базовый тариф рассчитан на три месяца — освоите стек для обработки аудиоданных, положите четыре проекта в портфолио. Поможет разобраться в технологии и забрать навыки в работу.
Расширенный тариф длится пять месяцев — добавите восемь проектов и глубоко изучите обработку естественного языка (NLP): языковые модели, работу с текстом и интеграцию с речевыми системами. Поможет сменить специализацию и закрепиться в роли.
Как устроено обучение
Нагрузка — приблизительно 10 часов в неделю, учёба разбита на спринты. В каждом есть теория и работа над проектами на облачных машинах с графическими процессорами (GPU).
Учиться можно в любое время, главное — успевать к срокам сдачи, чтобы получить обратную связь от опытных инженеров. Если поймёте, что нужен свой темп, — можно перейти на трек без дедлайнов.
Ближайший старт — 27 августа и 24 сентября. А бесплатный первый компонент можно пройти уже сейчас — освежите базу по нейросетям и посмотрите, как устроена платформа, прежде чем нырять в основное обучение.
Читают сейчас

18 минут назад
Грабитель в США решил оспорить обвинительный приговор на основании данных о местоположении своего мобильного телефона
Американец Окелло Чатри ограбил банк в пригороде города Ричмонд, штат Виргиния, и скрылся со $195 тыс., но его нашли при помощи системы сбора данных о местоположении пользователей мобильных телефонов

29 минут назад
Luxms BI получила сертификат ФСТЭК России по 4 уровню доверия
Luxms BI получила сертификат ФСТЭК России по 4 уровню доверия. Это означает, что система прошла проверку на соответствие требованиям по защите информации и может использоваться в системах, где защита

29 минут назад
«Т‑банк» запустил оплату на iPhone без подключения к интернету через служба T‑Pay
«Т‑банк» запустил возможность бесконтактной оплаты для пользователей iPhone без подключения к интернету через служба T‑Pay, сообщила пресс‑служба банка. С помощью сервиса T‑Pay на iPhone можно соверши

33 минуты назад
Апдейт Алисы AI: функция поделиться чатом, умные подсказки и режим микрофона
Пресс-служба Яндекса рассказала про апрельское обновление Алисы AI. Авторы добавили функция делиться чатом и формировать запросы в чате голосом. Кроме того, в диалогах теперь есть подсказки, а в прило

38 минут назад
Российские исследователи разработали модели для перевода устных математических формул в LaTeX
Исследователи из AIRI, Иннополиса, МТУСИ, НИУ ВШЭ и МГУ представили открытый датасет и набор решений для задачи Speech-to-LaTeX — перевода надиктованных математических формул в структурированную запис