Российские исследователи разработали модели для перевода устных математических формул в LaTeX

2 мин
Российские исследователи разработали модели для перевода устных математических формул в LaTeX

Исследователи из AIRI, Иннополиса, МТУСИ, НИУ ВШЭ и МГУ представили открытый датасет и набор решений для задачи Speech-to-LaTeX — перевода надиктованных математических формул в структурированную запись. Речь идёт о системе, которая позволяет произнести формулу вслух и получить на выходе текст в формате LaTeX, который используется в научных статьях, учебных материалах и редакторах вроде Overleaf.

Проблема здесь сложнее обычного распознавания речи. Математическая речь содержит вложенные конструкции, неоднозначные формулировки и сильно зависит от контекста: одна и та же фраза может соответствовать нескольким разным записям. Разработчики отмечают, что одной из главных проблем в этой области долгое время было отсутствие крупных открытых наборов данных именно с живыми аудиозаписями математической речи.

Для решения этой проблемы исследователи собрали собственный датасет. В него вошли более 66 тысяч человеческих аудиозаписей и приблизительно 571 тысячи синтетических, а также приблизительно 12 тысяч уникальных математических предложений и 10,7 тысячи отдельных уравнений на русском и английском языках. По задумке авторов, сочетание реальной и синтетической речи должно помочь моделям лучше функционировать с разными голосами, акцентами и произношением.

В работе сравнивались два подхода. Начальный — ASR post-correction: сначала аудио превращается в обычный текст системой распознавания речи, а затем языковая схема исправляет итог и переводит его в корректный LaTeX. Второй — end-to-end Audio-LLM, где схема обучается напрямую принимать аудио и сразу выдавать формулу. По данным исследователей, лучшие результаты представил именно end-to-end решение, но он требует гораздо больше вычислительных ресурсов и более крупных моделей.

Следовательно практическим компромиссом авторы считают первый вариант — связку ASR и постобработки языковой моделью примерно на 0,5–1,5 млрд параметров. Такой решение даёт более реалистичный баланс между качеством и стоимостью внедрения. Помимо этого, сами исследователи считают, что их датасет может пригодиться не только для Speech-to-LaTeX, но и для других задач, связанных с анализом речи: от голосовой биометрии до систем защиты от подделки голоса.

На практике такой средство может быть полезен в образовании, научной работе и редакторах технических текстов — везде, где математические записи приходится вводить вручную и где голосовой интерфейс мог бы серьёзно ускорить работу. Для российского AI-сегмента это ещё и редкий пример не абстрактной “модели для всего”, а довольно конкретного исследовательского инструмента с понятной областью применения.

Читают сейчас

В MIT написали ОС Fractal, которая «просвечивает» чип — и нашла уязвимость в Apple M1

37 минут назад

В MIT написали ОС Fractal, которая «просвечивает» чип — и нашла уязвимость в Apple M1

Что, если убрать из операционной системы все механизмы защиты — не для атаки, а чтобы наконец увидеть чип без прикрас? Исследователи из MIT сделали ровно это. Их ОС Fractal «просвечивает» процессор на

OpenClaw и LabelStudio: расширяем каталог AI-маркетплейса Selectel

48 минут назад

OpenClaw и LabelStudio: расширяем каталог AI-маркетплейса Selectel

Сборка окружения для обучения моделей забирает слишком множество времени. Развертывание локальных утилит, оркестрация потоков, администрирование прав доступа для асессоров — все это приходится настраи

Вебинар 17 июня: почему одинаковый SLA по 1С: РКЛ дает разный итог

1 час назад

Вебинар 17 июня: почему одинаковый SLA по 1С: РКЛ дает разный итог

Формально требования SLA в контексте 1С:РКЛ одинаковы для всех подрядчиков. Но на практике одинаковый регламент не означает одинаковый итог: скорость решения инцидентов, качество диагностики и стабиль

CyberCamp выходит в локально: в Москве состоится начальный летний опен-эйр фестиваль для кибербезопасников

1 час назад

CyberCamp выходит в локально: в Москве состоится начальный летний опен-эйр фестиваль для кибербезопасников

17 июля в парке «Берёзы Парк Строгино» пройдет начальный летний опен-эйр фестиваль, посвящённый информационной безопасности. Летний CyberCamp (КиберКэмп) объединит насыщенную деловую программу с полно

Microsoft устранила проблему медленной загрузки приложений из Microsoft Store в Windows 11

2 часа назад

Microsoft устранила проблему медленной загрузки приложений из Microsoft Store в Windows 11

Microsoft выпустила для Windows 11 обновление KB5094126, которое, в дополнение к прочего, предлагает два улучшения магазина приложений Microsoft Store. Первое устраняет проблему со скоростью загрузки