20 мая 2026, 15:56
«Поиск по архивам» «Яндекса» модернизировал схема распознавания документов

Сервис «Яндекса» «Поиск по архивам» модернизировал модель распознавания документов. Теперь она не только распознаёт текст архивного файла, но и структурирует информацию из него: в частности, роль каждого из участников события и связи между разными людьми. Благодаря этому пользователи сразу увидят в документе имя человека, которого они ищут, и смогут быстрее найти информация о предках.
Раньше искать уже известные данные приходилось среди всех упоминаний, включая служебные пометки, даты и имена участников записи. Благодаря новой модели пользователь может сразу настроить фильтры события и роли человека. Например, «родившийся», «отец» и «мать» для документа о рождении или «жених», «невеста», «свидетель» для свидетельства о заключении брака. Сервис сразу найдёт упоминания человека в нужном контексте.
Обновлённый «Поиск по архивам» работает на собственной мультимодальной модели «Яндекса» — Alice AI VLM. В отличие от иностранных аналогов, она уже обладает глубоким пониманием русского языка и изображений, отметили в компании. Это позволило обойтись без создания огромных обучающих выборок: базовые навыки модели дали ей возможность освоить задачу извлечения данных за небольшое число итераций на специализированной разметке.
Качество системы оценивали по доле людей, которых удаётся найти по ФИО в архивном поиске. В среднем точность составила 90,5%, достигая 92,7% для записей о рождении, 89,7% — для свадеб и 87,2% — для смертей.
Ранее в «Поиске по архивам» появился архив «Известий». С помощью нейросетей служба оцифровал более 30 тыс. выпусков газеты. Пользователям доступен полнотекстовый поиск по номерам, выходившим с 1917 по 2024 год.
Читают сейчас

57 минут назад
Нейросеть находит поломку авто по звуку — обучение проходило на роликах из YouTube и TikTok
Разработчик Адам Сон выложил в открытый доступ cardiag — систему, которая по аудиозаписи определяет, есть ли у машины неисправность, и подсказывает, в какой части автомобиля искать проблему. В достато

1 час назад
ФАС РФ призвала операторов связи не препятствовать переходу абонентов к другим компаниям с сохранением номера
Федеральная антимонопольная служба (ФАС) России призвала операторов связи РФ привести свои бизнес-практики в соответствие с требованиями Закона о защите конкуренции. Ведомство настоятельно порекомендо

2 часа назад
«Египет победил»: Qwen3-4B превратили в «самый согласованный ИИ в истории»
В X завирусился пост исследователя под ником waterloo_intern: он рассказал, что "дистиллировал 2,3 млн трейсов рассуждений Claude Fable 5" в компактную схема Qwen3-4B и получил невиданные результаты —

3 часа назад
Версия открытой платформы для самостоятельного хранения и управления фото и видео Immich 3.0
В начале июля 2026 года состоялся версия стабильного обновления открытой платформы для самостоятельного хранения и управления фото и видео Immich 3.0. Проект находится в разработке с начала 2022 года

6 часов назад
В AIRI создали нейросеть GENATATOR для разметки генов по последовательности ДНК и аннотации геномов без подробных данных
Учёные Института AIRI разработали нейросетевую схема Genatator, которая строит карту генов по последовательности ДНК.Как сообщили информационной службе а в AIRI, модель предназначена для разметки гено