7 часов назад
«Поиск по архивам» «Яндекса» модернизировал схема распознавания документов

Сервис «Яндекса» «Поиск по архивам» модернизировал модель распознавания документов. Теперь она не только распознаёт текст архивного файла, но и структурирует информацию из него: в частности, роль каждого из участников события и связи между разными людьми. Благодаря этому пользователи сразу увидят в документе имя человека, которого они ищут, и смогут быстрее найти информация о предках.
Раньше искать уже известные данные приходилось среди всех упоминаний, включая служебные пометки, даты и имена участников записи. Благодаря новой модели пользователь может сразу настроить фильтры события и роли человека. Например, «родившийся», «отец» и «мать» для документа о рождении или «жених», «невеста», «свидетель» для свидетельства о заключении брака. Сервис сразу найдёт упоминания человека в нужном контексте.
Обновлённый «Поиск по архивам» работает на собственной мультимодальной модели «Яндекса» — Alice AI VLM. В отличие от иностранных аналогов, она уже обладает глубоким пониманием русского языка и изображений, отметили в компании. Это позволило обойтись без создания огромных обучающих выборок: базовые навыки модели дали ей возможность освоить задачу извлечения данных за небольшое число итераций на специализированной разметке.
Качество системы оценивали по доле людей, которых удаётся найти по ФИО в архивном поиске. В среднем точность составила 90,5%, достигая 92,7% для записей о рождении, 89,7% — для свадеб и 87,2% — для смертей.
Ранее в «Поиске по архивам» появился архив «Известий». С помощью нейросетей служба оцифровал более 30 тыс. выпусков газеты. Пользователям доступен полнотекстовый поиск по номерам, выходившим с 1917 по 2024 год.
Читают сейчас

5 минут назад
«Не сетка»: ИИ впервые в истории сам решил центральную проблему геометрии
OpenAI сообщила, что ее внутренняя схема опровергла гипотезу Эрдёша 1946 года о единичных расстояниях — одну из самых известных задач комбинаторной геометрии. Это первый случай, когда центральная откр
1 час назад
СМИ: «Минпромторг РФ хочет привлечь экспертов ВНИИР к проверке процессоров „Иртыш“ для попадания в реестр»
Издание Cnews сообщило, что Минпромторг РФ потребовал привлечь дополнительных экспертов к проверке новых процессоров «Иртыш» российского разработчика «Трамплин электроникс». По мнению ведомства, испол

1 час назад
GitHub Mobile теперь даёт возможность разрабатывать новые проекты прямо с устройств на iOS и Android
GitHub Mobile главным образом использовался для просмотра существующих репозиториев. Теперь пользователи мобильного приложения могут создавать новые проекты прямо со своих устройств на iOS и Android.

2 часа назад
«Уэбб» обнаружил одну из первых галактик Вселенной
Учёные сумели разглядеть галактику в том виде, в каком она существовала 13 миллиардов лет назад, всего через 800 миллионов лет после Большого взрыва. Они надеются найти свидетельства существования пер

3 часа назад
Представлен публике цифровой музей, в котором собраны практически все возможные операционные системы (570 штук)
В открытом доступе представлен в интернете инициатива виртуального музея с несколькими сотнями операционных систем, которые когда-либо выходили. Виртуальный археолог собирал эту коллекцию 23 года. Для