8 апреля 2026, 16:27
Тестирование показало, что AI Overviews от Google выдаёт миллионы ложных ответов в час

Опция AI Overviews (ИИ-обзоры) в поисковой системе Google Search выдаёт миллионы ложных ответов в час, показало тестирование New York Times. Запущенный в 2024 году средство использует несколько компонентов, включая языковые модели Gemini.
NYT указывает, что ИИ-обзоры точны в 90% случаев. Газета провела анализ функции совместно со стартапом Oumi, который сам разрабатывает модели искусственного интеллекта. Организация использовала для проверки AI Overviews бенчмарк SimpleQA от OpenAI, а также собственные ИИ-инструменты. Тест производительности включает более 4 тыс. вопросов с проверяемыми ответами, чтобы оценить выдачу модели.
Oumi начала тестирование в прошлом году, когда актуальной моделью Google была Gemini 2.5. Тогда тест представил точность в 85%. Когда испытание провели после релиза Gemini 3, AI Overviews отвечала правильно на 91% вопросов. Если связать этот процент со всеми запросами в поисковике Google, то станет ясно, что ИИ-обзоры генерируют десятки миллионов неверных ответов ежедневно.
В одном из примеров у AI Overviews попросили назвать дату, когда дом музыканта Боба Марли стал музеем. Функция сослалась на три страницы, две из которых не содержали этой даты. На последней странице, из «Википедии», есть два противоречащие другу года, но инструмент выбрал неверный.
Пресс-секретарь Google Нед Адрианс заявил, что SimpleQA содержит неверную информацию. Часто модели оценивают на аналогичном тесте под названием SimpleQA Verified, который использует меньший набор вопросов, прошедших более тщательную проверку. В исследовании NYT и Oumi есть серьёзные недостатки, оно не отражает того, что люди ищут в Google на самом деле, подчеркнул Адрианс.
Издание Ars Technica указывает, что оценка новых ИИ-моделей больше напоминает искусство, чем науку — это представляет собой проблему. У каждой компании есть свой предпочтительный метод демонстрации возможностей модели, а недетерминированная природа генеративного ИИ способна затруднить проверку. Oumi использует ИИ-инструменты для оценки, а модели в их основе также могут галлюцинировать.
В дополнение к этого, AI Overviews — это не монолитная модель. Google сообщила, что использует «правильную схема» для каждого запроса. ИИ-обзоры выдавали бы наилучшие ответы, если бы постоянно использовали Gemini 3.1 Pro, но это медленно и затратно. Для быстрой загрузки информации на страницу поиска опция применяет более быстрые модели Gemini Flash.
Год назад кулинарные блогеры обвинили AI Overviews в снижении трафика на свои сайты. ИИ-обзоры генерировали бессмысленные рецепты и ремиксы реальных рецептов, сопровождая их сгенерированными изображениями блюд. В некоторых случаях ИИ-обзоры содержали ссылки на реальные рецепты, но сам ответ содержал множество неточностей.
Читают сейчас

3 часа назад
«Проверка Тьюринга — игра во вранье, и ИИ в ней весьма хорош»: GPT-4.5 прошла расширенный «проверка на человека»
Блог Proceedings of the National Academy of Sciences опубликовал прошедшую рецензирование версию исследования Кэмерона Джонса и Бена Бергена из Калифорнийского университета в Сан-Диего — той самой раб
4 часа назад
СМИ: «Холдинг Т1 ведёт переговоры о покупке доли разработчика Astra Linux»
Холдинг «Т1» ведёт переговоры о приобретении крупнейшего разработчика операционных систем «Группы Астра». Об этом сообщило издание CNews со ссылкой на неназванные источники на ИТ‑рынке. Как рассказал

4 часа назад
Вице-президент Google предложил пари: ИИ не уничтожит рабочие места
Доля задач, которые может выполнять ИИ, стремительно растет — но доля профессий, которые можно автоматизировать полностью, застряла ниже 10%. Старший вице-президент Google и Alphabet Джеймс Маньика за

6 часов назад
Вышло мобильное программа Morse Code — Decode & Chat — мессенджер на азбуке Морзе
Представлено мобильное приложение под название Morse Code - Decode & Chat (App Store и Google Play). В соответствии с пояснению разработчиков, это мессенджер между смартфонами на азбуке Морзе. Читать

7 часов назад
«Сбер» запустил платформу GigaCowork для управления ИИ-агентами в бизнесе без участия разработчиков
«Сбер» открыл доступ к тестированию платформы GigaCowork для управления ИИ‑агентами в компаниях. Запуск 19 мая 2026 года представила компания «Салют для бизнеса» (входит в экосистему «Сбера» ) на конф