Проверка Fail2Drive представил, что автопилоты не готовы к хаосу – слонам на дороге

1 мин
Проверка Fail2Drive представил, что автопилоты не готовы к хаосу – слонам на дороге

Исследователи из Тюбингенского университета решили, что симуляции для автопилотов недостаточно безумны, и представили тест производительности Fail2Drive. Теперь виртуальные водители исследуют сценарии, в которых на дорогу выходит слон, посреди перекрёстка торчит детская горка, а стену разрисовали под уходящий вдаль асфальт. Последняя уловка уже ставила в тупик реальные автопилоты Tesla.

“Почему слон перешёл дорогу? Чтобы показать, насколько хрупка ваша модель”, – пишет Андреас Гайгер, глава группы Autonomous Vision и соавтор препринта.

На кадрах, которые выложили разработчики, виртуальный беспилотник сворачивает прямо в гигантского зверя и сбивает его. В другом тесте машина сначала останавливается перед детской горкой, стоящей на проезжей части, а потом таранит её. Ещё один ИИ-водитель на всём ходу влетает в припаркованную пожарную машину, даже не попытавшись затормозить.

Fail2Drive – как раз про то, чтобы выбить алгоритмы из зоны комфорта. Бенчмарк внедряет в публичный симулятор CARLA (которым активно пользуется индустрия) ворох так называемых out-of-distribution-сценариев – тех самых “невиданных” и по-настоящему случайных. Итог не заставил себя ждать: когда команда Гайгера прогнала через Fail2Drive существующие модели автономного вождения, средний процент успешных заездов рухнул на 22,8%. “Это подсвечивает фундаментальные опасения по поводу надёжности современных подходов”, – резюмирует учёный.

Читают сейчас

В НАСА собрались починить роборуку на МКС

1 час назад

В НАСА собрались починить роборуку на МКС

Один из манипуляторов космической станции, играющий ключевую роль в захвате грузовых кораблей и выполнении ряда задач по техническому обслуживанию, выведен из строя и его ремонт займёт как минимум нек

Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил свежий тест производительности Agent Arena

2 часа назад

Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил свежий тест производительности Agent Arena

Платформа Arena (бывшая LMArena) опубликовала обновленные результаты Agent Arena — нового лидерборда, который оценивает модели по тому, как они справляются с реальными рабочими задачами в агентском ре

5 часов назад

Наталья Касперская раскритиковала производительность блокировок и работу Роскомнадзора

В своём Telegram‑канале председатель совета директоров группы компаний (ГК) InfoWatch Наталья Касперская рассказала о встрече представителей компаниями‑разработчиками программного обеспечения и Федера

The Daily Agentic — June 11, 2026

6 часов назад

The Daily Agentic — June 11, 2026

Stack Overflow хочет решить проблему забывчивости ИИ-агентов с помощью общей памяти Новая платформа знаний с api-first, созданная специально для ИИ-агентов, включает типы контента, удобные для них, ра

8 часов назад

Запред комитета Госмдумы по информполитике Telegram назвали главным кандидатом на возврат в Россию по примеру Roblox

Заместитель председателя комитета Госдумы по информационной политике, информационным технологиям и связи Андрей Свинцов объявил, что мессенджер Telegram может восстановить полноценную работу в России