8 июня 2026, 23:54

Из ИИ-агентов выходят хорошие программисты, но плохие биологи. Anthropic объясняет почему

3 мин

Компания Anthropic выпустила разбор о том, почему ИИ-агенты уже стали сильными программистами, но в биологии буксуют. Ответ авторов: проблема не в уме агента, а в данных, по которым он движется. Они сравнивают это с ездой на машине по старинному городу, построенному до эпохи автомобилей, — улочки красивые, но узкие и кривые. Программная инфраструктура изначально создавалась под "машины" и хорошо подходит агентам: версионирование кода, документированные программный оболочку, пакетные менеджеры. А биоинформатика осталась лоскутным набором баз данных со своими форматами, идентификаторами и одноразовыми скриптами.

Узкое место, с точки зрения авторов, — не способность агента рассуждать, а отсутствие надежных детерминистических инструментов для запросов к биоданным. Пример из исследования: база NCBI Virus, откуда вирусологи берут последовательности для диагностики и слежения за вспышками. Сейчас это особенно остро — в ДРК идет вспышка Эболы, вызванная вирусом Бундибугио, и к концу мая ВОЗ насчитала более 1000 подтвержденных и подозреваемых случаев и более чем 200 смертей. Чтобы понять, насколько новый вирус отличается от прежних и сработают ли против него существующие тесты и лекарства, нужно сравнить его геномы с историческими. А первый шаг этого анализа — ручные клики по фильтрам в устаревшем веб-интерфейсе, который агенту дается с трудом.

Похожую боль недавно описывал Андрей Карпати. В докладе о софте в эпоху ИИ он рассказал, как вайб-кодил веб-приложение: сам код оказался самой легкой частью, а на подключение авторизации, платежей и деплоя ушла неделя кликанья по браузерным дашбордам. Документация все время отправляла "перейдите по ссылке, нажмите на выпадающее меню". Вывод Карпати — так быть не должно, надо строить для агентов. Авторы Anthropic называют это "налогом на клики" и отмечают, что биологи живут с ним давно: логика фильтрации NCBI Virus существует только внутри веб-интерфейса — это раздражает людей и катастрофично для агентов.

Чтобы измерить масштаб проблемы, исследователи собрали тест производительности VirBench — 120 запросов на поиск вирусных последовательностей по 40 патогенам с вручную выверенными правильными ответами. Затем прогнали через него научных агентов на базе Claude Sonnet 4, Claude Opus 4.7, Biomni, Edison Analysis, GPT-5.2-pro и GPT-5.5. Средняя точность разошлась от 16,9% до 91,3% — при том что для сборки датасета планка практически 100%, ведь один пропущенный геном может исказить вывод. Хуже того, агенты были нестабильны: на один и тот же запрос про Эболу Sonnet 4 в первом прогоне вернул 106 последовательностей вместо нужных 266, во втором — 15, в третьем — всего 5.

Решением стал детерминистический инструмент gget virus, который команда сделала вместе с сотрудниками NCBI. Он берет на себя всю грязную работу: согласует несколько разных api (REST, Datasets, E-utilities), правильно разбивает большие выборки на части и повторяет логику фильтров из веб-интерфейса. Когда агентам дали к нему доступ, точность выросла выше 90% у всех, а у GPT-5.5 достигла 99,7%; разброс между прогонами почти исчез. Основной вывод авторов: детерминистический слой сделал выбор модели куда менее важным — дешевая модель с правильным инструментом догоняет дорогой флагман.

Сами разработчики признают: модели улучшаются быстро, и легко представить близкое будущее, когда инструменты вроде gget virus станут не нужны — агенты научатся сами разбираться в запутанных базах. Но даже тогда, считают они, гонять агента через один и тот же хаос каждый раз — слишком дорого, медленно и трудно проверяемо. Следовательно главный урок не про конкретный инструмент: биологические базы данных пора проектировать с расчетом на то, что одними из основных их пользователей станут агенты.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

anthropic Claude Opus GPT-5.5

Читают сейчас

46 минут назад

Вышел Visual Studio Code 1.130: отдельный процедура для ИИ-агентов и упрощённая тест правок

Microsoft выпустила Visual Studio Code 1.130. Основные изменения затронули работу с ИИ-агентами: их сессии постепенно переносят в отдельный процедура, а оболочку просмотра сгенерированных изменений сд

1 час назад

Датамайнеры обнаружили эмулятор Xbox 360, скрытый в контексте обратной совместимости оригинальной Xbox с ПК

Во второй половине июля Microsoft объявила о запуске программы обратной совместимости Xbox Backward Compatibility on PC, которая позволяет запускать игры с оригинальной Xbox на ПК и портативных устрой

1 час назад

OpenAI сделала ChatGPT Health доступным для всех пользователей в США

OpenAI объявила о полном запуске сервиса ChatGPT Health в США. Теперь воспользоваться им могут все авторизованные пользователи старше 18 лет нев зависимости от тарифа — Free, Go, Plus или Pro. Функция

1 час назад

Selectel дарит домены новым клиентам VDS

При аренде VDS в Selectel до 30 сентября 2026 года все новые клиенты могут получить в подарок адрес сайта в зоне .ru или .рф. Подробности под катом. Читать далее

1 час назад

Евросоюз ввёл санкции против банков WB, Ozon, «Яндекса», МТС и десятков других финансовых организаций

Евросоюз согласовал и утвердил 21-й пакет санкций против России, они коснутся сфер финансов, энергетики, торговли и криптовалюты, заявил глава Европейского совета Антониу Кошта. В соответствии с публи