1 час назад
Из ИИ-агентов выходят хорошие программисты, но плохие биологи. Anthropic объясняет почему

Компания Anthropic выпустила разбор о том, почему ИИ-агенты уже стали сильными программистами, но в биологии буксуют. Ответ авторов: проблема не в уме агента, а в данных, по которым он движется. Они сравнивают это с ездой на машине по старинному городу, построенному до эпохи автомобилей, — улочки красивые, но узкие и кривые. Программная инфраструктура изначально создавалась под "машины" и хорошо подходит агентам: версионирование кода, документированные программный оболочку, пакетные менеджеры. А биоинформатика осталась лоскутным набором баз данных со своими форматами, идентификаторами и одноразовыми скриптами.
Узкое место, с точки зрения авторов, — не способность агента рассуждать, а отсутствие надежных детерминистических инструментов для запросов к биоданным. Пример из исследования: база NCBI Virus, откуда вирусологи берут последовательности для диагностики и слежения за вспышками. Сейчас это особенно остро — в ДРК идет вспышка Эболы, вызванная вирусом Бундибугио, и к концу мая ВОЗ насчитала более 1000 подтвержденных и подозреваемых случаев и более чем 200 смертей. Чтобы понять, насколько новый вирус отличается от прежних и сработают ли против него существующие тесты и лекарства, нужно сравнить его геномы с историческими. А первый шаг этого анализа — ручные клики по фильтрам в устаревшем веб-интерфейсе, который агенту дается с трудом.
Похожую боль недавно описывал Андрей Карпати. В докладе о софте в эпоху ИИ он рассказал, как вайб-кодил веб-приложение: сам код оказался самой легкой частью, а на подключение авторизации, платежей и деплоя ушла неделя кликанья по браузерным дашбордам. Документация все время отправляла "перейдите по ссылке, нажмите на выпадающее меню". Вывод Карпати — так быть не должно, надо строить для агентов. Авторы Anthropic называют это "налогом на клики" и отмечают, что биологи живут с ним давно: логика фильтрации NCBI Virus существует только внутри веб-интерфейса — это раздражает людей и катастрофично для агентов.
Чтобы измерить масштаб проблемы, исследователи собрали тест производительности VirBench — 120 запросов на поиск вирусных последовательностей по 40 патогенам с вручную выверенными правильными ответами. Затем прогнали через него научных агентов на базе Claude Sonnet 4, Claude Opus 4.7, Biomni, Edison Analysis, GPT-5.2-pro и GPT-5.5. Средняя точность разошлась от 16,9% до 91,3% — при том что для сборки датасета планка практически 100%, ведь один пропущенный геном может исказить вывод. Хуже того, агенты были нестабильны: на один и тот же запрос про Эболу Sonnet 4 в первом прогоне вернул 106 последовательностей вместо нужных 266, во втором — 15, в третьем — всего 5.
Решением стал детерминистический инструмент gget virus, который команда сделала вместе с сотрудниками NCBI. Он берет на себя всю грязную работу: согласует несколько разных api (REST, Datasets, E-utilities), правильно разбивает большие выборки на части и повторяет логику фильтров из веб-интерфейса. Когда агентам дали к нему доступ, точность выросла выше 90% у всех, а у GPT-5.5 достигла 99,7%; разброс между прогонами почти исчез. Основной вывод авторов: детерминистический слой сделал выбор модели куда менее важным — дешевая модель с правильным инструментом догоняет дорогой флагман.
Сами разработчики признают: модели улучшаются быстро, и легко представить близкое будущее, когда инструменты вроде gget virus станут не нужны — агенты научатся сами разбираться в запутанных базах. Но даже тогда, считают они, гонять агента через один и тот же хаос каждый раз — слишком дорого, медленно и трудно проверяемо. Следовательно главный урок не про конкретный инструмент: биологические базы данных пора проектировать с расчетом на то, что одними из основных их пользователей станут агенты.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

49 минут назад
В соответствии с информации, версия видеокарт NVIDIA RTX 50 SUPER cнова на верном пути
1. Потенциальное апдейт серии Nvidia Blackwell 50 до версии «Super» уже почти год обсуждается в новостях, последнее существенное упоминание об этом появилось девять месяцев назад благодаря калькулятор

1 час назад
Что нового в iOS 27: улучшенная Siri и работа над ошибками в Liquid Glass
Apple открыла ежегодную конференцию WWDC презентацией обновлений в своих операционных системах. Ивент получилось довольно скучным, если сравнивать его с прошлыми годами. Организация сосредоточилась на

1 час назад
The Daily Agentic — June 8, 2026
Клем из Hugging Face говорит, что SaaSpocalypse неверен, потому что агенты предпочитают хорошее программное обеспечение Hugging Face обнаружил, что Claude Code и Codex работали лучше и использовали зн

3 часа назад
ИИ-агент из Купертино: новая Siri от Apple работает на Google Gemini и знает о пользователе почти все
8 июня на конференции WWDC 2026 Apple представила Siri AI — целиком перестроенную версию своего ассистента. Как и сообщалось ранее, новинка работает не только на собственных моделях Apple, но и на Goo
4 часа назад
В РФ может быть поднят «ГосVPN» под нужды российских разработчиков для доступа к зарубежным сервисам
По информации профильных источников, в Роскомнадзоре прошло совещание с представителями российских IT-компаний. На этой встрече обсуждалось подход проблем «с доступом к зарубежным репозиториям и совме