19 мая 2026, 20:38
ИИ собрал рабочую ОС за 12 часов: представлена Gemini 3.5 Flash

На конференции I/O 2026 Google показал новое семейство моделей Gemini 3.5. Первой вышла младшая релиз — 3.5 Flash, и компания сразу назвала ее своей сильнейшей моделью для агентов и кодинга. Но посмотрим на бенчмарки.
Где 3.5 Flash действительно вне конкуренции — это агентские задачи и работа с инструментами. На MCP Atlas (многошаговые сценарии через внешние инструменты) она набирает 83,6%, обходя и Claude Opus 4.7, и GPT-5.5. На Finance Agent v2 — 57,9% против примерно 51% у обоих конкурентов и 43% у своего же 3.1 Pro. Сильна она и в мультимодальности: 83,6% на MMMU-Pro и 84,2% на CharXiv — лучшие результаты в таблице. По кодингу Flash обгоняет 3.1 Pro (76,2% против 70,3% на Terminal-Bench 2.1), но здесь ее уже опережает GPT-5.5 с 78,2%.
А вот в глубоком рассуждении и длинном контексте картина обратная. На академическом тесте Humanity's Last Exam новая Flash набирает 40,2% — меньше, чем прошлый флагман 3.1 Pro (44,4%) и Claude Opus 4.7 (46,9%). На головоломках ARC-AGI-2 — 72,1% против 77,1% у 3.1 Pro. На GDPval-AA, где модели сравнивают по Elo-рейтингу как шахматистов на экономически ценной работе, у Flash 1656 — ниже, чем у Claude Sonnet 4.6 (1676), Opus 4.7 (1753) и GPT-5.5 (1769). Логика простая: это скоростной агентский "рабочий конь", а не чемпион по сложным размышлениям.
Зато по скорости разрыв огромный. По замерам независимого сервиса Artificial Analysis, 3.5 Flash выдает 289 токенов в секунду — больше чем вчетверо быстрее Claude Opus 4.7 (67 токенов/с) и GPT-5.5 (71), и вдвое быстрее самого Gemini 3.1 Pro (135). Одновременно по общему индексу интеллекта Artificial Analysis модель держится вровень с 3.1 Pro и Claude Opus 4.7. Все это, по словам Google, за долю стоимости конкурентов.
Самую наглядную демонстрацию организация показала на своей агентской платформе Antigravity — среде, где ИИ-агенты пишут исходник самостоятельно. Google поручил агентам на Antigravity 2.0 и Gemini 3.5 Flash собрать работающую операционную систему с нуля. Итог: 12 часов работы, 93 параллельных субагента, больше 15 тысяч обращений к модели, 2,6 млрд обработанных токенов — и меньше чем на $1000 кредитов программный интерфейс. Агенты написали каждую строку кода сами: от ядра до системы управления процессами и памятью. Вместе с моделью Google увеличил саму Antigravity: появились консольная релиз и SDK, нативная поддержка голоса через аудиомодели Gemini, десктопное приложение Antigravity 2.0 и интеграции с Google AI Studio, Android, Firebase и вебом.
3.5 Flash уже раскатывается всем пользователям в приложении Gemini и в AI-режиме Поиска Google, а разработчикам доступна через Antigravity и Gemini программный интерфейс. Старшая Gemini 3.5 Pro уже проходит внутреннее тестирование в Google и ожидается в пределах месяца.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

5 минут назад
«Не сетка»: ИИ впервые в истории сам решил центральную проблему геометрии
OpenAI сообщила, что ее внутренняя схема опровергла гипотезу Эрдёша 1946 года о единичных расстояниях — одну из самых известных задач комбинаторной геометрии. Это первый случай, когда центральная откр
1 час назад
СМИ: «Минпромторг РФ хочет привлечь экспертов ВНИИР к проверке процессоров „Иртыш“ для попадания в реестр»
Издание Cnews сообщило, что Минпромторг РФ потребовал привлечь дополнительных экспертов к проверке новых процессоров «Иртыш» российского разработчика «Трамплин электроникс». По мнению ведомства, испол

1 час назад
GitHub Mobile теперь даёт возможность разрабатывать новые проекты прямо с устройств на iOS и Android
GitHub Mobile главным образом использовался для просмотра существующих репозиториев. Теперь пользователи мобильного приложения могут создавать новые проекты прямо со своих устройств на iOS и Android.

2 часа назад
«Уэбб» обнаружил одну из первых галактик Вселенной
Учёные сумели разглядеть галактику в том виде, в каком она существовала 13 миллиардов лет назад, всего через 800 миллионов лет после Большого взрыва. Они надеются найти свидетельства существования пер

3 часа назад
Представлен публике цифровой музей, в котором собраны практически все возможные операционные системы (570 штук)
В открытом доступе представлен в интернете инициатива виртуального музея с несколькими сотнями операционных систем, которые когда-либо выходили. Виртуальный археолог собирал эту коллекцию 23 года. Для