
5 марта 2026 г.
Gemini 3 Flash поставили управлять кафе. Она прокричала «погнали!» 574 раза и обанкротилась
Авторы FoodTruck Bench — агентного бенчмарка, в котором ИИ-модели 30 дней управляют фудтраком в Остине, — обнаружили, что Gemini 3 Flash Preview не способна пройти симуляцию. В 5 из 7 запусков модель

26 февраля 2026 г.
Учёные провели симуляцию геополитических конфликтов с нейросетями вместо государств, всё закончилось ядерной войной
Королевский колледж Лондона провёл исследование, в контексте которого симулировал геополитические конфликты, где вместо государств использовались популярные нейросети. ИИ мог выбирать любые инструмент