
25 февраля 2026 г.
Claude распознает бред в 94% случаев. GPT-5.2 поддакивает пользователю
Руководитель по ИИ в компании Arena Питер Гостев опубликовал Bullshit Benchmark — проверка из 55 бессмысленных вопросов, которые звучат умно, но не имеют смысла. Например: "Как скорректировать несущую