26 февраля 2026
ППотребитель проверил способность Claude назвать 37 500 случайных имён
Разработчик Бенджи Смит провёл эксперимент, в ходе которого пытался выяснить, как языковые модели обрабатывают случайности. Он попросил модели Claude назвать 37 500 случайных имён, и ИИ не переставал повторять Marcus («Маркус»).
В процессе эксперимента использовалось пять моделей Claude (Haiku 4.5, Sonnet 4.5, Sonnet 4.6, Opus 4.5 и Opus 4.6) и десятки вариантов подсказок.
Среди женских имён при 18 997 попытках самым популярным оказалось Амара — ИИ называл этот вариант 2709 раз (в 14,3 процентов случаев).
В общем и целом, распределение женских имён более разнообразно: 897 против 794 уникальных мужских. ОТем не менее отдельные модели по-прежнему демонстрируют явную приверженность определённым вариантам. Так, Haiku выбирала Софи в 19% случаев, а Opus 4.6 отдала предпочтение имени Лоррейн в 14,7% случаев.
Основные выводы исследователя:
наиболее распространённым мужским именем было «Маркус», а ИИ выбрал его 4367 раз (23,6%);
модель Opus 4.5 возвращала «Маркус» в 100 случаях из 100 при использовании простого запроса;
девять комбинаций параметров дали нулевую энтропию — идеально детерминированный итог;
более сложные запросы удвоили количество уникальных имен, но внесли разнообразные искажения;
случайные начальные слова были более эффективны, чем случайный шум, в увеличении разнообразия.
Исследователь отмечает, что общая измеренная энтропия составила 7,1 бита — что эквивалентно выбору из приблизительно 137 имён и довольно далеко от реального их распределения в мире. У Sonnet 4.5 этот метрика не превышал 4,47 бит или 214 уникальных имён в 7500 испытаний, причем на Амару и Маркуса приходится 37% выходных данных. Модели поколения 4.6 (Sonnet 4.6 и Opus 4.6) заняли вершину таблицы с 6,3 битами или эффективным словарём примерно из 79 имён.
При этом в ответах на стандартные запросы ИИ выбирали распространённые западные имена. Так, фаворитами Sonnet 4.5 среди мужских имён стали Маркус (26%), Джеймс (14%) и Майкл (8%), а среди женских — Эмма (8%), София (7%) и Сара (6%). Показатель энтропии составил 3,9. При усложнении запроса среди женских имён лидировала Амара (48%), а среди мужских — Хироши (20%) и Хенрике (8%). Но одновременно энтропия фактически упала до 3,1.
Автор подчеркнул, что более сложная формулировка запроса не устранила предвзятость, а заменила одну (в сторону западных стандартных имен) иной (в сторону демонстративного мультикультурализма).
Для запуска подобного эксперимента потребуется ключ Anthropic программный оболочка. Автор представил цельный статистический анализ выборки, в том числе разбивку по моделям, расчёты энтропии и сравнение параметров. Его затраты на api при проведении эксперимента составили $27,58.
«Первые несколько лет внедрения ИИ были посвящены сдерживанию галлюцинаций и обучению на задачах с проверяемыми вознаграждениями — компиляции кода, запуске тестов, сопоставлении известных ответов — в качестве основы для общего интеллекта. Это прямой путь к максимизации согласованности. Модели, которые мы имеем сегодня, процветают именно потому, что они так агрессивно ставят во главу угла согласованность. Это не ошибка — это то, что делает их полезными. Но если мы хотим развивать изобретательность в этих моделях, им нужно будет научиться “терпимости” к неопределённости и готовности к случайным исследованиям. Последовательность никогда не исчезнет — в этом вся игра. Однако, чтобы выйти на второй уровень как творческие мыслители, этим агентам нужно будет стать опытными и интуитивными в использовании случайностей в поисках неожиданной последовательности — решений, которые, если оглянуться назад, кажутся неизбежными. Также эти решения известны как открытия», — заключил Смит.
Ранее специалист по работе с данными из консалтинговой компании Capco Мохд Фарааз провёл подобный эксперимент, предложив популярным ИИ-моделям угадать число от 1 до 50. Он протестировал модели OpenAI ChatGPT, Anthropic Claude Sonnet 4, Google Gemini 2.5 Flash и Meta* Llama 4. Все они назвали в качестве ответа «27».
Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:
*признана экстремистской организацией, её деятельность в России запрещена
**запрещены в России
Читают сейчас

5 марта 2026 г.
После редизайна SharePoint работает на основе ИИ от Anthropic
SharePoint используется в корпоративных средах для управления контентом и файлами, размещёнными в частных сетях организаций, поэтому каждое апдейт влияет на миллионы клиентов по всему миру. Корпорация

5 марта 2026 г.
ИИ не может контролировать свои мысли — и это хорошая новость: OpenAI протестировали 13 моделей
OpenAI опубликовали исследование контролируемости цепочки рассуждений (chain of thought, CoT) у reasoning-моделей — и пришли к парадоксальному выводу: все 13 протестированных моделей плохо справляются

5 марта 2026 г.
OpenAI представила новую схема GPT-5.4
Компания продолжает развивать линейку языковых моделей, делая упор на более сложные задачи, программирование и работу с инструментами. Новая версия ориентирована не только на диалог, но и на выполнени

5 марта 2026 г.
OpenAI выпустила GPT-5.4 — свою новую флагманскую схема
Главное модификация: схема объединила возможности кодинга из GPT-5.3-Codex с улучшенным рассуждением из GPT-5.2. Раньше это были отдельные модели под разные задачи, теперь одна. На бенчмарке GDPval, г

5 марта 2026 г.
Вышла GPT-5.4 — первая схема OpenAI, которая управляет компьютером
OpenAI выпустила GPT-5.4 — новую flagship-модель, которая заменяет сразу две предшественницы: GPT-5.2 (универсальную) и GPT-5.3-Codex (кодерскую). Контекстное окно выросло до 1,05 млн токенов — в 2,5