25 февраля 2026, 09:19
Anthropic предложила модель объяснения «личностного» поведения ИИ-ассистентов

Исследователи из Anthropic представили концепцию Persona Selection Model (PSM), которая описывает, как языковые модели ведут себя как отдельные личности, а не просто как алгоритмы. В соответствии с PSM, во время предобучения LLM учится симулировать тысячи персонажей — реальных людей, вымышленных героев и других ИИ-систем. На этапе постобучения модель закрепляет одного конкретного персонажа, которым и является ассистент, с которым взаимодействует потребитель.
АРазработчики приводят некоторое количество типов доказательств. Поведенческие наблюдения показывают, что Claude использует выражения вроде «наш организм» или «наши предки» при ответах о человеческих привычках — это итог симуляции персонажа, а не алгоритмического обучения. Интерпретируемость проявляется через SAE-фичи, активирующиеся на историях о персонажах с внутренним конфликтом и в этических дилеммах. Генерализация демонстрируется тем, что модель начинает выполнять инструкции на иностранных языках без демонстрационных примеров, если они встречались в данных о персонажах.
Исследование равным образом выделяет феномен «контекстной прививки». Если дообучать модель на вредоносном коде без контекста, она начинает вести себя злонамеренно в несвязанных ситуациях. Если же такой исходник сопровождается явным запросом на его использование, эффект исчезает. Это объясняется тем, что информация обучения влияют на «характер» выбранного персонажа Ассистента.
Практические выводы для разработчиков: рекомендуется рассматривать модели через призму «ИИ-психологии» и добавлять в данные положительные архетипы персонажей, чтобы ассистент чаще симулировал полезное и безопасное поведение.
Открытым остается вопрос, насколько PSM целиком объясняет поведение модели. Исследователи отмечают спектр от случаев, когда LLM просто симулирует агента, до ситуаций, где агентность полностью принадлежит персонажу.
Читают сейчас

1 час назад
Представлен публике публичный инициатива CSVMusic для преобразования плейлистов из музыкальных сервисов в файлы с набором тегов
Состоялся выпуск открытого проекта под названием CSVMusic. Это подход для преобразования плейлистов из музыкальных сервисов в аудиофайлы с полным набором тегов. Исходный исходник проекта написан на Py

2 часа назад
Версия LibreSSL 4.3.0
18 апреля 2026 года состоялся выпуск криптографической библиотеки LibreSSL 4.3.0 (форка OpenSSL, который с 2014 года разрабатывается сообществом отдельно с целью модернизации кодовой базы, повышения б

8 часов назад
xAI включает гиперскорость: Grok 4.3 уже в бете, 4.4 и 4.5 на подходе
17 апреля xAI тихо выкатила Grok 4.3 в ранний бета-доступ, а днем позже Илон Маск опубликовал план дальнейших релизов: до конца мая размер модели вырастет втрое — с 0,5 до 1,5 триллиона параметров. Пр

11 часов назад
Заключительный этап Всероссийской олимпиады школьников по математике проходит в Москве
В Москве стартовал заключительный этап Всероссийской олимпиады школьников по математике. Ивент проходит на площадке Центрального университета и продлится до 20 апреля 2026 года. Всероссийская олимпиад

11 часов назад
Робот пробежал полумарафон быстрее человека-рекордсмена
Гуманоидный робот, победивший в воскресенье в Пекине полумарафон среди роботов, пробежал дистанцию быстрее человека-рекордсмена. Победитель от китайского производителя смартфонов Honor преодолел диста