Anthropic предложила модель объяснения «личностного» поведения ИИ-ассистентов

2 мин
Anthropic предложила модель объяснения «личностного» поведения ИИ-ассистентов


Исследователи из Anthropic представили концепцию Persona Selection Model (PSM), которая описывает, как языковые модели ведут себя как отдельные личности, а не просто как алгоритмы. В соответствии с PSM, во время предобучения LLM учится симулировать тысячи персонажей — реальных людей, вымышленных героев и других ИИ-систем. На этапе постобучения модель закрепляет одного конкретного персонажа, которым и является ассистент, с которым взаимодействует потребитель.

АРазработчики приводят некоторое количество типов доказательств. Поведенческие наблюдения показывают, что Claude использует выражения вроде «наш организм» или «наши предки» при ответах о человеческих привычках — это итог симуляции персонажа, а не алгоритмического обучения. Интерпретируемость проявляется через SAE-фичи, активирующиеся на историях о персонажах с внутренним конфликтом и в этических дилеммах. Генерализация демонстрируется тем, что модель начинает выполнять инструкции на иностранных языках без демонстрационных примеров, если они встречались в данных о персонажах.

Исследование равным образом выделяет феномен «контекстной прививки». Если дообучать модель на вредоносном коде без контекста, она начинает вести себя злонамеренно в несвязанных ситуациях. Если же такой исходник сопровождается явным запросом на его использование, эффект исчезает. Это объясняется тем, что информация обучения влияют на «характер» выбранного персонажа Ассистента.

Практические выводы для разработчиков: рекомендуется рассматривать модели через призму «ИИ-психологии» и добавлять в данные положительные архетипы персонажей, чтобы ассистент чаще симулировал полезное и безопасное поведение.

Открытым остается вопрос, насколько PSM целиком объясняет поведение модели. Исследователи отмечают спектр от случаев, когда LLM просто симулирует агента, до ситуаций, где агентность полностью принадлежит персонажу.

Читают сейчас

Вышло апдейт RapidRAW 1.5.6 — открытого редактора изображений RAW

22 минуты назад

Вышло апдейт RapidRAW 1.5.6 — открытого редактора изображений RAW

В начале июня 2026 года состоялся выпуск обновления открытого мультиплатформенного редактора изображений RapidRAW 1.5.6 с улучшенным экспериментальным релизом для планшетов на Android. Проект предлага

Выпуск BATorrent 3.0 — легковесного BitTorrent-клиента, созданного на C++, Qt 6 и libtorrent-rasterbar

4 часа назад

Выпуск BATorrent 3.0 — легковесного BitTorrent-клиента, созданного на C++, Qt 6 и libtorrent-rasterbar

В начале июня 2026 года состоялся третий мажорный выпуск открытого проекта BATorrent — легковесного BitTorrent‑клиента, созданного на C++, Qt 6 и libtorrent‑rasterbar. Версия BATorrent 1.0 состоялся в

4 часа назад

MAX удалили из App Store

Мессенджер MAX пропал из App Store. Просто в один момент В среду, 3 июня, кто-то из пользователей iOS заметил странное: отечественный мессенджер "Макс" не ищется в App Store. Вообще. Ни через поиск, н

Версия обновления открытого проекта RustDesk 1.4.7

4 часа назад

Версия обновления открытого проекта RustDesk 1.4.7

В начале июня 2026 года состоялся версия открытого мультиплатформеного проекта RustDesk 1.4.7. Это приложение для удалённого рабочего стола, разработанное для самохостинга в качестве альтернативы Team

️ Anthropic разобрала 832 аккаунта, заблокированных за вредоносную активность с марта 2025 по март 2026 года

4 часа назад

️ Anthropic разобрала 832 аккаунта, заблокированных за вредоносную активность с марта 2025 по март 2026 года

⚡️ Anthropic разобрала 832 аккаунта, заблокированных за вредоносную активность с марта 2025 по март 2026 года. ИИ всё чаще используют не для банального фишинга, а для сложных этапов атаки уже внутри в