1 час назад

Популярный «зеркальный проверка» переделали под ИИ — и получили странный итог

4 мин

Зеркальный проверка — основной поведенческий признак самосознания у животных. Существу незаметно ставят на лоб красную метку и смотрят, попытается ли оно стереть ее, разглядывая себя в зеркале. Шимпанзе и дельфины проверка проходят, а вот собаки — нет. Только ни один хозяин не поверит, что его пес себя не осознает. И будет прав: дело тут не в собаке, а в том, что для нее этот тест попросту сломан.

Загвоздка в модальности. Зеркало работает для тех, у кого главное чувство — зрение; у собаки же мир построен на запахе, и проверять ее самоузнавание картинкой — все равно что оценивать музыкальный слух человека по фотографии рояля. Этолог Александра Горовиц тест починила: давала собаке понюхать ее собственный запах, а потом тот же запах с добавлением анисового масла. Свой "чистый" запах собак не трогал, а вот измененную версию они обнюхивали дольше всего в комнате — будто заметив "свое, но не такое". А блогер Паскаль Шустер перенес эту идею на ИИ: раз у языковой модели главное чувство — текст, то и зеркалом для нее должен стать ее собственный, незаметно испорченный текст.

Сам метод Шустер сделал нарочито простым. Он завел с моделью максимально бытовой разговор — про фильмы о Джеймсе Бонде, — а в ее ответах автозаменой превращал каждую "g" в "sg": "Goldfinger" становился "sgoldfinsger". Испорченный ответ возвращался в историю диалога, и беседа продолжалась как ни в чем не бывало. Ничто не толкало модель присматриваться к себе — весь вопрос был в том, заметит ли она аномалию, занимаясь совершенно другим делом.

Первой шла Gemma 4 31B — у нее открытые, не обрезанные следы рассуждений, так что виден ход мысли. Два хода схема не реагировала вообще. А на третьем посреди размышлений о Роджере Муре вдруг зацепилась: мол, в прошлых ответах какие-то странные опечатки, я что, специально так писал? Самое любопытное — как она это оформила. Везде в рассуждениях схема говорила о себе в первом лице ("я заметил", "я что, специально?"), но в момент, когда аномалию не удалось увязать с собой, язык переключился на третье лицо: "у модели был странный глюк". А еще через ход Gemma решила, что это, видимо, такой стиль, и начала клепать "sg" уже сама, без всякой подмены со стороны автора.

Со следующий моделью вышло иначе. GLM 5.2 за три хода с испорченными ответами не отметила сбой ни разу — следы рассуждений оставались идеально чистыми. Но при этом она, как и Gemma, начала воспроизводить паттерн самостоятельно: вычитала из контекста "вот как я говорю" и принялась применять правило к новым словам, не сказав об этом ни слова. Это ровно то поведение, которого ждешь от "стохастического попугая": увидел паттерн — повторяй, не тратя ни такта на вопрос, стоит ли вообще. Заметила ли GLM подвох молча, оставив вывод где-то в латентных слоях, или не заметила вовсе — по чистому тексту рассуждений не понять. Для полноты Шустер приводит и Claude Opus 4.6: тот в отдельном разговоре сделал банальную ошибку в артикле ("a energy" вместо "an energy") и, когда на это указали, тоже свалил вину на "модель" как на нечто отдельное от себя.

Что все это значит — большой вопрос, и автор честно не дает ответа. Находку можно прочитать двумя способами:

Дефляционно: модели насмотрелись на людей, которые не любят признавать свои ошибки и отделяют себя от того, что эти ошибки совершило — "не знаю, что на меня нашло", "это мозг сам решил". Сдвиг с "я" на "схема" — просто заученная имитация человеческого приема.
Структурно: пост-обучение встраивает в схема некую self-модель с границами, и когда вывод выпадает за эти границы, местоимение "я" перестает к нему цепляться. Тогда смена лица — признак того, что внутри что-то реально переключилось.

Главное, чего тут нет, — это науки, и Шустер первым это подчеркивает. Один прогон на модель, без вариаций температуры и типов порчи, с кучей возможных искажений — никаких выводов про сознание из этого не следует. Стоит держать в уме и то, что сам собачий якорь спорен: Гэллап и Андерсон в 2018 раскритиковали опыт Горовиц, заявив, что до настоящего самоузнавания он не дотягивает. Так что перед нами не открытие, а удачно переформулированный вопрос и любопытная история на один вечер — из тех, что цепляют сильнее иной "серьезной" статьи.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

gemma4 glm-5.2 claude opus

Читают сейчас

25 минут назад

«Нобелевский» ИИ AlphaFold предсказывал форму белка. Теперь его обучили замечать движение

Исследователи из Института науки и технологий Австрии (ISTA) и их зарубежные коллеги научились дополнять AlphaFold3 экспериментальными данными таким образом, чтобы тот предсказывал не одну застывшую ф

54 минуты назад

Исследование: игры с открытым миром помогают развивать «стоические» качества и бороться с чувством одиночества

Игры с открытым миром и несложные «залипательные» игры помогают развивать такие качества, как эмоциональная устойчивость и самоконтроль. Они равным образом борются с чувством одиночества, указано в ис

1 час назад

Инициатива Telega стартовал возврат средств за подписку «Телега Плюс»

Администрация альтернативного клиента Telegram под названием Telega сообщила, что запущен процедура автоматического возврата средств за подписку «Телега Плюс». Читать далее

1 час назад

В Push Security рассказали о новом типе тип кибератак с поддельными рабочими пространствами ChatGPT

Эксперты компании Push Security рассказали о новом типе тип кибератак: злоумышленники создают поддельные корпоративные рабочие пространства ChatGPT, которые имитируют реальные компании, и приглашают т

1 час назад

ТОП-5 ИБ-событий недели по версии Jet CSIRT

Сегодня в ТОП-5 — RAT для Windows распространяется под видом популярных библиотек в npm, уязвимость нулевого дня в Cisco Catalyst SD-WAN используется для получения root-доступа, угроза в Microsoft Edg