Claude Mythos: Anthropic случайно слила информация о своей мощнейшей модели

2 мин
Claude Mythos: Anthropic случайно слила информация о своей мощнейшей модели

Anthropic разрабатывает и уже тестирует с доверенными клиентами новую ИИ-модель, которую называет самой мощной в своей истории. О ее существовании выяснилось из-за утечки данных: черновик блог-поста с описанием модели оказался в публично доступном память, откуда его извлекли журналисты Fortune и независимые исследователи — Рой Паз из LayerX Security и Александр Повельс из Кембриджского университета.

Модель получила название Claude Mythos, а вместе с ней Anthropic вводит новый уровень — Capybara. По задумке компании, Capybara крупнее и мощнее Opus, который до сих пор был верхней планкой линейки Claude. В слитом черновике говорится, что модель значительно превосходит Claude Opus 4.6 в тестах на программирование, академические рассуждения и кибербезопасность. Представитель Anthropic подтвердил Fortune разработку модели и назвал ее "качественным скачком возможностей".

Главная интрига — кибербезопасность. Согласно черновику, Anthropic считает, что схема далеко опережает все существующие ИИ-системы по кибервозможностям и предвещает волну моделей, способных эксплуатировать уязвимости быстрее, чем защитники успевают их закрывать. Именно поэтому организация планирует начать с ограниченного доступа для организаций, занимающихся киберзащитой, — чтобы дать им фору.

Утечка произошла в связи с ошибки конфигурации CMS — системы управления контентом для блога Anthropic. Создаваемые в ней материалы по умолчанию получали публичный URL, если пользователь не менял настройку приватности вручную. В итоге наружу попали около 3000 ранее не публиковавшихся файлов: черновики постов, изображения, PDF-документы — включая информацию о закрытом саммите для европейских CEO с участием Дарио Амодеи. Anthropic признала проблему, назвав ее "человеческой ошибкой", и подчеркнула, что утечка не связана с Claude или другими ИИ-инструментами компании.

Тревога вокруг кибервозможностей ИИ нарастает по всей индустрии. В феврале OpenAI при выпуске GPT-5.3-Codex впервые присвоила своей модели рейтинг High по кибербезопасности, а Claude Opus 4.6, вышедший в тот же день, уже демонстрировал способность обнаруживать ранее неизвестные уязвимости в рабочем коде. В ноябре 2025 года Anthropic раскрыла первую задокументированную масштабную кибератаку с использованием ИИ: китайская группировка применяла Claude Code для атак на приблизительно 30 организаций, и ИИ автономно выполнял 80–90% операций. Claude Mythos, судя по всему, делает второй шаг — и Anthropic сама об этом предупреждает, пусть и не совсем так, как планировала.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

«Евклид» сделал рекордный снимок центра Млечного Пути, сияющего, как россыпь бриллиантов

34 минуты назад

«Евклид» сделал рекордный снимок центра Млечного Пути, сияющего, как россыпь бриллиантов

Космический телескоп «Евклид» сделал самый крупный и детализированный снимок плотно заселённого центра нашей Галактики — ослепительное изображение, на котором запечатлено 60 миллионов звёзд. Новый сни

49 минут назад

Стратегию развития цифровых платформ подготовят к февралю 2027 года с участием 11 министерств и РЭЦ

Премьер-министр России Михаил Мишустин поручил подготовить стратегию развития цифровых платформ, в том числе с участием государства. Документ должен быть готов к началу февраля 2027 года, сообщили в п

1 час назад

Подача судебных исков к Apple в связи с удаления приложений из AppStore не имеет юридических и практических перспектив

По информации СМИ и пояснению юриста адвокатского бюро «Ольга Ренова и партнёры» Ярослава Ковалёва, подача судебных исков к американской корпорации Apple из-за удаления мобильных приложений из магазин

1 час назад

LLM-модели от RWB вошли в топ-3 и топ-5 русскоязычного рейтинга MERA

Дообученная специалистами RWB (объединённая организация Wildberries & Russ) большая языковая модель BerryLM-XL вошла в топ-3 текстового рейтинга MERA. Как сообщили информационной службе а в RWB, по ит

1 час назад

63% решений Opus 4.8 Max на SWE-bench Pro оказались списаны

Cursor опубликовал исследование про reward hacking: AI-агенты обходят кодовые бенчмарки, находя готовый ответ вместо того, чтобы решить задачу самостоятельно. Чтобы измерить масштаб проблемы, Cursor п