Microsoft несколько месяцев советовала обучать ИИ на пиратских книгах о Гарри Поттере

2 мин
Microsoft несколько месяцев советовала обучать ИИ на пиратских книгах о Гарри Поттере

Microsoft на протяжении нескольких месяцев советовала обучать ИИ на пиратских книгах о Гарри Поттере. В ноября 2024 старший менеджер по продуктам Microsoft Пуджей Камат опубликовала в блоге компании пост, в котором рекомендовала разработчикам языковых моделей использовать датасет с текстами всех семи книг серии.

Статья Камат рассказывала о новой функции Azure SQL DB, которая упрощала интеграцию генеративного ИИ в приложения с помощью нескольких строк кода и библиотек вроде LangChain. Автор подчёркивала популярность книг Джоан Роулинг и предлагала обучать на них модели со ссылкой на датасет Kaggle, где книги были ошибочно помечены как общественное достояние (этот набор позже удалили).

С помощью книг Камат рекомендовала обучать модели извлечению релевантных фрагментов, в частности, закусок из волшебного мира: этот запрос требовал от модели извлечь из текста все названия волшебных лакомств, таких как конфеты «Берти Боттс» и шоколадные лягушки.

В качестве практического примера Камат загрузила тексты в Azure Blob Storage и сгенерировала фанфик, где Гарри в поезде знакомится с другом, который объясняет ему, как работает векторная сопровождение SQL от Microsoft. К тексту прилагалось ИИ-сгенерированное изображение Гарри с логотипом Microsoft.

Пост Камат полтора года просуществовал незамеченным правообладателями, в том числе саму Роулинг. Причина, вероятно, заключается в низкой популярности датасета — приблизительно 10 тысяч загрузок. Пост был удалён после критики на Hacker News, но его архив доступен в сети.

Читают сейчас

После редизайна SharePoint работает на основе ИИ от Anthropic

5 марта 2026 г.

После редизайна SharePoint работает на основе ИИ от Anthropic

SharePoint используется в корпоративных средах для управления контентом и файлами, размещёнными в частных сетях организаций, поэтому каждое апдейт влияет на миллионы клиентов по всему миру. Корпорация

ИИ не может контролировать свои мысли — и это хорошая новость: OpenAI протестировали 13 моделей

5 марта 2026 г.

ИИ не может контролировать свои мысли — и это хорошая новость: OpenAI протестировали 13 моделей

OpenAI опубликовали исследование контролируемости цепочки рассуждений (chain of thought, CoT) у reasoning-моделей — и пришли к парадоксальному выводу: все 13 протестированных моделей плохо справляются

OpenAI представила новую схема GPT-5.4

5 марта 2026 г.

OpenAI представила новую схема GPT-5.4

Компания продолжает развивать линейку языковых моделей, делая упор на более сложные задачи, программирование и работу с инструментами. Новая версия ориентирована не только на диалог, но и на выполнени

OpenAI выпустила GPT-5.4 — свою новую флагманскую схема

5 марта 2026 г.

OpenAI выпустила GPT-5.4 — свою новую флагманскую схема

Главное модификация: схема объединила возможности кодинга из GPT-5.3-Codex с улучшенным рассуждением из GPT-5.2. Раньше это были отдельные модели под разные задачи, теперь одна. На бенчмарке GDPval, г

Вышла GPT-5.4 — первая схема OpenAI, которая управляет компьютером

5 марта 2026 г.

Вышла GPT-5.4 — первая схема OpenAI, которая управляет компьютером

OpenAI выпустила GPT-5.4 — новую flagship-модель, которая заменяет сразу две предшественницы: GPT-5.2 (универсальную) и GPT-5.3-Codex (кодерскую). Контекстное окно выросло до 1,05 млн токенов — в 2,5