Microsoft несколько месяцев советовала обучать ИИ на пиратских книгах о Гарри Поттере

2 мин
Microsoft несколько месяцев советовала обучать ИИ на пиратских книгах о Гарри Поттере

Microsoft на протяжении нескольких месяцев советовала обучать ИИ на пиратских книгах о Гарри Поттере. В ноября 2024 старший менеджер по продуктам Microsoft Пуджей Камат опубликовала в блоге компании пост, в котором рекомендовала разработчикам языковых моделей использовать датасет с текстами всех семи книг серии.

Статья Камат рассказывала о новой функции Azure SQL DB, которая упрощала интеграцию генеративного ИИ в приложения с помощью нескольких строк кода и библиотек вроде LangChain. Автор подчёркивала популярность книг Джоан Роулинг и предлагала обучать на них модели со ссылкой на датасет Kaggle, где книги были ошибочно помечены как общественное достояние (этот набор позже удалили).

С помощью книг Камат рекомендовала обучать модели извлечению релевантных фрагментов, в частности, закусок из волшебного мира: этот запрос требовал от модели извлечь из текста все названия волшебных лакомств, таких как конфеты «Берти Боттс» и шоколадные лягушки.

В качестве практического примера Камат загрузила тексты в Azure Blob Storage и сгенерировала фанфик, где Гарри в поезде знакомится с другом, который объясняет ему, как работает векторная сопровождение SQL от Microsoft. К тексту прилагалось ИИ-сгенерированное изображение Гарри с логотипом Microsoft.

Пост Камат полтора года просуществовал незамеченным правообладателями, в том числе саму Роулинг. Причина, вероятно, заключается в низкой популярности датасета — приблизительно 10 тысяч загрузок. Пост был удалён после критики на Hacker News, но его архив доступен в сети.

Читают сейчас

Выпуск BATorrent 3.0 — легковесного BitTorrent-клиента, созданного на C++, Qt 6 и libtorrent-rasterbar

3 часа назад

Выпуск BATorrent 3.0 — легковесного BitTorrent-клиента, созданного на C++, Qt 6 и libtorrent-rasterbar

В начале июня 2026 года состоялся третий мажорный выпуск открытого проекта BATorrent — легковесного BitTorrent‑клиента, созданного на C++, Qt 6 и libtorrent‑rasterbar. Версия BATorrent 1.0 состоялся в

3 часа назад

MAX удалили из App Store

Мессенджер MAX пропал из App Store. Просто в один момент В среду, 3 июня, кто-то из пользователей iOS заметил странное: отечественный мессенджер "Макс" не ищется в App Store. Вообще. Ни через поиск, н

Версия обновления открытого проекта RustDesk 1.4.7

3 часа назад

Версия обновления открытого проекта RustDesk 1.4.7

В начале июня 2026 года состоялся версия открытого мультиплатформеного проекта RustDesk 1.4.7. Это приложение для удалённого рабочего стола, разработанное для самохостинга в качестве альтернативы Team

️ Anthropic разобрала 832 аккаунта, заблокированных за вредоносную активность с марта 2025 по март 2026 года

4 часа назад

️ Anthropic разобрала 832 аккаунта, заблокированных за вредоносную активность с марта 2025 по март 2026 года

⚡️ Anthropic разобрала 832 аккаунта, заблокированных за вредоносную активность с марта 2025 по март 2026 года. ИИ всё чаще используют не для банального фишинга, а для сложных этапов атаки уже внутри в

Исследователи позволили ИИ управлять вымышленным обществом: результаты эксперимента

5 часов назад

Исследователи позволили ИИ управлять вымышленным обществом: результаты эксперимента

Стартап Emergence AI запустил Emergence World — исследовательскую лабораторию, которая занимается стресс-тестированием долгосрочной жизнеспособности постоянно работающих систем искусственного интеллек