Андрей Карпати рассказал, как ИИ ведет за него вики на 400 000 слов

2 мин
Андрей Карпати рассказал, как ИИ ведет за него вики на 400 000 слов

Бывший директор по ИИ в Tesla и сооснователь OpenAI Андрей Карпати поделился методом, которым пользуется все активнее: он собирает сырые материалы по определенной теме — статьи, научные работы, репозитории, датасеты — в одну папку, а затем LLM "компилирует" из них полноценную вики. На выходе — коллекция markdown-файлов с саммари, перекрестными ссылками и статьями по отдельным концептам. Одна из его текущих баз — порядка 100 статей и 400 000 слов, и ни одна запись не написана вручную.

Основной сюрприз — в том, чего Карпати не использует. По его словам, он ожидал, что для вопросов к такому массиву придется строить RAG-пайплайн, однако LLM-агент справляется сам: схема поддерживает индекс-файлы, краткие описания документов и без дополнительной инфраструктуры находит нужные фрагменты. В качестве интерфейса для просмотра Карпати использует Obsidian, а для презентаций — структура Marp.

Отдельно он описал цикл, в котором результаты запросов возвращаются обратно в базу. Ответы на вопросы, сгенерированные графики и слайды "подшиваются" в вики и обогащают ее для следующих запросов. LLM также проводит "проверки здоровья": ищет противоречия, восполняет пробелы через веб-поиск и предлагает темы для новых статей.

В перспективе Карпати видит второй шаг — синтетические данные и дообучение, чтобы LLM "знала" содержимое базы на уровне весов, а не контекстного окна. А решение в общем и целом он оценил одной фразой: здесь есть место для нового продукта — вместо "набора костылей из скриптов", которыми это пока остается.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

«Не сетка»: ИИ впервые в истории сам решил центральную проблему геометрии

7 минут назад

«Не сетка»: ИИ впервые в истории сам решил центральную проблему геометрии

OpenAI сообщила, что ее внутренняя схема опровергла гипотезу Эрдёша 1946 года о единичных расстояниях — одну из самых известных задач комбинаторной геометрии. Это первый случай, когда центральная откр

1 час назад

СМИ: «Минпромторг РФ хочет привлечь экспертов ВНИИР к проверке процессоров „Иртыш“ для попадания в реестр»

Издание Cnews сообщило, что Минпромторг РФ потребовал привлечь дополнительных экспертов к проверке новых процессоров «Иртыш» российского разработчика «Трамплин электроникс». По мнению ведомства, испол

GitHub Mobile теперь даёт возможность разрабатывать новые проекты прямо с устройств на iOS и Android

1 час назад

GitHub Mobile теперь даёт возможность разрабатывать новые проекты прямо с устройств на iOS и Android

GitHub Mobile главным образом использовался для просмотра существующих репозиториев. Теперь пользователи мобильного приложения могут создавать новые проекты прямо со своих устройств на iOS и Android.

«Уэбб» обнаружил одну из первых галактик Вселенной

2 часа назад

«Уэбб» обнаружил одну из первых галактик Вселенной

Учёные сумели разглядеть галактику в том виде, в каком она существовала 13 миллиардов лет назад, всего через 800 миллионов лет после Большого взрыва. Они надеются найти свидетельства существования пер

Представлен публике цифровой музей, в котором собраны практически все возможные операционные системы (570 штук)

3 часа назад

Представлен публике цифровой музей, в котором собраны практически все возможные операционные системы (570 штук)

В открытом доступе представлен в интернете инициатива виртуального музея с несколькими сотнями операционных систем, которые когда-либо выходили. Виртуальный археолог собирал эту коллекцию 23 года. Для