Cursor стартовали создавать локальные индексы для regex-поиска прямо в IDE

1 мин
Cursor стартовали создавать локальные индексы для regex-поиска прямо в IDE

Классический ripgrep работает быстро, но всё равно читает каждый файл. В крупных монорепо это стоит 15+ секунд на один вызов, а агент делает их десятками.

Решение взяли из 1993 года: тригрaмный инвертированный индекс. Любой текст разбивается на все возможные 3-символьные последовательности, они становятся ключами в словаре, значения — список файлов. Regex-запрос декомпозируется в набор тригрaм, пересечение posting lists даёт кандидатов, и уже по ним запускается grep. Вместо тысячи файлов — десяток.

Поверх этого добавили sparse n-grams: длина каждого n-gram определяется детерминированно через веса символьных пар (crc32 или частотная таблица по терабайтам open-source кода). При индексации генерируются все возможные n-grams, а при поиске — минимальное покрывающее множество. Получается меньше lookup'ов и точнее скоуп.

Индекс живёт на машине пользователя по двум причинам: агент всё равно должен читать файлы локально для финального матча, и задержка на network roundtrip убивает смысл оптимизации. Хранится в двух mmap-файлах, привязан к git-коммиту, поверх которого накладываются незакоммиченные изменения.

Источник: https://cursor.com/blog/fast-regex-search

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Читают сейчас

Глава Signal: чат-боты вам не друзья, а ИИ-агенты — бэкдор

1 час назад

Глава Signal: чат-боты вам не друзья, а ИИ-агенты — бэкдор

Президент Signal Мередит Уиттакер в интервью Bloomberg высказалась о чат-ботах вроде ChatGPT и Claude предельно жестко. На вопрос о том, что эти системы означают для приватности, она ответила: "Это не

8 часов назад

В Max решили разыграть смартфоны Samsung Galaxy S25 Ultra среди выпускников 9-х и 11-х классов

Разработчики мессенджера Max проводят розыгрыш призов среди выпускников 9-х и 11-х классов российских школ. Акция проходит с 18 по 25 июня 2026 года в чат-боте «Выпускной в Max». Участники смогут полу

В iOS 27 появился режим восстановления iPhone без подключения к компьютеру

8 часов назад

В iOS 27 появился режим восстановления iPhone без подключения к компьютеру

Apple добавила в iOS и iPadOS 27 режим восстановления, который даёт возможность запустить iPhone или iPad в отдельной облегчённой среде без полной загрузки операционной системы, чтобы попасть в меню д

8 часов назад

Суд признал банкротом IT‑компанию «Авроид»

Арбитражный суд Калининградской области признал банкротом IT-компанию «Авроид». Организация занималась разработкой сервисов для установки Android-приложений и Telegram на защищённые смартфоны и планше

Открытая схема GLM-5.2 заменила забаненную Fable 5 в автоисследователе alphaXiv

8 часов назад

Открытая схема GLM-5.2 заменила забаненную Fable 5 в автоисследователе alphaXiv

В середине июня власти США ограничили доступ иностранных пользователей к топовым моделям Anthropic — Claude Fable 5 и Mythos 5. А спустя некоторое количество дней сервис alphaXiv представил, что его а