Cursor стартовали создавать локальные индексы для regex-поиска прямо в IDE

1 мин
Cursor стартовали создавать локальные индексы для regex-поиска прямо в IDE

Классический ripgrep работает быстро, но всё равно читает каждый файл. В крупных монорепо это стоит 15+ секунд на один вызов, а агент делает их десятками.

Решение взяли из 1993 года: тригрaмный инвертированный индекс. Любой текст разбивается на все возможные 3-символьные последовательности, они становятся ключами в словаре, значения — список файлов. Regex-запрос декомпозируется в набор тригрaм, пересечение posting lists даёт кандидатов, и уже по ним запускается grep. Вместо тысячи файлов — десяток.

Поверх этого добавили sparse n-grams: длина каждого n-gram определяется детерминированно через веса символьных пар (crc32 или частотная таблица по терабайтам open-source кода). При индексации генерируются все возможные n-grams, а при поиске — минимальное покрывающее множество. Получается меньше lookup'ов и точнее скоуп.

Индекс живёт на машине пользователя по двум причинам: агент всё равно должен читать файлы локально для финального матча, и задержка на network roundtrip убивает смысл оптимизации. Хранится в двух mmap-файлах, привязан к git-коммиту, поверх которого накладываются незакоммиченные изменения.

Источник: https://cursor.com/blog/fast-regex-search

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Читают сейчас

Выпуск менеджера файлов Total Commander 11.57

9 минут назад

Выпуск менеджера файлов Total Commander 11.57

7 мая 2026 года состоялся релиз менеджера файлов Total Commander 11.57 со встроенным FTP‑клиентом с FXP, анализатором дискового пространства, синхронизатором файлов, поддержкой работы с архивами (ZIP,

DeepSeek V4 силен только в «своих» бенчмарках. На независимых — отстает на 8 месяцев

7 часов назад

DeepSeek V4 силен только в «своих» бенчмарках. На независимых — отстает на 8 месяцев

После анонса DeepSeek V4 Pro, в котором компания заявила об отставании от фронтира США всего на 3–6 месяцев, NIST — американский институт стандартов при Министерстве торговли — провел собственные заме

От сервиса к партнерству: как пересобрать архитектуру продуктовой аналитики

10 часов назад

От сервиса к партнерству: как пересобрать архитектуру продуктовой аналитики

Часто системная проблема продуктовой аналитики кроется не в слабых хард-скилах команды, а в сломанной архитектуре самой роли и границах ответственности. Когда аналитики работают в режиме внутреннего h

Starlink достиг медианной скорости загрузки в 100 Мбит/с в 49 штатах из 50, кроме Аляски — Ookla Speedtest

10 часов назад

Starlink достиг медианной скорости загрузки в 100 Мбит/с в 49 штатах из 50, кроме Аляски — Ookla Speedtest

Starlink достиг медианной скорости загрузки более чем 100 Мбит/с в 49 из 50 штатов — кроме Аляски, где показатель составил 87,6 Мбит/с, говорится в отчёте Ookla Speedtest за второе полугодие 2025 года

Европейские регуляторы оштрафовали «дочку» «Яндекса» — оператора Yango — на €100 млн за утечку данных в Россию

11 часов назад

Европейские регуляторы оштрафовали «дочку» «Яндекса» — оператора Yango — на €100 млн за утечку данных в Россию

Нидерландский регулятор по защите данных оштрафовал местную «дочку» «Яндекса» MLU B.V. — оператора приложения Yango — на €100 млн. По оценке ведомства, данные клиентов и водителей Yango хранились в Ро