Cursor стартовали создавать локальные индексы для regex-поиска прямо в IDE

1 мин
Cursor стартовали создавать локальные индексы для regex-поиска прямо в IDE

Классический ripgrep работает быстро, но всё равно читает каждый файл. В крупных монорепо это стоит 15+ секунд на один вызов, а агент делает их десятками.

Решение взяли из 1993 года: тригрaмный инвертированный индекс. Любой текст разбивается на все возможные 3-символьные последовательности, они становятся ключами в словаре, значения — список файлов. Regex-запрос декомпозируется в набор тригрaм, пересечение posting lists даёт кандидатов, и уже по ним запускается grep. Вместо тысячи файлов — десяток.

Поверх этого добавили sparse n-grams: длина каждого n-gram определяется детерминированно через веса символьных пар (crc32 или частотная таблица по терабайтам open-source кода). При индексации генерируются все возможные n-grams, а при поиске — минимальное покрывающее множество. Получается меньше lookup'ов и точнее скоуп.

Индекс живёт на машине пользователя по двум причинам: агент всё равно должен читать файлы локально для финального матча, и задержка на network roundtrip убивает смысл оптимизации. Хранится в двух mmap-файлах, привязан к git-коммиту, поверх которого накладываются незакоммиченные изменения.

Источник: https://cursor.com/blog/fast-regex-search

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Читают сейчас

35 минут назад

Генеральный директор Pinterest призвал правительства запретить соцсети для пользователей младше 16 лет

Генеральный директор Pinterest Билл Риди призвал правительства запретить социальные сети для пользователей младше 16 лет. Теперь он один из немногих топ-менеджеров, призвавших к введению подобного огр

Хуанг объявил, что AGI достигнут — но построить NVIDIA ему не по плечу

53 минуты назад

Хуанг объявил, что AGI достигнут — но построить NVIDIA ему не по плечу

Глава NVIDIA Дженсен Хуанг в свежем выпуске подкаста Lex Fridman (#494) объявил, что, по его мнению, человечество уже достигло AGI — искусственного общего интеллекта. "I think it's now. I think we've

Anthropic завела научный журнал — и сразу выложила кейс, где Claude сыграл роль аспиранта-физика

1 час назад

Anthropic завела научный журнал — и сразу выложила кейс, где Claude сыграл роль аспиранта-физика

Anthropic запустила научный блог, посвященный использованию ИИ в исследованиях. Компания обещает публиковать три типа материалов: разборы конкретных научных результатов, практические гайды для ученых

Qwen 3.5 с 397 млрд параметров запустили на iPhone 17 Pro: для этого понадобился внешний SSD

2 часа назад

Qwen 3.5 с 397 млрд параметров запустили на iPhone 17 Pro: для этого понадобился внешний SSD

Разработчик под никнеймом Anemll запустил языковую модель Qwen 3.5 с 397 млрд параметров на iPhone 17 Pro. Веса модели подгружали с внешнего SSD, а скорость генерации ответов составила всего 0,6 токен

OpenAI гарантировала инвесторам 17,5% дохода — все, чтобы обойти Anthropic

2 часа назад

OpenAI гарантировала инвесторам 17,5% дохода — все, чтобы обойти Anthropic

OpenAI предложила фондам прямых инвестиций гарантированную минимальную доходность 17,5% и ранний доступ к новейшим моделям в контексте создания совместного предприятия (joint venture) для продвижения

Cursor стартовали создавать локальные индексы для regex-поиска прямо в IDE | MATETSKIY