Основы векторного и полнотекстового поиска

В видео — лекция Александра Зевайкина, руководителя группы разработки YDB, про подходы к построению векторного индекса в современных базах данных. Спикер представляет детальный обзор алгоритмов векторного поиска, включая анализ их преимуществ и недостатков. Рассматривается, какие алгоритмы наиболее популярны в современных системах управления базами данных (СУБД) и почему. Далее — подробный разбор этапов эволюции векторного поиска в YDB, включая анализ сложностей и инженерных решений. Особое внимание уделяется характеристикам используемого индекса, механизмам его быстрого обновления и поддержке встроенной фильтрации. Вторая часть — введение в полнотекстовый поиск. В общих чертах покрываются теоретические и практические аспекты поиска информации в больших текстовых коллекциях:

  • Индексирование и обработка текстов: построение инвертированных индексов, лексический анализ, нормализация, стемминг.
  • Модели поиска: булева модель, векторная модель, вероятностные модели.
  • Актуальность и оценка поиска: метрики качества (precision, recall и др.), принципы тестирования поисковых систем.