Создание и использование полнотекстовых индексов

Так как речь далее будет идти об версии поисковой системы под Linux, то прежде всего нужно скачать с сайта архив - для 32-битной Linux или для 64-битной. Далее нужно просто распаковать их в подходящее место.

В состав архивов уже входит все необходимое, в том числе морфологический модуль, поэтому утилита готова к использованию. Конфигурационный файл faind.ini содержит такие настройки, что индексные базы будут сохраняться в домашнем каталоге текущего пользователя.

В дальнеших примерах будет использован интерактивный режим, для активации которого необходимо запустить программу с ключом -console. Это позволяет вводить командную строку много раз без перезапуска утилиты и сопутствующей загрузки словарных модулей.

Прежде всего, убедимся, что индексных баз еще нет. Информация о созданных полнотекстовых и прочих индексах хранится в базе данных, которая создается при первом запуске утилиты. Введите команду -index domains, которая выводит список актуальных индексных баз:

создание полнотекстового индекса 

Теперь создадим полнотекстовый индекс. Создание индекса происходит в несколько шагов, позволяющих контролировать различные параметры. Сначала создается пустая индексая база с помощью команды -index create_domain. Кроме названия индекса (в примере это solarix), можно задавать дополнительные управляющие флаги, включая тип движка индексатора. Так как версия под Linux скомпилирована с единственным доступным движком, то достаточно указать только имя создаваемого индекса.

На втором шаге выполняется индексирование группы документов. Список мест расположения индексируемых документов в документации именуется область поиска, так как точно также задается список документов для поиска без использования индекса.

Область поиска, или в нашем случае индексирования, содержит как перечень папок с документами, так и пути к отдельным документам, маски для фильтрации файлов по имени, размеру, дате, и также параметры для выделение текстового содержимого из файлов разных форматов. В простейшем случае можно указать путь к каталогу с документами с помощью команды -dir, предоставив остальное на выбор самого движка:

начало индексирования файлов

После завершения индексирования будет выведена небольшая статистика, а с помощью команды -index info можно проверить состояние индексной базы.

полнотекстовый индекс создан 

Все операции с участием созданных индексов выполняются путем указания имени индекса, которое мы задали в самом начале командой -index create_domain. Таким образом, пользователь избавлен от необходимости помнить места расположения файлов индексной базы данных. Движок позволяет создавать неограниченное число отдельных индексных баз, к которым можно обращаться по именам. Более того, в команде -index domain можно указывать список имен индексов, таким образом выполняя поиск по группе индексов одной командой. В простейшем случае для поиска в документах в одном конкретном индексе достаточно задать его имя, и задать ключевое слово командой -sample:

полнотекстовый поиск с использованием индекса 

Использованная в этом поисковом запросе команда -wordforms дает движку указание подключать блок русской морфологии, чтобы корректно найти все грамматическое формы существительного. Существуют и другие команды для настройки морфологии поиска.

Запрос в данном примере выдает только имена файлов, в которых присутствует ключевое слово или любая из его грамматических форм:

полнотекстовый поиск завершен

С помощью команды -listfiles можно вывести список найденных файлов в текстовый файл одного из нескольких допустимых форматов. А команда -index touchfiles заставит движок также открыть каждый из найденных документов и найти в нем точное место, где встретилось ключевое слово.

Дополнительные материалы

Список всех команд поискового движка

Дистрибутив поисковой системы

Описание консольной поисковой утилиты

Настольная поисковя система

  © Elijah Koziev 2010
прикладные проекты на основе грамматического словаря API грамматической машины компоненты для доступа к грамматическому словарю условия получения SDK токенизатор и сегментатор морфологический анализ и синтез лемматизатор база N-грамм синтаксический анализатор словоформы морфология и синтаксис русского языка падеж число род совершенный и несовершенный вид экспорт в SQL формат экспорт в XML формат скрипт SQL словаря структура SQL словаря структура XML словаря компоненты для доступа к грамматическому словарю ORM Persistent Dictionary Library лемматизация стемминг примеры использования грамматического словаря склонение существительных в русском языке склонение русских прилагательных спряжение глаголов в русском языке поиск текста с учетом морфологии OCR подсистема расширенные регулярные выражения генератор текста генератор случайного текста и имитатор рандомизатор синонимизатор перефразировщик Статистика буквенных паттернов

Грамматический словарь русского языка



Грамматический словарь
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
требования: 512 Mb свободной памяти, 300 Мб на диске
размер:         34 Мб

  скачать грамматический словарь купить грамматический словарь SDK грамматического словаря
грамматический словарь русского языка



SDK Грамматического словаря



SDK Грамматического Словаря
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
размер:         13 Мб

SQL словарь (демо):
sqlite mysql oracle firebird mssql

скачать демо-версию SDK купить SDK API грамматического словаря



Поисковая система



Integra
настольная и сетевая поисковая система 

платформа:  Windows XP ... Windows 7
требования: 512 Mb свободной памяти
размер:         21 Мб

Дополнительные компоненты:
MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать поисковую систему SDK поисковой системыописание поисковой системы



SDK Поисковой системы



SDK Поискового движка
API для настольной и сетевой поисковая система 

платформа:  Windows XP ... Windows 7
размер:         17 Мб

Дополнительные компоненты:

MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать SDK SDK поисковой системы



Экранный переводчик



Translator
экранный переводчик

платформа:  Windows XP ... Windows 7
требования: 256 Mb свободной памяти
размер:         4.4 Мб

Дополнительные компоненты:
расширенный англо-русский словарь 6.4 Мб


скачать экранный переводчикописание экранного переводчика



изменено [an error occurred while processing this directive]