Морфологический анализатор поисковой системы

Установка словаря

Для работы морфологического анализатора необходимо установить словарь. Вы можете скачать один из бесплатных словарей. После инсталляции, выполняемой обычным порядком - запуском exe файла, поисковая система после своего запуска опознает установленный словарь и начнет использовать его при поиске и индексировании, в частности по умолчанию в некоторых диалогах будут активированы опции, включающие грамматику.

Работа без словаря (стеммер)

Базовая бесплатная версия поисковой системы не содержит словарь (то есть морфологический анализатор). После инсталляции значения параметров поиска по умолчанию выставляются таким образом, что морфологический анализатор не активизируется. В такой конфигурации для имитации морфологического анализа используется стеммер. Эта имитация полноценного морфологического анализатора приемлемо работает только для некоторых языков, в которых окончания используются для образования форм слова. Для многих европейских языков стеммер дает вполне приличные результаты, и даже для русского языка такая имитация может использоваться в целях экономии ресурсов, так как словарный морфологический анализатор расходует очень много оперативной памяти.

Главный недостаток стеммера - невозможность использования тезауруса, то есть особой базы данных о связях между словами. К примеру, поиск с учетом синонимов возможен только с установленным полным морфологическим анализатором. Кроме этого, полный морфологический анализатор содержит специальные средства для получения форм слова на основе приставок, например "телемедицина" или "метагалактика".

По вышеуказанным причинам мы рекомендуем для улучшения качества работы поисковика скачать один из предлагаемых словарей, инсталлировать его (как обычную программу), после чего поисковая система автоматически настроится на использование полного морфологического анализатора. Определить характеристики установленного словаря можно вызвав диалоговое окно "О программе":

вызов диалога О программе

К примеру:

диалоговое окно "О программе"

После установки полного анализатора стеммер все равно будет использоваться, но только как вспомогательное средство - для поиска форм тех слов, которые отсутствуют в основном лексиконе.

У стеммера есть и достинства, которые могут стать ключевыми при выборе рабочей конфигурации: он требует намного, обычно в десятки раз, меньше ресурсов оперативной памяти.

Язык словаря и текущий язык

Дистрибутивы поисковой системы настроены так, что морфологический анализатор при запуске программ автоматически настраивается на текущий язык пользовательской сессии. Это обычно самый удобный подход - включается тот стеммер, который приспособлен для родного языка пользователя.

Аналогично ведут себя многоязычные словари - стеммер в них автоматически настраивается на текущий язык пользователя.

Совсем по-другому действуют одноязычные словари. Так как поисковая система полностью работает в стандарте Unicode представления символов, то непосредственной связи между языком интерфейса (он легко меняется) и языком морфологического анализатора нет. Например, Вы можете работать в английской версии ОС, но включить русскую морфологию для индексирования и поиска. Для этого необходимо просто установить одноязычный словарь. В них стеммеры сконфигурированы на принудительный выбор определенного языка. Таким образом, можно в русской версии ОС работать с французским словарем и т.д.

Смена словаря

В бесплатной версии поисковика Вы можете установить словарь для одного из поддерживаемых языков. Хотя в любой момент словарь можно переустановить, мы не рекомендуем это делать, так как скорее всего возникнут ошибки при поиске информации по индексу, если индексирование выполнялось с использованием морфологического анализатора. Чтобы комфортно работать с несколькими языками, возможны следующие варианты:

1. При индексировании документов отключать морфологический анализатор (то есть сбрасывать флажок "использовать словарь" в диалоговом окне задания параметров индексирования в оконной версии поисковика). Размер индекса существенно возрастет, но при поиске морфология будет правильно учтена.

2. Использовать версию Pro, в которой устанавливается один словарь с поддержкой всех языков, и кроме того - некоторые дополнительные возможности, в частности тезаурус, позволяющий учитывать при поиске синонимы, грамматически и  семантически связанные понятия.

Где скачать поисковую систему и SDK

Скачать SDK поисковой системы с примерами и другие компоненты можно здесь поисковая система

  © Mental Computing 2010
изменено 04-Jun-10