Поисковая система: кэш распакованных файлов

Зачем поисковому движку нужен кэш

Важной особенностью поискового движка является встроенные средства распаковки находящихся в архивах документов. Так как при поиске поисковый движок может формировать HTML-страницу результатов, на которой будут гиперссылки для открытия документов, то извлеченные из архивов документы желательно где-то сохранять, чтобы в любом браузере можно было просмотреть содержимое найденных документов, не заботясь особенно о ручной обработке архивов. В противном случае, без помощи кэша, пользователь видел бы только небольшой участок документа (контекст фиксации)

Аналогичным образом обрабатываются файлы, скачанные для поиска из интернета с веб-сайтов. очевидно, что будучи однажды скачаны, они для экономии трафика могут быть сохранены на локальной машине.

Физически этот кэш представляет из себя каталог (путь к нему задается в ini-файле конфигурации), в котором сохраняются файлы, извлеченные из архивов и скачанные из интернета.

Опции управления кэшем

Посмотреть, сколько документов закэшировано в данный момент, можно с помощью опции

-dcache info

 

Так как автоматически удалять закэшированные файлы поисковый движок не может (неизвестно, до какого момента созданная страница результатов со ссылками на файлы в кэше нужна), то забота о чистке кэша ложится на пользователя - с помощью опции:

-dcache purge

Оконная утилита Integra выполняет команду чистки кэша перед закрытием.

Две дополнительные опции

-dache on

-dcahce off

работают полностью аналогично -store_download=on и -store_download=off.

Дополнительные материалы

Процедурный API поисковой системы

Где скачать поисковую систему и SDK

Скачать SDK поисковой системы с примерами и другие компоненты можно здесь поисковая система

  © Mental Computing 2010
изменено 01-Jun-10