Переключившись в режим поиска (можно использовать клавиатурное сочетание Ctrl-E) с использованием дополнительных модулей, можно искать файлы и документы на заранее не известных сайтах.
Например, поиск файла по фрагменту имени на FTP-серверах:
Простым выбором другого модуля можно запустить поиск по веб-сайтам:
Поиск на веб-сайтах с помощью поисковой системы Интегра алгоритмически ничем не отличается от консольной поисковой утилиты.
Общий подход тот же: пользователь указыват адрес начальной страницы
сканируемого сайта, движок скачивает страницу и с помощью регулярных выражений анализирует ее исходный
код на предмет наличия гиперссылок. Каждая гиперссылка проверяется
заданным набором фильтров и помещается в очередь на скачивание.
Закончив обработку страницы, движок берет из очереди гиперссылок первую
и начинает обрабатывать соответствующую страницу.
Вышеописанный алгоритм содержит одну опасность -
паук может уйти с исходного сайта и ничуть не стесняясь начать
индексировать веб-сайты на просторах интернета, расходуя трафик и время. Чтобы
такого не случилось, по умолчанию параметры паука содержат запрет
уходить с исходного домена второго уровня. Таким образом, начав
обработку сайта www.solarix.ru, паук не уйдет на www.boost.org по встретившейся тут ссылке. В поисковом движке соответствующий запрет оформлен командой -same_domain.
Для FTP серверов алгоритм паука напоминает
работу с локальными папками. Сначала движок подключается к серверу и
скачивает список файлов в корневом каталоге. Обработав файлы в этом
каталоге, он рекурсивно приступает к обработке подкаталогов. Если не
включать анализ содержимого, то есть полнотекстовый поиск, то
индексирование FTP-сервера происходит достаточно быстро, в противном
случае движок будет скачивать файлы в локальный временный каталог и
распаковывать архивы, выделять текст из документов и т.д., что в
приведет к серьезным тратам ресурсов, прежде всего сетевого трафика.
Для успешной работы паука необходимо правильно
сконфигурировать параметры паука, если для выхода в интернет
используется прокси-сервер (см. здесь),
а также корректно задать пассивный/активный режим клиента для работы с
FTP-серверами. Впрочем, для большинства случаев домашнего использования
эти моменты неактуальны.
Рассмотрим сначала поиск (без индексирования) на веб-сайте (HTTP-сервере).
Прежде всего выбираем режим поиска без использования индекса:
Далее надо определить область поиска, состоящую
из интересующего веб-сайта, либо из нескольких сайтов. Самый простой способ - не менять
многочисленные параметры, управляющие работой сетевого паука, а просто
ввести адрес сайта в диалоговом окне:
Далее как обычно можно ввести поисковый запрос и увидеть результат:
Либо можно нажать в мастере кнопку "Другие параметры" и задавать параметры сканирования сайта детально:
Конечно,
ничто не мешает указать при поиске сразу несколько веб-сайтов, которые
будут поочередно обработаны пауком:
Вы можете также проиндексировать содержимое FTP-серверов, и затем выполнять быстрый поиск файлов в режиме offline, то есть без фактического подключения к сети. В зависимости от имеющихся ресурсов, можно ограничиться сохранением в индексе только имен файлов (рекомендуется для экономии трафика), либо формировать индекс для полнотекстового поиска (потребует очень больших затрат трафика и времени). Соответствующие настройки находятся на диалоговом окне создания индекса (флаг "обрабатывать содержимое") и на вкладках диалогового окна настройки области поиска, в частности "Фильтры - Обрабатывать архивы". Каталогизатор поисковой системы работает с любыми индексами вне зависимости от того, из каких источников были получены документы:

Скачать SDK поисковой системы с примерами и другие компоненты можно здесь 
команды работы с интернет-серверами в поисковом движке
поиск по HTTP серверам утилитой FAIND
поиск по FTP серверам утилитой FAIND
© Mental Computing 2010
|
|
изменено 04-Jun-10 |