Модуль CHARS выполняет вторую стадию статистической обработки текстов - после модуля EMPIR. Итак, модуль EMPIR отработал и оставил в текущем каталоге файл words.bin. Кроме него, в текущем каталоге должен быть файл Словаря diction.bin. Запускаете CHARS - и ждете. Ждать придется очень долго (см. бенчмарки).
В результате работы модуля формируются следующие файлы:
chars.bin - двоичный файл с данными о частотах букв в различных позициях
ch_org.dat - частоты букв в первой позиции в слове
ch_end.dat - частоты букв в последней позиции в слове
ch_tot.dat - частоты букв в произвольной позиции в слове
ch_mix.dat - сводная таблица частот символов в первой, средней и конечной позициях в словах
gg_chars.sol - калибраторы (частотные характеристики букв) для тонкой настройки Словаря, этот файл нужно перенести к остальным файлам Словаря и перекомпилировать Словарь
ch_class.dat - частоты графических классов
real_org_slb.dat - частоты первых слогов
real_end_slb.dat - частоты последних слогов
real_mid_slb.dat - частоты слогов в середине слов
gg_slb.sol - калибраторы с информацией о частоте употребления каждого слога в разных позициях; файл следует перенести в каталог с исходными файлами Словаря
sg_slb.sol - сгенерированные правила определения грамматической категории слова по его последнему слогу; этот файл следует перенести в каталог с исходными файлами Словаря
С помощью вышеперечисленных файлов можно построить диаграммы:
генерация правил догадки для определения грамматических категорий по последнему слогу
© Elijah Koziev 2010
Поисковая система
SDK Поисковой системы
Экранный переводчик
|
|
изменено 18-Sep-10 | ||||||||||||||||||||||||||||||||||||||