Формальные статистические исследования - модуль CHARS

Модуль CHARS выполняет вторую стадию статистической обработки текстов - после модуля EMPIR. Итак, модуль EMPIR отработал и оставил в текущем каталоге файл words.bin. Кроме него, в текущем каталоге должен быть файл Словаря diction.bin. Запускаете CHARS - и ждете. Ждать придется очень долго (см. бенчмарки).

В результате работы модуля формируются следующие файлы:

chars.bin - двоичный файл с данными о частотах букв в различных позициях

ch_org.dat - частоты букв в первой позиции в слове

ch_end.dat - частоты букв в последней позиции в слове

ch_tot.dat - частоты букв в произвольной позиции в слове

ch_mix.dat - сводная таблица частот символов в первой, средней и конечной позициях в словах

gg_chars.sol - калибраторы (частотные характеристики букв) для тонкой настройки Словаря, этот файл нужно перенести к остальным файлам Словаря и перекомпилировать Словарь

ch_class.dat - частоты графических классов

real_org_slb.dat - частоты первых слогов

real_end_slb.dat - частоты последних слогов

real_mid_slb.dat - частоты слогов в середине слов

gg_slb.sol - калибраторы с информацией о частоте употребления каждого слога в разных позициях; файл следует перенести в каталог с исходными файлами Словаря

sg_slb.sol - сгенерированные правила определения грамматической категории слова по его последнему слогу; этот файл следует перенести в каталог с исходными файлами Словаря

 С помощью вышеперечисленных файлов можно построить диаграммы:

частоты графических классов

частоты букв в начале лексем

частоты букв в конце лексем

частоты букв в любой позиции

сводная диаграмма частот букв

частоты первых слогов

частоты последних слогов

частоты средних слогов

генерация правил догадки для определения грамматических категорий по последнему слогу

  © Elijah Koziev 2010
прикладные проекты на основе грамматического словаря API грамматической машины компоненты для доступа к грамматическому словарю условия получения SDK токенизатор и сегментатор морфологический анализ и синтез лемматизатор база N-грамм синтаксический анализатор словоформы морфология и синтаксис русского языка падеж число род совершенный и несовершенный вид экспорт в SQL формат экспорт в XML формат скрипт SQL словаря структура SQL словаря структура XML словаря компоненты для доступа к грамматическому словарю ORM Persistent Dictionary Library лемматизация стемминг примеры использования грамматического словаря склонение существительных в русском языке склонение русских прилагательных спряжение глаголов в русском языке поиск текста с учетом морфологии OCR подсистема расширенные регулярные выражения генератор текста генератор случайного текста и имитатор рандомизатор синонимизатор перефразировщик Статистика буквенных паттернов

Грамматический словарь русского языка



Грамматический словарь
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
требования: 512 Mb свободной памяти, 300 Мб на диске
размер:         34 Мб

  скачать грамматический словарь купить грамматический словарь SDK грамматического словаря
грамматический словарь русского языка



SDK Грамматического словаря



SDK Грамматического Словаря
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
размер:         13 Мб

SQL словарь (демо):
sqlite mysql oracle firebird mssql

скачать демо-версию SDK купить SDK API грамматического словаря



Поисковая система



Integra
настольная и сетевая поисковая система 

платформа:  Windows XP ... Windows 7
требования: 512 Mb свободной памяти
размер:         21 Мб

Дополнительные компоненты:
MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать поисковую систему SDK поисковой системыописание поисковой системы



SDK Поисковой системы



SDK Поискового движка
API для настольной и сетевой поисковая система 

платформа:  Windows XP ... Windows 7
размер:         17 Мб

Дополнительные компоненты:

MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать SDK SDK поисковой системы



Экранный переводчик



Translator
экранный переводчик

платформа:  Windows XP ... Windows 7
требования: 256 Mb свободной памяти
размер:         4.4 Мб

Дополнительные компоненты:
расширенный англо-русский словарь 6.4 Мб


скачать экранный переводчикописание экранного переводчика



изменено 18-Sep-10