Данная утилита выполняет обучение распознавателей текста по задаваемому сценарию.
Сценарий обучения, включающий в себя параметры
алгоритмов, списки учебных изображений и эталонов, а также управляющие
директивы, задается как XML файл.
Результат ее работы - бинарные файлы с данными для всех
алгоритмов распознавания, а также разнообразные отчеты по результатам
обучения.
Утилита обрабатывает заданный текстовый файл и
формирует таблицы с N-граммами символов. При обработке текста программа
учитывает пробельные символы и переводы строки как ограничители
N-грамм, но не выполняет сегментацию текста на слова.
Запуск:
chars input_file results_folder
Входной текстовый файл должен иметь кодировку utf-8.
Результаты - несколько текстовых и csv файлов - сохраняются в указанном вторым аргументов каталоге.
Например, при обработке текстового файла с текстом на
японском языке
私は明日テニスをするつもりです。
будут получены диграммы:
は明
つも
ニス
スを
もり
です
日テ
明日
るつ
する
テニ
す。
をす
私は
りで
триграммы:
スをす
をする
るつも
するつ
明日テ
私は明
もりで
テニス
ニスを
は明日
です。
つもり
りです
日テニ
и тетраграммы:
するつも
もりです
日テニス
スをする
るつもり
りです。
は明日テ
をするつ
明日テニ
ニスをす
テニスを
つもりで
私は明日
Основная функция -
сгенерировать файл изображения для текста, используя задаваемые в
командной строке параметры шрифта и цветовые атрибуты.
Умеет генерировать набор изображений по списку слов для заданного множества шрифтов и их размеров.
Результаты ее работы используются разными алгоритмами в
качестве сырья, по которому выполняется обучение или тестирование
алгоритмов распознавания текста.
Из заданного входного
изображения создает множество фрагментов заданного размера и записывает
их в виде графических bmp-файлов в заданный каталог.
Основное назначение -
тестирование обученных утилитой NetTrainer модулей распознавания в
автоматическом пакетном режиме. Опции командной строки позволяют
указать на загружаемые бинарные файлы распознавателей и проверочные
изображения.
Результатами ее работы может
быть как результат распознавания для единственного входного
изображения, так и список ошибок распознавания для заданного множества
изображения и эталонных результатов.
Mental Computing 2010
изменено 31-Jan-10 |