Обновления поисковой системы и грамматического словаря

25-01-2012 Документация по SQL словарю

На сайт добавлена страница с первым вводным уроком по использованию словарной базы русской морфологии:

SQL запросы для поиска слов в словарной базе данных

20-01-2012 Утилита DumpNGrams под Linux

В дистрибутив SDK версии 10 для Windows и для Linux добавлена утилита DumpNGrams.

Это консольная программа, выгружающая данные из базы N-грамм в текстовые файлы формата csv. Она поддерживает оба вида БД N-грамм - в реляционном хранилище (SQLite,MySQL) и NoSQL движок для накопления сотен миллионов записей.

14-01-2012 Функции API для глубокой нормализации

Добавлена документация по двум функциям процедурного API, выполняющим глубокую нормализацию текста:

sol_TranslateToNoun - приведение к однокоренному существительному, например чайный-чай.

sol_TranslateToInfinitive - приведение к однокоренному инфинитиву, например чай-чаёвничать

11-01-2012 Планы развития для версии 11

В целом версия 11 грамматического движка будет предоставлять больше выразительных средств для описания некоторых языковых явлений, важных для выполнения морфологического и синтаксического анализа. Краткий список намеченных работ включает в себя следующее.

1. Корректный учет ёфикации в случаях, когда анализируемое слово написано через ё и это позволяет однозначно разрешить совпадение форм, например осёл - осел или берёт - берет.

2. Новый модуль разрешения омонимии в словосочетаниях, когда необходимо привлечение внеграмматических знаний. К примеру, можно сравнить словосочетания кошка спала (от спать) и напряжение спало (стать).

3. В дополнение к предыдущему пункту - база знаний, состоящая из фактов и правил логического вывода и обобщения, позволяющая работать с неоднозначностями в тексте.

4. Переработка движка слогоделителя. Новый слогоделитель должен предоставлять удобные выразительные средства для описания правил деления на слоги не только для русского языка, но и как минимум для английского.

5. Расширение токенизатора. В частности, токенизатор должен передавать морфологическому анализатору информацию, позволяющую различать роль символа - в паттернах человек-паук и кошка - зверь.

6. Учет статистики при распознавании слов с опечатками.

Запланированные работы, не связанные непосредственно с грамматикой:

1. Расширенный формат строки подключения для SQLite в файле конфигурирования словаря, с заданием режима read-only и другими необходимыми параметрами открытия БД.

2. Классы доступа к словарной БД в MSSQL.

3. PHP-модуль для доступа к словарной базе через процедурный API движка.

4. Сборка SDK Грамматического Словаря для MacOS X.

Кроме того, план работ включает ряд "количественных" пунктов, связанных с расширением уже имеющихся функций.

1. Правила морфологического анализа для русского и английского языка.

2. Синтаксический анализатор для английского языка.

3. Русский лексикон - новые словарные статьи, простановка ёфикации и ударений, дополнительные правила морфологического анализа неизвестных слов.

4. Новые правила распознавания "типичных опечаток", в качестве примера: мне кажеться.

24-12-2011 SDK Синонимизатора v.10.27

Все компоненты собраны и протестированы. В комплект входит текущая сборка морфологического модуля и словарь синонимов. Дополнительно собран ознакомительный вариант SDK, содержащий урезанный вариант словаря с меньшим количеством словарных статей и синонимов. В его состав входит консольная версия синонимизатора для Win32, dll синонимизатора, исходники программы Rewriter и еще пара примеров вызова API на C++, C# и Delphi.

скачать ознакомительную версию SDK синонимизатора для Windows 32 бита (16 Мб)

GUI версия демо синонимизатора для Windows 32 бита (32 Мб)

Полная версия SDK синонимизатора содержит инструменты и файлы данных для пересборки словаря, в том числе для добавления своих синонимов и слов.

09-12-2011 Обновления ознакомительных версий SDK

Собраны с текущим набором правил морфологического и синтаксического анализа и выложены на сайте бесплатные ознакомительные версии SDK Грамматического Словаря:

Windows 32 бита (20 Мб)

Linux 32 бита (30 Мб)

Linux 64 бита (31 Мб)


08-12-2011 Обновление Morphology

В новой версии программы Morphology сделаны следующие изменения:

1. Лексикон расширен до полного размера, имеющегося в коммерческой версии SDK.

2. Синтаксический и морфологический анализаторы собраны по текущему набору правил, то есть в нем теперь есть правила для разбора многих конструкций глагольного сказуемого и связок.

Инсталлятор для Windows размером 22 Мб можно скачать по этой ссылке.

08-12-2011 Документация

Добавлены или обновлены описания функций процедурного API синтаксического анализатора:

sol_GetNodeVerPairState

sol_GetNodeVerCoordPair

sol_GetNodePairCoord

sol_GetNodePairState

sol_GetNodePairsCount

sol_GetNodeVerCoordState

sol_GetNodeCoordState

29-11-2011 Обновление с деепричастиями

В новом синтаксическом анализаторе завершены работы над правилами для деепричастных оборотов.

В состав ознакомительной версии SDK для Linux добавлена утилита syntax и скрипты для запуска ее в интерактивном режиме.

Ссылки для скачивания новых версий ознакомительного SDK можно найти здесь.

25-11-2011 Обновление ознакомительной версии SDK

SDK собран по текущей версии лексикона и анализаторов.

В состав добавлены утилиты Debugger и Empirika.

После установки в папке ...\scripts можно найти скрипты для запуска в консоли морфологического разбора предложения console-morphology.cmd, синтаксического разбора console-syntax.cmd, сборки частотной статистики для текстов в папке freq-ru.cmd, сборки базы N-грамм ngram-ru.cmd.

Windows 32 бита (19 Мб)

18-11-2011 Обновления ознакомительных версий SDK

Сделана ревизия состава ознакомительных версий SDK грамматического словаря. Входящий в их состав лексикон немного расширен, добавлен еще один простой пример работы с процедурным API на C++ (см. папку .../demo/ai/solarix/Grammar_Engine/SimpleGREN). Исходный текст этого примера приведен на странице в качестве пояснения для функции sol_ProjectWord.

Windows 32 бита (15 Мб)

Linux 32 бита (28 Мб)

Linux 64 бита (28 Мб)

14-11-2011 Обновления демо SDK и Morphology

1. Собрана ознакомительная версия SDK грамматического словаря с текущим вариантом синтаксического анализатора: скачать (Win32, 16 Мб).

Для использования нового алгоритма синтаксического анализа нужно при вызове из прикладного кода функции sol_SyntaxAnalysis указать для аргумента SyntacticFlags значение 2. Работу этого синтаксического анализатора можно визуально оценить на сайте онлайн-словаря, перейдя по ссылкам:

Большой кот сладко спит на старом кожаном диване

пюре было вкусное, пусть и вчерашнее

Планета Юпитер видна невооруженным глазом

Антонио был хотя и строг, но справедлив

Судьи были строги, но неподкупны и справедливы

2. Обновлена оконная программа Morphology для тестирования морфологического анализатора - скачать (Win, 18 Мб).

3. Обновлен исходный текст файла grammar_engine_api.cpp (160 Кб) с C++ кодом экспорта процедурного API.


10-10-2011 Обновление демо SDK

Обновлена ознакомительная версия SDK Грамматического Словаря:

Скачать архив для Win32 (16 Мб)

Основное изменение - в дистрибутив включены примеры выполнения основных действий на C++ и C# (см. содержимое папки ...\demo\ai\solarix\Grammar_Engine).


10-10-2011 Обновление документации по морфоанализатору

Выложены описания части функций морфологического и синтаксического анализатора:

sol_MorphologyAnalysis - морфологический разбор предложения

sol_DeleteResPack - удаление результатов анализа

sol_CountGrafs - количество альтернативных наборов синтаксических графов

sol_CountRoots - количество корневых узлов

sol_GetRoot - получение корневого узла

sol_CountLeafs - количество дочерних узлов

sol_GetLeaf - получение дочернего узла

Исходный текст API на C++ - файл grammar_engine_api.cpp.


24-09-2011 Обновление алгоритма лемматизатора

В матмодели поправлены некоторые параметры, влияющие на процесс обучения лемматизатора. В результате файл базы данных с правилами уменьшился в два раза для одноязычного русского словаря, улучшилась обработка не-словарных слов.

Полное описание API лемматизатора

Потестировать работу нового лемматизатора можно в онлайне здесь (тестовый сервер обычно доступен в рабочие часы по Москве).


22-09-2011 Обновление русской морфологии online

1. Расширен русский лексикон. Как можно убедиться на странице online статистики, сейчас в русском разделе примерно 145 тысяч словарных статей, 1.8 млн. грамматических форм или около 1.1 миллиона уникальных слов. В базу данных online словаря для тестирования временно залит билингвальный русско-английский словарь, с морфологическими анализаторами для обоих языков.

Доработан алгоритм нечеткого поиска слов с опечатками. Теперь анализатор по возможности оставляет среди вариантов только известные ему слова, и лишь при невозможности такого выбора использует "кванторные" эрзац-слова. Например, в трех нижеприведенных предложениях (по ссылке можно попасть на страницу online анализатора) можно увидеть, что прилагательное распознано однозачно как 'мистический', так как других вариантов нет:

мы смотрим мыстический триллер
мы смотрим миистический триллер
мы смотрим мистичский триллер

В морфологический анализатор добавлена возможность работы с несловарными именами собственными, написанными латиницей:

Корпорация Microsoft объявила о начале разработки новой операционной системы

В этом примере можно увидеть (покликав в результатах морфологического разбора на желтые блоки слов), что слово системы однозначно распознано как существительное в родительном падеже единственного числа, хотя есть омонимичная ему форма множественного числа именительного и винительного падежа. Собственно говоря, именно способность отбросить грамматически недопустимые омонимичные формы и используется при тестировании морфоанализатора с помощью пакетных тестов.

Аналогичная возможность опробована и в английском морфологическом анализаторе. Конечно, английский морфоанализатор основан на том же ядре, что и русский, только подгружает свой набор правил. Для примера можно посмотреть на результаты морфологического разбора такого предложения (это название книги, взято просто для примера, в котором имя собственное Greenspan отсутствует в лексиконе):

Greenspan's fraud: how two decades of his policies have undermined the global economy

Схема SQL словаря для MySQL доработана. В частности, в таблицу lang_alphabet добавлен столбец ordering для явного обозначения основного алфавита языка, чтобы латиница, допустимая и для русского языка, все-таки преимущественного относилась к английскому. Кроме того, скрипт генерации словаря теперь создает все необходимые ограничения foreign key.


13-09-2011 Обновление offline-версии морфологического анализатора

На сайте выложена новая сборка бесплатной программы Morphology.

Она выполняет морфологический разбор предложений и показывает основную грамматическую информацию - часть речи, падеж, род, число, вид, время и так далее.

Ее работа основана на демонстрационной версии DLL грамматического движка. Относительно полной версии данный вариант имеет небольшие ограничения в плане работы с лексиконом и тезаурусом. Кроме того, программа комплектуется несколько урезанным русским словарем.

Функционально программа почти полностью аналогична онлайн-версии морфоанализатора, но не требует доступа к серверу грамматического словаря.


11-09-2011 Изменения в морфологическом анализаторе

Новая ревизия 10.10 выложена на онлайн-сервере. Главное изменение сделано в алгоритме морфологического разбора предложений. Теперь в правилах анализа можно работать не только со словарными статьями, но и с вне-словарными единицами текста. К примеру, в правилах можно задавать наборы произвольных слов и сопоставлять слова с регулярными выражениями. Это позволит работать с различными названиями, включая наименования фирм, товаров и так далее. В качестве проверки концепции можно посмотреть на анализ фраз

на этой удивительно четкой фотографии можно увидеть рассеянное скопление NGC 884

на фотографии можно увидеть спиральную галактику M31

В качестве не-словарных элементов, на которые можно ссылаться в правилах, могут выступать также словосочетания. Сейчас для проверки добавлено распознавание нескольких вводных словосочетаний, к примеру:

Нет никаких сомнений, что я поговорю с Антонио и Элеонор

Еще одно важное нововведение - расширение алгоритма нечеткого поиска слов. Теперь он умеет работать с распространенными опечатками, то есть со словами, которые часто пишутся неправильно либо по ошибке, либо намеренно. Таким образом, вместо внесения в лексикон ненормативных словарных форм и опоры на возможности определения морфологических категорий не-словарных текстовых единиц, мы можем явно обучать морфоанализатор распознавать их. Для проверки в словарь введено несколько таких слов, к примеру:

кошки спят, патамушта они поймали тыщу мышек


05-09-2011 Ревизия 10.09 русской морфологии

На сервере выложена новая серверная версия грамматического словаря.

Внесено много дополнений и правок в лексикон и морфологический анализатор русских предложений. Далее по ссылкам можно увидеть результаты морфологического разбора некоторых предложений, в том числе и содержащих слова с ошибками, либо несловарные единицы.

мы загараем под сонцем

пушыстая кощка спит на деване

я вижу пушыстую суперкошку

бармаглот вяло плюкует

Сервер с онлайн-словарем доступен примерно с 10 до 18 часов по Москве в рабочие дни.

Объем словаря вырос до примерно 136 тысяч словарных статей, или более 1 миллиона уникальных слов.


25-08-2011 Нечеткий анализ в серверном варианте словаря

1. Войдите на страницу http://178.64.252.139:8080/Morphology.aspx

2. Введите в поле ввода предложение пушыстая кощка спит на деване

3. Запустите морфологический анализ.

В результатах можно видеть, что анализатор не только определил грамматические признаки слов пушыстая, кощка и деван, но и обоснованно предположил, что это формы прилагательного пушистый , существительного кошка и диван. Кликните на блоке желтого цвета, чтобы получить развернутый отчет о результатах анализа для конкретного слова.

Кроме того, видно еще одно нововведение. При внимательном просмотре результатов анализа для слова деван можно заметить, что кроме варианта диван найден также вариант девон, но он идет вторым из-за низкой относительной частоты использования этого слова.


24-08-2011 Обновления в русской морфологии v.10.06

В новый релиз грамматического словаря вошел большой набор изменений, среди которых:

1. Новые функции процедурного API: sol_ListPartsOfSpeech - список частей речи, sol_GetEntryFreq - частотная информация о словарной статье, sol_LinksInfoCode - тип связи в тезаурусе, sol_FindEntryCoordPair - проверка наличия грамматического признака в словарной статье, sol_GenerateWordforms - получение грамматической формы по набору морфологических признаков, sol_GetLeafLinkType - определение типа ребра в синтаксическом графе.

2. Полностью переписан алгоритм нечеткого распознавания слов в морфологическом анализаторе. Теперь он умеет быстро искать слова с пропусками букв, с опечатками и подменой.

3. Переработана программа Thesaurus, теперь она использует dll процедурного API для доступа к словарной базе.


09-08-2011 Переработанный модуль стемминга

Полностью переработан алгоритм, генерирующий русский стеммер по информации из лексикона. Изменения в стеммере включают в себя:

1. Технические моменты - существенно повышено быстродействие.

2. Более качественный набор правил усечения за счет того, что при построении происходит анализ промежуточных результатов и итерационное уточнение неточных правил.

3. Особенности русского словоизменения , а именно - учет внутренней флекции.

Новая версия стемминга в виде .NET сборки доступна для тестирования на странице http://178.64.252.139:8080/Stemming.aspx.


31-07-2011 Онлайн-версия грамматического словаря

В течении августа будет (не всегда) доступен сервер, на котором развернуты практически все части грамматического словаря и синонимизатора. Доступ к серверу - по ссылке http://solarix.ru/online/server2.html.

Сервер будет в онлайне обычно в рабочее время по Москве.

Для тестирования используйте логин test и пароль test.


12-05-2011 Обновление API поисковой системы

1. В программный интерфейс поисковой системы добавлены функции sol_LoadPlugins[W,A,8] для загрузки списка плагинов из заданного каталога. Это может быть удобнее, чем переписывание конфигурационного ini-файла и использование sol_ReadIni.

2. В SDK поисковой системы включены все основные плагины, включая те, что обеспечивают извлечение текста из различных офисных документов и распаковку архивов. Файлы плагинов вместе с необходимыми дополнительными файлами располагаются в подкаталоге ...\lib\faind-plugins.

3. Демонстрационная программа, входящая в состав SDK, содержит пример вызова sol_LoadPluginsW для загрузки имеющихся в SDK плагинов. Включение загруженных плагинов в процесс поиска текста выполняется автоматически без каких-либо дополнительных команд.

4. В метаплагине 2text сделано несколько правок. В частности, при запуске внешних обработчиков, то есть автономных исполнимых модулей для выделения текста, путь к обрабатываемому файлу задается как абсолютный. Кроме того, в плагин внесены дополнительные возможности, обеспечивающие интеграцию поисковой системы с модулем OCR.

Скачать архив SDK поисковой системы с полной поддержкой русской морфологии (22 Мб)


05-05-2011 Текущие планы выпуска релиза

Основные изменения в ближайшем большом релизе будут затрагивать прежде всего грамматический словарь и опирающиеся на него проекты.

1. Правки в определении французской грамматики, изменены правила склонения прилагательных и спряжения глаголов, французский лексикон немного почищен.

2. Русский лексикон - расширение словарной базы и правки опечаток.

3. Синонимизатор и перефразировщик - поправлены правила перефразировки, в движке правил трансформации исправлены несколько ошибок.

4. Полнотекстовый переводчик - выполнена отладка модуля реконструкции текста, в нем поправлены некоторые ошибки. На будущее намечено расширение алгоритма за счет учета в нем широкого контекста.


16-04-2011 Обновление SDK поисковой системы

В новый дистрибутив SDK поисковой системы вошли изменения:

1. Добавлена функция sol_PrepareQueryForText, позволяющая выполнять поиск в строке, находящейся в оперативной памяти.

2. В демо-программу включен тест на многопоточность поиска.

3. Исправлена работа команды -multiword вместе с опцией -onceperfile, в прежних версиях был баг, приводивший к зацикливанию фиксации и исчерпанию оперативной памяти.

Дистрибутив доступен по этой ссылке


30-03-2011 Грамматический Словарь и SDK v.9.17

В программу Грамматический Словарь Русского Языка и в SDK Словаря внесены следующие изменения:

1. В русский лексикон добавлено примерно 5 тысяч новых словарных статей.

2. Произведен очередная выверка русского и английского лексикона, поправлены опечатки и ошибки.

3. Добавлены правила морфологического анализа для английского раздела.

4. При отображении словарной статьи секции тезауруса и примеров использования можно убрать, кликнув по символу [-] в заголовке.


21-02-2011 Грамматический Словарь в.9.11

В программу Грамматический Словарь Русского Языка внесены изменения:

1. При выводе русских наречий отображаются формы превосходной степени, если они есть.

2. При выводе английских наречий отображаются сравнительная и превосходная степени, если они есть.

3. Добавлено около сотни новых русских существительных.

4. В русский и английский тезаурус добавлено множество связей для деривативов и родовых пар.

5. Исправлены найденные ошибки.


Скриншоты для наречий можно увидеть на этой странице.


07-02-2011 Обновление Грамматического Словаря

В программу Грамматический Словарь Русского Языка внесены изменения:

1. Изменен вывод списка словарных статей, соответствующих введенному префиксу или слову, в начале списка идут наиболее близкие по длине статьи.

2. При визуализации английских словарных статей выводятся маркеры ударения.

3. В английский лексикон добавлены сведения о положении ударения для ~50 существительных и прилагательных, образующих пары с идентичным написанием базовой формы.


05-02-2011 Исходные тексты C API

На сайте выложены 2 файла с исходными текстами на C++ двух API:

grammar_engine_api.cpp - грамматический словарь

search_engine_api.cpp - поисковый движок

Это немодифицированные тексты, которые реализуют переход от ООП внутренностей соответствующих проектов к C-style программному интерфейсу. Оба файла компилируются 32- и 64-битными компиляторами под Windows, Linux и MacOS X.


01-02-2011 Обновление SDK поисковой системы

Изменения затрагивают как функциональность поискового движка, так и состав SDK.

1. Поисковый движок faind.win32.dll перекомпилирован с поддержкой веб-краулера (команды -url и вспомогательные), и команды -multiword

2. В SDK включены все основные плагины, в том числе для документов формата PDF и офисных, а также плагины-распаковщики.

3. В SDK включены 2 новых примера: DocFinder для поиска по документам в заданной папке без индексирования, и WebCrawler в качестве примера использования веб-краулера для поиска ключевых слов на заданном списке сайтов. Оба примера включены вместе с исходными текстами на C++.

Скачать SDK объемом примерно 21 мегабайт можно по ссылке


18-01-2011 Обновление Dictionary ORM

В библиотеке доступа к SQL словарю для платформы .NET переработаны классы, предоставляющие доступ к разным моделям СУБД.

1. Переработаны классы MySQL_DataAccessLayer и FireBird_DataAccessLayer для доступа к MySQL и FireBird, вместо ODBC они используют свои официальные .NET провайдеры.

2. Добавлен класс Oracle_DataAccessLayer для доступа к словаю в Oracle.

3. Добавлен класс ODBC_DataAccessLayer для доступа к БД через ODBC.


14-01-2011 Быстрый поиск словарных статей

Полностью переписан алгоритм быстрого поиска словарных статей по glob-маске для грамматических форм. Соответствующий модуль используется в программе Грамматический Словарь Русского Языка, кроме того он уже экспортируется в SQL форму для MySQL, SQLite, MySQL и MS SQL. В будущем планируется построить на его основе новую подсистему проекции слов, в том числе нечеткий поиск - с пропусками, вставками лишних символов и заменами.

Новая версия Грамматического словаря доступна для ознакомления.


08-01-2011 Алфавиты

Подсистема, отвечающая за хранение данных об алфавитах, буквах и так далее, полностью переработана - см. ее описание.

Внутренее представление буквостатей и буквоформ изменено на использование 32-битной кодировки символов UCS-4, вместо использовавшейся ранее в Windows кодировки UCS-2.

SQL словарь теперь формируется с набором таблиц, представляющих алфавиты. Новые таблицы имеют префиксы ABC. Новые скрипты для формирования демонстрационной базы данных грамматического словаря залиты на сайт.

Объявление французского алфавита переработано таким образом, что нормализация текста не устраняет диактрические значки.

В описание грамматического словаря введены 2 параметра - основной и второй языки. На основе этих параметров выполняется привязка алгоритма нормализации к подмножеству алфавитов.


22-12-2010 Тестовая база N-грамм в SDK

В состав SDK грамматического словаря, а также демо-SDK, включена крошечная тестовая база N-грамм.

Работа с этой базой демонстрируется в программе TestLexicon, исходные тексты которой входят в SDK. Выполняется вызов функций sol_Seek1Grams ... sol_Seek5Grams для получения частоты соответствующих паттернов, для буквального соответствия и с лемматизацией.

Программа Lexicon, также входящая в состав SDK, тоже способна дать доступ к этой базе. Достаточно запустить её, выбрать в начальном меню пункт "запросы к N-граммам", и далее увидеть статистику базы и делать запросы к ней.


12-12-2010 Консольный поиск под Linux

На сайте доступны архивы поисковой утилиты, собранные для 32- и 64-х битных версий Linux, а также небольшое введение в работу с утилитой.


08-12-2010 Релиз версии 9

Доступны: SDK Грамматического Словаря, SDK SQL Словаря, SDK Синонимизатора и Перефразировщика.

В планах - релиз поисковой системы с измененным морфологическим блоком.


04-12-2010 Пользовательский словарь в Linux

В архив SDK под Linux включены средства для создания пользовательского словаря как комбинации из базового русского словаря и словарных статей, а также связей для тезауруса, определяемых в текстовом файле.

Пошаговое описание сборки под Linux - здесь.

Описание способов модификации словаря - здесь.


30-11-2010 Местоимения в грамматическом словаре

В Грамматическом словаре русского языка сделано отображение форм местоимений. Кроме того, для всех местоимений добавлена ёфикация - хранящиеся в БД отметки для грамматических форм с употреблением буквы ё (подробности тут).

Вот так выглядит страница для местоимения в новой версии.


29-11-2010 Тестовая сборка SDK под Linux

По ссылке http://narod.ru/disk/483920001/libgren.7z.html доступен архив с текущей отладочной сборкой SDK Грамматического Словаря под Linux.

Кратко о том, что изменяется в версии 9 грамматического словаря - здесь.


14-11-2010 Что будет в версии 9

Основной упор в новой версии грамматического словаря сделан на полной переработке хранилища словаря. На данный момент полностью завершены переделки в тезаурусе. В лексиконе осталось реализовать новый механизм хранения и загрузки словарных статей.

Пример того, что позволяет сделать новый движок, можно найти в блоге.


04-11-2010 Обновление Morphology

На сайте обновлен дистрибутив Morphology - морфологического анализатора предложений на русском языке с простым графическим интерфейсом.

В эту версию вошли последние изменения в наборе правил морфологического разбора и прочие правки в грамматическом словаре.

Описание программы ...


31-10-2010 Демо версия SDK 8.54

На сайте обновлен дистрибутив демо-версии SDK грамматического словаря со всеми последними добавлениями и исправлениями.


30-10-2010 Грамматический словарь 8.54

Добавлена виртуальная экранная клавиатура с русским алфавитом для удобства использования программы в не-русифицированных ОС.

Введен дополнительный режим отображения содержимого словаря - тезаурус, в дополнение к ранее имевшимся базовому и диаграмме тезауруса.

Описание программы и ссылка для скачивания и покупки ...


25-10-2010 Обновление программы Морфология

В морфологический анализатор русского языка добавлено множество эвристик, например "существительные в перечислении обычно стоят в одном падеже".

Программа Morphology, использующая в данный момент демо-версию словаря и библиотеки процедурного API, обновлена и доступна для скачивания в статусе альфа-версии.


19-10-2010 Лемматизатор в Mac OS X

Динамическая библиотека лемматизатора собирается под Mac OS X и успешно проходит комплексный тест.


13-10-2010 Расширенное описание тезауруса

Добавлено несколько статей с детальным описанием отдельных видов связей в тезаурусе - см. здесь.


13-10-2010 Обновление Грамматического Словаря Русского Языка

Среди изменений - порция новый словарных статей, преимущественно существительных, количественное расширение тезауруса. Также поправлены опечатки и ошибки в парадигмах склонения некоторых существительных.

Описание программы и ссылка для скачивания и покупки ...


10-10-2010 SQL словарь и ORM библиотека

1. В библиотеку ORM введен слой доступа к словарю в FireBird. В схему, генерируемую утилитой экспорта для данной СУБД, внесены дополнения. Чтобы обеспечить прозрачную для многопользовательской работы генерацию первичных ключей при добавлении в лексикон и тезаурус новых данных, скрипт заливки словаря создает несколько генераторов командами CREATE SEQUENCE.

2. Внесены модификации в схему словаря для MS SQL. Для прозрачной генерации первичных ключей у соответствующих столбцов задано свойство IDENTITY, в скрипт заливки добавлены команды SET IDENTITY_INSERT, чтобы обеспечить нормальный импорт данных командами LAOD DATA. Слой доступа к словарю в MS SQL переработан для поддержки новой схемы генерации ключей - после команд INSERT первичный ключ новой записи определяется запросом SELECT @@IDENTITY.

3. Документация по ORM библиотеке существенно дополнена - большинство доступных пользователю классов получили краткое описание, доступ к описаниям есть из списка классов на главной странице.

4. SQL словарь оформлен как отдельный программный продукт

, доступный для приобретения.


free counters
     
предыдущие новости »