1. В хранящихся в лексиконе парадигмах нет
информации об ударениях. Это никак не отражается на возможностях
автоматической обработки текста, например в поисковой
системе. Тем не
менее надо отметить, что в немногочисленных случаях такое огрубление
приводит к неразличимости словоформ. К примеру:
дóктора (ед.ч. род.п.) и докторá
(мн.ч. им.п)
выкупа́ть (несов. вид) - вы́купать
(сов. вид)
В некоторых случаях отсутствие ударения
приводить к неразличимости двух слов со всеми словоформами, например:
пора́-по́ра
Для восстановления информации об ударении и
отображении её в программе используется дополнительная таблица слов с
проставленными ударениями, хранящаяся в тезаурусе.
2. Аналогичное упрощение применено в отношении
буквы ё, и это также в редких
случаях приводит к совпадению словоформ:
зерна́ (ед.ч. род.п.) - зёрна
(мн.ч. им.п.)
Для ёфикации отображаемых программой словоформ
используется дополнительная информация в тезаурусе.
3. Парадигма глагола разбита на несколько грамматических классов:
инфинитивы
деепричастия
причастия
собственно глаголы
Причем причастия объединены с прилагательными в
один грамматический класс. Это означает также, что прошедшее и
настоящее время причастий несовершенного вида разбито на отдельные словарные статьи плававший-плавающий, так же как и
страдательный и действительный залог для причастий совершенного вида сделавший-сделанный. Подробнее см. здесь.
4. Для глаголов в лексиконе хранится информация о модальности (управлении инфинитивом), и переходности (управление прямым дополнением), а также детальная структура переходности - падежная валентность, то есть управление существительными в определенных падежах кроме именительного. Подробнее см. здесь.
Например, модальный глагол решить в решить поплавать.
Переходный глагол выпить является переходным,
падежная валентность включает в себя родительный и винительный падежи выпить молока, выпить стакан молока.
5. В некоторых случаях для глаголов указывается
форма множественного числа 1го
лица повелительного наклонения: идёмте.
6. Для наречий в некоторых случаях указывается
сравнительная степень, причем соответствующих форм может быть
несколько: тихо-тише-потише.
7. Для предлогов (как и для глаголов) хранится падежная валентность.
8. Значительную часть тезауруса составляют
грамматические связи,
отражающие прежде всего словообразование.
В частности, именно
грамматические связи позволяют объединить разбитую на инфинитивы,
деепричастия, причастия и глаголы парадигму.
Примеры грамматических связей:
сила-сильный-сильно
усиление-усиливать-усилить-усиливая-усиливающий-усиленный-усиливаться-усиливающийся-усилиться-усилившийся-усилившись
9. Другая группа связей в тезаурусе - семантические, в том числе:
синонимы: собака-псина
антонимы: ярко-тускло
уменьшительно-ласкательные формы: страшный-страшненький
увеличительные формы: рука-ручища
грубые формы: кот-котяра
книжный стиль: разброс-дисперсия
актор: фотографировать-фотограф
действие: фотограф-фотографирование
гипонимы и гиперонимы: муха-насекомое
В группу семантических связей можно отнести
также:
гендерные синонимы/антонимы: директор-директриса
Подробнее о них здесь.
10. Грамматический движок
позволяет собирать
различные конфигурации словарей, в том числе одно- и многоязычные.
В состав дистрибутива программы
входит двуязычный англо-русский словарь, в тезаурусе
которого есть переводы - связи между русскими и английскими словарными статьями.
Если собрать словарь с несколькими языками, то программа без каких-либо
модификаций будет отображать все возможные переводы между всеми языками:
11. При составлении словарей не ставилась цель
зафиксировать литературную норму языка. Напротив, техника пополнения
словаря, включающая частотный анализ текстов с помощью утилиты Empirika,
подразумевает, что в лексикон попадают просторечные, вульгарные формы,
если они достаточно часты. Например, для существительного шофёр в
лексиконе присутствуют две формы множественного числа именительного
падежа - нормальная шофёры и
просторечная шофера́. Некоторую статистику по словарю можно посмотреть здесь.
12. В силу двух причин: 1) из-за используемой методики наполнения словаря на основе частотного анализа текстов, 2) разделения парадигмы глагола на инфинитивы, деепричастия, причастия и глаголы, не для всех инфинитивов есть глагольные словарные статьи
|
.
Впрочем, для всех деепричастий и глагольных
статей есть инфинитивы. 13. Для наречий
в одну словарную статью группируются сравнительные
формы, по аналогии с прилагательными. Подробнее смотрите здесь. 14. Для существительных, не имеющих форм единственного числа,
категорию грамматического рода следует игнорировать. Подробнее смотрите здесь. 15. Слова, образованные с помощью приставки не-, обычно (но не
всегда) являющиеся антонимами для исходных слов, представлены в
лексиконе не исчерпывающе - преимущественно внесены часто употребимые
слова. Подробнее смотрите здесь. Скачать и купить Грамматический СловарьСкачать Грамматический Словарь Дополнительные материалы
| |||||||||||||||||||||||||||||||||||||||||
© Mental Computing 2010
Поисковая система
SDK Поисковой системы
Экранный переводчик
|
|
изменено 15-Aug-10 | ||||||||||||||||||||||||||||||||||||||