Для многих глаголов и прилагательных есть однокоренные существительные, обозначающие качество или явление как предмет:
краснеть-красный-краснота,покраснение
Такой процесс образования существительных называется номинализацией. В случаях, когда существительное образуется без использования или удаления суффикса, говорят о субстантивации. Однако для формирования тезауруса интерес представляет только частичная субстантивация, при которой слово употребляется и как существительное, и как прилагательное:
ванная комната - ванная
Таких пар в русском языке очень немного.
Если говорить о более широком явлении номинализации, то русский тезаурус содержит очень много записей данного типа, включая экзотические деривативы типа:
валять дурака - дуракаваляние
В английском тезаурусе также есть соответствующие связи, хотя аналитический строй этого языка обуславливает очень большое количество слов, относящихся к разным частям речи, но совпадающих в базовой словарной форме:
to run - run (as noun)
Номинализация с помощью присоединения одного из нескольких суффиксов также широко используется в английском языке:
to transform - transformation
Особенность английского языка, которая отсутствует в русском - герундий, особая форма глагола, выступающая в роли существительного, обозначающего процесс:
Thinking is a mental process ...
В ряде случаев формы герундия внесены в английский лексикон как существительные. Чтобы сохранить связь с оригинальным глаголом, в тезаурус вносится пара соответствующих записей - от глагола к существительному-герундию, и обратная связь.
Наличие в русском языке вида глагола и видовых пар служит основанием для существования в русском тезаурусе большой группы связей между однокоренными глаголами совершенного и несовершенного вида:
делать-сделать
краснеть-покраснеть
В силу особенностей описания глаголов в русском языке, имеется целая группа частей речи, связанная с глаголом:
собственно глагол
инфинитив - неопределенная форма глагола
деепричастие, синтаксически подобное наречию
причастие, склоняющееся как прилагательное по родам, числам и падежам, хотя и не имеющая сравнительных и превосходных форм.
Все эти части речи объединяет некоторый набор морфологических признаков, присущих глаголу. Разумеется, главный из них - совершенный и несовершенный вид, определяющий грамматические свойства причастий и деепричастий:
делая-сделав
делающий-сделавший
В рамках грамматического словаря основой для описания глагола является инфинитив. Остальные части речи наследуют свойства глагола в буквальном смысле слова - указание конкретного инфинитива как первоосновы заставляет словарь в ходе сборки брать признаки вида, переходность, падежную валентность и модальность из словарной статьи неопределенной формы.
Связь с инфинитивом-первоосновой вносится также в тезаурус. Это позволяет выполнять, к примеру, при полнотекстовом переводе необходимое преобразование оригинального текста в присущие русскому языку средства выражения.
Так как причастия в рамках описания русской грамматики объединены с прилагательными, то в данную группу деривативов автоматически попадают связи причастий с порождающими глаголами.
Помимо этого, имеется большое количество отглагольных и отсубстантивных прилагательных, образованных обычно суффиксальным или префиксально-суффиксальным способом, связь которых с исходным существительным или глаголом фиксируется в тезаурусе:
Коля - колин
девочка - девочкин
колдовство - колдовской
сгибать - несгибаемый
Можно также упомянуть и такие пары существительное-прилагательное, как:
Нижний Новгород - нижегородский
Некоторые более сложные способы словообразования прилагательных не находят отражения в тезаурусе, так как описывают отношения большего чем 2, количества слов:
сложение американо-германский
сложение с суффиксацией двусложный
сращение вечнозеленый
сращение с суффиксациейникчемный, безосновательный
сложносоставной способ образования какой-никакой
Дериваты - это самый многочисленный тип связей в тезаурусе. Количество связей каждого типа в текущей версии словаря, загруженной в реляционную базу данных, можно посмотреть на этой странице. В таблице о составе тезауруса каждый тип связи идет под своим уникальным обозначением. В частности, к деривативам относятся связи с названиями в_сущ, в_инфинитив, в_предикат, в_прил, в_наречие, в_деепричастие, в_сов, в_несов, в_ся, без_ся.
Для доступа к тезаурусу можно применять процедурный API, ORM библиотеку или напрямую обращаться к базе данных через SQL запросы.
Для поиска дериватов любым из вышеперечисленных методов необходимо иметь 2 значения. Во-первых, нужен первичный ключ словарной статьи. Во-вторых, необходимо иметь числовое значение для константы типа связи.
Первичный ключ словарной статьи можно получить разными способами. При работе с SQL словарем он явным образом задан для каждой записи в таблице SG_ENTRY. Если применяется ORM библиотека, то первичный ключ доступен как свойство id в экземплярах класса WordEntry. Для процедурного API первичный ключ может быть получен при помощи нескольких функций в зависимости от способа обработки текста, например sol_FindEntry.
Второй необходимый компонент - числовое значения для типа связи. В рамках процедурного API и ORM библиотеки практически все типы связей имеют объявленные числовые константы. Для получения этих констант программа на C/C++ должна включить заголовочный файл _sg_api.h, программы на платформе .NET, включая ORM библиотеку, должны включить сборку gren_consts.dll. При работе с SQL словарем можно либо использовать объявленные константы, либо выполнить поиск по таблице SG_STATE с указанием id_coord=0:
SELECT id, name FROM SG_STATE WHERE id_coord=0
Зная оба значения, можно получить список первичных ключей словарных статей-дериватов. С помощью SQL-запроса это выглядит так:
SELECT E2.id, E2.name FROM SG_ENTRY E1, SG_LINK L, SG_ENTRY E2 WHERE E1.name='делать' AND L.id_entry1=E1.id AND L.istate BETWEEN 35 AND 44 AND E2.id=L.id_entry2
В этом запросе оператором BETWEEN фильтруются все типы связей, относящиеся к дериватам, с жестко вбитыми значениями. В результате выполнения запроса получим такую выборку:
id | name |
---|---|
1073750044 | делать |
1073750045 | сделать |
1073761221 | наделать |
1073764564 | понаделать |
1073806814 | деланный |
1073818125 | делание |
1073840333 | делаемый |
1073864999 | делающий |
1073867853 | делавший |
1073884249 | делать |
1073904087 | делая |
В процедурном API для получения списка статей-дериватов можно воспользоваться функцией sol_Thesaurus или sol_ListLinksTxt.
Экземпляры класса WordEntry в ORM библиотеке имеют свойство links, позволяющее перечислить связанные словарные статьи и отфильтровать их, например с помощью LINQ.
В качестве примера использования информации о дериватах в тезаурусе можно привести нормализацию текста.
Отношения обитатель-место обитания в тезаурусе
Отношения экземпляр-целое в тезаурусе
Отношения субъект-действие в тезаурусе
Потомки (дети и детеныши) в тезаурусе
Поиск связей в тезаурусе через API
Грамматический Словарь Русского Языка
© Козиев Илья 2019
![]() |
|
изменено 05-Feb-12 |