Для глаголов и производных частей речи (причастий, деепричастий) в русском языке очень важную роль играет противопоставление по критерию вида:
сметь - посметь
Можно заметить, что в видовых парах семантика меняется, но это изменение во многих случаях не выходит за пределы изменения в категории времени, и просто отражает оттенок завершенности, законченности действия:
беру-брал возьму-взял
Для определенного диапазона применений, в том числе для поисковых систем, можно провести аналогию между операциями приведения к неопределенной форме глагола (беру-брать) и приведением к несовершенному виду (взять-брать). Это позволяет улучшить поисковые возможности системы без существенной потери релевантности результатов поиска.
Приведение русского глагола к неопределенной форме в подавляющем числе случаев хорошо выполняется стеммером, не говоря уже о лемматизаторе. Для стемминга сложности возникают из-за внутренней флекции, то есть появления и исчезновения гласной в корне:
брать-беру
взять-возьму
А вот приведение к несовершенному виду в русском языке выходит за рамки возможностей алгоритма стеммера, который усекает слово справа. Причина состоит в том, что в большинстве случаев противопоставление совершенного и несовершенного вида выражается не изменением суффикса, которое способен учесть стеммер (так называемая суффиксация и дезаффиксация):
махать - махнуть
достигать - достичь
а изменением приставки или корня:
покупать - купить (исчезновение префикса)
петь - спеть (префиксация)
набирать - набрать (внутренняя флексия)
брать - взять (супплетивизм)
Особняком стоят видовые пары, в которых разница выражается только в устной речи переносом ударения:
нарезать - нарезать,
а также двухвидовые глаголы, для которых вид определяется только в контексте:
повстанцы атаковали позиции регулярных частей всю ночь (несовершенный вид, длительное действие)
утром регулярные части атаковали позиции повстанцев (совершенный вид, однократное действие)
Вызов стеммера в прикладном коде
© Козиев Илья 2019
![]() |
|
изменено [an error occurred while processing this directive] |