Cтемминг (от англ. stemming) — это поиск основы слова, учитывающий морфологию исходного слова. Стемминг выполняет морфологический разбор слова, находит общую для всех его грамматических форм основу, отсекая суффиксы и окончания.
Принцип работы стемминга
Поисковые системы, применяя в алгоритмах работы механизм стемминга, дают возможность производить поиск веб-документов с учетом морфологии слова. Это значит, что при вводе пользователем запроса, поисковая машина учитывает все словоформы данного слова, отражая это в поисковой выдаче. К примеру, при отправлении поискового запроса «колодец» в поисковой выдаче будут также присутствовать все словоформы с основой введенного слова, такие как, «колодцы», «колодца», «колодцем» и т.д.
Анализатор стемминга mystem
Поисковая система Яндекс для морфологического поиска разработала программу mystem. Анализатор свободно распространяется для некоммерческого использования. Доступны версии для наиболее распространенных ОС: Windows, MacOS X, Linux и FreeBSD. Анализатор mystem дает возможность привести слова к начальной (словарной) форме, узнать их частоту употребления в русском языке и грамматические характеристики. В версии 1.0 был доступен морфологический анализ английского текста. Программа mystem использует для анализа словарь часто употребляемых русских слов и предлагает гипотетическую начальную форму для остальных.
Принципы классификации словоформ существенно отличаются от общепринятых:
- времена делятся на непрошедшее и прошедшее;
- в одну парадигму (список словоформ) включены многие глаголы, отличающиеся суффиксом, совершенного и несовершенного вида (открывать {открывать}, открыть {открывать}).
Анализатор mystem лег в основу программного обеспечения для морфологической разметки Национального корпуса русского языка (разработчики Панкратов Д.В., Поляков А.Е. и Титов В.А.).