/

Гаврилова Татьяна Сергеевна; Ляшевская Ольга Николаевна

Взiaлъ, възялъ, вьзял: Обработка орфографической вариативности при лексико-грамматической аннотации Старорусского корпуса XV–XVII вв.


Ляшевская О. Н. Взiaлъ, възялъ, вьзял: Обработка орфографической вариативности при лексико-грамматической аннотации Старорусского корпуса XV–XVII вв. // Вестник ПСТГУ. Серия III: Филология. 2017. Вып. 51. С. 11-20.

DOI: 10.15382/sturIII201751.11-20

Аннотация

Рассматривается проблематика нестабильной орфографии корпуса текстов позднедревнерусского периода в свете их автоматической обработки. Тексты Старорусского корпуса Национального корпуса русского языка (НКРЯ) включают памятники, написанные преимущественно в XV–XVII вв., т. е. в тот период, когда вариативность написания слов все еще была нормой. Задача лексико-грамматической разметки словоформ в корпусе заключается в определении начальной формы (словарной формы, леммы), части речи и грамматических характеристик. Традиционные методы автоматического определения лексико-грамматических характеристик базируются на презумпции идентичного вида основы и окончания слова в каждой из грамматических форм. Поэтому нестабильная орфография памятников становится причиной неэффективной работы автоматических морфологических анализаторов (таггеров) — в том случае, если они не оснащены модулем поддержки орфографической вариативности. В работе применяется относительная и абсолютная нормализации орфографии. Относительная нормализация предполагает размножение орфографических представлений основ и окончаний в грамматическом словаре по регулярным правилам, обрабатывающим: а) флексии; б) именные основы с регулярной вариативностью -ск(ии) / ст(ии), -и(я) / -ь(я); в) основы имен церковнославянского происхождения; г) основы приставочных глаголов и т. п. Абсолютная нормализация предусматривает перевод пар регулярно варьирующихся букв (например, о / 1, е / ѣ) и буквосочетаний (например, шт / щ, жю / жу) к единому представлению (например, о, е, щ, жу). При абсолютной нормализации унифицируются как единицы грамматического словаря, так и словоформы в тексте.

Ключевые слова

древнерусский язык, старорусская письменность, корпус, НКРЯ, лексико-грамматическая разметка, орфографическая вариативность, орфоварианты, нормализация орфографии

Список литературы

Архангельский Т. А. Принципы построения морфологического парсера для разноструктурных языков: Дис. ... канд. филол. наук. М.: МГУ, 2012.
Винокур Т. Г. Древнерусский язык. М.: Высшая школа, 1961.
Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н. К задаче автоматической лексико-грамматической разметки старорусского корпуса XV–XVII вв. // Вестник ПСТГУ. Сер. III: Филология. 2016. № 2. С. 7–25.
Зализняк А. А. Грамматический словарь русского языка: Словоизменение. М.: Русский язык, 1977. 4-е изд., испр. и доп., М.: Русские словари, 2003.
Мишина Е. И., Пичхадзе А. А. Древнерусский подкорпус Национального корпуса русского языка // Труды Института русского языка РАН. 2015. Вып. 6. С. 99–115.
Молдован А. М. Памятники древнерусской письменности в Национальном корпусе русского языка // Труды Института русского языка РАН. 2015. Вып. 6. С. 88–98.
Berdichevskis A., Eckhoff H. M., Gavrilova T. The beginning of a beautiful friendship: rule-based and statistical analysis of Middle Russian // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог» 2016. Вып. 15 (22).
Jurafsky D., Martin J. H. Speech and language processing. International Edition. New Jersey, 2000.
Piotrowski M. Natural Language Processing for Historical Texts. Synthesis Lectures on Human Language Technologies. Vol. 17. San Rafael, 2012. Р. 69–78.
Schmid H. Probabilistic part-of-speech tagging using decision trees. Proceedings of the International Conference on New Methods in Language Processing. 1994.
Segalovich I. A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine. Proceedings of MLMTA, Las Vegas, Nevada, 2003. P. 273–280.

Данные об авторе

Гаврилова Татьяна Сергеевна


Ляшевская Ольга Николаевна