/

Гаврилова Татьяна Сергеевна; Ляшевская Ольга Николаевна

К задаче автоматической лексико-грамматической разметки старорусского корпуса XV-XVII вв


Ляшевская О. Н. К задаче автоматической лексико-грамматической разметки старорусского корпуса XV-XVII вв // Вестник ПСТГУ. Серия III: Филология. 2016. Вып. 2 (47). С. 7-25.

DOI: 10.15382/sturIII201647.7-25

Аннотация

В работе рассматриваются два подхода к разработке автоматической аннотации корпуса старорусских текстов XV–XVII вв., включенных в Национальный корпус русского языка (НКРЯ). Лексико-грамматическая аннотация состоит в определении части речи, грамматических характеристик и начальной формы слова (леммы) для каждой словоформы корпуса. Язык старорусской письменности совмещает в себе, с одной стороны, черты древнерусского словоизменения, включая формы аориста и имперфекта глагола, формы двойственного числа и другие архаичные формы, а с другой стороны — черты современной русской словоизменительной морфологии. Подобное смешение проявляется и в лексическом составе. Кроме того, в текстах присутствуют церковнославянские, а также диалектные варианты. Если добавить к этому отсутствие устойчивой орфографии, становится понятна вся сложность задачи, связанной с аннотацией старорусских текстов. Первый из рассматриваемых подходов основан на построении электронного словаря старорусского языка и создании модуля обработки орфографической вариативности. В отсутствие открытых электронных ресурсов, документирующих морфологию старорусского периода, за основу был взят электронный словарь церковнославянского языка, разработанный А. Е. Поляковым на базе церковнославянского корпуса НКРЯ. Мы описываем процедуры, связанные с адаптацией именной и глагольной морфологии к данным старорусского корпуса. Второй подход связан с привлечением программы автоматической аннотации текстов русского языка XIX–XX вв., дополненной модулем обработки орфографической вариативности, с одной стороны, и корпуса лексико-грамматических разборов древнерусских текстов, полученных из Исторического корпуса НКРЯ, — с другой.

Ключевые слова

старорусский язык, корпус, НКРЯ, лексико-грамматическая разметка, морфологический таггер, грамматический словарь, именное словоизменение, глагольное словоизменение.

Список литературы

1. Историческая грамматика русского языка: морфология; глагол / [Р. И. Аванесов, В. В. Иванов, В. Б. Силина и др.] Р. И Аванесов, В. В. Иванов, ред. М.: Наука. 1982.
2. Архангельский Т. А. Принципы построения морфологического парсера для разноструктурных языков. Дисс... канд филол. наук. М.: МГУ, 2012.
3. Демьянов В. Г. Вести-Куранты: 1. Издание для исследования. 2. Исследование для издания // Лингвистическое источниковедение и история русского языка. М., 2000. С. 213–232.
4. Добрушина Е. Р., Кравецкий А. Г., Поляков А. Е. Корпус и частотный грамматический корпусный словарь церковнославянского языка в составе НКРЯ // Труды Института русского языка им. В. В. Виноградова. Вып. 6. 2015. С. 116–141.
5. Добрушина Е.Р., Поляков А. Е. Корпус церковнославянского языка: возможности, методы создания, перспективы // Вестник ПСТГУ. Серия III: Филология. 2013. Вып. 1 (31). С. 32–44.
6. Живов В. М. Очерки исторической морфологии русского языка XVII–XVIII веков. М., 2004.
7. Зализняк А. А. Грамматический словарь русского языка: Словоизменение. М.: Русский язык, 1977. 4-е изд., испр. и доп. — М.: Русские словари, 2003.
8. Зобнин А. И., Пичхадзе А. А. Корпус древнерусских переводов XI–XII вв.: результаты и перспективы // Научно-техническая информация. Серия 2: Информационные процессы и системы. № 3. 2005. С. 44–47.
9. Клышинский Э. С. Некоторые сложности автоматизированной лемматизации несловарных словоформ // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 8 (15). М.: РГГУ. 2009. С. 165–169.
10. Кривко Р. Н. (гл. ред.). Словарь русского языка XI–XVII вв. Вып. 30 (Томъ — Уберечися). М.: Наука — Азбуковник, 2015.
11. Историческая грамматика древнерусского языка / В. Б Крысько, ред. Т. 1–4. М.: Азбуковник, 2000–2006.
12. Ляшевская О., Астафьева И., Бонч-Осмоловская А., Гарейшина А., Гришина Ю., Дьячков В., Ионов М., Королева А., Кудринский М., Литягина А., Лучина Е., Сидорова Е., Толдова С., Савчук С., Коваль С. Оценка методов автоматического анализа текста: морфологические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (2010). Вып. 9 (16). 2010. М.: РГГУ. С. 318–326.
13. Ляшевская О. Н., Плунгян В. А., Сичинава Д. В. О морфологическом стандарте Корпуса современного русского языка // Национальный корпус русского языка: 2003–2005. М.: Индри, 2005. С. 111–135.
14. Ляшевская О. Н., Сичинава Д. В., Кобрицов Б. П. Автоматизация построения словаря на материале массива несловарных словоформ // Интернет-математика — 2007: Cборник работ участников конкурса научных проектов по информационному поиску / П. И Браславский., отв. ред. Екатеринбург, 2007. С. 118–125.
15. Мишина Е. И., Пичхадзе А. А. Древнерусский подкорпус Национального корпуса русского языка // Труды Института русского языка им. В. В. Виноградова РАН. Вып. 6. 2015. С. 99–115.
16. Молдован А. М. Памятники древнерусской письменности в Национальном корпусе русского языка // Труды Института русского языка им. В. В. Виноградова РАН. Вып. 6. 2015. С. 88–98.
17. Пичхадзе А. А. Корпус древнерусских переводов XI–XII вв. и изучение переводной книжности Древней Руси // Национальный корпус русского языка: 2003–2005. М., 2005. С. 251–262.
18. Поляков А. Е. Грамматический словарь церковнославянского языка (по материалам корпуса). URL: http://feb-web.ru/febupd/slavonic/dicgram.
19. Поляков А. Е. Проблемы и методы анализа русских текстов в дореформенной орфографии // Компьютерная лингвистика и интеллектуальные технологии: По материалам Международной конференции «Диалог 2012». Вып. 11 (18). М.: Изд-во РГГУ, 2012. С. 536–547.
20. Поляков А. Е. Корпус церковнославянских текстов в составе Национального корпуса русского языка, первая версия: проблемы и решения // Доклад на международной научной конференции «Информационные технологии и письменное наследие (El’Manuscript-12)». Петрозаводск, 2012.
21. Поляков А. Е. Корпус церковнославянских текстов: проблемы орфографии и графики // Przegląd wschodnioeuropejski V/1. 2014. С. 245–254.
22. Поляков А. Е., Савчук С. О., Сичинава Д. В. Грамматический словарь для автоматического анализа текстов XVIII–XIX веков: первые результаты // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 12 (19). М.: Изд-во РГГУ, 2013. С. 633–654.
23. Сичинава Д. В. Исторические корпуса Национального корпуса русского языка как инструмент диахронических исследований грамматики // Писменото наследство и информационните технологии: Материали от V международна науч. конф. (Варна, 15–20 септември 2014 г.) / В. А. Баранов, В. Желязкова, А. М. Лаврентьев, отв. ред. София; Ижевск, 2014.
24. Сокирко А. В. Быстрословарь: предсказание морфологии русских слов с использованием больших лингвистических ресурсов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 9 (16). М.: Изд-во РГГУ, 2010. С. 450–456.
25. Успенский Б. А. История русского литературного языка (IX–XVII вв.). М., 2002.
26. Berdichevskis A., Eckhoff H. M., Gavrilova T. Forthcoming. The beginning of a beautiful friendship: rule-based and statistical analysis of Middle Russian // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» 2016. Вып. 15 (22) (forthc.)
27. Jínová P., Lehečka B., Oliva K. 2014 “Describing Old Czech Declension Patterns for Automatic Text Analysis”, in Mundo Eslavo, 2014, vol. 13, pp 7–17.
28. Meyer R. 2009 “Semi-automatic morphosyntactic tagging of a diachronic corpus of Russian”, in Mahlberg M., González-Díaz V., Smith C. (eds.) Proceedings of the Corpus Linguistics Conference, CL2009, Liverpool, 2009, pp. 20–23.
29. Meyer R. 2011 “New wine in old wineskins? Tagging Old Russian via annotation projection from modern translations”, in Russian linguistics, 2011, vol. 35/2, pp. 267–281.
30. Moon T., Baldridge J. 2007 “Part-of-speech tagging for middle English through alignment and projection of parallel diachronic texts”, in Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Respublic, June 28–30, 2007, pp. 390–399.
31. Rocio V., Alves M. A., Lopes J. G., Xavier M. F., Vicente G. 1999 “Automated creation of a partially syntactically annotated corpus of Medieval Portuguese using contemporary Portuguese resources”, in Proceedings of the ATALA workshop on Treebanks, Paris, 1999.
32. Segalovich I. 2003 “A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine”, in Proceedings of MLMTA, Las Vegas, Nevada, 2003, pp. 273–280.
33. Sharoff S., Nivre J. 2011 “The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge”, in Komp'juternaja lingvistika i intellektual'nye tehnologii: Po materialam ezhegodnoj Mezhdunarodnoj konferencii «Dialog» 2011, vol. 10/17, Мoscow, 2011.
34. Sporleder C. 2009 “Natural language processing for cultural heritage domains”, in Language and Linguistics Compass. 4. 9. 2009, pp. 750–768.

Данные об авторе

Гаврилова Татьяна Сергеевна


Ляшевская Ольга Николаевна