/
Результат поиска


Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н. К задаче автоматической лексико-грамматической разметки старорусского корпуса XV-XVII вв // Вестник ПСТГУ. Серия III: Филология. 2016. Вып. 2 (47). С. 7-25. DOI: 10.15382/sturIII201647.7-25
В работе рассматриваются два подхода к разработке автоматической аннотации корпуса старорусских текстов XV–XVII вв., включенных в Национальный корпус русского языка (НКРЯ). Лексико-грамматическая аннотация состоит в определении части речи, грамматических характеристик и начальной формы слова (леммы) для каждой словоформы корпуса. Язык старорусской письменности совмещает в себе, с одной стороны, черты древнерусского словоизменения, включая формы аориста и имперфекта глагола, формы двойственного числа и другие архаичные формы, а с другой стороны — черты современной русской словоизменительной морфологии. Подобное смешение проявляется и в лексическом составе. Кроме того, в текстах присутствуют церковнославянские, а также диалектные варианты. Если добавить к этому отсутствие устойчивой орфографии, становится понятна вся сложность задачи, связанной с аннотацией старорусских текстов. Первый из рассматриваемых подходов основан на построении электронного словаря старорусского языка и создании модуля обработки орфографической вариативности. В отсутствие открытых электронных ресурсов, документирующих морфологию старорусского периода, за основу был взят электронный словарь церковнославянского языка, разработанный А. Е. Поляковым на базе церковнославянского корпуса НКРЯ. Мы описываем процедуры, связанные с адаптацией именной и глагольной морфологии к данным старорусского корпуса. Второй подход связан с привлечением программы автоматической аннотации текстов русского языка XIX–XX вв., дополненной модулем обработки орфографической вариативности, с одной стороны, и корпуса лексико-грамматических разборов древнерусских текстов, полученных из Исторического корпуса НКРЯ, — с другой.
старорусский язык, корпус, НКРЯ, лексико-грамматическая разметка, морфологический таггер, грамматический словарь, именное словоизменение, глагольное словоизменение.
1. Историческая грамматика русского языка: морфология; глагол / [Р. И. Аванесов, В. В. Иванов, В. Б. Силина и др.] Р. И Аванесов, В. В. Иванов, ред. М.: Наука. 1982.
2. Архангельский Т. А. Принципы построения морфологического парсера для разноструктурных языков. Дисс... канд филол. наук. М.: МГУ, 2012.
3. Демьянов В. Г. Вести-Куранты: 1. Издание для исследования. 2. Исследование для издания // Лингвистическое источниковедение и история русского языка. М., 2000. С. 213–232.
4. Добрушина Е. Р., Кравецкий А. Г., Поляков А. Е. Корпус и частотный грамматический корпусный словарь церковнославянского языка в составе НКРЯ // Труды Института русского языка им. В. В. Виноградова. Вып. 6. 2015. С. 116–141.
5. Добрушина Е.Р., Поляков А. Е. Корпус церковнославянского языка: возможности, методы создания, перспективы // Вестник ПСТГУ. Серия III: Филология. 2013. Вып. 1 (31). С. 32–44.
6. Живов В. М. Очерки исторической морфологии русского языка XVII–XVIII веков. М., 2004.
7. Зализняк А. А. Грамматический словарь русского языка: Словоизменение. М.: Русский язык, 1977. 4-е изд., испр. и доп. — М.: Русские словари, 2003.
8. Зобнин А. И., Пичхадзе А. А. Корпус древнерусских переводов XI–XII вв.: результаты и перспективы // Научно-техническая информация. Серия 2: Информационные процессы и системы. № 3. 2005. С. 44–47.
9. Клышинский Э. С. Некоторые сложности автоматизированной лемматизации несловарных словоформ // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 8 (15). М.: РГГУ. 2009. С. 165–169.
10. Кривко Р. Н. (гл. ред.). Словарь русского языка XI–XVII вв. Вып. 30 (Томъ — Уберечися). М.: Наука — Азбуковник, 2015.
11. Историческая грамматика древнерусского языка / В. Б Крысько, ред. Т. 1–4. М.: Азбуковник, 2000–2006.
12. Ляшевская О., Астафьева И., Бонч-Осмоловская А., Гарейшина А., Гришина Ю., Дьячков В., Ионов М., Королева А., Кудринский М., Литягина А., Лучина Е., Сидорова Е., Толдова С., Савчук С., Коваль С. Оценка методов автоматического анализа текста: морфологические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (2010). Вып. 9 (16). 2010. М.: РГГУ. С. 318–326.
13. Ляшевская О. Н., Плунгян В. А., Сичинава Д. В. О морфологическом стандарте Корпуса современного русского языка // Национальный корпус русского языка: 2003–2005. М.: Индри, 2005. С. 111–135.
14. Ляшевская О. Н., Сичинава Д. В., Кобрицов Б. П. Автоматизация построения словаря на материале массива несловарных словоформ // Интернет-математика — 2007: Cборник работ участников конкурса научных проектов по информационному поиску / П. И Браславский., отв. ред. Екатеринбург, 2007. С. 118–125.
15. Мишина Е. И., Пичхадзе А. А. Древнерусский подкорпус Национального корпуса русского языка // Труды Института русского языка им. В. В. Виноградова РАН. Вып. 6. 2015. С. 99–115.
16. Молдован А. М. Памятники древнерусской письменности в Национальном корпусе русского языка // Труды Института русского языка им. В. В. Виноградова РАН. Вып. 6. 2015. С. 88–98.
17. Пичхадзе А. А. Корпус древнерусских переводов XI–XII вв. и изучение переводной книжности Древней Руси // Национальный корпус русского языка: 2003–2005. М., 2005. С. 251–262.
18. Поляков А. Е. Грамматический словарь церковнославянского языка (по материалам корпуса). URL: http://feb-web.ru/febupd/slavonic/dicgram.
19. Поляков А. Е. Проблемы и методы анализа русских текстов в дореформенной орфографии // Компьютерная лингвистика и интеллектуальные технологии: По материалам Международной конференции «Диалог 2012». Вып. 11 (18). М.: Изд-во РГГУ, 2012. С. 536–547.
20. Поляков А. Е. Корпус церковнославянских текстов в составе Национального корпуса русского языка, первая версия: проблемы и решения // Доклад на международной научной конференции «Информационные технологии и письменное наследие (El’Manuscript-12)». Петрозаводск, 2012.
21. Поляков А. Е. Корпус церковнославянских текстов: проблемы орфографии и графики // Przegląd wschodnioeuropejski V/1. 2014. С. 245–254.
22. Поляков А. Е., Савчук С. О., Сичинава Д. В. Грамматический словарь для автоматического анализа текстов XVIII–XIX веков: первые результаты // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 12 (19). М.: Изд-во РГГУ, 2013. С. 633–654.
23. Сичинава Д. В. Исторические корпуса Национального корпуса русского языка как инструмент диахронических исследований грамматики // Писменото наследство и информационните технологии: Материали от V международна науч. конф. (Варна, 15–20 септември 2014 г.) / В. А. Баранов, В. Желязкова, А. М. Лаврентьев, отв. ред. София; Ижевск, 2014.
24. Сокирко А. В. Быстрословарь: предсказание морфологии русских слов с использованием больших лингвистических ресурсов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 9 (16). М.: Изд-во РГГУ, 2010. С. 450–456.
25. Успенский Б. А. История русского литературного языка (IX–XVII вв.). М., 2002.
26. Berdichevskis A., Eckhoff H. M., Gavrilova T. Forthcoming. The beginning of a beautiful friendship: rule-based and statistical analysis of Middle Russian // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» 2016. Вып. 15 (22) (forthc.)
27. Jínová P., Lehečka B., Oliva K. 2014 “Describing Old Czech Declension Patterns for Automatic Text Analysis”, in Mundo Eslavo, 2014, vol. 13, pp 7–17.
28. Meyer R. 2009 “Semi-automatic morphosyntactic tagging of a diachronic corpus of Russian”, in Mahlberg M., González-Díaz V., Smith C. (eds.) Proceedings of the Corpus Linguistics Conference, CL2009, Liverpool, 2009, pp. 20–23.
29. Meyer R. 2011 “New wine in old wineskins? Tagging Old Russian via annotation projection from modern translations”, in Russian linguistics, 2011, vol. 35/2, pp. 267–281.
30. Moon T., Baldridge J. 2007 “Part-of-speech tagging for middle English through alignment and projection of parallel diachronic texts”, in Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Respublic, June 28–30, 2007, pp. 390–399.
31. Rocio V., Alves M. A., Lopes J. G., Xavier M. F., Vicente G. 1999 “Automated creation of a partially syntactically annotated corpus of Medieval Portuguese using contemporary Portuguese resources”, in Proceedings of the ATALA workshop on Treebanks, Paris, 1999.
32. Segalovich I. 2003 “A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine”, in Proceedings of MLMTA, Las Vegas, Nevada, 2003, pp. 273–280.
33. Sharoff S., Nivre J. 2011 “The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge”, in Komp'juternaja lingvistika i intellektual'nye tehnologii: Po materialam ezhegodnoj Mezhdunarodnoj konferencii «Dialog» 2011, vol. 10/17, Мoscow, 2011.
34. Sporleder C. 2009 “Natural language processing for cultural heritage domains”, in Language and Linguistics Compass. 4. 9. 2009, pp. 750–768.
Гаврилова Татьяна Сергеевна
Шалганова Татьяна Александровна
Ляшевская Ольга Николаевна
Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н. Взiaлъ, възялъ, вьзял: Обработка орфографической вариативности при лексико-грамматической аннотации Старорусского корпуса XV–XVII вв. // Вестник ПСТГУ. Серия III: Филология. 2017. Вып. 51. С. 11-20. DOI: 10.15382/sturIII201751.11-20
Рассматривается проблематика нестабильной орфографии корпуса текстов позднедревнерусского периода в свете их автоматической обработки. Тексты Старорусского корпуса Национального корпуса русского языка (НКРЯ) включают памятники, написанные преимущественно в XV–XVII вв., т. е. в тот период, когда вариативность написания слов все еще была нормой. Задача лексико-грамматической разметки словоформ в корпусе заключается в определении начальной формы (словарной формы, леммы), части речи и грамматических характеристик. Традиционные методы автоматического определения лексико-грамматических характеристик базируются на презумпции идентичного вида основы и окончания слова в каждой из грамматических форм. Поэтому нестабильная орфография памятников становится причиной неэффективной работы автоматических морфологических анализаторов (таггеров) — в том случае, если они не оснащены модулем поддержки орфографической вариативности. В работе применяется относительная и абсолютная нормализации орфографии. Относительная нормализация предполагает размножение орфографических представлений основ и окончаний в грамматическом словаре по регулярным правилам, обрабатывающим: а) флексии; б) именные основы с регулярной вариативностью -ск(ии) / ст(ии), -и(я) / -ь(я); в) основы имен церковнославянского происхождения; г) основы приставочных глаголов и т. п. Абсолютная нормализация предусматривает перевод пар регулярно варьирующихся букв (например, о / 1, е / ѣ) и буквосочетаний (например, шт / щ, жю / жу) к единому представлению (например, о, е, щ, жу). При абсолютной нормализации унифицируются как единицы грамматического словаря, так и словоформы в тексте.
древнерусский язык, старорусская письменность, корпус, НКРЯ, лексико-грамматическая разметка, орфографическая вариативность, орфоварианты, нормализация орфографии
Архангельский Т. А. Принципы построения морфологического парсера для разноструктурных языков: Дис. ... канд. филол. наук. М.: МГУ, 2012.
Винокур Т. Г. Древнерусский язык. М.: Высшая школа, 1961.
Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н. К задаче автоматической лексико-грамматической разметки старорусского корпуса XV–XVII вв. // Вестник ПСТГУ. Сер. III: Филология. 2016. № 2. С. 7–25.
Зализняк А. А. Грамматический словарь русского языка: Словоизменение. М.: Русский язык, 1977. 4-е изд., испр. и доп., М.: Русские словари, 2003.
Мишина Е. И., Пичхадзе А. А. Древнерусский подкорпус Национального корпуса русского языка // Труды Института русского языка РАН. 2015. Вып. 6. С. 99–115.
Молдован А. М. Памятники древнерусской письменности в Национальном корпусе русского языка // Труды Института русского языка РАН. 2015. Вып. 6. С. 88–98.
Berdichevskis A., Eckhoff H. M., Gavrilova T. The beginning of a beautiful friendship: rule-based and statistical analysis of Middle Russian // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог» 2016. Вып. 15 (22).
Jurafsky D., Martin J. H. Speech and language processing. International Edition. New Jersey, 2000.
Piotrowski M. Natural Language Processing for Historical Texts. Synthesis Lectures on Human Language Technologies. Vol. 17. San Rafael, 2012. Р. 69–78.
Schmid H. Probabilistic part-of-speech tagging using decision trees. Proceedings of the International Conference on New Methods in Language Processing. 1994.
Segalovich I. A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine. Proceedings of MLMTA, Las Vegas, Nevada, 2003. P. 273–280.
Гаврилова Татьяна Сергеевна
Шалганова Татьяна Александровна
Ляшевская Ольга Николаевна
Ляшевская О. Н., Литвинцева К. В. Применение​ ​квантитативных​ ​корпусных​ ​методик​ ​для​ ​выявления церковнославянизмов​ ​в​ ​современном​ ​русском​ ​языке // Вестник ПСТГУ. Серия III: Филология. 2017. Вып. 53. С. 43-55. DOI: 10.15382/sturIII201753.43-55
В основе исследования лежит гипотеза о дискурсивной близости церковнославянского языка и религиозного христианского дискурса современного русского языка. При помощи корпусного статистического анализа показано, что с точки зрения лексического состава эта часть языка заметно сближается с церковнославянским языком, если сравнивать ее с неспециализированным современным русским языком. Это может служить доказательством специфичности исследуемой части языка, дополнительным доводом при решении вопроса о его отдельном статусе. Исследование проводится на материале Национального корпуса русского языка, а именно через сравнение данных Церковнославянского корпуса, Основного корпуса и входящего в него подкорпуса церковно-богословских текстов. С помощью критерия логического правдоподобия и метода главных компонент (PCA) выявляется пласт лексики современных текстов, которые предлагается считать церковнославянизмами; показано, что лексика разных знаменательных частей речи по-разному представляет «расстояние» между корпусами.
корпусные исследования, квантитативные корпусные методы, значимая лексика, церковнославянский язык, современный русский язык, религиозный христианский дискурс
  1. Добрушина Е. Р. Словарь христианской лексики: состав словника // Вестник ПСТГУ. Серия III: Филология. 2012. № 3 (29). С. 105–113.
  2. Литвинцева К. В. Особенности функционирования трех фразеологизмов с лексемой Божий в религиозных и светских текстах // Вестник ПСТГУ. Серия III: Филология. 2014. № 4 (39). С. 67–81.
  3. Литвинцева К. В. «Церковнославянизм» как лингвистический термин // Вестник Орловского государственного университета. 2015. № 6 (47). С. 264–267.
  4. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М., 2009. URL: http://dict.ruslang.ru/freq.php
  5. Национальный корпус русского языка. URL: http://www.ruscorpora.ru/corpora-intro.html
  6. Поляков А. Е. Грамматический словарь церковнославянского языка (по материалам корпуса). URL: http://feb-web.ru/febupd/slavonic/dicgram/
  7. Седакова О. А. Словарь трудных слов из богослужения: Церковнославяно-русские паронимы. М., 2008.
  8. Mehri A., Darooneh A. H. The role of entropy in word ranking // Physica A: Statistical Mechanics and its Applications 390 (s 18–19), 2011. P. 3157–3163.
  9. Mystem+ . URL: http://web-corpora.net/wsgi/mystemplus.wsgi/mystemplus/6.
  10. Oakes M. P. Statistical Measures for Corpus Profi ling // Proc. of the Open University Workshop on Corpus Profi ling. London, UK, 2008.
  11. Rayson P., Garside R. Comparing corpora using frequency profi ling // Proceedings of the Comparing Corpora Workshop at ACL, 2000. P. 1–6.
Ляшевская Ольга Николаевна
Ученая степень: кандидат филологических наук;
Место работы: Национальный исследовательский университет «Высшая школа экономики». Институт русского языка им. В. В. Виноградова РАН; Российская Федерация, 101000, г. Москва, Мясницкая ул., д. 20;
Должность: профессор;
ORCID: 0000-0001-8374-423X;
Электронный адрес: olesar@yandex.ru.
Литвинцева Кристина Викторовна
Статус обучающегося: Аспирант;
Место учёбы: Национальный исследовательский университет «Высшая школа экономики»; Российская Федерация, 101000, г. Москва, Мясницкая ул., д. 20;
Электронный адрес: tinalitvina@yandex.ru.
Исследование выполнено при финансовой поддержке РГНФ, грант № 17-04-12064 «Разработка модулей НКРЯ для автоматической разметки и словарной поддержки старорусских и церковнославянских текстов».