Результат поиска
Ссылка на статью:
Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н. К задаче автоматической лексико-грамматической разметки старорусского корпуса XV-XVII вв
// Вестник ПСТГУ.
Серия III:
Филология.
2016.
Вып. 2 (47). С. 7-25.
DOI: 10.15382/sturIII201647.7-25
Аннотация
Ключевые слова
Список литературы
Данные об авторе
В работе рассматриваются два подхода к разработке автоматической аннотации корпуса старорусских текстов XV–XVII вв., включенных в Национальный корпус русского языка (НКРЯ). Лексико-грамматическая аннотация состоит в определении части речи, грамматических характеристик и начальной формы слова (леммы) для каждой словоформы корпуса. Язык старорусской письменности совмещает в себе, с одной стороны, черты древнерусского словоизменения, включая формы аориста и имперфекта глагола, формы двойственного числа и другие архаичные формы, а с другой стороны — черты современной русской словоизменительной морфологии. Подобное смешение проявляется и в лексическом составе. Кроме того, в текстах присутствуют церковнославянские, а также диалектные варианты. Если добавить к этому отсутствие устойчивой орфографии, становится понятна вся сложность задачи, связанной с аннотацией старорусских текстов. Первый из рассматриваемых подходов основан на построении электронного словаря старорусского языка и создании модуля обработки орфографической вариативности. В отсутствие открытых электронных ресурсов, документирующих морфологию старорусского периода, за основу был взят электронный словарь церковнославянского языка, разработанный А. Е. Поляковым на базе церковнославянского корпуса НКРЯ. Мы описываем процедуры, связанные с адаптацией именной и глагольной морфологии к данным старорусского корпуса. Второй подход связан с привлечением программы автоматической аннотации текстов русского языка XIX–XX вв., дополненной модулем обработки орфографической вариативности, с одной стороны, и корпуса лексико-грамматических разборов древнерусских текстов, полученных из Исторического корпуса НКРЯ, — с другой.
старорусский язык, корпус, НКРЯ, лексико-грамматическая разметка, морфологический таггер, грамматический словарь, именное словоизменение, глагольное словоизменение.
1. Историческая грамматика русского языка: морфология; глагол / [Р. И. Аванесов, В. В. Иванов, В. Б. Силина и др.] Р. И Аванесов, В. В. Иванов, ред. М.: Наука. 1982.
2. Архангельский Т. А. Принципы построения морфологического парсера для разноструктурных языков. Дисс... канд филол. наук. М.: МГУ, 2012.
3. Демьянов В. Г. Вести-Куранты: 1. Издание для исследования. 2. Исследование для издания // Лингвистическое источниковедение и история русского языка. М., 2000. С. 213–232.
4. Добрушина Е. Р., Кравецкий А. Г., Поляков А. Е. Корпус и частотный грамматический корпусный словарь церковнославянского языка в составе НКРЯ // Труды Института русского языка им. В. В. Виноградова. Вып. 6. 2015. С. 116–141.
5. Добрушина Е.Р., Поляков А. Е. Корпус церковнославянского языка: возможности, методы создания, перспективы // Вестник ПСТГУ. Серия III: Филология. 2013. Вып. 1 (31). С. 32–44.
6. Живов В. М. Очерки исторической морфологии русского языка XVII–XVIII веков. М., 2004.
7. Зализняк А. А. Грамматический словарь русского языка: Словоизменение. М.: Русский язык, 1977. 4-е изд., испр. и доп. — М.: Русские словари, 2003.
8. Зобнин А. И., Пичхадзе А. А. Корпус древнерусских переводов XI–XII вв.: результаты и перспективы // Научно-техническая информация. Серия 2: Информационные процессы и системы. № 3. 2005. С. 44–47.
9. Клышинский Э. С. Некоторые сложности автоматизированной лемматизации несловарных словоформ // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 8 (15). М.: РГГУ. 2009. С. 165–169.
10. Кривко Р. Н. (гл. ред.). Словарь русского языка XI–XVII вв. Вып. 30 (Томъ — Уберечися). М.: Наука — Азбуковник, 2015.
11. Историческая грамматика древнерусского языка / В. Б Крысько, ред. Т. 1–4. М.: Азбуковник, 2000–2006.
12. Ляшевская О., Астафьева И., Бонч-Осмоловская А., Гарейшина А., Гришина Ю., Дьячков В., Ионов М., Королева А., Кудринский М., Литягина А., Лучина Е., Сидорова Е., Толдова С., Савчук С., Коваль С. Оценка методов автоматического анализа текста: морфологические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (2010). Вып. 9 (16). 2010. М.: РГГУ. С. 318–326.
13. Ляшевская О. Н., Плунгян В. А., Сичинава Д. В. О морфологическом стандарте Корпуса современного русского языка // Национальный корпус русского языка: 2003–2005. М.: Индри, 2005. С. 111–135.
14. Ляшевская О. Н., Сичинава Д. В., Кобрицов Б. П. Автоматизация построения словаря на материале массива несловарных словоформ // Интернет-математика — 2007: Cборник работ участников конкурса научных проектов по информационному поиску / П. И Браславский., отв. ред. Екатеринбург, 2007. С. 118–125.
15. Мишина Е. И., Пичхадзе А. А. Древнерусский подкорпус Национального корпуса русского языка // Труды Института русского языка им. В. В. Виноградова РАН. Вып. 6. 2015. С. 99–115.
16. Молдован А. М. Памятники древнерусской письменности в Национальном корпусе русского языка // Труды Института русского языка им. В. В. Виноградова РАН. Вып. 6. 2015. С. 88–98.
17. Пичхадзе А. А. Корпус древнерусских переводов XI–XII вв. и изучение переводной книжности Древней Руси // Национальный корпус русского языка: 2003–2005. М., 2005. С. 251–262.
18. Поляков А. Е. Грамматический словарь церковнославянского языка (по материалам корпуса). URL: http://feb-web.ru/febupd/slavonic/dicgram.
19. Поляков А. Е. Проблемы и методы анализа русских текстов в дореформенной орфографии // Компьютерная лингвистика и интеллектуальные технологии: По материалам Международной конференции «Диалог 2012». Вып. 11 (18). М.: Изд-во РГГУ, 2012. С. 536–547.
20. Поляков А. Е. Корпус церковнославянских текстов в составе Национального корпуса русского языка, первая версия: проблемы и решения // Доклад на международной научной конференции «Информационные технологии и письменное наследие (El’Manuscript-12)». Петрозаводск, 2012.
21. Поляков А. Е. Корпус церковнославянских текстов: проблемы орфографии и графики // Przegląd wschodnioeuropejski V/1. 2014. С. 245–254.
22. Поляков А. Е., Савчук С. О., Сичинава Д. В. Грамматический словарь для автоматического анализа текстов XVIII–XIX веков: первые результаты // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 12 (19). М.: Изд-во РГГУ, 2013. С. 633–654.
23. Сичинава Д. В. Исторические корпуса Национального корпуса русского языка как инструмент диахронических исследований грамматики // Писменото наследство и информационните технологии: Материали от V международна науч. конф. (Варна, 15–20 септември 2014 г.) / В. А. Баранов, В. Желязкова, А. М. Лаврентьев, отв. ред. София; Ижевск, 2014.
24. Сокирко А. В. Быстрословарь: предсказание морфологии русских слов с использованием больших лингвистических ресурсов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 9 (16). М.: Изд-во РГГУ, 2010. С. 450–456.
25. Успенский Б. А. История русского литературного языка (IX–XVII вв.). М., 2002.
26. Berdichevskis A., Eckhoff H. M., Gavrilova T. Forthcoming. The beginning of a beautiful friendship: rule-based and statistical analysis of Middle Russian // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» 2016. Вып. 15 (22) (forthc.)
27. Jínová P., Lehečka B., Oliva K. 2014 “Describing Old Czech Declension Patterns for Automatic Text Analysis”, in Mundo Eslavo, 2014, vol. 13, pp 7–17.
28. Meyer R. 2009 “Semi-automatic morphosyntactic tagging of a diachronic corpus of Russian”, in Mahlberg M., González-Díaz V., Smith C. (eds.) Proceedings of the Corpus Linguistics Conference, CL2009, Liverpool, 2009, pp. 20–23.
29. Meyer R. 2011 “New wine in old wineskins? Tagging Old Russian via annotation projection from modern translations”, in Russian linguistics, 2011, vol. 35/2, pp. 267–281.
30. Moon T., Baldridge J. 2007 “Part-of-speech tagging for middle English through alignment and projection of parallel diachronic texts”, in Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Respublic, June 28–30, 2007, pp. 390–399.
31. Rocio V., Alves M. A., Lopes J. G., Xavier M. F., Vicente G. 1999 “Automated creation of a partially syntactically annotated corpus of Medieval Portuguese using contemporary Portuguese resources”, in Proceedings of the ATALA workshop on Treebanks, Paris, 1999.
32. Segalovich I. 2003 “A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine”, in Proceedings of MLMTA, Las Vegas, Nevada, 2003, pp. 273–280.
33. Sharoff S., Nivre J. 2011 “The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge”, in Komp'juternaja lingvistika i intellektual'nye tehnologii: Po materialam ezhegodnoj Mezhdunarodnoj konferencii «Dialog» 2011, vol. 10/17, Мoscow, 2011.
34. Sporleder C. 2009 “Natural language processing for cultural heritage domains”, in Language and Linguistics Compass. 4. 9. 2009, pp. 750–768.
2. Архангельский Т. А. Принципы построения морфологического парсера для разноструктурных языков. Дисс... канд филол. наук. М.: МГУ, 2012.
3. Демьянов В. Г. Вести-Куранты: 1. Издание для исследования. 2. Исследование для издания // Лингвистическое источниковедение и история русского языка. М., 2000. С. 213–232.
4. Добрушина Е. Р., Кравецкий А. Г., Поляков А. Е. Корпус и частотный грамматический корпусный словарь церковнославянского языка в составе НКРЯ // Труды Института русского языка им. В. В. Виноградова. Вып. 6. 2015. С. 116–141.
5. Добрушина Е.Р., Поляков А. Е. Корпус церковнославянского языка: возможности, методы создания, перспективы // Вестник ПСТГУ. Серия III: Филология. 2013. Вып. 1 (31). С. 32–44.
6. Живов В. М. Очерки исторической морфологии русского языка XVII–XVIII веков. М., 2004.
7. Зализняк А. А. Грамматический словарь русского языка: Словоизменение. М.: Русский язык, 1977. 4-е изд., испр. и доп. — М.: Русские словари, 2003.
8. Зобнин А. И., Пичхадзе А. А. Корпус древнерусских переводов XI–XII вв.: результаты и перспективы // Научно-техническая информация. Серия 2: Информационные процессы и системы. № 3. 2005. С. 44–47.
9. Клышинский Э. С. Некоторые сложности автоматизированной лемматизации несловарных словоформ // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 8 (15). М.: РГГУ. 2009. С. 165–169.
10. Кривко Р. Н. (гл. ред.). Словарь русского языка XI–XVII вв. Вып. 30 (Томъ — Уберечися). М.: Наука — Азбуковник, 2015.
11. Историческая грамматика древнерусского языка / В. Б Крысько, ред. Т. 1–4. М.: Азбуковник, 2000–2006.
12. Ляшевская О., Астафьева И., Бонч-Осмоловская А., Гарейшина А., Гришина Ю., Дьячков В., Ионов М., Королева А., Кудринский М., Литягина А., Лучина Е., Сидорова Е., Толдова С., Савчук С., Коваль С. Оценка методов автоматического анализа текста: морфологические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (2010). Вып. 9 (16). 2010. М.: РГГУ. С. 318–326.
13. Ляшевская О. Н., Плунгян В. А., Сичинава Д. В. О морфологическом стандарте Корпуса современного русского языка // Национальный корпус русского языка: 2003–2005. М.: Индри, 2005. С. 111–135.
14. Ляшевская О. Н., Сичинава Д. В., Кобрицов Б. П. Автоматизация построения словаря на материале массива несловарных словоформ // Интернет-математика — 2007: Cборник работ участников конкурса научных проектов по информационному поиску / П. И Браславский., отв. ред. Екатеринбург, 2007. С. 118–125.
15. Мишина Е. И., Пичхадзе А. А. Древнерусский подкорпус Национального корпуса русского языка // Труды Института русского языка им. В. В. Виноградова РАН. Вып. 6. 2015. С. 99–115.
16. Молдован А. М. Памятники древнерусской письменности в Национальном корпусе русского языка // Труды Института русского языка им. В. В. Виноградова РАН. Вып. 6. 2015. С. 88–98.
17. Пичхадзе А. А. Корпус древнерусских переводов XI–XII вв. и изучение переводной книжности Древней Руси // Национальный корпус русского языка: 2003–2005. М., 2005. С. 251–262.
18. Поляков А. Е. Грамматический словарь церковнославянского языка (по материалам корпуса). URL: http://feb-web.ru/febupd/slavonic/dicgram.
19. Поляков А. Е. Проблемы и методы анализа русских текстов в дореформенной орфографии // Компьютерная лингвистика и интеллектуальные технологии: По материалам Международной конференции «Диалог 2012». Вып. 11 (18). М.: Изд-во РГГУ, 2012. С. 536–547.
20. Поляков А. Е. Корпус церковнославянских текстов в составе Национального корпуса русского языка, первая версия: проблемы и решения // Доклад на международной научной конференции «Информационные технологии и письменное наследие (El’Manuscript-12)». Петрозаводск, 2012.
21. Поляков А. Е. Корпус церковнославянских текстов: проблемы орфографии и графики // Przegląd wschodnioeuropejski V/1. 2014. С. 245–254.
22. Поляков А. Е., Савчук С. О., Сичинава Д. В. Грамматический словарь для автоматического анализа текстов XVIII–XIX веков: первые результаты // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 12 (19). М.: Изд-во РГГУ, 2013. С. 633–654.
23. Сичинава Д. В. Исторические корпуса Национального корпуса русского языка как инструмент диахронических исследований грамматики // Писменото наследство и информационните технологии: Материали от V международна науч. конф. (Варна, 15–20 септември 2014 г.) / В. А. Баранов, В. Желязкова, А. М. Лаврентьев, отв. ред. София; Ижевск, 2014.
24. Сокирко А. В. Быстрословарь: предсказание морфологии русских слов с использованием больших лингвистических ресурсов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 9 (16). М.: Изд-во РГГУ, 2010. С. 450–456.
25. Успенский Б. А. История русского литературного языка (IX–XVII вв.). М., 2002.
26. Berdichevskis A., Eckhoff H. M., Gavrilova T. Forthcoming. The beginning of a beautiful friendship: rule-based and statistical analysis of Middle Russian // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» 2016. Вып. 15 (22) (forthc.)
27. Jínová P., Lehečka B., Oliva K. 2014 “Describing Old Czech Declension Patterns for Automatic Text Analysis”, in Mundo Eslavo, 2014, vol. 13, pp 7–17.
28. Meyer R. 2009 “Semi-automatic morphosyntactic tagging of a diachronic corpus of Russian”, in Mahlberg M., González-Díaz V., Smith C. (eds.) Proceedings of the Corpus Linguistics Conference, CL2009, Liverpool, 2009, pp. 20–23.
29. Meyer R. 2011 “New wine in old wineskins? Tagging Old Russian via annotation projection from modern translations”, in Russian linguistics, 2011, vol. 35/2, pp. 267–281.
30. Moon T., Baldridge J. 2007 “Part-of-speech tagging for middle English through alignment and projection of parallel diachronic texts”, in Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Respublic, June 28–30, 2007, pp. 390–399.
31. Rocio V., Alves M. A., Lopes J. G., Xavier M. F., Vicente G. 1999 “Automated creation of a partially syntactically annotated corpus of Medieval Portuguese using contemporary Portuguese resources”, in Proceedings of the ATALA workshop on Treebanks, Paris, 1999.
32. Segalovich I. 2003 “A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine”, in Proceedings of MLMTA, Las Vegas, Nevada, 2003, pp. 273–280.
33. Sharoff S., Nivre J. 2011 “The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge”, in Komp'juternaja lingvistika i intellektual'nye tehnologii: Po materialam ezhegodnoj Mezhdunarodnoj konferencii «Dialog» 2011, vol. 10/17, Мoscow, 2011.
34. Sporleder C. 2009 “Natural language processing for cultural heritage domains”, in Language and Linguistics Compass. 4. 9. 2009, pp. 750–768.
Гаврилова Татьяна Сергеевна
Шалганова Татьяна Александровна
Ляшевская Ольга Николаевна
Шалганова Татьяна Александровна
Ляшевская Ольга Николаевна
Ссылка на статью:
Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н. Взiaлъ, възялъ, вьзял: Обработка орфографической вариативности при лексико-грамматической аннотации Старорусского корпуса XV–XVII вв.
// Вестник ПСТГУ.
Серия III:
Филология.
2017.
Вып. 51. С. 11-20.
DOI: 10.15382/sturIII201751.11-20
Аннотация
Ключевые слова
Список литературы
Данные об авторе
Рассматривается проблематика нестабильной орфографии корпуса текстов позднедревнерусского периода в свете их автоматической обработки. Тексты Старорусского корпуса Национального корпуса русского языка (НКРЯ) включают памятники, написанные преимущественно в XV–XVII вв., т. е. в тот период, когда вариативность написания слов все еще была нормой. Задача лексико-грамматической разметки словоформ в корпусе заключается в определении начальной формы (словарной формы, леммы), части речи и грамматических характеристик. Традиционные методы автоматического определения лексико-грамматических характеристик базируются на презумпции идентичного вида основы и окончания слова в каждой из грамматических форм. Поэтому нестабильная орфография памятников становится причиной неэффективной работы автоматических морфологических анализаторов (таггеров) — в том случае, если они не оснащены модулем поддержки орфографической вариативности. В работе применяется относительная и абсолютная нормализации орфографии. Относительная нормализация предполагает размножение орфографических представлений основ и окончаний в грамматическом словаре по регулярным правилам, обрабатывающим: а) флексии; б) именные основы с регулярной вариативностью -ск(ии) / ст(ии), -и(я) / -ь(я); в) основы имен церковнославянского происхождения; г) основы приставочных глаголов и т. п. Абсолютная нормализация предусматривает перевод пар регулярно варьирующихся букв (например, о / 1, е / ѣ) и буквосочетаний (например, шт / щ, жю / жу) к единому представлению (например, о, е, щ, жу). При абсолютной нормализации унифицируются как единицы грамматического словаря, так и словоформы в тексте.
древнерусский язык, старорусская письменность, корпус, НКРЯ, лексико-грамматическая разметка, орфографическая вариативность, орфоварианты, нормализация орфографии
Архангельский Т. А. Принципы построения морфологического парсера для разноструктурных языков: Дис. ... канд. филол. наук. М.: МГУ, 2012.
Винокур Т. Г. Древнерусский язык. М.: Высшая школа, 1961.
Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н. К задаче автоматической лексико-грамматической разметки старорусского корпуса XV–XVII вв. // Вестник ПСТГУ. Сер. III: Филология. 2016. № 2. С. 7–25.
Зализняк А. А. Грамматический словарь русского языка: Словоизменение. М.: Русский язык, 1977. 4-е изд., испр. и доп., М.: Русские словари, 2003.
Мишина Е. И., Пичхадзе А. А. Древнерусский подкорпус Национального корпуса русского языка // Труды Института русского языка РАН. 2015. Вып. 6. С. 99–115.
Молдован А. М. Памятники древнерусской письменности в Национальном корпусе русского языка // Труды Института русского языка РАН. 2015. Вып. 6. С. 88–98.
Berdichevskis A., Eckhoff H. M., Gavrilova T. The beginning of a beautiful friendship: rule-based and statistical analysis of Middle Russian // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог» 2016. Вып. 15 (22).
Jurafsky D., Martin J. H. Speech and language processing. International Edition. New Jersey, 2000.
Piotrowski M. Natural Language Processing for Historical Texts. Synthesis Lectures on Human Language Technologies. Vol. 17. San Rafael, 2012. Р. 69–78.
Schmid H. Probabilistic part-of-speech tagging using decision trees. Proceedings of the International Conference on New Methods in Language Processing. 1994.
Segalovich I. A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine. Proceedings of MLMTA, Las Vegas, Nevada, 2003. P. 273–280.
Винокур Т. Г. Древнерусский язык. М.: Высшая школа, 1961.
Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н. К задаче автоматической лексико-грамматической разметки старорусского корпуса XV–XVII вв. // Вестник ПСТГУ. Сер. III: Филология. 2016. № 2. С. 7–25.
Зализняк А. А. Грамматический словарь русского языка: Словоизменение. М.: Русский язык, 1977. 4-е изд., испр. и доп., М.: Русские словари, 2003.
Мишина Е. И., Пичхадзе А. А. Древнерусский подкорпус Национального корпуса русского языка // Труды Института русского языка РАН. 2015. Вып. 6. С. 99–115.
Молдован А. М. Памятники древнерусской письменности в Национальном корпусе русского языка // Труды Института русского языка РАН. 2015. Вып. 6. С. 88–98.
Berdichevskis A., Eckhoff H. M., Gavrilova T. The beginning of a beautiful friendship: rule-based and statistical analysis of Middle Russian // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог» 2016. Вып. 15 (22).
Jurafsky D., Martin J. H. Speech and language processing. International Edition. New Jersey, 2000.
Piotrowski M. Natural Language Processing for Historical Texts. Synthesis Lectures on Human Language Technologies. Vol. 17. San Rafael, 2012. Р. 69–78.
Schmid H. Probabilistic part-of-speech tagging using decision trees. Proceedings of the International Conference on New Methods in Language Processing. 1994.
Segalovich I. A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine. Proceedings of MLMTA, Las Vegas, Nevada, 2003. P. 273–280.
Гаврилова Татьяна Сергеевна
Шалганова Татьяна Александровна
Ляшевская Ольга Николаевна
Шалганова Татьяна Александровна
Ляшевская Ольга Николаевна