DOI: 10.18413/2313-8912-2022-8-3-0-6

Анализ некорректной работы POS-разметчиков в корпусе немецких ученических текстов с лингвистическими ошибками

Ирина Аврамовна Котюрова (Петрозаводский государственный университет, Россия)
Людмила Владимировна Щеголева (Петрозаводский государственный университет, Россия)

Электронный корпус ученических текстов на немецком языке ПАКТ содержит разметку частей речи. Разметка выполняется автоматически с помощью RFTagger. Так как тексты корпуса написаны обучающимся, то они могут содержать разного рода ошибки: грамматические, орфографические, стилистические и другие. Предложения могут быть сформулированы некорректно, без учета правил языка и принятых норм. Это может влиять на работу программ, обрабатывающих тексты в автоматическом режиме, и в результате формировать неправильную разметку, которую необходимо верифицировать вручную. Целью исследования является анализ степени влияния разного рода ошибок в неаутентичных текстах на результаты работы автоматического частеречного разметчика. На основе экспертной разметки в текстах корпуса ПАКТ были выделены 11 типов ошибок, которые влияют на качество работы частеречного разметчика. Для каждого такого типа из корпуса были отобраны по десять предложений, содержащих ошибку. Полученный пул текстов был обработан частеречными разметчиками RFTagger и TreeTagger. Части речи, предложенные этими автоматическими таггерами, были сопоставлены с частями речи, определенными экспертами вручную. В результате сравнения удалось выявить следующие закономерности: частеречные разметчики ошибаются: в случае написания несклоняемой формы прилагательного вместо склоняемой; при раздельном написании одного слова; при отсутствии суффикса «-er» в притяжательных прилагательных, образованных от географических наименований; при написании существительных со строчной буквы; при написании глагола с прописной буквы. Для каждого случая в статье приведен анализ форм и причин неправильной частеречной разметки, а также различий в работе двух разметчиков. Учет выявленных закономерностей позволит более эффективно организовать верификацию автоматической частеречной разметки в ученических корпусах на немецком языке. Результаты исследования также будут полезны для разработчиков автоматических частеречных разметчиков.

Ключевые слова: Частеречная разметка, Ученический корпус, Немецкий язык, RFTagger, TreeTagger.

Количество просмотров: 2102 (смотреть статистику)

Количество скачиваний: 2934

Полный текст (HTML)Полный текст (PDF)Скачать XML К списку статей

Информация для цитирования:

Котюрова И. А., Щеголева Л. В. Анализ некорректной работы POS-разметчиков в корпусе немецких ученических текстов с лингвистическими ошибками // Научный результат. Вопросы теоретической и прикладной лингвистики. 2022. Т. 8. № 3. C. 87-99. DOI: 10.18413/2313-8912-2022-8-3-0-6

Комментарии
Список литературы

Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.

Котюрова И. А. Исследование инструментов частеречной разметки для создания корпуса ученических текстов // Педагогическая информатика. 2021. № 3. С. 81-89.

Bick E. An Annotated Social Media Corpus for German // Proceedings of the 12th international conference on language resources and evaluation. 2020. Pp. 6127-6135.

Bollmann M. POS tagging for historical texts with sparse training data // Proceedings of the 7th Linguistic Annotation, Sofia, Bulgaria. 2013. Pp. 11-18.

Dıaz-Negrillo A., Meurers D., Valera S., Wunsch H. Towards interlanguage POS annotation for effective learner corpora in SLA and FLT // Language Forum. 2010. 36 (1-2). Pp. 139-154.

Dligach D., Palmer M. Reducing the need for double annotation // Proceedings of the 5th Linguistic Annotation Workshop, Portland, Oregon, USA. 2011. Pp. 65-73.

Heeman P. A. POS Tagging versus Classes in Language Modeling // Proceedings of the 6th Workshop on Very Large Corpora. 1998. URL: https://aclanthology.org/W98-1121.pdf (Accessed: 22.04.2022).

Horsmann T., Erbs N., Zesch T. Fast or Accurate? – A Comparative Evaluation of PoS Tagging Models // Proceedings of the Int. Conference of the German Society for Computational Linguistics and Language Technology, Duisburg-Essen, Germany. 2015. Pp. 22–30.

Keiper L., Horbach A., Thater S. Improving POS tagging of german learner language in a reading comprehension scenario // Proceedings of the 10th International Conference on Language Resources and Evaluation, Portorož, Slovenia. 2016. Pp. 198-205.

Loftsson H. Correcting a POS-tagged corpus using three complementary methods // Proceedings of the 12th Conference of the European Chapter of the ACL, Athens, Greece. 2009. Pp. 523–531.

Manning C., Schütze H. Foundations of statistical natural language processing. Cambridge, MA: MIT Press, 2003. 620 p.

Qian X., Liu Y. Joint Chinese word segmentation, POS tagging and parsing // Proceedings of the Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Jeju Island, Korea, 2012. Pp. 501-511.

Rehbein I., Ruppenhofer J. Detecting annotation noise in automatically labelled data // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017. Pp. 1160-1170.

Sugisaki K., Wiedmer N., Hausendorf H. Building a Corpus from Handwritten Picture Postcards: Transcription, Annotation and Part-of-Speech Tagging // Proceedings of the 11th International Conference on Language Resources and Evaluation, Miyazaki, Japan. 2018, Pp. 255-259.

Все журналы

Отправить статью

Научный результат. Вопросы теоретической и прикладной лингвистики включен в научную базу РИНЦ (лицензионный договор № 765-12/2014 от 08.12.2014).

Журнал включен в перечень рецензируемых научных изданий, рекомендуемых ВАК

Журнал индексируется следующими научными базами и платформами

Научный результат. Научный результат. Вопросы теоретической и прикладной лингвистики (ISSN 2313-8912)

The journal materials and website are licensed under Creative Commons «Attribution» 4.0 International.

Учредитель: федеральное государственное автономное образовательное учреждение высшего образования «Белгородский государственный национальный исследовательский университет» (НИУ «БелГУ»). Адрес: 308015, Белгородская область, г. Белгород, ул. Победы, 85.

Издатель: федеральное государственное автономное образовательное учреждение высшего образования «Белгородский государственный национальный исследовательский университет» (НИУ «БелГУ»). Адрес: 308015, Белгородская область, г. Белгород, ул. Победы, 85.

Редакция: главный редактор Ольга Витальевна Дехнич, e-mail: RR_Linguistics@bsuedu.ru, тел.: (4722) 301254.

Зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор)

Свидетельство СМИ

Устав редакции средства массовой информации «Научный результат. Вопросы теоретической и прикладной лингвистики»

Приказ № 636-ОД от 30.06.2023 "Об утверждении Уставов редакций средств массовой информации научных журналов НИУ «БелГУ»

Приказ № 1097-ОД от 15.11.2023 "Об утверждении Регламента издания научных журналов НИУ «БелГУ»"

Приказ № 76-ОД от 10.02.2026 "Об утверждении состава редакционной коллегии журнала «Научный результат. Вопросы теоретической и прикладной лингвистики»"

Остались вопросы?
Можете написать нам:

✉ Ответственный cекретарь

✉ Администратор сайта

✉ Контент менеджер