16+
DOI: 10.18413/2313-8912-2022-8-3-0-6

Анализ некорректной работы POS-разметчиков в корпусе немецких ученических текстов с лингвистическими ошибками

Электронный корпус ученических текстов на немецком языке ПАКТ содержит разметку частей речи. Разметка выполняется автоматически с помощью RFTagger. Так как тексты корпуса написаны обучающимся, то они могут содержать разного рода ошибки: грамматические, орфографические, стилистические и другие. Предложения могут быть сформулированы некорректно, без учета правил языка и принятых норм. Это может влиять на работу программ, обрабатывающих тексты в автоматическом режиме, и в результате формировать неправильную разметку, которую необходимо верифицировать вручную. Целью исследования является анализ степени влияния разного рода ошибок в неаутентичных текстах на результаты работы автоматического частеречного разметчика. На основе экспертной разметки в текстах корпуса ПАКТ были выделены 11 типов ошибок, которые влияют на качество работы частеречного разметчика. Для каждого такого типа из корпуса были отобраны по десять предложений, содержащих ошибку. Полученный пул текстов был обработан частеречными разметчиками RFTagger и TreeTagger. Части речи, предложенные этими автоматическими таггерами, были сопоставлены с частями речи, определенными экспертами вручную. В результате сравнения удалось выявить следующие закономерности: частеречные разметчики ошибаются: в случае написания несклоняемой формы прилагательного вместо склоняемой; при раздельном написании одного слова; при отсутствии суффикса «-er» в притяжательных прилагательных, образованных от географических наименований; при написании существительных со строчной буквы; при написании глагола с прописной буквы. Для каждого случая в статье приведен анализ форм и причин неправильной частеречной разметки, а также различий в работе двух разметчиков. Учет выявленных закономерностей позволит более эффективно организовать верификацию автоматической частеречной разметки в ученических корпусах на немецком языке. Результаты исследования также будут полезны для разработчиков автоматических частеречных разметчиков.

Количество просмотров: 897 (смотреть статистику)
Количество скачиваний: 1212
Полный текст (HTML)Полный текст (PDF)К списку статей
  • Комментарии
  • Список литературы

Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.

Оставить комментарий: