<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20190208//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.2" xml:lang="ru" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink"><front><journal-meta><journal-id journal-id-type="issn">2313-8912</journal-id><journal-title-group><journal-title>Научный результат. Вопросы теоретической и прикладной лингвистики</journal-title></journal-title-group><issn pub-type="epub">2313-8912</issn></journal-meta><article-meta><article-id pub-id-type="doi">10.18413/2313-8912-2022-8-3-0-6</article-id><article-id pub-id-type="publisher-id">2873</article-id><article-categories><subj-group subj-group-type="heading"><subject>ПРИКЛАДНАЯ ЛИНГВИСТИКА</subject></subj-group></article-categories><title-group><article-title>&lt;strong&gt;Анализ некорректной работы POS-разметчиков в корпусе немецких ученических текстов с лингвистическими ошибками&lt;/strong&gt;</article-title><trans-title-group xml:lang="en"><trans-title>&lt;strong&gt;Analysis of incorrect POS-tagging in student texts with linguistic errors in German&lt;/strong&gt;</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Котюрова</surname><given-names>Ирина Аврамовна</given-names></name><name xml:lang="en"><surname>Kotiurova</surname><given-names>Irina A.</given-names></name></name-alternatives><email>koturova@petrsu.ru</email><xref ref-type="aff" rid="aff1" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Щеголева</surname><given-names>Людмила Владимировна</given-names></name><name xml:lang="en"><surname>Shchegoleva</surname><given-names>Liudmila V.</given-names></name></name-alternatives><email>schegoleva@petrsu.ru</email><xref ref-type="aff" rid="aff1" /></contrib></contrib-group><aff id="aff1"><institution>Петрозаводский государственный университет, Россия</institution></aff><pub-date pub-type="epub"><year>2022</year></pub-date><volume>8</volume><issue>3</issue><fpage>0</fpage><lpage>0</lpage><self-uri content-type="pdf" xlink:href="/media/linguistics/2022/3/Лингвистика_8_3_2022_87-99.pdf" /><abstract xml:lang="ru"><p>Электронный корпус ученических текстов на немецком языке ПАКТ содержит разметку частей речи. Разметка выполняется автоматически с помощью RFTagger. Так как тексты корпуса написаны обучающимся, то они могут содержать разного рода ошибки: грамматические, орфографические, стилистические и другие. Предложения могут быть сформулированы некорректно, без учета правил языка и принятых норм. Это может влиять на работу программ, обрабатывающих тексты в автоматическом режиме, и в результате формировать неправильную разметку, которую необходимо верифицировать вручную. Целью исследования является анализ степени влияния разного рода ошибок в неаутентичных текстах на результаты работы автоматического частеречного разметчика. На основе экспертной разметки в текстах корпуса ПАКТ были выделены 11 типов ошибок, которые влияют на качество работы частеречного разметчика. Для каждого такого типа из корпуса были отобраны по десять предложений, содержащих ошибку. Полученный пул текстов был обработан частеречными разметчиками RFTagger и TreeTagger. Части речи, предложенные этими автоматическими таггерами, были сопоставлены с частями речи, определенными экспертами вручную. В результате сравнения удалось выявить следующие закономерности: частеречные разметчики ошибаются: в случае написания несклоняемой формы прилагательного вместо склоняемой; при раздельном написании одного слова; при отсутствии суффикса &amp;laquo;-er&amp;raquo; в притяжательных прилагательных, образованных от географических наименований; при написании существительных со строчной буквы; при написании глагола с прописной буквы. Для каждого случая в статье приведен анализ форм и причин неправильной частеречной разметки, а также различий в работе двух разметчиков. Учет выявленных закономерностей позволит более эффективно организовать верификацию автоматической частеречной разметки в ученических корпусах на немецком языке. Результаты исследования также будут полезны для разработчиков автоматических частеречных разметчиков.</p></abstract><trans-abstract xml:lang="en"><p>The electronic learner corpus of student texts in German, the PACT, contains the parts-of-speech (POS) tagging. This markup is performed automatically using RFTagger. Since the texts of the corpus are written by students, they may contain various kinds of errors: grammatical, spelling, stylistic, and others. Sentences may be formulated incorrectly, without taking into account the rules of the language and accepted norms. This can affect the work of programs that process texts in automatic mode, and as a result, generate incorrect tagging that needs to be verified manually. The purpose of the study is to investigate the degree of influence of various kinds of errors in non-authentic texts on the results of the automatic part-of-speech tagging. Based on expert error markup in the corpus texts, 11 types of errors were identified that affect the part-of-speech tagger quality. For each type of error, ten sentences containing an error were selected from the corpus. The resulting pool of texts was processed by the part-of-speech taggers RFTagger and TreeTagger. The parts of speech that were suggested by these automatic taggers were compared with the parts of speech determined by experts manually. As a result of the comparison, the following patterns were revealed: part-of-speech taggers are mistaken when writing the non-declinable form of the adjective instead of the declinable; when writing one word separately; in the absence of the suffix &amp;quot;-er&amp;quot; in possessive adjectives formed from geographical names; when writing nouns with a lowercase letter; when writing a verb with a capital letter. For each case, the article provides an analysis of the forms and causes of incorrect POS-tagging, as well as differences in the work of the two part-of-speech taggers. Taking into account the revealed patterns will allow more efficient organization of the POS-tagging verification in the learner corpus in German. The results of the study will also be useful for developers of part-of-speech taggers.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>Частеречная разметка</kwd><kwd>Ученический корпус</kwd><kwd>Немецкий язык</kwd><kwd>RFTagger</kwd><kwd>TreeTagger</kwd></kwd-group><kwd-group xml:lang="en"><kwd>POS-tagging</kwd><kwd>Learner corpus</kwd><kwd>German</kwd><kwd>RFTagger</kwd><kwd>TreeTagger</kwd></kwd-group></article-meta></front><back><ref-list><title>Список литературы</title><ref id="B1"><mixed-citation>Котюрова&amp;nbsp;И.&amp;nbsp;А. Исследование инструментов частеречной разметки для создания корпуса ученических текстов // Педагогическая информатика. 2021. №&amp;nbsp;3. С.&amp;nbsp;81-89.</mixed-citation></ref><ref id="B2"><mixed-citation>Bick&amp;nbsp;E. An Annotated Social Media Corpus for German // Proceedings of the 12th international conference on language resources and evaluation. 2020. Pp.&amp;nbsp;6127-6135.</mixed-citation></ref><ref id="B3"><mixed-citation>Bollmann&amp;nbsp;M. POS tagging for historical texts with sparse training data // Proceedings of the 7th Linguistic Annotation, Sofia, Bulgaria. 2013. Pp.&amp;nbsp;11-18.</mixed-citation></ref><ref id="B4"><mixed-citation>Dıaz-Negrillo&amp;nbsp;A., Meurers&amp;nbsp;D., Valera&amp;nbsp;S., Wunsch&amp;nbsp;H. Towards interlanguage POS annotation for effective learner corpora in SLA and FLT // Language Forum. 2010. 36&amp;nbsp;(1-2). Pp.&amp;nbsp;139-154.</mixed-citation></ref><ref id="B5"><mixed-citation>Dligach&amp;nbsp;D., Palmer&amp;nbsp;M. Reducing the need for double annotation // Proceedings of the 5th Linguistic Annotation Workshop, Portland, Oregon, USA. 2011. Pp.&amp;nbsp;65-73.</mixed-citation></ref><ref id="B6"><mixed-citation>Heeman&amp;nbsp;P.&amp;nbsp;A. POS Tagging versus Classes in Language Modeling // Proceedings of the 6th Workshop on Very Large Corpora. 1998. URL: https://aclanthology.org/W98-1121.pdf (Accessed: 22.04.2022).</mixed-citation></ref><ref id="B7"><mixed-citation>Horsmann&amp;nbsp;T., Erbs&amp;nbsp;N., Zesch&amp;nbsp;T. Fast or Accurate? &amp;ndash; A Comparative Evaluation of PoS Tagging Models // Proceedings of the Int. Conference of the German Society for Computational Linguistics and Language Technology, Duisburg-Essen, Germany. 2015. Pp.&amp;nbsp;22&amp;ndash;30.</mixed-citation></ref><ref id="B8"><mixed-citation>Keiper&amp;nbsp;L., Horbach&amp;nbsp;A., Thater&amp;nbsp;S. Improving POS tagging of german learner language in a reading comprehension scenario // Proceedings of the 10th International Conference on Language Resources and Evaluation, Portorož, Slovenia. 2016. Pp.&amp;nbsp;198-205.</mixed-citation></ref><ref id="B9"><mixed-citation>Loftsson&amp;nbsp;H. Correcting a POS-tagged corpus using three complementary methods // Proceedings of the 12th Conference of the European Chapter of the ACL, Athens, Greece. 2009. Pp.&amp;nbsp;523&amp;ndash;531.</mixed-citation></ref><ref id="B10"><mixed-citation>Manning&amp;nbsp;C., Sch&amp;uuml;tze&amp;nbsp;H. Foundations of statistical natural language processing. Cambridge, MA: MIT Press, 2003. 620&amp;nbsp;p.</mixed-citation></ref><ref id="B11"><mixed-citation>Qian&amp;nbsp;X., Liu&amp;nbsp;Y. Joint Chinese word segmentation, POS tagging and parsing // Proceedings of the Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Jeju Island, Korea, 2012. Pp.&amp;nbsp;501-511.</mixed-citation></ref><ref id="B12"><mixed-citation>Rehbein&amp;nbsp;I., Ruppenhofer&amp;nbsp;J. Detecting annotation noise in automatically labelled data // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017. Pp.&amp;nbsp;1160-1170.</mixed-citation></ref><ref id="B13"><mixed-citation>Sugisaki&amp;nbsp;K., Wiedmer&amp;nbsp;N., Hausendorf&amp;nbsp;H. Building a Corpus from Handwritten Picture Postcards: Transcription, Annotation and Part-of-Speech Tagging // Proceedings of the 11th International Conference on Language Resources and Evaluation, Miyazaki, Japan. 2018, Pp.&amp;nbsp;255-259.</mixed-citation></ref></ref-list></back></article>