<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20190208//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.2" xml:lang="ru" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink"><front><journal-meta><journal-id journal-id-type="issn">2313-8912</journal-id><journal-title-group><journal-title>Научный результат. Вопросы теоретической и прикладной лингвистики</journal-title></journal-title-group><issn pub-type="epub">2313-8912</issn></journal-meta><article-meta><article-id pub-id-type="doi">10.18413/2313-8912-2024-10-2-0-6</article-id><article-id pub-id-type="publisher-id">3501</article-id><article-categories><subj-group subj-group-type="heading"><subject>ПРИКЛАДНАЯ ЛИНГВИСТИКА</subject></subj-group></article-categories><title-group><article-title>&lt;strong&gt;Отбор многословных выражений на основе корпусных источников и экспертной оценки: обновление языкового содержания РКИ&lt;/strong&gt;</article-title><trans-title-group xml:lang="en"><trans-title>&lt;strong&gt;Multi-word expressions for Russian L2 learners: corpora-based selection with expert verification&lt;/strong&gt;</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Лапошина</surname><given-names>Антонина Николаевна</given-names></name><name xml:lang="en"><surname>Laposhina</surname><given-names>Antonina Nikolaevna</given-names></name></name-alternatives><email>antonina.laposhina@gmail.com</email><xref ref-type="aff" rid="aff1" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Храмченко</surname><given-names>Татьяна Александровна</given-names></name><name xml:lang="en"><surname>Khramchanka</surname><given-names>Tatsiana Alyaksandrauna</given-names></name></name-alternatives><email>hramchenkot@mail.ru</email><xref ref-type="aff" rid="aff2" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Лебедева</surname><given-names>Мария Юрьевна</given-names></name><name xml:lang="en"><surname>Lebedeva</surname><given-names>Maria Yuryevna</given-names></name></name-alternatives><email>m.u.lebedeva@gmail.com</email><xref ref-type="aff" rid="aff1" /></contrib></contrib-group><aff id="aff2"><institution>Белорусский государственный университет</institution></aff><aff id="aff1"><institution>Государственный институт русского языка им. А.С. Пушкина</institution></aff><pub-date pub-type="epub"><year>2024</year></pub-date><volume>10</volume><issue>2</issue><fpage>0</fpage><lpage>0</lpage><self-uri content-type="pdf" xlink:href="/media/linguistics/2024/2/2024-02_июнь_Том_10_2-117-137.pdf" /><abstract xml:lang="ru"><p>Статья описывает опыт создания с опорой на корпусные данные списка наиболее педагогически ценных многословных выражений для задач преподавания русского языка иностранным учащимся. Современные лингвистические и когнитивные исследования показывают, что наша речь шаблонизирована, во многом состоит из устойчивых сегментов. Этот факт подкрепляется и лингводидактической идеей обучения не изолированным языковым единицам, а их комплексам разной природы. Однако отбор и ранжирование по уровням языкового владения многословных выражений ограничивается трудностью их автоматизированного выделения из корпуса текстов и подсчетом частотности, а также разногласиями в определении границ многословных выражений, их лингвистической природы и терминологии. В данной статье описывается опыт компиляции списка многословных выражений фиксированного типа из разных источников: двух типов существующих уровневых списков РКИ, наиболее частотных n-gram корпуса текстов из учебников РКИ RuFoLa, корпуса интернет-текстов Russian Web, а также списка дискурсивных формул проекта &amp;laquo;Прагматикон&amp;raquo;. В качестве меры определения языкового уровня многословного выражения используется мера максимальной Delta на основе информации о частотности выражения в корпусе учебных текстов для иностранных учащихся, эффективность которой затем проверяется множественной оценкой экспертов. Получившийся список многословных выражений содержит 1645 вхождений, распределенных по уровням шкалы CEFR от А1 до С1. Полученная версия списка внедрена в систему автоматического анализа сложности текста для изучающих РКИ и может быть полезна широкому кругу профильных специалистов при создании учебного контента. Предложенная мера максимальной Delta показала высокую степень совпадения с оценками уровня экспертами на уровнях A1-B1, что говорит о целесообразности дальнейшего изучения её потенциала для смежных прикладных задач и задач отбора языкового содержания на материале других языков.</p></abstract><trans-abstract xml:lang="en"><p>The article describes the experience of creating a corpus-based list of the most relevant multi-word expressions for Russian L2 learners, distributed across the levels of the Common European Framework of Reference for Languages (CEFR) from A1 to C1. Modern linguistic and cognitive research shows that our speech is patterned and largely consists of stable segments. This fact is supported by the linguodidactic idea of teaching not isolated language units but their combinations of different nature. However, the selection and ranking of multi-word expressions based on language proficiency levels is constrained by the difficulty of automatically extracting them from a corpus of texts and estimating their frequency, as well as disagreements in defining the boundaries, linguistic nature, and terminology of multi-word expressions. This article describes the experience of compiling a list of the most valuable fixed-type multi-word expressions from various sources: two types of existing CEFR-graded vocabulary lists for Russian L2 learners &amp;ndash; lexical minimums for the TORFL (Test of Russian as a Foreign Language) system and Russian KELLY (KEywords for Language Learning for Young and adults alike); the most frequent n-grams from the RuFoLa &amp;ndash; Russian L2 textbook corpus and from the Russian Web corpus of internet texts; list of discourse formulas from the &amp;laquo;Pragmaticon&amp;raquo; project. The CEFR level of each multi-word expression is predicted using the frequency-based Max Delta measure, and its effectiveness is subsequently validated through annotation by multiple experts. The resulting list of multi-word expressions contains 1645 entries from A1 to C1 levels. The proposed version of the list has been implemented into an automated text analysis system for learners of Russian as a Foreign Language and can be useful for a wide range of professionals in the preparation of educational content for foreign language learners. The suggested Max Delta measure has demonstrated a high degree of agreement with expert evaluations within proficiency levels A1-B1. This signifies the importance of further exploring its potential in addressing related practical tasks and in selecting language learning content derived for other languages.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>Многословные выражения</kwd><kwd>Многословные лексические единицы</kwd><kwd>Обучение лексике</kwd><kwd>Формульные последовательности</kwd><kwd>Лексический подход</kwd><kwd>Коллокации</kwd><kwd>Русский язык как иностранный</kwd></kwd-group><kwd-group xml:lang="en"><kwd>Multi-word expressions</kwd><kwd>Multi-word units</kwd><kwd>Vocabulary acquisition</kwd><kwd>Formulaic sequences</kwd><kwd>Lexical approach</kwd><kwd>Collocations</kwd><kwd>Russian as a foreign language</kwd></kwd-group></article-meta></front><back><ack><p>Работа выполнена при финансовой поддержке госзадания, проект FZNM-2020-0005 &amp;laquo;Трансформация когнитивной и коммуникативной деятельности человека в условиях современной информационной среды&amp;raquo; (Лапошина&amp;nbsp;А.&amp;nbsp;Н., Лебедева&amp;nbsp;М.&amp;nbsp;Ю.). Исследование проведено во время участия Храмченко&amp;nbsp;Т.&amp;nbsp;А. в научно-исследовательской стажировке &amp;laquo;InteRussia&amp;raquo; при финансовой поддержке Фонда Горчакова.</p></ack><ref-list><title>Список литературы</title><ref id="B1"><mixed-citation>Ерёмина&amp;nbsp;О.&amp;nbsp;С. Русские несвободные выражения в речи иностранцев: корпусный подход // Русский язык за рубежом. 2020. №&amp;nbsp;6&amp;nbsp;(283). С.&amp;nbsp;29-35. https://doi.org/10.37632/PI.2020.283.6.004</mixed-citation></ref><ref id="B2"><mixed-citation>Инькова&amp;nbsp;О.&amp;nbsp;Ю. К вопросу о лемматизации многокомпонентных единиц // Захаров В. П. и др. (ред.). Труды международной конференции &amp;laquo;Корпусная лингвистика 2015&amp;raquo;, СанктПетербург, 22&amp;mdash;26 июня 2015 года. СПб.: СПбГУ, 2015. С.&amp;nbsp;1&amp;ndash;10.</mixed-citation></ref><ref id="B3"><mixed-citation>Иорданская&amp;nbsp;Л.&amp;nbsp;Н., Мельчук&amp;nbsp;И.&amp;nbsp;А. Смысл и сочетаемость в словаре. М.: Языки славянских культур, 2007. 672 с.</mixed-citation></ref><ref id="B4"><mixed-citation>Лапошина&amp;nbsp;А.&amp;nbsp;Н. Корпус текстов учебников РКИ как инструмент анализа учебных материалов // Русский язык за рубежом. 2020. № 6 (283). С. 22&amp;ndash;28. https://doi.org/10.37632/PI.2020.283.6.003</mixed-citation></ref><ref id="B5"><mixed-citation>Минаева&amp;nbsp;Е.&amp;nbsp;В. Дискурсивные слова в современной разговорной речи и в учебниках РКИ // Международный аспирантский вестник. 2017. № 2. С.&amp;nbsp;74&amp;ndash;79.</mixed-citation></ref><ref id="B6"><mixed-citation>Пужаева&amp;nbsp;С.&amp;nbsp;Ю. Автоматическое извлечение дискурсивных формул из текстов на русском языке / Пужаева&amp;nbsp;С.&amp;nbsp;Ю., Герасименко Е. А., Захарова Е. С., Рахилина Е. В. // Вестн. Новосиб. гос. ун-та. Серия: Лингвистика и межкультурная коммуникация. 2018. Т.&amp;nbsp;16. №&amp;nbsp;2. С.&amp;nbsp;5&amp;ndash;18. https://doi.org/10.25205/1818-7935-2018-16-2-5-18</mixed-citation></ref><ref id="B7"><mixed-citation>Свирина&amp;nbsp;Л.&amp;nbsp;О. Формульный язык и уровень иноязычной коммуникативной компетенции // Филология и культура. 2019. №1 (55). С. 97&amp;ndash;101.</mixed-citation></ref><ref id="B8"><mixed-citation>Шляхов&amp;nbsp;В.&amp;nbsp;И., Саакян&amp;nbsp;Л.&amp;nbsp;Н. Текст в коммуникативном пространстве. М.: Ленанд, 2015. 236 с.</mixed-citation></ref><ref id="B9"><mixed-citation>Alfter&amp;nbsp;D. From distributions to labels: A lexical proficiency analysis using learner corpora / Alfter&amp;nbsp;D., Bizzoni&amp;nbsp;Y., Agebjorn&amp;nbsp;A., Volodina&amp;nbsp;E., Pilan&amp;nbsp;I. // Proceedings of the joint workshop on NLP4CALL and NLP for Language Acquisition at SLTC, 2016. №&amp;nbsp;130. Рp. 1&amp;ndash;7.</mixed-citation></ref><ref id="B10"><mixed-citation>Bahns&amp;nbsp;J., Eldaw,&amp;nbsp;M. Should We Teach EFL Students Collocations? // System. 1993. Volume 21. № 1. Pp.101&amp;ndash;114.</mixed-citation></ref><ref id="B11"><mixed-citation>Bybee&amp;nbsp;J. The emergent lexicon // Chicago Linguistic Society. 1998. № 34. Pp. 421&amp;ndash;435.</mixed-citation></ref><ref id="B12"><mixed-citation>Calzolari N. Towards best practice for multiword expressions in computational lexicons / Nicoletta&amp;nbsp;C., Fillmore&amp;nbsp;C., Grishman&amp;nbsp;R., Ide&amp;nbsp;N., Lenci&amp;nbsp;A., Macleod&amp;nbsp;C., Zampolli&amp;nbsp;A. In Proceedings of LREC 2002. 2002. Pp. 1934&amp;ndash;1940.</mixed-citation></ref><ref id="B13"><mixed-citation>Christiansen&amp;nbsp;M.&amp;nbsp;H., Chater,&amp;nbsp;N. The Now-or-Never bottleneck: A fundamental constraint on language // Behavioral &amp;amp; Brain Sciences. 2016. Volume 39. Pp. 62&amp;ndash;102. https://doi.org/10.1017/S0140525X1500031X</mixed-citation></ref><ref id="B14"><mixed-citation>De&amp;nbsp;Cock&amp;nbsp;S. An automated approach to the phrasicon of EFL learners / De&amp;nbsp;Cock&amp;nbsp;S., Granger&amp;nbsp;S., Leech&amp;nbsp;G., Mcenery&amp;nbsp;T. // Learner English on computer. London &amp;amp; New York: Routledge, 1998. Рp. 67&amp;ndash;79. https://doi.org/10.4324/9781315841342</mixed-citation></ref><ref id="B15"><mixed-citation>Volodina&amp;nbsp;Е. SweLL on the rise: Swedish Learner Language corpus for European Reference Level studies / Volodina&amp;nbsp;Е., Pil&amp;aacute;n&amp;nbsp;I., Enstr&amp;ouml;m&amp;nbsp;I., Llozhi&amp;nbsp;L., Lundkvist&amp;nbsp;P., Sundberg&amp;nbsp;G., Sandell&amp;nbsp;M. // Proceedings of LREC 2016. Pp. 206&amp;ndash;212.</mixed-citation></ref><ref id="B16"><mixed-citation>Elman&amp;nbsp;J.&amp;nbsp;L. On the meaning of words and dinosaur bones: Lexical knowledge without a lexicon // Cognitive Science. 2009. № 33. Pp. 547&amp;ndash;582. https://doi.org/10.1111/j.1551-6709.2009.01023.x</mixed-citation></ref><ref id="B17"><mixed-citation>Fran&amp;ccedil;ois&amp;nbsp;T. FLELex: a graded lexical resource for French foreign learners / Fran&amp;ccedil;ois&amp;nbsp;T., Gala&amp;nbsp;N., Watrin&amp;nbsp;P., Fairon&amp;nbsp;C. // In the 9th International Conference on Language Resources and Evaluation (LREC 2014). 2014. Рp. 3766&amp;ndash;3773.</mixed-citation></ref><ref id="B18"><mixed-citation>Janda&amp;nbsp;L. How to build a constructicon in five years: The Russian Example / Janda&amp;nbsp;L., Endresen&amp;nbsp;A., Zhukova&amp;nbsp;V., Mordashova&amp;nbsp;D., Rakhilina&amp;nbsp;E. // The Wealth and Breadth of Construction-Based Research (a thematic issue of Belgian Journal of Linguistics 34). 2020. Рp.&amp;nbsp;162&amp;ndash;175.</mixed-citation></ref><ref id="B19"><mixed-citation>Jolsvai&amp;nbsp;H., McCauley&amp;nbsp;S.&amp;nbsp;M., Christiansen&amp;nbsp;M.&amp;nbsp;H. Meaning overrides frequency in idiomatic and compositional multiword chunks // Proceedings of the 35th Annual Conference of the Cognitive Science Society, Austin. 2013. Рp. 692&amp;ndash;697.</mixed-citation></ref><ref id="B20"><mixed-citation>Kilgarriff&amp;nbsp;A. Corpus-Based Vocabulary lists for Language Learners for Nine Languages / Kilgarriff&amp;nbsp;A., Charalabopoulou&amp;nbsp;F., Gavrilidou&amp;nbsp;M., Johannessen&amp;nbsp;J., Saussan&amp;nbsp;K., Kokkinakis&amp;nbsp;S., Lew&amp;nbsp;R., Sharoff&amp;nbsp;S., Vadlapudi&amp;nbsp;R., Volodina&amp;nbsp;E. // Language Resources and Evaluation Journal. 2014. № 48. Рp. 121&amp;ndash;163. https://doi.org/10.1007/s10579-013-9251-2</mixed-citation></ref><ref id="B21"><mixed-citation>Kopotev&amp;nbsp;M. CoCoCo: Online Extraction of Russian Multiword Expressions / Kopotev&amp;nbsp;M., Escoter&amp;nbsp;L., Kormacheva&amp;nbsp;D., Pierce&amp;nbsp;M., Pivovarova&amp;nbsp;L., Yangarber&amp;nbsp;R. // The 5th Workshop on Balto-Slavic Natural Language Processing 2015, Hissar. 2015. Рp. 43&amp;ndash;45.</mixed-citation></ref><ref id="B22"><mixed-citation>Kopotev&amp;nbsp;M., Pivovarova&amp;nbsp;L., Kormacheva&amp;nbsp;D. Constructional generalization over Russian collocations // Mémoires de la Société néophilologique de Helsinki. 2016. Volume Tome C (Collocations Cross-Linguistically). Pp. 121&amp;ndash;140.</mixed-citation></ref><ref id="B23"><mixed-citation>Kopotev&amp;nbsp;M. Automatic detection of stable grammatical features in n-grams / Kopotev&amp;nbsp;M., Pivovarova&amp;nbsp;L., Kochetkova&amp;nbsp;N., Yangarber&amp;nbsp;R. // Proceedings of the 9th Workshop on Multiword Expressions, Atlanta. 2013. Pp. 73&amp;ndash;81.</mixed-citation></ref><ref id="B24"><mixed-citation>Lewis&amp;nbsp;M. Implementing the Lexical Approach: Putting Theory into Practice. Hove, England: Language Teaching Publications, 1997. 223 p.</mixed-citation></ref><ref id="B25"><mixed-citation>Loukachevitch&amp;nbsp;N., Lashevich&amp;nbsp;G. Multiword expressions in Russian Thesauri RuThes and RuWordNet // Proceedings of the AINL FRUCT 2016 Conference, Saint Petersburg. 2016. Pp.&amp;nbsp;66&amp;ndash;71.</mixed-citation></ref><ref id="B26"><mixed-citation>McClelland&amp;nbsp;J.&amp;nbsp;L. Emergence in cognitive science // Topics in Cognitive Science. 2010. Volume 2. №4. Pp. 751&amp;ndash;770. https://doi.org/10.1111/j.1756-8765.2010.01116.x</mixed-citation></ref><ref id="B27"><mixed-citation>Paquot&amp;nbsp;M., Granger&amp;nbsp;S. Formulaic Language in Learner Corpora // Annual Review of Applied Linguistics. 2012. Volume 32. Pp.&amp;nbsp;130&amp;ndash;149. https://doi.org/10.1017/S0267190512000098</mixed-citation></ref><ref id="B28"><mixed-citation>Parmentier&amp;nbsp;Y., Waszczuk&amp;nbsp;J. Representation and parsing of multiword expressions: Current trends (Phraseology and Multiword Expressions 3). Berlin: Language Science Press, 2019. 326 p.</mixed-citation></ref><ref id="B29"><mixed-citation>Schmitt&amp;nbsp;N. Formulaic Sequences: Acquisition, processing and use. Amsterdam: John Benjamins Publishing Company, 2004. 304 p.</mixed-citation></ref><ref id="B30"><mixed-citation>Wray&amp;nbsp;A. Formulaic sequences in second language teaching: Principles and practice // Applied Linguistics. 2000. Volume 21. №&amp;nbsp;4. Pp. 463&amp;ndash;489. https://doi.org/10.1093/applin/21.4.463</mixed-citation></ref><ref id="B31"><mixed-citation>Wray&amp;nbsp;A. Formulaic language and the lexicon. Cambridge, UK: Cambridge University Press, 2002. 348 p.</mixed-citation></ref></ref-list></back></article>