Отбор многословных выражений на основе корпусных источников и экспертной оценки: обновление языкового содержания РКИ
Статья описывает опыт создания с опорой на корпусные данные списка наиболее педагогически ценных многословных выражений для задач преподавания русского языка иностранным учащимся. Современные лингвистические и когнитивные исследования показывают, что наша речь шаблонизирована, во многом состоит из устойчивых сегментов. Этот факт подкрепляется и лингводидактической идеей обучения не изолированным языковым единицам, а их комплексам разной природы. Однако отбор и ранжирование по уровням языкового владения многословных выражений ограничивается трудностью их автоматизированного выделения из корпуса текстов и подсчетом частотности, а также разногласиями в определении границ многословных выражений, их лингвистической природы и терминологии. В данной статье описывается опыт компиляции списка многословных выражений фиксированного типа из разных источников: двух типов существующих уровневых списков РКИ, наиболее частотных n-gram корпуса текстов из учебников РКИ RuFoLa, корпуса интернет-текстов Russian Web, а также списка дискурсивных формул проекта «Прагматикон». В качестве меры определения языкового уровня многословного выражения используется мера максимальной Delta на основе информации о частотности выражения в корпусе учебных текстов для иностранных учащихся, эффективность которой затем проверяется множественной оценкой экспертов. Получившийся список многословных выражений содержит 1645 вхождений, распределенных по уровням шкалы CEFR от А1 до С1. Полученная версия списка внедрена в систему автоматического анализа сложности текста для изучающих РКИ и может быть полезна широкому кругу профильных специалистов при создании учебного контента. Предложенная мера максимальной Delta показала высокую степень совпадения с оценками уровня экспертами на уровнях A1-B1, что говорит о целесообразности дальнейшего изучения её потенциала для смежных прикладных задач и задач отбора языкового содержания на материале других языков.
Иллюстрации
Лапошина А. Н., Храмченко Т. А., Лебедева М. Ю. Отбор многословных выражений на основе корпусных источников и экспертной оценки: обновление языкового содержания РКИ // Научный результат. Вопросы теоретической и прикладной лингвистики. 2024. Т. 10. № 2. C. 117-137. DOI: 10.18413/2313-8912-2024-10-2-0-6
Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.
Ерёмина О. С. Русские несвободные выражения в речи иностранцев: корпусный подход // Русский язык за рубежом. 2020. № 6 (283). С. 29-35. https://doi.org/10.37632/PI.2020.283.6.004
Инькова О. Ю. К вопросу о лемматизации многокомпонентных единиц // Захаров В. П. и др. (ред.). Труды международной конференции «Корпусная лингвистика 2015», СанктПетербург, 22—26 июня 2015 года. СПб.: СПбГУ, 2015. С. 1–10.
Иорданская Л. Н., Мельчук И. А. Смысл и сочетаемость в словаре. М.: Языки славянских культур, 2007. 672 с.
Лапошина А. Н. Корпус текстов учебников РКИ как инструмент анализа учебных материалов // Русский язык за рубежом. 2020. № 6 (283). С. 22–28. https://doi.org/10.37632/PI.2020.283.6.003
Минаева Е. В. Дискурсивные слова в современной разговорной речи и в учебниках РКИ // Международный аспирантский вестник. 2017. № 2. С. 74–79.
Пужаева С. Ю. Автоматическое извлечение дискурсивных формул из текстов на русском языке / Пужаева С. Ю., Герасименко Е. А., Захарова Е. С., Рахилина Е. В. // Вестн. Новосиб. гос. ун-та. Серия: Лингвистика и межкультурная коммуникация. 2018. Т. 16. № 2. С. 5–18. https://doi.org/10.25205/1818-7935-2018-16-2-5-18
Свирина Л. О. Формульный язык и уровень иноязычной коммуникативной компетенции // Филология и культура. 2019. №1 (55). С. 97–101.
Шляхов В. И., Саакян Л. Н. Текст в коммуникативном пространстве. М.: Ленанд, 2015. 236 с.
Alfter D. From distributions to labels: A lexical proficiency analysis using learner corpora / Alfter D., Bizzoni Y., Agebjorn A., Volodina E., Pilan I. // Proceedings of the joint workshop on NLP4CALL and NLP for Language Acquisition at SLTC, 2016. № 130. Рp. 1–7.
Bahns J., Eldaw, M. Should We Teach EFL Students Collocations? // System. 1993. Volume 21. № 1. Pp.101–114.
Bybee J. The emergent lexicon // Chicago Linguistic Society. 1998. № 34. Pp. 421–435.
Calzolari N. Towards best practice for multiword expressions in computational lexicons / Nicoletta C., Fillmore C., Grishman R., Ide N., Lenci A., Macleod C., Zampolli A. In Proceedings of LREC 2002. 2002. Pp. 1934–1940.
Christiansen M. H., Chater, N. The Now-or-Never bottleneck: A fundamental constraint on language // Behavioral & Brain Sciences. 2016. Volume 39. Pp. 62–102. https://doi.org/10.1017/S0140525X1500031X
De Cock S. An automated approach to the phrasicon of EFL learners / De Cock S., Granger S., Leech G., Mcenery T. // Learner English on computer. London & New York: Routledge, 1998. Рp. 67–79. https://doi.org/10.4324/9781315841342
Volodina Е. SweLL on the rise: Swedish Learner Language corpus for European Reference Level studies / Volodina Е., Pilán I., Enström I., Llozhi L., Lundkvist P., Sundberg G., Sandell M. // Proceedings of LREC 2016. Pp. 206–212.
Elman J. L. On the meaning of words and dinosaur bones: Lexical knowledge without a lexicon // Cognitive Science. 2009. № 33. Pp. 547–582. https://doi.org/10.1111/j.1551-6709.2009.01023.x
François T. FLELex: a graded lexical resource for French foreign learners / François T., Gala N., Watrin P., Fairon C. // In the 9th International Conference on Language Resources and Evaluation (LREC 2014). 2014. Рp. 3766–3773.
Janda L. How to build a constructicon in five years: The Russian Example / Janda L., Endresen A., Zhukova V., Mordashova D., Rakhilina E. // The Wealth and Breadth of Construction-Based Research (a thematic issue of Belgian Journal of Linguistics 34). 2020. Рp. 162–175.
Jolsvai H., McCauley S. M., Christiansen M. H. Meaning overrides frequency in idiomatic and compositional multiword chunks // Proceedings of the 35th Annual Conference of the Cognitive Science Society, Austin. 2013. Рp. 692–697.
Kilgarriff A. Corpus-Based Vocabulary lists for Language Learners for Nine Languages / Kilgarriff A., Charalabopoulou F., Gavrilidou M., Johannessen J., Saussan K., Kokkinakis S., Lew R., Sharoff S., Vadlapudi R., Volodina E. // Language Resources and Evaluation Journal. 2014. № 48. Рp. 121–163. https://doi.org/10.1007/s10579-013-9251-2
Kopotev M. CoCoCo: Online Extraction of Russian Multiword Expressions / Kopotev M., Escoter L., Kormacheva D., Pierce M., Pivovarova L., Yangarber R. // The 5th Workshop on Balto-Slavic Natural Language Processing 2015, Hissar. 2015. Рp. 43–45.
Kopotev M., Pivovarova L., Kormacheva D. Constructional generalization over Russian collocations // Mémoires de la Société néophilologique de Helsinki. 2016. Volume Tome C (Collocations Cross-Linguistically). Pp. 121–140.
Kopotev M. Automatic detection of stable grammatical features in n-grams / Kopotev M., Pivovarova L., Kochetkova N., Yangarber R. // Proceedings of the 9th Workshop on Multiword Expressions, Atlanta. 2013. Pp. 73–81.
Lewis M. Implementing the Lexical Approach: Putting Theory into Practice. Hove, England: Language Teaching Publications, 1997. 223 p.
Loukachevitch N., Lashevich G. Multiword expressions in Russian Thesauri RuThes and RuWordNet // Proceedings of the AINL FRUCT 2016 Conference, Saint Petersburg. 2016. Pp. 66–71.
McClelland J. L. Emergence in cognitive science // Topics in Cognitive Science. 2010. Volume 2. №4. Pp. 751–770. https://doi.org/10.1111/j.1756-8765.2010.01116.x
Paquot M., Granger S. Formulaic Language in Learner Corpora // Annual Review of Applied Linguistics. 2012. Volume 32. Pp. 130–149. https://doi.org/10.1017/S0267190512000098
Parmentier Y., Waszczuk J. Representation and parsing of multiword expressions: Current trends (Phraseology and Multiword Expressions 3). Berlin: Language Science Press, 2019. 326 p.
Schmitt N. Formulaic Sequences: Acquisition, processing and use. Amsterdam: John Benjamins Publishing Company, 2004. 304 p.
Wray A. Formulaic sequences in second language teaching: Principles and practice // Applied Linguistics. 2000. Volume 21. № 4. Pp. 463–489. https://doi.org/10.1093/applin/21.4.463
Wray A. Formulaic language and the lexicon. Cambridge, UK: Cambridge University Press, 2002. 348 p.
Работа выполнена при финансовой поддержке госзадания, проект FZNM-2020-0005 «Трансформация когнитивной и коммуникативной деятельности человека в условиях современной информационной среды» (Лапошина А. Н., Лебедева М. Ю.). Исследование проведено во время участия Храмченко Т. А. в научно-исследовательской стажировке «InteRussia» при финансовой поддержке Фонда Горчакова.