<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20190208//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.2" xml:lang="ru" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink"><front><journal-meta><journal-id journal-id-type="issn">2313-8912</journal-id><journal-title-group><journal-title>Научный результат. Вопросы теоретической и прикладной лингвистики</journal-title></journal-title-group><issn pub-type="epub">2313-8912</issn></journal-meta><article-meta><article-id pub-id-type="doi">10.18413/2313-8912-2023-9-1-0-3</article-id><article-id pub-id-type="publisher-id">3060</article-id><article-categories><subj-group subj-group-type="heading"><subject>ПРЕДИКТОРЫ СЛОЖНОСТИ ТЕКСТА: МЕТОДЫ ОЦЕНКИ И ПОДХОДЫ</subject></subj-group></article-categories><title-group><article-title>&lt;strong&gt;Школьный учебный текст в аспекте терминоупотребления: корпусный анализ&lt;/strong&gt;</article-title><trans-title-group xml:lang="en"><trans-title>&lt;strong&gt;Terminology use in school textbooks: corpus analysis&lt;/strong&gt;</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Монахов</surname><given-names>Сергей Игоревич</given-names></name><name xml:lang="en"><surname>Monakhov</surname><given-names>Sergei I.</given-names></name></name-alternatives><email>sergomon@gmail.com</email><xref ref-type="aff" rid="aff1" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Турчаненко</surname><given-names>Владимир Владимирович</given-names></name><name xml:lang="en"><surname>Turchanenko</surname><given-names>Vladimir V.</given-names></name></name-alternatives><email>turchanenko@mail.ru</email><xref ref-type="aff" rid="aff2" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Чердаков</surname><given-names>Дмитрий Наилевич</given-names></name><name xml:lang="en"><surname>Cherdakov</surname><given-names>Dmitrii N.</given-names></name></name-alternatives><email>dm.cherdakov@gmail.com</email><xref ref-type="aff" rid="aff3" /></contrib></contrib-group><aff id="aff3"><institution>Санкт-Петербургский государственный университет, Россия</institution></aff><aff id="aff2"><institution>Институт русской литературы (Пушкинский Дом) РАН, Россия</institution></aff><aff id="aff1"><institution>Йенский университет им. Ф. Шиллера, Германия</institution></aff><pub-date pub-type="epub"><year>2023</year></pub-date><volume>9</volume><issue>1</issue><fpage>0</fpage><lpage>0</lpage><self-uri content-type="pdf" xlink:href="/media/linguistics/2023/1/Лингвистика_9_1_2023-27-49_en__ru.pdf" /><abstract xml:lang="ru"><p>В статье излагаются методы и результаты анализа употребления терминологической лексики в современных школьных учебниках на русском языке. Основным материалом исследования является созданный исследовательский корпус, включающий тексты 207 учебников с 5-го по 11-й класс по 21 школьной дисциплине. Традиционный способ автоматического извлечения терминов, основанный на статистических показателях частотности словоупотребления, предлагается усовершенствовать с помощью создания моделей, обученных по алгоритмам Word2Vec, в основе которых лежат идеи дистрибутивной семантики. Применение этих алгоритмов, выражающее в числовом представлении сочетаемостное поведение слов и соответственно степень их семантической близости, позволило: в существенной мере устрожить результаты автоматического выделения терминов, отграничивая от них высокочастотные нетерминологические единицы; осуществить сопоставительную характеристику состава и употребления терминов в учебниках по разным предметам и разных ступеней обучения; проанализировать динамику пополнения терминологических систем внутри учебно-методических комплексов и охарактеризовать терминологические взаимосвязи между учебниками для отдельных классов. При помощи специально созданного корпуса научных статей по тем дисциплинам, которые соответствуют предметам школьного обучения, были выявлены различия в употреблении терминов в школьной и научной сферах, а также (с использованием дистрибутивно-семантической модели, предоставляемой ресурсом RusVectōrēs) в сфере общеупотребительной и научно-популярной речи. Для каждого из отмеченных аспектов анализа обнаружены значимые признаки в функционировании терминов, свойственные отдельным школьным дисциплинам или их группам. Полученные результаты оценивались в том числе в свете положений теории сложности текста и принципов дидактики и методики. Отмечены, в частности, случаи противоречия между показателями сложности текста и его предполагаемой трудности, а также неоднозначный характер взаимодействия меры сложности текста с ключевыми дидактическими началами.</p></abstract><trans-abstract xml:lang="en"><p>The article presents the methods and results of the study that investigated the use of terminology in textbooks for secondary schools in Russia. The data were taken from a full-text DIY corpus of 207 textbooks for grades 5-11. The toolkit included models trained with the Word2Vec algorithms driven by the ideas of distributional semantics. The models were used to improve traditional automatic term extraction based on word frequency statistics. Numerical representation of word collocation patterns and their semantic similarity enabled the following: more effective automatic term extraction with a clear dividing line between terminology per se and high-frequency common words; comparative analysis of inventory and functioning of terms in textbooks for different school subjects and grades; analysis of the dynamics of new terms entering educational and methodological complexes and insights into terminological relations between textbooks for different grades. The study included another DIY corpus compiled of scholarly articles across the subjects taught at school. It was used to identify differences in term use in textbooks and scholarly texts as well as in non-specific and popular science contexts. The latter was facilitated by the RusVectōrēs word embedding model. The comprehensive analysis identified some patterns in term functioning relevant for particular school subjects or groups of subjects. The results were evaluated in view of the theory of text complexity, teaching methodology and didactics. The study found some contradictions between the expected and real text complexity. It also showed certain discrepancy between text complexity and basic didactic principles.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>Термин</kwd><kwd>Терминология</kwd><kwd>Школьный учебник</kwd><kwd>Сложность текста</kwd><kwd>Частотность слова</kwd><kwd>Векторное представление</kwd><kwd>Word2Vec</kwd><kwd>Нейронная сеть</kwd></kwd-group><kwd-group xml:lang="en"><kwd>Term</kwd><kwd>Terminology</kwd><kwd>School textbook</kwd><kwd>Text complexity</kwd><kwd>Word frequency</kwd><kwd>Vector representation</kwd><kwd>Word2Vec</kwd><kwd>Neural network</kwd></kwd-group></article-meta></front><back><ack><p>Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 19-29-14032 мк &amp;laquo;Изучение терминологических подсистем современных школьных учебников на русском языке с помощью моделей анализа семантики естественных языков Word2Vec и нейронных сетей&amp;raquo;.</p></ack><ref-list><title>Список литературы</title><ref id="B1"><mixed-citation>Иомдин&amp;nbsp;Б.&amp;nbsp;Л., Морозов&amp;nbsp;Д.&amp;nbsp;А. Кто поймет &amp;laquo;Незнайку&amp;raquo;? Автоматическое определение сложности текстов для детей // Русская речь. 2021. №&amp;nbsp;5. С.&amp;nbsp;55&amp;ndash;68. DOI: 10.31857/S013161170017239-1</mixed-citation></ref><ref id="B2"><mixed-citation>Лапошина&amp;nbsp;А.&amp;nbsp;Н., Лебедева&amp;nbsp;М.&amp;nbsp;Ю., Берлин Хенис&amp;nbsp;А.&amp;nbsp;А. Влияние частотности слов текста на его сложность: экспериментальное исследование читателей младшего школьного возраста методом айтрекинга // Russian Journal of Linguistics. 2022. Т.&amp;nbsp;26. №&amp;nbsp;2. С.&amp;nbsp;493&amp;ndash;514. DOI: 10.22363/2687-0088-30084</mixed-citation></ref><ref id="B3"><mixed-citation>Лейчик&amp;nbsp;В.&amp;nbsp;М. Терминоведение: предмет, методы, структура. М.: ЛКИ, 2007. 256&amp;nbsp;с.</mixed-citation></ref><ref id="B4"><mixed-citation>Лексический состав текстов учебников русского языка для младшей школы: корпусное исследование / Лапошина&amp;nbsp;А.&amp;nbsp;Н., Веселовская&amp;nbsp;Т.&amp;nbsp;С., Лебедева&amp;nbsp;М.&amp;nbsp;Ю., Купрещенко&amp;nbsp;О.&amp;nbsp;Ф // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции &amp;laquo;Диалог&amp;raquo; (Москва, 29 мая &amp;mdash; 1 июня 2019&amp;nbsp;г.). Вып.&amp;nbsp;18&amp;nbsp;(25). М., 2019. C.&amp;nbsp;351&amp;ndash;363.</mixed-citation></ref><ref id="B5"><mixed-citation>Лукашевич&amp;nbsp;Н.&amp;nbsp;В., Логачев&amp;nbsp;Ю.&amp;nbsp;М. Комбинирование признаков для автоматического извлечения терминов // Вычислительные методы и программирование. 2010. Т.&amp;nbsp;11. Вып.&amp;nbsp;4. С.&amp;nbsp;108&amp;ndash;116.</mixed-citation></ref><ref id="B6"><mixed-citation>Мартынова&amp;nbsp;Е.&amp;nbsp;В., Солнышкина&amp;nbsp;М.&amp;nbsp;И., Мерзлякова&amp;nbsp;А.&amp;nbsp;Ф., Гизатулина&amp;nbsp;Д.&amp;nbsp;Ю. Лексические параметры учебного текста (на материале текстов учебного корпуса русского языка) // Филология и культура. 2020. №&amp;nbsp;3&amp;nbsp;(61). С.&amp;nbsp;72&amp;ndash;80.</mixed-citation></ref><ref id="B7"><mixed-citation>Микк&amp;nbsp;Я.&amp;nbsp;А. Оптимизация сложности учебного текста: В помощь авторам и редакторам. М.: Просвещение, 1981. 119&amp;nbsp;с.</mixed-citation></ref><ref id="B8"><mixed-citation>Митрофанова&amp;nbsp;О.&amp;nbsp;А., Захаров&amp;nbsp;В.&amp;nbsp;П. Автоматизированный анализ терминологии в русскоязычном корпусе текстов по корпусной лингвистике // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции &amp;laquo;Диалог&amp;raquo; (Бекасово, 27&amp;ndash;31 мая 2009&amp;nbsp;г.). Вып.&amp;nbsp;8&amp;nbsp;(15). М., 2009. С.&amp;nbsp;321&amp;ndash;328.</mixed-citation></ref><ref id="B9"><mixed-citation>Монахов&amp;nbsp;С.&amp;nbsp;И., Турчаненко&amp;nbsp;В.&amp;nbsp;В., Чердаков&amp;nbsp;Д.&amp;nbsp;Н. Школьная и научная терминология: корпусное исследование и кластеризация // Информатизация образования и методика электронного обучения: цифровые технологии в образовании. Материалы VI Международной научной конференции. Красноярск, 2022. Ч.&amp;nbsp;3. С.&amp;nbsp;228&amp;ndash;233.</mixed-citation></ref><ref id="B10"><mixed-citation>Морозов&amp;nbsp;Д.&amp;nbsp;А., Иомдин&amp;nbsp;Б.&amp;nbsp;Л. Критерии семантической сложности слова // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции &amp;laquo;Диалог&amp;raquo; (Москва, 29 мая &amp;mdash; 1 июня 2019&amp;nbsp;г.). Вып.&amp;nbsp;18&amp;nbsp;(25). М., 2019. Дополнительный том. С.&amp;nbsp;119&amp;ndash;131.</mixed-citation></ref><ref id="B11"><mixed-citation>Пиотровский&amp;nbsp;Р.&amp;nbsp;Г., Ястребова&amp;nbsp;С.&amp;nbsp;В. Статистическое опознание термина // Статистика текста / гл. ред. Р.&amp;nbsp;Г.&amp;nbsp;Пиотровский. Т.&amp;nbsp;1. Минск: Белорусский государственный университет, 1969. С.&amp;nbsp;249&amp;ndash;259.</mixed-citation></ref><ref id="B12"><mixed-citation>Солнышкина&amp;nbsp;М.&amp;nbsp;И. Определение уровня лексической сложности текстов: современное состояние проблемы // Сборник научных трудов X Юбилейной международной научно-практической конференции &amp;laquo;Учитель. Ученик. Учебник (в контексте глобальных вызовов современности)&amp;raquo;, 19&amp;ndash;20 ноября 2021. М., 2022. C.&amp;nbsp;20&amp;ndash;24.</mixed-citation></ref><ref id="B13"><mixed-citation>Солнышкина&amp;nbsp;М.&amp;nbsp;И., Макнамара&amp;nbsp;Д., Замалетдинов&amp;nbsp;Р.&amp;nbsp;Р. Обработка естественного языка и изучение сложности дискурса // Russian Journal of Linguistics. 2022. Т.&amp;nbsp;26. №&amp;nbsp;2. С.&amp;nbsp;317&amp;ndash;341. DOI: 10.22363/2687-0088-30171</mixed-citation></ref><ref id="B14"><mixed-citation>Солнышкина&amp;nbsp;М.&amp;nbsp;И., Кисельников&amp;nbsp;А.&amp;nbsp;С. Сложность текста: этапы изучения в отечественном прикладном языкознании // Вестник Томского государственного университета. Филология. 2015. №&amp;nbsp;6&amp;nbsp;(38). C. 86&amp;ndash;99. DOI: 10.17223/19986645/38/7</mixed-citation></ref><ref id="B15"><mixed-citation>Соловьев&amp;nbsp;В.&amp;nbsp;Д., Солнышкина&amp;nbsp;М.&amp;nbsp;И., Макнамара&amp;nbsp;Д.&amp;nbsp;С. Компьютерная лингвистика и дискурсивная комплексология: парадигмы и методы исследований // Russian Journal of Linguistics. 2022. Т.&amp;nbsp;26. №&amp;nbsp;2. С.&amp;nbsp;275&amp;ndash;316. DOI: 10.22363/2687-0088-30161</mixed-citation></ref><ref id="B16"><mixed-citation>Степанова&amp;nbsp;Д.&amp;nbsp;В. Анализ методов автоматического выделения терминов из научно-технических текстов // Актуальные проблемы современной прикладной лингвистики. Минск: Минский государственный лингвистический университет, 2017. С.&amp;nbsp;62&amp;ndash;67.</mixed-citation></ref><ref id="B17"><mixed-citation>Татаринов&amp;nbsp;В.&amp;nbsp;А. Общее терминоведение: Энциклопедический словарь. М.: Московский Лицей, 2006. 528&amp;nbsp;с.</mixed-citation></ref><ref id="B18"><mixed-citation>Шпаковский&amp;nbsp;Ю.&amp;nbsp;Ф. Оценка трудности восприятия и оптимизация сложности учебного текста (на материале текстов по химии): Автореф. &amp;hellip; канд. филол. наук. Минск, 2007. 21&amp;nbsp;с.</mixed-citation></ref><ref id="B19"><mixed-citation>Brownlee&amp;nbsp;J. Deep Learning for Natural Language Processing: Develop Deep Learning Models for your Natural Language Problems. Vermont: Machine Learning Mastery Publ., 2017. 414&amp;nbsp;p.</mixed-citation></ref><ref id="B20"><mixed-citation>Cabré&amp;nbsp;M.&amp;nbsp;T., Estopà&amp;nbsp;R., Vivaldi&amp;nbsp;J. Automatic Term Detection: A Review of Current Systems // Recent Advances in Computational Terminology / Bourigault&amp;nbsp;D., Jacquemin&amp;nbsp;Ch., L&amp;rsquo;Homme&amp;nbsp;M.-C. (eds.). Amsterdam: John Benjamins Publ., 2001. Pp.&amp;nbsp;53&amp;ndash;87. DOI: 10.1075/nlp.2.04cab</mixed-citation></ref><ref id="B21"><mixed-citation>Durda&amp;nbsp;K., Buchanan&amp;nbsp;L. WINDSORS: Windsor Improved Norms of Distance and Similarity of Representations of Semantics // Behavior Research Methods. 2008. Vol.&amp;nbsp;40. Pp.&amp;nbsp;705&amp;ndash;712. DOI: 10.3758/BRM.40.3.705</mixed-citation></ref><ref id="B22"><mixed-citation>Fisher&amp;nbsp;D., Frey&amp;nbsp;N., Lapp&amp;nbsp;D. Text Complexity: Stretching Readers with Texts and Tasks. Thousand Oaks, CA: Corwin Press, 2016. 216&amp;nbsp;p.</mixed-citation></ref><ref id="B23"><mixed-citation>Flor&amp;nbsp;M., Klebanov&amp;nbsp;B., Sheehan&amp;nbsp;K. Lexical Tightness and Text Complexity // Proceedings of the 2th Workshop of Natural Language Processing for Improving Textual Accessibility (NLP4ITA). Atlanta, 2013. Pp.&amp;nbsp;29&amp;ndash;38.</mixed-citation></ref><ref id="B24"><mixed-citation>Glazkova&amp;nbsp;A., Egorov&amp;nbsp;Yu., Glazkov&amp;nbsp;M. A Comparative Study of Feature Types for Age-Based Text Classification // Analysis of Images, Social Networks and Texts. AIST 2020. Lecture Notes in Computer Science. Vol.&amp;nbsp;12602 / van der Aalst&amp;nbsp;W. et al. (eds.). Cham: Springer Publ., 2021. Pp.&amp;nbsp;120&amp;ndash;134.</mixed-citation></ref><ref id="B25"><mixed-citation>Jones&amp;nbsp;M.&amp;nbsp;N., Mewhort&amp;nbsp;D.&amp;nbsp;J. K. Representing Word Meaning and Order Information in a Composite Holographic Lexicon // Psychological Review. 2007. Vol.&amp;nbsp;114. Pp.&amp;nbsp;1&amp;ndash;37. DOI: 10.1037/0033-295X.114.1.1</mixed-citation></ref><ref id="B26"><mixed-citation>Kilgarriff&amp;nbsp;A., Jakub&amp;iacute;ček&amp;nbsp;M., Kov&amp;aacute;ř&amp;nbsp;V. et al. Finding Terms in Corpora for Many Languages with the Sketch Engine // Proceedings of the Demonstrations at the 14th Conference the European Chapter of the Association for Computational Linguistics, 26&amp;ndash;30 April, 2014. Gothenburg, 2014. Рр.&amp;nbsp;53&amp;ndash;56. DOI: 10.3115/v1/E14-2014.</mixed-citation></ref><ref id="B27"><mixed-citation>Korkontzelos&amp;nbsp;I., Ananiadou&amp;nbsp;S. Term Extraction // Oxford Handbook of Computational Linguistics / Mitkov&amp;nbsp;R. (ed.). Oxford: Oxford University Press, 2014. Pp.&amp;nbsp;991&amp;ndash;1012.</mixed-citation></ref><ref id="B28"><mixed-citation>Kutuzov&amp;nbsp;A., Kuzmenko&amp;nbsp;E. WebVectors: A Toolkit for Building Web Interfaces for Vector Semantic Models // Analysis of Images, Social Networks and Texts. AIST 2016. Communications in Computer and Information Science. Vol.&amp;nbsp;661 / Ignatov&amp;nbsp;D. et al. (eds.). Cham: Springer Publ., 2017. Pp.&amp;nbsp;155&amp;ndash;161.</mixed-citation></ref><ref id="B29"><mixed-citation>Levy&amp;nbsp;O., Goldberg&amp;nbsp;Y. Linguistic Regularities in Sparse and Explicit Word Representations // Proceedings of the Eighteenth Conference on Computational Natural Language Learning / Morante&amp;nbsp;R., Yih&amp;nbsp;S.&amp;nbsp;W-t. (eds.). Proceedings of the Eighteenth Conference on Computational Natural Language Learning. Stroudsburg: Association for Computational Linguistic Publ., 2014. Pp.&amp;nbsp;171&amp;ndash;180. DOI: 10.3115/v1/W14-1618</mixed-citation></ref><ref id="B30"><mixed-citation>Mikolov&amp;nbsp;T., Sutskever&amp;nbsp;I., Chen&amp;nbsp;K. et al. Distributed Representations of Words and Phrases and their Compositionality // Advances in Neural Information Processing Systems 26. 27th Annual Conference on Neural Information Processing Systems 2013. Red Hook: Curran Associates Publ., 2013. Pp.&amp;nbsp;3136&amp;ndash;3144.</mixed-citation></ref><ref id="B31"><mixed-citation>Mikolov&amp;nbsp;T., Yih&amp;nbsp;W.&amp;nbsp;T., Zweig&amp;nbsp;G. Linguistic Regularities in Continuous Space Word Representations // Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2013. Pp.&amp;nbsp;746&amp;ndash;751.</mixed-citation></ref><ref id="B32"><mixed-citation>Nokel&amp;nbsp;M.&amp;nbsp;A., Bolshakova&amp;nbsp;E.&amp;nbsp;I., Loukachevitch&amp;nbsp;N.&amp;nbsp;V. Combining Multiple Features for Single-word Term Extraction // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции &amp;laquo;Диалог&amp;raquo; (Бекасово, 30 мая &amp;mdash; 3 июня 2012&amp;nbsp;г.). Вып.&amp;nbsp;11&amp;nbsp;(18). М., 2012. С.&amp;nbsp;490&amp;ndash;501.</mixed-citation></ref><ref id="B33"><mixed-citation>Rohde&amp;nbsp;D.&amp;nbsp;L., Gonnerman&amp;nbsp;L.&amp;nbsp;M., Plaut&amp;nbsp;D.&amp;nbsp;C. An Improved Model of Semantic Similarity Based on Lexical Co-Occurrence // Communications of the ACM. 2006. Vol.&amp;nbsp;8. Pp.&amp;nbsp;627&amp;ndash;633.</mixed-citation></ref><ref id="B34"><mixed-citation>Schwanenflugel&amp;nbsp;P.&amp;nbsp;J. Why are Abstract Concepts Hard to Understand? // The Psychology of Word Meanings / Schwanenflugel&amp;nbsp;P.&amp;nbsp;J. (ed.). Hillsdale: Lawrence Erlbaum Associates Inc., 1991. Pp.&amp;nbsp;223&amp;ndash;250.</mixed-citation></ref><ref id="B35"><mixed-citation>Sharoff&amp;nbsp;S. What Neural Networks Know about Linguistic Complexity // Russian Journal of Linguistics. 2022. Т.&amp;nbsp;26. №&amp;nbsp;2. С.&amp;nbsp;371&amp;ndash;390. DOI: 10.22363/2687-0088-30178</mixed-citation></ref><ref id="B36"><mixed-citation>Solovyev&amp;nbsp;V.&amp;nbsp;D., Ivanov&amp;nbsp;V.&amp;nbsp;V., Solnyshkina&amp;nbsp;M.&amp;nbsp;I. Assessment of Reading Difficulty Levels in Russian Academic Texts: Approaches and Metrics // Journal of Intelligent &amp;amp; Fuzzy Systems. 2018. Vol.&amp;nbsp;34&amp;nbsp;(2). Pp.&amp;nbsp;3049&amp;ndash;3058. DOI:10.3233/JIFS-169489</mixed-citation></ref><ref id="B37"><mixed-citation>Turney&amp;nbsp;P.&amp;nbsp;D., Pantel,&amp;nbsp;P. From Frequency to Meaning: Vector Space Models of Semantics // Journal of Artiﬁcial Intelligence Research. 2010. Vol.&amp;nbsp;37. Pp.&amp;nbsp;141&amp;ndash;188. DOI: 10.1613/jair.2934</mixed-citation></ref></ref-list></back></article>