<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20190208//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.2" xml:lang="ru" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink"><front><journal-meta><journal-id journal-id-type="issn">2313-8912</journal-id><journal-title-group><journal-title>Научный результат. Вопросы теоретической и прикладной лингвистики</journal-title></journal-title-group><issn pub-type="epub">2313-8912</issn></journal-meta><article-meta><article-id pub-id-type="doi">10.18413/2313-8912-2023-9-1-0-4</article-id><article-id pub-id-type="publisher-id">3061</article-id><article-categories><subj-group subj-group-type="heading"><subject>ПРЕДИКТОРЫ СЛОЖНОСТИ ТЕКСТА: МЕТОДЫ ОЦЕНКИ И ПОДХОДЫ</subject></subj-group></article-categories><title-group><article-title>&lt;strong&gt;Типология учебников русского языка на основе ReaderBench: уровневый и тематический подходы&lt;/strong&gt;</article-title><trans-title-group xml:lang="en"><trans-title>&lt;strong&gt;Classification of Russian textbooks by grade level and topic using ReaderBench&lt;/strong&gt;</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Параскив</surname><given-names>Андрей</given-names></name><name xml:lang="en"><surname>Paraschiv</surname><given-names>Andrei</given-names></name></name-alternatives><email>andrei.paraschiv74@upb.ro</email><xref ref-type="aff" rid="aff1" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Даскалу</surname><given-names>Михай</given-names></name><name xml:lang="en"><surname>Dascalu</surname><given-names>Mihai</given-names></name></name-alternatives><email>mihai.dascalu@upb.ro</email><xref ref-type="aff" rid="aff2" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Солнышкина</surname><given-names>Марина Ивановна</given-names></name><name xml:lang="en"><surname>Solnyshkina</surname><given-names>Marina I.</given-names></name></name-alternatives><email>mesoln@yandex.ru</email><xref ref-type="aff" rid="aff3" /></contrib></contrib-group><aff id="aff2"><institution>Бухарестский политехнический университет, Румыния</institution></aff><aff id="aff3"><institution>Казанский (Приволжский) федеральный университет, Россия</institution></aff><aff id="aff1"><institution>Политехнический университет Бухареста, Румыния</institution></aff><pub-date pub-type="epub"><year>2023</year></pub-date><volume>9</volume><issue>1</issue><fpage>0</fpage><lpage>0</lpage><self-uri content-type="pdf" xlink:href="/media/linguistics/2023/1/Лингвистика_9_1_2023-50-63.pdf" /><abstract xml:lang="ru"><p>Учебник является важным образовательным ресурсом для чтения в классе и самостоятельной работы, а качество учебных материалов определяет весь учебный процесс. Одним из наиболее важных факторов, которые следует учитывать, является их удобочитаемость и понятность. Поэтому правильное сочетание сложности учебника и уровня компетентности учащихся имеет первостепенное значение. В данной статье анализируются автоматизированные методы классификации русскоязычных учебников по двум измерениям, а именно по теме текста и его сложности, отражаемой соответствующим школьным уровнем (классом). Корпус исследования &amp;ndash; 154 учебника, используемых для обучения в 2 &amp;ndash; 11 классах Российской Федерации. Исследование осуществлено на основе методов машинного обучения с использованием индексов сложности текста, рассчитываемых при помощи многоязычной платформы с открытым исходным кодом ReaderBench и классификационными моделями на основе BERT. Кроме того, мы изучаем наиболее предиктивные функции ReaderBench в сочетании с контекстуальными вложениями от BERT. Наши результаты доказывают, что включение индексов сложности текста улучшает эффективность классификации моделей на основе BERT в нашем наборе данных, разделенном с использованием двух стратегий. В частности, показатель F1 для классификации по темам улучшился до 92,63 %, а показатель F1 для классификации по уровням обучения (классам) улучшился до 54,06 % для жадного алгоритма, при котором несколько смежных абзацев считаются единым текстовым блоком до тех пор, пока не будет достигнута максимальная длина абзаца, 512 токенов, для изучаемой языковой модели.</p></abstract><trans-abstract xml:lang="en"><p>Textbooks are essential resources for classroom and offline reading, while the quality of learning materials guides the entire learning process. One of the most important factors to be considered is their readability and comprehensibility. Therefore, the correct pairing of textbook complexity and student grade level is paramount. This article analyzes automated classification methods for Russian-language textbooks on two dimensions, namely the topic of the text and its complexity reflected by its corresponding school grade level. The studied corpus is a collection of 154 textbooks from the Russian Federation from the second to the eleventh grade levels. Our analysis considers machine learning techniques on the textual complexity indices provided by the open-source multi-language framework ReaderBench and BERT-based models for the classification tasks. Additionally, we explore using the most predictive ReaderBench features in conjunction with contextualized embeddings from BERT. Our results argue that incorporating textual complexity indices improves the classification performance of BERT-based models on our dataset split using 2&amp;nbsp;strategies. More specifically, the F1 score for topic classification improved to 92.63%, while the F1 score for school grade-level classification improved to 54.06% for the Greedy approach in which multiple adjacent paragraphs are considered a single text unit up until reaching the maximum length of 512 tokens imposed by the language model.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>Читабельность текста</kwd><kwd>Русский язык</kwd><kwd>Анализ учебника</kwd><kwd>Тематическая классификация</kwd><kwd>Фреймворк ReaderBench</kwd><kwd>Индексы сложности текста</kwd><kwd>Языковая модель на основе преобразователя</kwd></kwd-group><kwd-group xml:lang="en"><kwd>Text readability</kwd><kwd>Russian language</kwd><kwd>Textbook analysis</kwd><kwd>Topic classification</kwd><kwd>ReaderBench framework</kwd><kwd>Textual complexity indices</kwd><kwd>Transformer-based Language Model</kwd></kwd-group></article-meta></front><back><ack><p>Работа выполнена при поддержке гранта Министерства исследований, инноваций и цифровизации, проект CloudPrecis, номер договора 344/390020/06.09.2021, код MySMIS:&amp;nbsp;124812, в рамках POC. Выражаем благодарность НИЛ &amp;quot;Текстовая аналитика&amp;quot; Казанского (Приволжского) федерального университета за помощь в составлении корпуса &amp;nbsp;и сотрудничество при проведении исследования.</p></ack></back></article>