Динамика уровня сложности как функция морфологических параметров текста на русском языке
Aннотация
Представленное исследование нацелено на (1) выявление предикторов морфологической сложности и (2) идентификацию маркеров, дифференцирующих предметные области учебного текста на русском языке. Общий объем корпуса, включающий двадцать учебников по биологии и обществознанию трех уровней сложности, соответствующих 6 – 7, 8 – 9, 10 – 11 классам общеобразовательной российской школы, составил 941963 словоформы. Лингвистическая сложность текстов рассчитывалась при помощи модифицированной для русского языка формулы читабельности Флеша–Кинкейда, а взаимозависимость параметров оценивалась на основе корреляционного анализа с использованием программы STATISTICA. Расчеты значений лингвистических параметров, включающих дистрибуцию имени существительного, прилагательного, глагола, а также индекс читабельности, производились при помощи текстового профайлера для русского языка RuLingva (rulex.kpfu.ru/), а метрики частотности девербативов и деадъективов имен существительных были выделены авторами исследования вручную. Дистрибутивный анализ частотности метрик субстантивации производился с нормализацией текста на 10000 словоупотреблений. Последовательное контрастирование индекса читабельности указанных текстов с метриками «дистрибуция имени существительных», «лексическая плотность», «девербация», «деадъективация» продемонстрировало их линейную взаимозависимость. Читабельность изучаемых текстов находится в обратно пропорциональной зависимости от дистрибуции глагола. Морфологический анализ подтвердил высокий уровень номинативности текстов и стабильный рост субстантивов, объективируемый в увеличении доли суффиксов девербации и деадъективации от 6 к 11 классу. Метрики лексической плотности, дистрибуции имени прилагательного и отдельных суффиксов субстантивов также выступают в качестве дискриминант, дифференцирующих учебные тексты по биологии и обществознанию указанных уровней сложности. Результаты исследования будут полезны специалистам в области текстовой аналитики, компьютерной лингвистики, жанроведения, а также разработчикам тестов и авторам учебно-методических материалов. Перспектива исследования видится в изучении долей сложных терминов-лексем, образованных от латинских и греческих корней, в учебных текстах. Предполагается, что данный параметр имеет потенциал выступать в качестве предиктора лингвистической сложности и дискриминанта предметной области.
Ключевые слова: Учебные тексты, Читабельность, Русский язык, Учебник, Морфологические параметры, Номинализация
Одной из детерминант успеха чтения и понимания текста является его сложность или читабельность. Сложность текстов на английском языке стала объектом исследования почти 70 лет тому назад (Flesch 1949; McLaughlin 1969; Kincaid et al. 1975; Just and Carpenter 1987; Alderson 2000; Koda 2005; Crossley et al. 2008), а исследования сложности текстов на русском языке начали активно изучаться с 1970-х гг. и в настоящее время продолжают находиться в фокусе современных исследователей (Микк 1970, Мацковский 1976, Оборнева 2006, Шпаковский 2007, Solnyshkina and Kiselnikov 2015).
Для оценки читабельности текста существуют более 20 формул (DuBay, 2007). Однако преимущественное большинство этих формул являются функциями двух метрик – «длина предложения» и «длина слова». Наиболее распространенной является формула удобочитаемости по Р. Флешу, разработанная для английского языка: УФ (формула удобочитаемости) (англ)= 206.835 – (1.015 × средняя длина предложения) – (84.6 × среднее число слогов). Для русских художественных текстов формула Р. Флеша была адаптирована И.В. Оборневой (2006): УФ (рус) = 206,836 – (1,52 х средняя длина предложения) – (65,14 х среднее число слогов). Оценки сложности научных и учебно-научных текстов на русском языке производится в настоящее время по формуле ФКМОД (модифицированная формула Флеша-Кинкейда) = 0.36 x средняя длина предложения + 5.76 х среднее число слогов в слове – 11.97 (Solnyshkina et al. 2018).
Известно, что формулы читабельности даже в случае их использования для текстов соответствующих функциональных стилей демонстрируют весьма ограниченную достоверность. Именно поэтому, по признанию отечественных и зарубежных ученых, работающих в рамках дискурсивной комплексологии, вопрос о спектре параметров, влияющих на сложность текста, остается исследовательской нишей (Vahrusheva et al., 2023).
Представленное исследование осуществлено с целью тестирования двух гипотез: (1) о взаимозависимости читабельности учебно-научного текста, с одной стороны, и следующих морфологических параметров, с другой стороны: дистрибуция существительных, прилагательных и глагола, лексическая плотность, доля существительных, образованных при помощи девербации и деадъективации; (2) о способности морфологических параметров дифференцировать предметные области.
Обзор литературы
Письменные научные тексты, в том числе лингвистические характеристики вузовских и школьных учебников не раз становились предметом исследований (Biber 1989; Biber et al. 1999; Biber and Gray 2013, 2016; Halliday and Martin 2003; Banks 2005, 2008; Fang, Schleppegrell and Cox 2006). Для учебных и научных текстов на английском языке выявлена высокая дистрибуция имен существительных и именных словосочетаний. Выраженная предметность (термин Б. Н. Головина), именной характер (Жеребило 2010) или номинативность (Валгина, 2003) научного стиля резко контрастирует с разговорной речью, в которой существенно преобладают глаголы и придаточные конструкции (Biber 1989; Biber and Gray 2013, 2016).
Выявленные зависимости подтверждаются и результатами исследований развития речи: именно номинативные группы представляют особую трудность для понимания учениками начальной школы, поскольку в привычной устной речи существительные используются преимущественно для обозначения предметов и людей, а глаголы – для обозначения действий. Способность заменять придаточные предложения номинативными группами появляется у носителей языка значительно позднее способности формировать простые предложения. Например, фраза therateofglasscrackgrowth (скорость роста трещин стекла) значительно труднее для понимания, чем howquicklycracksinglassgrow (как быстро разрастаются трещины на стекле) (Halliday and Martin, 2003: 82). Учебный дискурс предполагает высокую степень субстантивации глаголов, поэтому, по мнению М. Халлидея, вопрос восприятия дискурса учебником является отчасти вопросом взросления: даже отучившись пару лет в средних классах ребенок может испытывать трудности с пониманием текста, особенно текстов по точным и техническим предметам, так как именно в них наиболее часто встречаются субстантивированные глаголы и отглагольные существительные (Halliday and Martin, 2003: 82). Таким образом М. Халлидей фактически предлагает список предикторов сложности, которые в значительной степени обусловливают трудности восприятия учебного дискурса.
По мнению ряда ученых научный дискурс характеризуется двумя активными процессами: девербацией, т.е. образованием отглагольных существительных со значением отвлеченного действия (Biber 2013), и деадъективацией, образованием имен существительных со значением отвлеченного качества (Martin 1991). По мнению О. Д. Митрофановой, такие суффиксы как -ость, -ние (-ение, -ание) в общелитературном языке не имеют форм множественного числа и предполагают высокую абстрактность, однако под влиянием языка науки данные номинативы могут обнаруживать множественное число для повышения конкретизации и индивидуализации (Митрофанова 1973: 62-63).
Номинализация или субстантивация, т.е. процесс перехода лексем из класса глаголов, прилагательных, предлогов, союзов в класс существительных, позволяет вместить или «упаковать» больше информации на предложение или сделать предложения более содержательными (Eggins 2004: 96). Это связано с потенциалом «номинативной группы», т.е. части клаузы, которая состоит из существительных и слов, служащих модификатором к имени существительному. С. Эггинс (2004: 95) также пишет, что номинализация обладает двумя текстовыми преимуществами: риторической организацией текста и лексической плотностью. Высокая степень лексической плотности, с одной стороны, наполняет текст содержанием, но с другой стороны, приобретает особую значимость при оценке трудности восприятия текста. Оценка лексической плотности текста рассчитывается как отношение суммы словоупотреблений знаменательных частей речи, т.е. имени существительного, прилагательного, глагола и наречия, ко всему объему текста в словоупотреблениях (Biber et al. 2021; To et al. 2013).
Модели субстантивации, выявленные для русского языка немногочисленны, но весьма продуктивны (см. Петрова 2009; Мамонтов, Мамонтова 2012). Девербация имеет место при образовании существительных, например, чтение, чихание(V+ а(е)ни-е); занятие, принятие (V+ яти-е); бахвальство, баловство (V+ ств-о); акция, дивизия (V+ц/зи-я). Существительные героизм, эгоизм (Adj+изм); выносливость, заносчивость (Adj+ость); широта, доброта (Adj+ота); глубина, кривизна (Adj+ и(з)на) образованы по словообразовательным моделям деадъективации.
Материал и методы исследования
Материал исследования.
Исследование осуществлено на материале российских учебников по биологии и обществознания. Общий объем подкорпуса текстов по биологии составил 399555 словоупотреблений (см. Таблицу 1 и Список иллюстративных источников).
Гуманитарный блок исследования представлен двумя линейками российских учебников по обществознанию для 6-11 классов: (а) под редакцией А. Ф. Никитина и (б) под редакцией Л. Н. Боголюбова. Объем подкорпуса российских учебников по обществознанию составил 542408 словоупотреблений (см. Таблицу 1 и Список иллюстративных источников).
Все учебники в составе корпуса были разделены на три уровня сложности: уровень I – 6-7 классы, уровень II – 8-9 классы, уровень III – 10-11 классы.
Методы и алгоритм исследования.
1. Расчеты метрик морфологических параметров (дистрибуция имени существительного, прилагательного, глагола) и индекса читабельности (ФКмод) осуществлялись при помощи текстового анализатора RuLingva [rulex.kpfu.ru/]. Индекс читабельность ранжирует тексты по годам обучения, т.е. текст, имеющий читабельность 6 (ФКмод=6), соответствует лингвистическим и когнитивным способностям школьников 6 класса и т.д. RuLingva производит морфологический анализ текста и позволяет выгружать списки знаменательных частей речи. Для последующего сравнения каждая метрика была нормализована на 1000 словоупотреблений. (см. Таблицу 2).
2. В группе имен существительных каждого текста вручную были выделены девербативы и деадъективы.
3. Для расчета дистрибуции количество каждого суффикса было нормализовано на 10 тыс. словоупотреблений
4. Расчеты среднестатистических значений, корреляции читабельности с морфологическими параметрами (дистрибуция имени существительного, прилагательного, глагола, лексическая плотность, степень субстантивации), а также оценка статистически значимых различий в показателях текстов изучаемых дисциплин осуществлялись в программе Statistica [statsoft.com/]. Для визуализации динамики параметров, коррелирующих с читабельностью текста, были построены гистограммы и графики (см. Рис. 1-5). Все графики и гистограммы строились на основе метриккаждого из сегментов (глав) в составе изучаемых текстов учебников. Количество изученных сегментов указаны в Таблице 2. Например, в учебниках обществознания уровня I проанализировано 203 отрывка, на уровне II – 143 и и т.д.
Результаты
Рассчитанные при помощи текстового анализатора Rulingva метрики изучаемых лингвистических параметров демонстрируют сильную корреляцию с индексом читабельности (см. Таблицу 2).
Рассмотрим каждый из параметров.
Читабельность.
Анализ текстов показал, что для текстов обеих дисциплин характерна динамика роста от уровня I к уровню II, однако читабельность текстов по обществознанию к уровню III снижается на 0.6, а тексты по биологии, наоборот, незначительно растут к уровню III. Читабельность текстов по обществознанию для 6-7 классов (уровень I) составляет 6,8, для 8-9 классов (уровень II) читабельность вырастает до 9,04, а для 10-11 классов (уровень III) снижается до 8,8 (рис. 1 А).
Метрики, на основании которых осуществляется расчет читабельности, демонстрируют положительную динамику: длина слова на уровне I равна 2,4 слога, на уровне II – 2,7 слога, а на уровне III – 2,8 слога. Длина предложения в текстах по обществознанию составляет 12,7 слов на уровне I, в текстах уровня II среднестатистическая длина предложения составляет 14,5 слов, а на уровне III – 16,6 слов.
Читабельность текстов по биологии показывает положительную динамику: в текстах по биологии уровня I читабельность составляет 7,2, в текстах уровня II – 9, а на уровне III – 9,3 (рис. 1 В). Аналогичным образом линейно растут метрики параметров, формирующих читабельность. Длина слова на I и II уровнях выше, чем в текстах по обществознанию: на уровне I равна 2,6 слога, на уровне II – 2,8 слога, а на уровне III – 2,8 слога. Длина предложения в текстах по биологии в целом ниже, чем в текстах обществознанию, и составляет 11,4 слов на уровне I, на уровне II длина предложения составляет 13,8 слов, а на уровне III – 14,6 слов.
Лексическая плотность.
Динамика степеней лексической плотности в текстах обеих дисциплин отличается в значительной степени. В текстах по обществознанию лексическая плотность растет от уровня к уровню: на уровне I – 658 знаменательных частей речи на 1000 словоупотреблений, в текстах уровня II лексическая плотность выросла до 692 слов знаменательных частей речи на 1000 словоупотреблений, а на уровне III лексическая плотность составила 713,3 (рис. 2 А).
В текстах по биологии метрики лексической плотности высоки в текстах всех уровней. Однако стабильный рост от уровня к уровню не выявлен. В текстах уровня I лексическая плотность составляет 718, далее растет в текстах уровня II, но на уровне III падает ниже уровня I и составляет 715,2 слов знаменательных частей речи на 1000 словоупотреблений (рис. 2 В). При этом необходимо отметить, что даже наиболее минимальное значение лексической плотности в текстах по биологии выше, чем максимальное значение лексической плотности в текстах по обществознанию.
Дистрибуция частей речи.
Анализ дистрибуции частей речи показал существенное преобладание имен существительных в текстах обеих дисциплин. Тем не менее, в текстах по обществознанию динамика роста существительных наиболее выражена. В текстах уровня I дистрибуция имен существительных составляет 341 вхождение на 1000 словоупотреблений, в текстах уровня II этот параметр имеет значение 380 вхождений на 1000 словоупотреблений, а в текстах по обществознанию уровня III дистрибуция имен существительных составляет 391,2 вхождение на 1000 словоупотреблений (см. Рисунок 3).
В текстах по биологии дистрибуция существительных в целом выше, однако динамика роста неравномерна: на уровне I – 397,8 вхождений на 1000 словоупотребления, на уровне II – 407 вхождений, а в текстах уровня III – 403 вхождения (см. Рисунок 4).
Дистрибуция имен прилагательных в изучаемых текстах несколько ниже дистрибуции имен существительных: в текстах по обществознанию динамика роста дистрибуции прилагательных равномерна: 118 (I уровень) →141 (II уровень) → 163, 6 (III уровень) на 1000 словоупотреблений. Для сравнения в текстах биологии: 151 (I уровень) →154 (II уровень) → 146 (III уровень) на 1000 словоупотреблений.
В текстах обеих дисциплин динамика роста дистрибуции глаголов стабильно отрицательная. Обществознание: 145,7 (I уровень) →128 (II уровень) → 116 (III уровень) на 1000 словоупотреблений. В текстах по биологии: 130 (I уровень) →125 (II уровень) → 123,7 (III уровень) на 1000 словоупотреблений.
Номинативность текстов.
В текстах обеих дисциплин выявлен активный процесс субстантивации. В текстах по обществознанию совокупность суффиксов субстантивации в текстах уровня I составляет 935,1 вхождений на 10 тыс. словоупотреблений, в текстах уровня II дистрибуция суффиксов субстантивации растет до 1347 вхождений на 10 тыс. словоупотреблений, а в текстах по обществознанию уровня III суффиксы субстантивации вырастает до 1506,2 вхождений на 10 тыс. словоупотреблений. В текстах по биологии дистрибуция суффиксов субстантивации на всех уровнях в целом ниже, чем в текстах по обществознанию: на уровне I – 929 вхождений, в текстах уровня II наблюдается рост суффиксов субстантивации до 1285,4 на 10 тыс. словоупотреблений, а на уровне III – снижение до 1273,2 вхождений (см. Рисунок 5).
Динамика роста дистрибуции суффикса -ние является наиболее стабильной: в текстах по обществознанию уровня I – 473,5 вхождений на 10 тыс. словоупотреблений, уровня II – 656 вхождений, а в текстах уровня III его частотность возрастает до 778 вхождений (см. Рисунок 5).
Вторую позицию по частотности среди суффиксов субстантивации в изучаемых текстах по обществознанию занимают суффиксы -ство и -ость. Суффикс -ство демонстрирует значительный рост от уровня I до уровня II: 168 →254,2. При этом дистрибуция суффикса -тво незначительно падает в текстах уровня III и составляет 233,7 вхождений на 10 тыс. словоупотреблений. Динамика роста суффикса -ость стабильна на всех уровнях: 160,8 вхождений на уровне I, 276 вхождений – на уровне II и 292,3 – на уровне III.
Из относительно менее частотных суффиксов (-ция, -ина, -ота, -изм) два суффикса -ция и -изм показывают стабильную тенденцию роста. Суффикс -ция: 68,9 вхождений на уровне I, 104,6 вхождений – на уровне II, 141,6 вхождений на уровне III в текстах по обществознанию. Суффикс –изм: 10 – на уровне I, 13,3 – на уровне II, 24 – на уровне III.
Суффиксы -ина и –ота, наоборот, демонстрирует стабильное снижение: -ина имеет 24,2 вхождения в текстах по обществознанию на уровне I, снижается до 23,7 в текстах уровня II, а на уровне III – до 22,2 вхождения. Дистрибуция суффикса -ота в текстах по обществознанию на уровне I составляет 24,2 вхождений, в текстах уровня II падает до 19,2, а на уровне III – снижается до 14,4.
Аналогично текстам по обществознанию в текстах по биологии наиболее частотным суффиксом субстантивации является суффикс –ние, однако динамика его роста не стабильна. Так, в текстах по обществознанию уровня I он имеет 567,2 вхождений, в текстах уровня II– 668 вхождений, а в текстах уровня III его дистрибуция незначительно снижается до 642 (см. Рис 6).
Второе место по частотности в текстах биологии занимают суффиксы -ство и –ость, однако динамика их дистрибуции является разнонаправленной. Суффикс -ство стабильно снижается в текстах по биологии от уровня I к уровню III: зафиксировано 168 вхождений суффикса -ство на уровне I, 133,2 вхождений – на уровне II, а на уровне III дистрибуция суффикса -ство также незначительно падает и составляет 132,7 вхождения.
Динамика изменений частотности суффикса -ость не стабильна: в текстах по обществознанию на уровне суффикс -ость используется в среднем 88,2 раза, на уровне II его частотность поднимается до 178,9, а в текстах уровня III – падает до 166,3 вхождений.
Среди менее частотных суффиксов субстантивации (-ция, -ина, -ота, -изм) два суффикса -ция и -ота показывают стабильную тенденцию роста, а суффикс -ина демонстрирует стабильное снижение. Что касается дистрибуции суффикса -изм в текстах по биологии, его метрики выстраиваются по параболе с ветвями вниз: от 49,5 к 106,4 и к 97.
Обсуждение
Результаты представленного исследования в значительной степени способствуют расширению базы данных о референсных диапазонах метрик морфологических параметров изученных текстов. Их сопоставление с данными более ранних публикаций высвечивает меж- и внутриязыковые сходства и различия текстов разных жанров, с одной стороны, а также исследовательские ниши, с другой стороны.
Тексты современных российских учебников по обществознанию и биологии характеризуются приблизительно равной длиной слова: 2,7 в биологических текстах и 2,8 в текстах обществознания на уровне II и 2,8 для обеих дисциплин на уровне III. Длина предложения также приблизительно одинакова для обеих дисциплин: 14,5 слов в предложении по обществознанию и 13,8 по биологии на уровне II, на уровне III их длина предложения одинакова и составляет 16,6 слов. Незначительные различия в длине предложения и слова дают несколько более высокую читабельность текстов по биологии по сравнению с текстами по обществознанию (см. Рисунок 1 и 2). Однако в целом читабельность русскоязычных текстов ниже читабельности англоязычных текстов аналогичных дисциплин. Так, тексты уровня III по дисциплине Social Studies имеют индекс читабельности 13,3, а по дисциплине Biology – 13,04, что в целом значительно выше индекса читабельности текстов уровня III сравниваемых русскоязычных учебников (Gatiyatullina et al. 2020).
Лексическая плотность текстов биологии и обществознания на русском языке существенно выше по сравнению с учебниками Biology и Social Studies: диапазон лексической плотности в англоязычных учебниках – 475 вхождений на 1000 словоупотреблений на уровне I в учебниках Biology и максимальное значение – 501 вхождение также в учебниках Biology (Gatiyatullina et al. 2020). В русскоязычных учебниках диапазон лексической плотности имеет диапазон от 658 до 718 вхождений. Очевидно, что данный факт можно объяснить принадлежностью языков сравниваемых текстов к разным типам: артиклевый английский аналитичен vs безартиклевый русский флективен.
Сравнение данных по дистрибуции существительных, прилагательных и глаголов с результатами (1) О. Д. Митрофановой (1973) в научных текстах и (2) О. Б. Сиротининой (2009) по предметным областям не представляется возможным, т.к. в известных нам публикациях они представлены только в относительных величинах (процентах). Однако в целом можно утверждать, что изученные нами тексты уровня III, в большей степени приближенные к текстам, изученным российскими учеными ранее, имеют значения, сопоставимые с опубликованными О. Д. Митрофановой (1973) и О. Б. Сиротининой (2009). В письменных общенаучных текстах дистрибуция существительных, по материалам О. В. Сиротининой (2009) составляет 374 вхождения на 1000 словоупотреблений, а имени прилагательного – 152. Выявленные нами метрики аналогичны: доля имен существительных колеблется в диапазоне от 341 до 403, имя прилагательное – от 118 до 163 (см. Рисунок 3, 4). В целом такие различия могут быть детерминированы тем, что изученные нами тексты имеют предметную специализацию, а изученные О. В. Сиротининой (2009) тексты являются общенаучными.
Что касается дистрибуции глагола, то здесь наши данные значительно выше полученных М. Н. Кожиной (1972). В биологических текстах уровня III дистрибуция глагола демонстрирует минимальное значение и составляет 123,5 вхождений на 1000 словоупотреблений, а текстах по обществознанию – 116 вхождений. В научных текстах, изученных М. Н. Кожиной (1972), дистрибуция глагола составляет только 90 вхождений на 1000 словоупотреблений. Данные различия косвенно указывают на более высокий уровень номинативности и, как следствие, степени сложности научных текстов. Учебным текстам, напротив, за счет большего присутствия в их составе глаголов, свойственна нарративность, рассчитываемая как отношение глаголов к существительным (Vahrusheva et al. 2023).
Говоря о процессе, номинализации необходимо отметить положительную динамику роста именных суффиксов в текстах обеих дисциплин. Это в целом подтверждает выводы, сделанные А. С. Мамонтовым и Е. Ю. Мамонтовой (2012) относительно частотности суффикса –ние в публицистических текстах. Вторую по частотности позицию после суффикса –ние в публицистических текстах (газета Московский комсомолец), изученных А.С. Мамонтовым и Е.Ю. Мамонтовой (2012), занимает суффикс -ция. В нашем корпусе по обществознанию суффикс -ция показывает стабильный рост от уровня I к уровню III, однако его доля уступает частотности суффиксов -ость и –ство: он занимает только четвертую строчку среди суффиксов субстантивации. Что касается -ция в текстах по биологии, то там он занимает четвертое место на уровне I, третье – на уровне II, а в текстах уровня III – уже втрое место. В целом эти данные согласуются с результатами исследования А. С. Мамонтова и Е. Ю. Мамонтовой (2012). Статистический анализ демонстрирует, что преимущественное большинство изученных нами параметров коррелируют с индексом читабельности, т.е. могут использоваться в качестве предикторов сложности текстов.
Заключение и перспектива исследования
В данном исследовании были изучены школьные учебники с целью (1) выявления предикторов морфологической сложности и (2) идентификации маркеров, дифференцирующих предметные области учебного текста на русском языке. В корпус вошли двадцать учебников по биологии и обществознанию трех уровней сложности, соответствующих 6 – 7, 8 – 9, 10 – 11 классам общеобразовательной российской школы, общим объемом 941963 словоформы. Анализ текстов школьных учебников по обществознанию и биологии на русском языке показал стабильную динамику роста индекса читабельности текстов от уровня к уровню и положительную взаимозависимость индекса читабельности учебно-научного текста, с одной стороны, и морфологических параметров, включая дистрибуцию существительных, прилагательных и долей существительных, образованных девербацией и деадъективацией, с другой. Индекс читабельности текстов имеет негативную корреляцию с дистрибуцией глагола. Морфологический анализ продемонстрировал высокий уровень номинативности текстов и динамику стабильного роста субстантивации в текстах за счет суффиксов девербации и деадъективации. Диапазоны значений лексической плотности и их динамика в текстах различных уровней сложности, а также дистрибуция существительных, прилагательных и отдельных суффиксов субстантивации выявили различия метрик учебников двух дисциплин, которые могут быть использованы в качестве маркеров предметной дифференциации при анализе больших языковых данных. Перспектива исследования видится в изучении долей сложных терминов-лексем, образованных от латинских и греческих корней, поскольку для биологии такой тип терминообразования является одним из наиболее активных. Валидация данного параметра в корпусах разных предметных областей способна продемонстрировать его корреляцию с лингвистической сложностью текстов и дифференцировать тексты разных предметных областей.
Благодарности
Исследование выполнено при поддержке гранта РНФ 24-28-01355 «Жанрово-дискурсивные характеристики текста как функция лексического диапазона».
Список литературы
Валгина Н. С. Теория текста. М.: Логос, 2003. 280 с.
Жеребило Т. В. Словарь лингвистических терминов. Изд. 5-е, испр. и доп. Назрань: ООО «Пилигрим», 2010. 486 с.
Кожина М. Н. О речевой системности научного стиля сравнительно с некоторыми другими / М. Н. Кожина. Пермь: Изд-во Пермского гос. ун-та, 1972. 395 с.
Мамонтов A. C., Мамонтова Е. Ю. Лингвостатистический анализ использования девербативов в различных видах текстов русского и английского языков // Вестник Российского университета дружбы народов. Серия: Лингвистика. М.: РУДН. 2012. №2. С. 107–110.
Мацковский М. С. Проблемы читабельности печатного материала / М. С. Мацковский // Смысловое восприятие речевого сообщения в условиях массовой коммуникации; отв. ред. Т. М. Дридзе, А. А. Леонтьев. М.: Наука, 1976. С. 126–142.
Микк Я. А. О факторах понятности учебного текста: автореф. дисс. … канд. пед. наук: 13.00.00. Тарту, 1970. 22 с.
Митрофанова О. Д. Язык научно-технической литературы. М.: Изд-во Моск. ун-та. 1973. 147 с.
Оборнева И. В. Автоматизированная оценка сложности учебных текстов на основе статистических параметров: дисс. … канд. пед. наук.: 13.00.02. М. 2006. 65 с.
Петрова Н. Е. Субстантивация и деадвербиализация наречий в современном русском языке / Н. Е. Петрова // Известия Уральского государственного университета. Сер. 2, Гуманитарные науки. 2009. № 1/2 (63). С. 35–42.
Разговорная речь в системе функциональных стилей современного русского литературного языка. Грамматика: / О. Б. Сиротинина, Э. А. Столярова, Н. Г. Мартыненко и др.; под ред. О. Б. Сиротининой. 2. изд., стер. Москва, УРСС. 2009. 309 с.
Шпаковский Ю. Ф. Оценка трудности восприятия и оптимизация сложности учебного текста (на материале текстов по химии): автореф. дисс. … канд. филол. наук: 10.02.19. Минск, 2007. 22 с.
Alderson J. Ch. Assessing reading. Cambridge University Press, 2000. 398 p.
Banks D. On the historical origins of nominalized process in scientific text // English for Specific Purposes. 2005. Vol. 24. Iss. 3. Pp. 347–367. DOI: 10.1016/j.esp.2004.08.002
Banks D. The Development of Scientific Writing: Linguistic Features and Historical Context. London: Equinox, 2008. 221 p.
Biber D., Gray B. Grammatical complexity in academic English: Linguistic change in writing. Cambridge University Press, 2016. 276 p.
Biber D., Gray B. Nominalising the verb phrase in academic scientific writing / D. Biber and B.Gray // The Verb Phrase in English /Bas Aaarts et al. (eds.). London. Cambridge University Press. 2013. Pp. 99–132.
Biber D. Grammar of spoken and written English / D. Biber, S. Johansson, G. Leech, S. Conrad and E. Finegan. John Benjamins, Amsterdam. 2021. 1220 p.
Biber D. The Longman grammar of spoken and written English / D. Biber, S. Johansson, G. Leech, S. Conrad and E. Finegan. Longman, London. 1999. 1204 p.
Biber D. A typology of English texts // Linguistics. Vol. 27. Рp. 3–43.
Crossley S. A. et al. Toward a new readability: A mixed model approach / S. A. Crossley et al. // Proceedings of the 29th annual conference of the Cognitive Science Society / D. S. McNamara and G. Trafton (eds.). Cognitive Science Society, 2007. Pp. 197–202.
DuBay W. H. The Classic Readability Studies. Costa Mesa, 2007. 240 р. URL: https://files.eric.ed.gov/fulltext/ED506404.pdf (Accessed 21 July 2024)
Eggins S. An introduction to systemic functional linguistics. London, 2004. 384 р.
Fang Z., Schleppegrell M. J., Cox B. E. Understanding the Language Demands of Schooling: Nouns in Academic Registers // Journal of Literacy Research. 2006. Vol. 38. Iss. 3. Pp. 247–273. https://doi.org/10.1207/s15548430jlr3803_1
Flesch R. A new readability yardstick // Journal of Applied Psychology. Vol. 32. 1948. Р. 221–233.
Gatiyatullina G. Computing Russian Morphological distribution patterns using RusAC Online Server / G. Gatiyatullina, M. Solnyshkina, V. Solovyev, A. Danilov, E. Martynova, I. Yarmakeev // 13th International Conference on Developments in eSystems Engineering (DeSE). 2020. Pp. 393–398. DOI: 10.1109/DeSE51703.2020.9450753
Halliday M. A. K., Martin J. R. (eds.) Writing Science: Literacy and Discursive Power. London: Falmer Press, 2003. 434 p.
Just M. A., Carpenter P. A. The psychology of reading and language comprehension. Boston; London: Allyn and Bacon. 1987. 518 р.
Kincaid J. P., Fishburne R. P., Rogers R. L., Chissom B. S. Derivation of new readability formulas (Automated Readability Index, Fog Count, and Fesch Reading Ease Formula) for Navy enlisted personnel // Research Branch Report. 1975. Pp. 8–75.
Koda K. Insights into second language reading: A cross-linguistic approach. Cambridge: Cambridge University Press. 2005. 320 p.
Martin J. R. Nominalization in science and humanities: Distilling knowledge and scaffolding text // Functional and Systemic Linguistics: Approaches and Uses/ Eija Ventola ed. Berlin, New York: Mouton de Gruyter, 1991. Pp. 307–338. https://doi.org/10.1515/9783110883527.307
McLaughlin G. H. SMOG Grading – A new readability formula // Journal of Reading, 1969. Vol. 12. Iss. 8. Рp. 639–646.
Solnyshkina M., Ivanov V., Solovyev V. Readability formula for Russian texts: A modified version // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2018. Рp. 132–145. DOI: 10.1007/978-3-030-04497-8_11
Solnyshkina M. I., Kiselnikov A. S. Text complexity: Study phases in Russian linguistics // Vestnik Tomskogo Gosudarstvennogo Universiteta, Filologiya. 2015. Vol. 38 (6). Рp. 86–99. DOI: 10.17223/19986645/38/7
To V., Fan S., Thomas D. P. Lexical density and readability: A case study of English textbooks // The International Journal of Language, Society and Culture. 2013. Vol. 37. Iss. 7. Рp. 61–71.
Vahrusheva A., Solovyev V., Solnyshkina M., Gafiaytova E., Akhtyamova S. Revisiting Assessment of Text Complexity: Lexical and Syntactic Parameters Fluctuations // Speech and Computer. SPECOM 2023. Lecture Notes in Computer Science / A. Karpov, K. Samudravijaya, K. T. Deepak, R. M. Hegde, S. S. Agrawal, S. R. M. Prasanna, (eds). Springer, 2023. Vol. 14338. https://doi.org/10.1007/978-3-031-48309-7_35
Список источников
Обществознание. 6 класс: учеб. для общеобразоват. учреждений / Н. Ф. Виноградова, Н. И. Городецкая, Л. Ф. Иванова и др.; под ред. Л. Н. Боголюбова, Л. Ф. Ивановой. М.: Просвещение, 2012. 111 с.
Обществознание. 7 класс: учеб, для общеобразоват. учреждений с приложением на электронном носителе / Л. Н. Боголюбов, Н. И. Городецкая, Л. Ф. Иванова и др.; под ред. Л. Н. Боголюбова, Л. Ф. Ивановой. М.: Просвещение, 2013.
Боголюбов Л. Н. Обществознание. 8 класс: учебник для общеобразоват. учреждений. Под ред. Боголюбова Л. Н., Городецкой Н. И. М.: Просвещение, 2010. 255 с.
Боголюбов Л. Н. Обществознание. 9 класс: учебник для общеобразоват. учреждений. Под ред. Боголюбова Л. Н. М.: Просвещение, 2014. 255 с.
Обществознание. 10 класс: учеб, для общеобразоват. организаций: базовый уровень / Л. Н. Боголюбов, Ю. А. Аверьянов, А. В. Белявский и др.; под ред. Л. Н. Боголюбова и др. М.: Просвещение, 2014. 350 с.
Обществознание. 10 класс: учебник для общеобразовательных организаций: профильный уровень / Л. Н. Боголюбов и др.; под ред. Л. Н. Боголюбова, А. Ю. Лазебниковой, Н. М. Смирновой. 8-е изд. М.: Просвещение, 2014. 415 с.
Обществознание. 11 класс: учебник для учащихся общеобразовательных учреждений: профильный уровень / Л. Н. Боголюбов и др.; под ред. Л. Н. Боголюбова, А. Ю. Лазебниковой, К. Г. Холодковского. 3-е изд. М.: Просвещение, 2010. 414 с.
Обществознание. 6 класс: учебник для общеобразовательных учреждений / А. Ф. Никитин. 4-е изд., стер. М.: Дрофа, 2011. 125 с.
Обществознание. 7 класс: учебник / А. Ф. Никитин. 6-е изд., стер. М.: Дрофа, 2014. 94 с.
Никитин А. Ф., Никитина Т. И. Обществознание. 8 класс. Учебник. М.: Дрофа, 2014. 256 с.
Никитин А. Ф., Никитина Т. И. Обществознание. 9 класс. Учебник. М.: Дрофа, 2014. 208 с.
Обществознание. 10 класс: базовый уровень: учебник / А. Ф. Никитин. 10-е изд., стер. М.: Дрофа, 2014. 238 с.
Обществознание. 11 класс: базовый уровень: учебник / А. Ф. Никитин. 6-е изд., стер. М.: Дрофа, 2013. 237 с.
Сухорукова Л. Н. Биология. Живой организм. 5-6 классы: учеб. для общеобразоват. организаций / Л. Н. Сухорукова, В. С. Кучменко, И. Я. Колесникова. 3-е изд. М. Просвещение, 2014. 143 с.
Сухорукова Л. Н. Биология. Разнообразие живых организмов. 7 класс: учеб. для общеобразоват. Организаций / Л. Н. Сухорукова, В. С. Кучменко, И. Я. Колесникова. М.: Просвещение, 2014. 159 с.
Сухорукова Л. Н. Биология. Человек. Культура здоровья: учеб. для 8 кл. общеобразоват. учреждений / Л. Н. Сухорукова, В. С. Кучменко, Т. А. Цехмистренко. М.: Просвещение, 2009. 160 с.
Сухорукова Л. Н. Биология. Живые системы и экосистемы. 9 класс: учеб. для общеобразоват. учреждений / Л. Н. Сухорукова, В. С. Кучменко. М.: Просвещение, 2010. 143 с.
Сухорукова Л. Н. Биология. 10-11 классы: учеб. для общеобразоват. учреждений / Л. Н. Сухорукова, В. С. Кучменко, Т. В. Иванова. М.: Просвещение, 2011. 127 с.
Биология. Бактерии, грибы, растения. 6 кл.: учеб. для общеобразоват. учреждений / В. В. Пасечник. 14-е изд., стереотип. М.: Дрофа, 2011. 304 с.
Биология. 7 класс: учеб. для общеобразоват. организаций / В. В. Пасечник, С. В. Суматохин, С. Г. Калинова; под ред. В. В. Пасечника. 3-е изд. М.: Просвещение, 2014. 256 с.
Биология. 8 класс: учеб. для общеобразоват. учреждений / В. В. Пасечник, А. А. Каменский, Г. Г. Швецов ; под ред. В. В. Пасечника. М.: Просвещение, 2010. 255 с.
Биология. Введение в общую биологию и экологию: Учеб. для 9 кл. общеобразоват. учеб. заведений / А. А. Каменский, Е. А. Крискунов, В. В. Пасечник. 3-е изд., стереотип. М.: Дрофа, 2002. 304 с.
Общая биология. 10-11 класс: учеб. для общеобразоват. учреждений / А. А. Каменский, Е. А. Крискунов, В. В. Пасечник. М.: Дрофа, 2005. 367 с.