16+
DOI: 10.18413/2313-8912-2024-10-3-0-4

Динамика уровня сложности как функция морфологических параметров текста на русском языке

Представленное исследование нацелено на (1) выявление предикторов морфологической сложности и (2) идентификацию маркеров, дифференцирующих предметные области учебного текста на русском языке. Общий объем корпуса, включающий двадцать учебников по биологии и обществознанию трех уровней сложности, соответствующих 6 – 7, 8 – 9, 10 – 11 классам общеобразовательной российской школы, составил 941963 словоформы. Лингвистическая сложность текстов рассчитывалась при помощи модифицированной для русского языка формулы читабельности Флеша–Кинкейда, а взаимозависимость параметров оценивалась на основе корреляционного анализа с использованием программы STATISTICA. Расчеты значений лингвистических параметров, включающих дистрибуцию имени существительного, прилагательного, глагола, а также индекс читабельности, производились при помощи текстового профайлера для русского языка RuLingva (rulex.kpfu.ru/), а метрики частотности девербативов и деадъективов имен существительных были выделены авторами исследования вручную. Дистрибутивный анализ частотности метрик субстантивации производился с нормализацией текста на 10000 словоупотреблений. Последовательное контрастирование индекса читабельности указанных текстов с метриками «дистрибуция имени существительных», «лексическая плотность», «девербация», «деадъективация» продемонстрировало их линейную взаимозависимость. Читабельность изучаемых текстов находится в обратно пропорциональной зависимости от дистрибуции глагола. Морфологический анализ подтвердил высокий уровень номинативности текстов и стабильный рост субстантивов, объективируемый в увеличении доли суффиксов девербации и деадъективации от 6 к 11 классу. Метрики лексической плотности, дистрибуции имени прилагательного и отдельных суффиксов субстантивов также выступают в качестве дискриминант, дифференцирующих учебные тексты по биологии и обществознанию указанных уровней сложности. Результаты исследования будут полезны специалистам в области текстовой аналитики, компьютерной лингвистики, жанроведения, а также разработчикам тестов и авторам учебно-методических материалов. Перспектива исследования видится в изучении долей сложных терминов-лексем, образованных от латинских и греческих корней, в учебных текстах. Предполагается, что данный параметр имеет потенциал выступать в качестве предиктора лингвистической сложности и дискриминанта предметной области.

Иллюстрации

Количество просмотров: 98 (смотреть статистику)
Количество скачиваний: 139
Полный текст (HTML)Полный текст (PDF)К списку статей
  • Комментарии
  • Список литературы
  • Благодарности

Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.

Оставить комментарий: