<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20190208//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.2" xml:lang="ru" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink"><front><journal-meta><journal-id journal-id-type="issn">2313-8912</journal-id><journal-title-group><journal-title>Научный результат. Вопросы теоретической и прикладной лингвистики</journal-title></journal-title-group><issn pub-type="epub">2313-8912</issn></journal-meta><article-meta><article-id pub-id-type="doi">10.18413/2313-8912-2022-8-4-0-8</article-id><article-id pub-id-type="publisher-id">2976</article-id><article-categories><subj-group subj-group-type="heading"><subject>ПРИКЛАДНАЯ ЛИНГВИСТИКА</subject></subj-group></article-categories><title-group><article-title>&lt;strong&gt;Лексические и синтаксические параметры академического текста: дискриминантный анализ&lt;/strong&gt;</article-title><trans-title-group xml:lang="en"><trans-title>&lt;strong&gt;Lexical and syntactic features of academic Russian texts: a&amp;nbsp;discriminant analysis&lt;/strong&gt;</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Куприянов</surname><given-names>Роман Владимирович</given-names></name><name xml:lang="en"><surname>Kupriyanov</surname><given-names>Roman V.</given-names></name></name-alternatives><email>kroman1@mail.ru</email><xref ref-type="aff" rid="aff1" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Солнышкина</surname><given-names>Марина Ивановна</given-names></name><name xml:lang="en"><surname>Solnyshkina</surname><given-names>Marina I.</given-names></name></name-alternatives><email>mesoln@yandex.ru</email><xref ref-type="aff" rid="aff1" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Даскалу</surname><given-names>Михай</given-names></name><name xml:lang="en"><surname>Dascalu</surname><given-names>Mihai</given-names></name></name-alternatives><email>mihai.dascalu@upb.ro</email><xref ref-type="aff" rid="aff2" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Солдаткина</surname><given-names>Татьяна Альбертовна</given-names></name><name xml:lang="en"><surname>Soldatkina</surname><given-names>Tatyana A.</given-names></name></name-alternatives><email>fia.vr.solta@gmail.com</email><xref ref-type="aff" rid="aff1" /></contrib></contrib-group><aff id="aff2"><institution>Бухарестский политехнический университет, Румыния</institution></aff><aff id="aff1"><institution>Казанский (Приволжский) федеральный университет, Россия</institution></aff><pub-date pub-type="epub"><year>2022</year></pub-date><volume>8</volume><issue>4</issue><fpage>0</fpage><lpage>0</lpage><self-uri content-type="pdf" xlink:href="/media/linguistics/2022/4/Лингвистика_8_4_2022_105-122.pdf" /><abstract xml:lang="ru"><p>В статье представлены математические модели дифференциации академических текстов трех предметных дискурсов на русском языке (филологического, математического и естественнонаучного), которые являются основой разработки и автоматизации профилирования текстов. Наша модель включает индексы двух групп параметров, а именно, поверхностных (например, длина предложения) и синтаксических (например, среднее значение глаголов в предложении, среднее значение прилагательных в предложении, локальный повтор существительных и глобальный повтор аргументов). Мы определили и подтвердили 5 статистически значимых признаков из 45 лингвистических признаков, извлеченных из нашего исследовательского корпуса, состоящего из 91185 токенов. Дискриминантный анализ, осуществленный на основе этих функций, подтвердил валидность профилирования текстов основанного на параметричесом анализе. Наши результаты будут полезны профессиональным лингвистам, программистам и разработчикам учебных и контрольно-измерительных материалов при выборе и модификации текстов для целевой аудитории.</p></abstract><trans-abstract xml:lang="en"><p>This article presents three mathematical models to differentiate academic texts from three subject discourses written in Russian (i.e., Philological, Mathematical, and Natural Sciences) which further enable design and automated profiling of corresponding typologies. Our models include 5 indices, one at surface level (i.e., sentence length) and 4 syntax features (i.e., mean verbs per sentence, mean adjectives per sentence, local noun overlap, and global argument overlap). We identified and validated the five statistically significant features out of 45 linguistic features extracted from our research corpus consisting of 91.185 tokens. The shortest sentence length is found in Russian language textbooks while the longest sentences are identified in Natural Science texts. The mean number of verbs, nouns, and adjectives per sentence is higher in Natural Science textbooks, whereas Mathematics discourse is characterized by the shortest word length, highest local noun overlap, and highest global argument overlap. We assign the metric differences between the three discourses to their functions: Natural Science texts are characterized by descriptions and narrative passages in contrast to Philology that is associated with opinions. Mathematical discourse operates with precise definitions, explanations and justifications thus exercising numerous overlaps. The discriminant analysis built on top of the features supports the development of text profilers targeting parametric analyses. The automation of these features and the provided formulas for classification enable the design and development of text profilers required for textbook writing and editing. Our findings are useful for professional linguists, technologists, and academic writers to select and modify texts for their target audience.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>Профилирование текста</kwd><kwd>Лексические признаки</kwd><kwd>Автоматические профайлеры</kwd><kwd>Предметная область</kwd><kwd>Синтаксические признаки</kwd><kwd>Математическая модель</kwd><kwd>Дискриминантный анализ</kwd></kwd-group><kwd-group xml:lang="en"><kwd>Typology</kwd><kwd>Lexical features</kwd><kwd>Automation profilers</kwd><kwd>Subject domain</kwd><kwd>Syntactic features</kwd><kwd>Mathematical model</kwd><kwd>Discriminant analysis</kwd></kwd-group></article-meta></front><back><ack><p>Работа выполнена за счет средств Программы стратегического академического лидерства Казанского (Приволжского) федерального университета (&amp;laquo;ПРИОРИТЕТ-2030&amp;raquo;), Стратегического проекта №4.

Мы благодарим Лехницкую Полину Александровну, студентку Казанского федерального университета, за помощь в подготовке корпусов учебных текстов и проведении исследования.</p></ack></back></article>