<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20190208//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.2" xml:lang="ru" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink"><front><journal-meta><journal-id journal-id-type="issn">2313-8912</journal-id><journal-title-group><journal-title>Научный результат. Вопросы теоретической и прикладной лингвистики</journal-title></journal-title-group><issn pub-type="epub">2313-8912</issn></journal-meta><article-meta><article-id pub-id-type="doi">10.18413/2313-8912-2024-10-4-0-2</article-id><article-id pub-id-type="publisher-id">3673</article-id><article-categories><subj-group subj-group-type="heading"><subject>Большие языковые модели и промпт-инжиниринг в лингвистических исследованиях</subject></subj-group></article-categories><title-group><article-title>&lt;strong&gt;Распознавание эмоций по устной речи с использованием нейросетевого подхода&lt;/strong&gt;</article-title><trans-title-group xml:lang="en"><trans-title>&lt;strong&gt;Using neural network technologies in determining&amp;nbsp;the emotional state of a person in oral communication&lt;/strong&gt;</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Балабанова</surname><given-names>Татьяна Николаевна</given-names></name><name xml:lang="en"><surname>Balabanova</surname><given-names>Tatyana N.</given-names></name></name-alternatives><email>Sozonova@bsu.edu.ru</email><xref ref-type="aff" rid="aff1" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Гайворонская</surname><given-names>Диана Игоревна</given-names></name><name xml:lang="en"><surname>Gaivoronskaya</surname><given-names>Diana I.</given-names></name></name-alternatives><email>trubitsyna@bsuedu.ru</email><xref ref-type="aff" rid="aff1" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Доборович</surname><given-names>Анна Николаевна</given-names></name><name xml:lang="en"><surname>Doborovich</surname><given-names>Anna N.</given-names></name></name-alternatives><email>doborovich@bsu.edu.ru</email><xref ref-type="aff" rid="aff2" /></contrib></contrib-group><aff id="aff1"><institution>Белгородский государственный национальный исследовательский университет</institution></aff><aff id="aff2"><institution>Белгородский государственный национальный исследовательский университет, Россия</institution></aff><pub-date pub-type="epub"><year>2024</year></pub-date><volume>10</volume><issue>4</issue><fpage>0</fpage><lpage>0</lpage><self-uri content-type="pdf" xlink:href="/media/linguistics/2024/4/Research_Result_4-42-18-40.pdf" /><abstract xml:lang="ru"><p>Устная речь человека всегда имеет эмоциональную окраску, это может быть обусловлено тем, что наши эмоции и наше настроение влияют на нашу речь. Когда мы рады, волнуемся, грустим или злимся, это отражается в нашем голосе, темпе и интонации. Невозможно говорить без эмоций, так как они являются неотъемлемой частью нашей личности и сопровождают нас повсюду. Наша устная речь становится еще богаче и выразительнее, когда мы передаем свои эмоции и чувства через слова. Однако оценка эмоционального состояния человека по речи может благотворно влиять на различные области жизнедеятельности, например, такие как медицина, психология, криминология, маркетинг и образование и многое другое. В медицине использование оценки эмоций по речи может помочь в диагностике и лечении психических расстройств, а также в мониторинге эмоционального состояния пациента, выявление на ранних стадиях таких болезней как Альцгеймер. В психологии этот метод может быть полезен для изучения эмоциональных реакций на различные стимулы и ситуации. В криминологии анализ речи и определение эмоций может использоваться для выявления ложных показаний и обмана. В маркетинге и рекламе это может помочь понять реакцию аудитории на продукт или рекламную кампанию. В образовании оценка эмоций по речи может быть использована для анализа эмоционального состояния студентов и оптимизации образовательного процесса. Таким образом, автоматизация процесса распознавания эмоций является перспективным направлением исследований, а применение различных методов машинного обучения и алгоритмов распознавания образов, можно сделать процесс более точным и эффективным.

В качестве инструмента для решения задачи распознавания паралингвистических явлений в виде эмоций по устной речи человека предлагается использовать нейросетевой подход, который показывает свою эффективность при решении задач в том случае, когда точное решение найти сложно. В работе представлена нейронная сеть сверточной архитектуры, позволяющая распознавать по устной речи четыре эмоции человека (грусть, радость, гнев, нейтраль). Особое внимание уделено формированию датасета для тренировки и тестирования модели, поскольку в настоящее время открытых баз речевых данных для исследования паралингвистических явлений (особенно на русском языке) практически нет. В данном исследовании используется база эмоциональной речи Dusha.

В качестве признаков для распознавания эмоций используются мел-спектрограммы речевого сигнала, что позволило увеличить процент распознавания и скорость работы нейронной сети по сравнению с использованием низкоуровневых дескрипторов.

Результаты экспериментов на тестовой выборке показали, что представленная нейронная сеть позволяет распознавать эмоции человека по устной речи в 75% случаев, что является высоким результатом.

В качестве дальнейших исследований предполагается тренировка и модернизация (при необходимости) представленной нейронной сети для распознавания паралингвистических явлений, не представленных в данном исследовании, например, таких как ложь, усталость, депрессия и др.



</p></abstract><trans-abstract xml:lang="en"><p>Human oral speech often has an emotional connotation; this is due to the fact that emotions and our mood influence the physiology of the vocal tract and, as a result, speech. When a person is happy, worried, sad or angry, it is reflected in various characteristics of the voice, the pace of speech and its intonation. However, assessing a person&amp;rsquo;s emotional state through speech can have a beneficial effect on various areas of life, for example, medicine, psychology, criminology, marketing and education, etc. In medicine, the use of assessing emotions by speech can help in the diagnosis and treatment of mental disorders, as well as in monitoring the emotional state of the patient, identifying diseases such as Alzheimer&amp;rsquo;s in its early stages, diagnosing autism, etc. In psychology, this method can be useful for studying emotional reactions to various stimuli and situations. In criminology, speech analysis and emotion detection can be used to detect false statements and deception. In marketing and advertising, it can help understand consumer reactions to a product or advertising campaign. In education, assessing emotions from speech can be used to analyze the emotional state of students and optimize the educational process.

Thus, automation of the emotion recognition process is a promising area of research, and the use of various machine learning methods and image recognition algorithms can make the process more accurate and efficient.

In order to address the challenge of identifying paralinguistic expressions of emotion in human speech, it is proposed that a neural network approach be employed. This methodology has demonstrated efficacy in addressing complex problems where an exact solution may be elusive. The work presents a neural network of convolutional architecture that allows to recognize four human emotions (sadness, joy, anger, neutral) from spoken speech. Particular attention is paid to the formation of a dataset for training and testing the model, since at present there are practically no open speech databases for the study of paralinguistic phenomena (especially in Russian). This study uses the Dusha emotional speech database.

Mel-spectrograms of the speech signal are used as features for recognizing emotions, which made it possible to increase the percentage of recognition and the speed of operation of the neural network compared to the use of low-level descriptors.

The results of experiments in the test sample showed that the presented neural network helps to recognize human emotions from oral speech in 75% of cases, which is a high result.

Further research involves training and upgrading (if necessary) the presented neural network to recognize paralinguistic phenomena not presented in this study, for example, lies, fatigue, depression, etc.



</p></trans-abstract><kwd-group xml:lang="ru"><kwd>Речевые данные</kwd><kwd>Речевые базы данных</kwd><kwd>Нейронные сети</kwd><kwd>Сверточные нейронные сети</kwd><kwd>Распознавание эмоций</kwd><kwd>Классификация</kwd><kwd>Методы классификации</kwd></kwd-group><kwd-group xml:lang="en"><kwd>Speech data</kwd><kwd>Speech databases</kwd><kwd>Neural networks</kwd><kwd>Convolutional neural networks</kwd><kwd>Emotion recognition</kwd><kwd>Classification</kwd><kwd>Classification methods</kwd></kwd-group></article-meta></front><back><ref-list><title>Список литературы</title><ref id="B1"><mixed-citation>Абрамов&amp;nbsp;К.&amp;nbsp;В., Балабанова&amp;nbsp;Т.&amp;nbsp;Н., Гайворонская&amp;nbsp;Д.&amp;nbsp;И. Использование нейронных сетей для распознавания агрессии по речевому сигналу // Информационные системы и технологии. 2024. № 2(142). С.&amp;nbsp;28&amp;ndash;36.</mixed-citation></ref><ref id="B2"><mixed-citation>Albornoz&amp;nbsp;E.&amp;nbsp;M., Milone&amp;nbsp;D.&amp;nbsp;H., Rufiner&amp;nbsp;H.&amp;nbsp;L. Spoken emotion recognition using hierarchical classifiers // Computer Speech &amp;amp; Language. 2011. №25&amp;nbsp;(3). Pp.&amp;nbsp;556&amp;ndash;570.</mixed-citation></ref><ref id="B3"><mixed-citation>Ayadi&amp;nbsp;M.&amp;nbsp;El., Kamel&amp;nbsp;M.&amp;nbsp;S., Karray&amp;nbsp;F. Survey on speech emotion recognition: Features, classification schemes, and databases // Pattern Recognition.2011. №44&amp;nbsp;(3). Pp.&amp;nbsp;572&amp;ndash;587.</mixed-citation></ref><ref id="B4"><mixed-citation>Балабанова&amp;nbsp;Т.&amp;nbsp;Н., Абрамов&amp;nbsp;К.&amp;nbsp;В. Паралингвистический анализ для распознавания агрессии по речи человека // Наукоемкие технологии и инновации (XXV научные чтения): Сборник докладов Международной научно-практической конференции, Белгород, 23 ноября 2023 года. Белгород: Белгородский государственный технологический университет им. В.Г. Шухова. 2023. С.&amp;nbsp;697&amp;ndash;700.</mixed-citation></ref><ref id="B5"><mixed-citation>Балабанова&amp;nbsp;Т.&amp;nbsp;Н., Абрамов&amp;nbsp;К.&amp;nbsp;В., Болдышев&amp;nbsp;А.&amp;nbsp;В., Долбин&amp;nbsp;Д.&amp;nbsp;М. Автоматическое обнаружение гнева и агрессии в речевых сигналах // Экономика. Информатика. 2023. №50&amp;nbsp;(4). С.&amp;nbsp;944&amp;ndash;954. DOI: 10.52575/2687-0932-2023-50-4-944-954</mixed-citation></ref><ref id="B6"><mixed-citation>Chen&amp;nbsp;L., Mao&amp;nbsp;X., Xue&amp;nbsp;Y., Cheng&amp;nbsp;L.&amp;nbsp;L. Speech emotion recognition: Features and classification models // Digital Signal Processing. 2012. №22&amp;nbsp;(6). Pp.&amp;nbsp;1154&amp;ndash;1160.</mixed-citation></ref><ref id="B7"><mixed-citation>Cowie&amp;nbsp;R., Douglas-Cowie&amp;nbsp;E., Tsapatsoulis&amp;nbsp;N., Votsis&amp;nbsp;G., Kollias&amp;nbsp;S., Fellenz&amp;nbsp;W., Taylor&amp;nbsp;J.&amp;nbsp;G. Emotion recognition in human-computer interaction // IEEE Signal Processing Magazine. 2001. №18&amp;nbsp;(1). Pp.&amp;nbsp;32&amp;ndash;80.</mixed-citation></ref><ref id="B8"><mixed-citation>Dellaert&amp;nbsp;F., Polzin&amp;nbsp;T., Waibel&amp;nbsp;A. Recognizing emotion in speech // Recognizing emotion in speech, Proceeding of Fourth International Conference on Spoken Language Processing (ICSLP). 1996. Pp.&amp;nbsp;1970&amp;ndash;1973.</mixed-citation></ref><ref id="B9"><mixed-citation>Двойникова&amp;nbsp;А.&amp;nbsp;А., Карпов&amp;nbsp;А.&amp;nbsp;А. Аналитический обзор подходов к распознаванию тональности русскоязычных текстовых данных // Информационно-управляющие системы. 2020. № 4 (107). С.&amp;nbsp;20&amp;ndash;30. DOI: 10.31799/1684-8853-2020-4-20-30</mixed-citation></ref><ref id="B10"><mixed-citation>Fedotov,&amp;nbsp;D., Kaya,&amp;nbsp;H., Karpov&amp;nbsp;A. Context Modeling for Cross-Corpus Dimensional Acoustic Emotion Recognition: Challenges and Mixup // Proceedings of 20th International Conference on Speech and Computer (SPECOM-2018). 2018. C.&amp;nbsp;155&amp;ndash;165. DOI: 10.1007/978-3-319-99579-3_17</mixed-citation></ref><ref id="B11"><mixed-citation>Горшков&amp;nbsp;Ю.&amp;nbsp;Г., Дорофеев&amp;nbsp;А.&amp;nbsp;В. Речевые детекторы лжи коммерческого применения // Информационный мост (ИНФОРМОСТ). Радиоэлектроника и Телекоммуникация. 2003. №6. С.&amp;nbsp;13&amp;ndash;15.</mixed-citation></ref><ref id="B12"><mixed-citation>Grimm&amp;nbsp;M., Kroschel&amp;nbsp;K., Mower&amp;nbsp;E., Narayanan&amp;nbsp;S. Primitives-based evaluation and estimation of emotions in speech // Speech Communication. 2007. №49&amp;nbsp;(10&amp;ndash;11). Pp.&amp;nbsp;787&amp;ndash;800.</mixed-citation></ref><ref id="B13"><mixed-citation>Holden&amp;nbsp;K.&amp;nbsp;T., Hogan&amp;nbsp;J.&amp;nbsp;T. The emotive impact of foreign intonation: An experiment in switching English and Russian intonation // Language and Speech. 1993. №36&amp;nbsp;(1). Pp.&amp;nbsp;67&amp;ndash;88.</mixed-citation></ref><ref id="B14"><mixed-citation>Hozjan&amp;nbsp;V., Kačič,&amp;nbsp;Z. Context-Independent Multilingual Emotion Recognition from Speech Signals // International Journal of Speech Technology. 2003. №6. Pp.&amp;nbsp;311&amp;ndash;320.</mixed-citation></ref><ref id="B15"><mixed-citation>Hsu&amp;nbsp;W.&amp;nbsp;N., Bolte&amp;nbsp;B., Tsai&amp;nbsp;Y.-H.&amp;nbsp;H., Lakhotia&amp;nbsp;K., Salakhutdinov&amp;nbsp;R., Mohamed&amp;nbsp;A.-r. Hubert: Self-supervised speech representation learning by masked prediction of hidden units // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2021. №29. Pp.&amp;nbsp;3451&amp;ndash;3460.</mixed-citation></ref><ref id="B16"><mixed-citation>Kerkeni L., Serrestou Y., Mbarki M., Raoof K., Ali Mahjoub M., Cleder C. Social Media and Machine Learning. Virginia Commonwealth University, United States of America: IntechOpen, 2020. С.&amp;nbsp;96 с. DOI: 10.5772/intechopen.78089</mixed-citation></ref><ref id="B17"><mixed-citation>Kim&amp;nbsp;J., Truong&amp;nbsp;K.&amp;nbsp;P., Englebienne&amp;nbsp;G, Evers&amp;nbsp;V. Learning spectro-temporal features with 3D CNNs for speech emotion recognition // Proceedings of the 7th International Conference on Affective Computing and Intelligent Interaction (ACII), 2017. Pp.&amp;nbsp;383&amp;ndash;388. DOI:10.1109/ACII.2017.8273628</mixed-citation></ref><ref id="B18"><mixed-citation>Лемаев&amp;nbsp;В.&amp;nbsp;И., Лукашевич&amp;nbsp;Н.&amp;nbsp;В. Автоматическая классификация эмоций в речи: методы и данные // Litera. 2024. № 4. С.&amp;nbsp;159&amp;ndash;173. DOI: 10.25136/2409-8698.2024.4.70472</mixed-citation></ref><ref id="B19"><mixed-citation>Makarova,&amp;nbsp;V. Acoustic cues of surprise in Russian questions // Journal of the Acoustical Society of Japan (E). 2000. №21&amp;nbsp;(5). Pp.&amp;nbsp;243&amp;ndash;250. DOI: 10.1250/ast.21.243</mixed-citation></ref><ref id="B20"><mixed-citation>Майсак&amp;nbsp;Н.&amp;nbsp;В. Матрица социальных девиаций: классификация типов и видов девиантного поведения // Современные проблемы науки и образования. 2010. № 4. С.&amp;nbsp;78&amp;ndash;86.</mixed-citation></ref><ref id="B21"><mixed-citation>Neiberg&amp;nbsp;D., Elenius&amp;nbsp;K., Laskowski&amp;nbsp;K. Emotion recognition in spontaneous speech using GMMs // INTERSPEECH 2006 &amp;ndash; ICSLP, Ninth International Conference on Spoken Language Processing. 2006. Pp.&amp;nbsp;809&amp;ndash;812.</mixed-citation></ref><ref id="B22"><mixed-citation>New&amp;nbsp;T.&amp;nbsp;L., Foo&amp;nbsp;S. W., De&amp;nbsp;Silva&amp;nbsp;L.&amp;nbsp;C. Speech emotion recognition using hidden Markov models // Speech Communication. 2003. №41&amp;nbsp;(4). Pp.&amp;nbsp;603&amp;ndash;623.</mixed-citation></ref><ref id="B23"><mixed-citation>Nogueiras&amp;nbsp;A., Moreno&amp;nbsp;A., Bonafonte&amp;nbsp;A., Mari&amp;ntilde;o&amp;nbsp;J.B. Speech emotion recognition using hidden Markov models // Proceedings of EUROSPEECH 2001, 7th European conference on speech communication and technology. 2001. Pp.&amp;nbsp;746&amp;ndash;749.</mixed-citation></ref><ref id="B24"><mixed-citation>Perepelkina&amp;nbsp;O., Kazimirova&amp;nbsp;E., Konstantinova&amp;nbsp;M. RAMAS: Russian Multimodal Corpus of Dyadic Interaction for studying emotion recognition // PeerJ Preprints. 6:e26688v1. 2018. https://doi.org/10.7287/peerj.preprints.26688v1</mixed-citation></ref><ref id="B25"><mixed-citation>Russell,&amp;nbsp;J.&amp;nbsp;A, Posner,&amp;nbsp;J., Peterson,&amp;nbsp;B.&amp;nbsp;S. The circumplex model of affect: an integrative approach to affective neuroscience, cognitive development, and psychopathology // Dev Psychopathol.2005. 17&amp;nbsp;(3), Pp. 715&amp;ndash;734. DOI: 10.1017/S0954579405050340.</mixed-citation></ref><ref id="B26"><mixed-citation>Raudys&amp;nbsp;S. On the universality of the single-layer perceptron model // Neural Networks and Soft Computing. Physica, Heidelberg. 2003. Pp.&amp;nbsp;79&amp;ndash;86.</mixed-citation></ref><ref id="B27"><mixed-citation>Sadiq&amp;nbsp;S., Mehmood&amp;nbsp;A., Ullah&amp;nbsp;S., Ahmad&amp;nbsp;M., Sang Choi&amp;nbsp;G., On&amp;nbsp;B.-W. Aggression detection through deep neural model on twitter // Future Generation Computer Systems. 2021. №114. Pp.&amp;nbsp;120&amp;ndash;129.</mixed-citation></ref><ref id="B28"><mixed-citation>Sahoo&amp;nbsp;S., Routray&amp;nbsp;A. Detecting aggression in voice using inverse filtered speech features // IEEE Transactions on Affective Computing. 2016. №9&amp;nbsp;(2). Pp. 217&amp;ndash;226. DOI: 10.1109/TAFFC.2016.2615607</mixed-citation></ref><ref id="B29"><mixed-citation>Santos&amp;nbsp;F., Dur&amp;atilde;es&amp;nbsp;D., Marcondes&amp;nbsp;F.&amp;nbsp;M., Hammerschmidt&amp;nbsp;N., Lange&amp;nbsp;S., Machado&amp;nbsp;J., Novais&amp;nbsp;P. In-car violence detection based on the audio signal // Proceedings of the International Conference on Intelligent Data Engineering and Automated Learning. Springer. 2021. Pp.&amp;nbsp;437&amp;ndash;445. https://doi.org/10.1007/978-3-030-91608-4_43</mixed-citation></ref><ref id="B30"><mixed-citation>Шаховский&amp;nbsp;В.&amp;nbsp;И. Эмоции как объект исследования в лингвистике // Вопросы психолингвистики. 2009. № 9. С.&amp;nbsp;29&amp;ndash;43.</mixed-citation></ref><ref id="B31"><mixed-citation>Siging&amp;nbsp;W. Recognition of human emotion in speech using modulation spectral features and support vector machines: магистерская диссертация / Siqing Wu ; Department of Electrical and Computer Engineering Queen&amp;rsquo;s University. Kingston, Ontario, Canada. 2009. С.&amp;nbsp;126</mixed-citation></ref><ref id="B32"><mixed-citation>Surabhi&amp;nbsp;V., Saurabh&amp;nbsp;M. Speech emotion recognition. A review // International Research Journal of Engineering and Technology (IRJET). 2016. №03. Pp.&amp;nbsp;313&amp;ndash;316.</mixed-citation></ref><ref id="B33"><mixed-citation>Светозарова&amp;nbsp;Н.&amp;nbsp;Д. Интонационная система русского языка. Л.: Изд-во Лен. ун-та. 1982. 176&amp;nbsp;с.</mixed-citation></ref><ref id="B34"><mixed-citation>Уздяев&amp;nbsp;М.&amp;nbsp;Ю. Нейросетевая модель многомодального распознавания человеческой агрессии // Вестник КРАУНЦ. Физико-математические науки. 2020. Т.&amp;nbsp;33. №.&amp;nbsp;4. С.&amp;nbsp;132&amp;ndash;149.</mixed-citation></ref><ref id="B35"><mixed-citation>Velichko&amp;nbsp;A., Markitantov&amp;nbsp;M., Kaya&amp;nbsp;H., Karpov&amp;nbsp;A. Complex Paralinguistic Analysis of Speech: Predicting Gender, Emotions and Deception in a Hierarchical Framework // Proceedings of Interspeech. 2022. Pp.&amp;nbsp;4735&amp;ndash;4739. DOI:10.21437/Interspeech.2022-11294.</mixed-citation></ref><ref id="B36"><mixed-citation>Vu&amp;nbsp;M.T., Beurton-Aimar&amp;nbsp;M., Marchand&amp;nbsp;S. Multitask multi-database emotion recognition // Proceedings of IEEE/CVF International Conference on Computer Vision. 2021. Pp.&amp;nbsp;3637&amp;ndash;3644. DOI:10.1109/ICCVW54120.2021.00406</mixed-citation></ref><ref id="B37"><mixed-citation>Wang&amp;nbsp;J., Xue&amp;nbsp;M., Culhane&amp;nbsp;R., Diao&amp;nbsp;E., Ding&amp;nbsp;J., Tarokh&amp;nbsp;V. Speech emotion recognition with dual-sequence LSTM architecture // Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2020. Pp.&amp;nbsp;6474&amp;ndash;6478. DOI:10.1109/ICASSP40776.2020.9054629</mixed-citation></ref><ref id="B38"><mixed-citation>Wu&amp;nbsp;S, Falk&amp;nbsp;T.&amp;nbsp;H., Chan&amp;nbsp;W.&amp;nbsp;Y. Automatic speech emotion recognition using modulation spectral features // Speech Communication. 2011. №&amp;nbsp;53. Pp.&amp;nbsp;768&amp;ndash;785.</mixed-citation></ref><ref id="B39"><mixed-citation>Zeiler&amp;nbsp;M.&amp;nbsp;D., Fergus&amp;nbsp;R. Visualizing and understanding convolutional networks // Computer Vision and Pattern Recognition (ECCV 2014). 2013. Pp.&amp;nbsp;818&amp;ndash;833. DOI: 10.48550/arXiv.1311.2901</mixed-citation></ref></ref-list></back></article>