Распознавание эмоций по устной речи с использованием нейросетевого подхода
Устная речь человека всегда имеет эмоциональную окраску, это может быть обусловлено тем, что наши эмоции и наше настроение влияют на нашу речь. Когда мы рады, волнуемся, грустим или злимся, это отражается в нашем голосе, темпе и интонации. Невозможно говорить без эмоций, так как они являются неотъемлемой частью нашей личности и сопровождают нас повсюду. Наша устная речь становится еще богаче и выразительнее, когда мы передаем свои эмоции и чувства через слова. Однако оценка эмоционального состояния человека по речи может благотворно влиять на различные области жизнедеятельности, например, такие как медицина, психология, криминология, маркетинг и образование и многое другое. В медицине использование оценки эмоций по речи может помочь в диагностике и лечении психических расстройств, а также в мониторинге эмоционального состояния пациента, выявление на ранних стадиях таких болезней как Альцгеймер. В психологии этот метод может быть полезен для изучения эмоциональных реакций на различные стимулы и ситуации. В криминологии анализ речи и определение эмоций может использоваться для выявления ложных показаний и обмана. В маркетинге и рекламе это может помочь понять реакцию аудитории на продукт или рекламную кампанию. В образовании оценка эмоций по речи может быть использована для анализа эмоционального состояния студентов и оптимизации образовательного процесса. Таким образом, автоматизация процесса распознавания эмоций является перспективным направлением исследований, а применение различных методов машинного обучения и алгоритмов распознавания образов, можно сделать процесс более точным и эффективным.
В качестве инструмента для решения задачи распознавания паралингвистических явлений в виде эмоций по устной речи человека предлагается использовать нейросетевой подход, который показывает свою эффективность при решении задач в том случае, когда точное решение найти сложно. В работе представлена нейронная сеть сверточной архитектуры, позволяющая распознавать по устной речи четыре эмоции человека (грусть, радость, гнев, нейтраль). Особое внимание уделено формированию датасета для тренировки и тестирования модели, поскольку в настоящее время открытых баз речевых данных для исследования паралингвистических явлений (особенно на русском языке) практически нет. В данном исследовании используется база эмоциональной речи Dusha.
В качестве признаков для распознавания эмоций используются мел-спектрограммы речевого сигнала, что позволило увеличить процент распознавания и скорость работы нейронной сети по сравнению с использованием низкоуровневых дескрипторов.
Результаты экспериментов на тестовой выборке показали, что представленная нейронная сеть позволяет распознавать эмоции человека по устной речи в 75% случаев, что является высоким результатом.
В качестве дальнейших исследований предполагается тренировка и модернизация (при необходимости) представленной нейронной сети для распознавания паралингвистических явлений, не представленных в данном исследовании, например, таких как ложь, усталость, депрессия и др.
Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.
Список использованной литературы появится позже.