16+
DOI: 10.18413/2313-8912-2024-10-4-0-6

Применение нейронных сетей CNN и LSTM для идентификации и классификации диалектизмов на материалах архангельских говоров

Изучение диалектов позволяет составить представление о культуре и истории народа, которые находят отражение в лексике языка. Диалектная лексика отличается от нормативной как значением, так и произношением, способами словопроизводства и грамматической структурой, прежде всего морфологией. Подобные закономерности характерны и для архангельских говоров. Цель исследования – разработать классификатор диалектных слов, который поможет выделить диалектные слова в конкретном заданном тексте и отнести их к одной из заранее определенных категорий. Новизна исследования состоит в том, что в настоящее время отсутствует автоматизированная система для классификации диалектизмов, основанная на материалах архангельских говоров. В статье описывается разработка нейронных сетей для идентификации и классификации диалектных слов, извлеченных из диалектных текстов, которые были собраны во время диалектологических практик, проводившихся с 1960-х годов по настоящее время; сравниваются архитектуры LSTM (Long Short-Term Memory, нейронная сеть с долгосрочной кратковременной памятью) и CNN (Convolutional Neural Network, свёрточная нейронная сеть). Нейронная сеть обучается на малом количестве материала, что является одним из основных ограничений в задаче классификации диалектных слов. Чтобы обойти эти ограничения, исследуется возможность использовать биграммный подход кодирования слов в дополнение к униграммному. Обученная модель, показавшая наилучшие результаты, встроена в разрабатываемое приложение для обработки и анализа диалектизмов. Для этой модели была построена матрица ошибок, согласно которой лучше всего распознаются слова из словообразовательной категории, хуже всего – из лексической.

Количество просмотров: 61 (смотреть статистику)
Количество скачиваний: 217
Полный текст (HTML)Полный текст (PDF)К списку статей
  • Комментарии
  • Список литературы
  • Благодарности

Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.

Оставить комментарий: