Применение нейронных сетей CNN и LSTM для идентификации и классификации диалектизмов на материалах архангельских говоров
Изучение диалектов позволяет составить представление о культуре и истории народа, которые находят отражение в лексике языка. Диалектная лексика отличается от нормативной как значением, так и произношением, способами словопроизводства и грамматической структурой, прежде всего морфологией. Подобные закономерности характерны и для архангельских говоров. Цель исследования – разработать классификатор диалектных слов, который поможет выделить диалектные слова в конкретном заданном тексте и отнести их к одной из заранее определенных категорий. Новизна исследования состоит в том, что в настоящее время отсутствует автоматизированная система для классификации диалектизмов, основанная на материалах архангельских говоров. В статье описывается разработка нейронных сетей для идентификации и классификации диалектных слов, извлеченных из диалектных текстов, которые были собраны во время диалектологических практик, проводившихся с 1960-х годов по настоящее время; сравниваются архитектуры LSTM (Long Short-Term Memory, нейронная сеть с долгосрочной кратковременной памятью) и CNN (Convolutional Neural Network, свёрточная нейронная сеть). Нейронная сеть обучается на малом количестве материала, что является одним из основных ограничений в задаче классификации диалектных слов. Чтобы обойти эти ограничения, исследуется возможность использовать биграммный подход кодирования слов в дополнение к униграммному. Обученная модель, показавшая наилучшие результаты, встроена в разрабатываемое приложение для обработки и анализа диалектизмов. Для этой модели была построена матрица ошибок, согласно которой лучше всего распознаются слова из словообразовательной категории, хуже всего – из лексической.
Шурыкина Л. С., Латухина Е. А., Петрова Т. В. Применение нейронных сетей CNN и LSTM для идентификации и классификации диалектизмов на материалах архангельских говоров // Научный результат. Вопросы теоретической и прикладной лингвистики. 2024. Т. 10. № 4. C. 106–125.
Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.
Adel B. Using Transformers to Classify Arabic Dialects on Social Networks / Adel B., Eddine M. C., Laouid A., Chait K., Kara M. // 6th International Conference on Pattern Analysis and Intelligent Systems (PAIS), El Oued, Algeria. 2024. Pp. 1–7. DOI: 10.1109/PAIS62114.2024.10541289
Alali M., Sharef N., Murad M. et al. Narrow Convolutional Neural Network for Arabic Dialects Polarity Classification // IEEE Access. 2019. № 7. DOI: 10.1109/ACCESS.2019.2929208
Архангельский Т. А. Применение диалектометрического метода к классификации удмуртских диалектов // Урало-алтайские исследования. 2021. № 2 (41). С. 7–20. DOI 10.37892/2500-2902-2021-41-2-7-20.
Azim M. A., Hussein W., Badr N. Automatic Dialect identification of Spoken Arabic Speech using Deep Neural Networks // International Journal of Intelligent Computing and Information Sciences. 2022. DOI: 10.21608/ijicis.2022.152368.1207
Buckley K. Uncovering linguistic lineage through using a character N-gram based dialect classifier // The languages of Scotland and Ulster in a global context, past and present. Selected papers from the 13th triennial Forum for Research on the Languages of Scotland and Ulster, Munich, Germany. 2021. Pp. 139 Pp.76.
Devlin J. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / Devlin J., Chang M.-W., Lee K., Toutanova K. // arXiv preprint. 2019. DOI: 10.48550/arXiv.1810.04805
Han M. Research on Dialect Protection: Interaction Design of Chinese Dialects Based on BLSTM-CRF and FBM Theories / Han M., Zhu D., Wen X., Shu L., Yao Z. // IEEE Access. 2024. № 12. Pp. 22059–22071. DOI: 10.1109/ACCESS.2024.3364098.
Høyland B., Nesse A. Norwegian Dialect Classifications // Dialectologia. 2023. № 10. Pp. 255–298. DOI: 10.1344/Dialectologia2022.2022.10.
Huang, T. J., Yang, J. Q., Shen, C., Liu, K. Q., Zhan, D. C. and Ye, H. J. (2024). Improving LLMs for Recommendation with Out-Of-Vocabulary Tokens. DOI: 10.48550/arXiv.2406.08477
Карбышева Д. Ю., Радченко Г. И. Типы диалектизмов и способы их перевода на иностранный язык (на материале романа М.А. Шолохова «Тихий Дон») // Евразийское Научное Объединение. 2020. № 8–5 (66). С. 294–297.
Kethireddy R., Kadiri S. and Gangashetty S. Deep neural architectures for dialect classification with single frequency filtering and zero-time windowing feature representations // The Journal of the Acoustical Society of America. 2022. № 151. Pp. 1077–1092. DOI: 10.1121/10.0009405.
Колкова Д. Е. Самоидентификация личности посредством использования диалекта (на примере шотландского диалекта) // Креативная лингвистика: сборник научных статей. 2023. № 6. С. 106–111.
Корнаухова Т. В., Голоштанова А. А. Отражение современных реалий в диалектах английского языка (на примере диалекта кокни) // X Авдеевские чтения: Сборник статей по материалам Всероссийской научно-практической конференции, Пенза. 2022.
С. 90–94.
Косицина Ю. В. Диалектизмы в современном региолекте с. Усманка Чебулинского района Кемеровской области // Филологические науки. Вопросы теории и практики. № 17. С. 1577–1583. DOI: 10.30853/phil20240228.
Kuparinen O. Murre24: Dialect Identification of Finnish Internet Forum Messages // Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). 2024. Pp. 12003–12015.
Laith B., Kang S. Transformer Text Classification Model for Arabic Dialects That Utilizes Inductive Transfer // Mathematics. 2023. № 11. 4960. DOI: 10.3390/math11244960.
Муталов Р. О. К проблеме разграничения даргинских языков и диалектов // The Newman in Foreign Policy. 2020. Т. 6. № 57 (101). С. 6–8.
Ненашева Л. В. Для каждой одежки своя застежка. // Cuadernos De Rusística Española. № 17. С. 211–221. DOI: 10.30827/cre.v17.21023
Ненашева Л. В. Тематический словарь архангельских говоров. Архангельск: Общество с ограниченной ответственностью «Консультационное информационно-рекламное агентство», 2023. 192 с.
Ненашева Л. В., Шурыкина Л. С. Электронный словарь архангельских говоров // Арктика и Север. 2024. № 55. С. 243–252. DOI: 10.37482/issn2221-2698.2024.55.243
Пуртова Г. М. Меянкиели: диалект или язык? // Мировое историко-культурное наследие Арктики: Тезисы Международной научно-практической конференции, Санкт-Петербург. 2023. С. 27–28.
Ramachandran P., Zoph B., Le Q. V. Searching for Activation Functions // arXiv preprint. 2017. DOI: 10.48550/arXiv.1710.05941
Sainath T. N. Convolutional, Long Short-Term Memory, fully connected Deep Neural Networks / Sainath T. N., Vinyals O., Senior A., Sak H. // IEEE International Conference on Acoustics, Speech and Signal Processing, South Brisbane, Australia. 2015. 4580–4584. DOI: 10.1109/ICASSP.2015.7178838.
Самситова Л. Х. Диалект как отражение языковой картины мира (на примере северо-западного диалекта башкирского языка) // Мир науки, культуры, образования. 2020. № 6 (85). С. 474–476. DOI: 10.24412/1991-5500-2020-685-474-476.
Sciarretta A. Dialectometry-based classification of the Central–Southern Italian dialects // Journal of Linguistic Geography. 2024. № 12(1). Pp. 13–23. DOI:10.1017/jlg.2024.7
Шамшин А. Л. Роль знания диалектов итальянского языка в межкультурной коммуникации: их важность для успешной адаптации в Италии // Проблемы преподавания филологических дисциплин иностранным учащимся: Сборник материалов VIII Международной научно-методической конференции, Воронеж. 2024. С. 221–225.
Свидетельство о государственной регистрации программы для ЭВМ № 2023668038 Российская Федерация. Программа для заполнения базы данных диалектных слов «Копилка слов»: № 2023667071: заявл. 15.08.2023: опубл. 22.08.2023 / Л. С. Шурыкина, Е. А. Латухина, Л. В. Ненашева; заявитель Федеральное государственное автономное образовательное учреждение высшего образования «Северный федеральный университет имени М.В. Ломоносова».
Шурыкина Л. С., Латухина Е. А. Организация автоматизированного создания диалектных словарей // Актуальные проблемы прикладной математики, информатики и механики: сборник трудов Международной научной конференции, Воронеж. 2024. С. 1017–1022.
Сметанина З. В., Иванова Г. А. Вариантность слова в «Областном словаре вятских говоров» // Вестник Томского государственного университета. 2020. № 451. С. 56–68. DOI: 10.17223/15617793/451/8.
Themistocleous C. Dialect classification using vowel acoustic parameters // Speech Communication. № 92. Pp. 13–22. (2017).
Themistocleous C. Dialect Classification From a Single Sonorant Sound Using Deep Neural Networks // Frontiers in Communication. 2019. № 4. DOI: 10.3389/fcomm.2019.00064.
Верняева Р. А., Жданова Е. А. Мультимедийный корпус русских говоров Удмуртии: электронный подкорпус устной речи // Cuadernos De Rusística Española. № 19. С. 67–79. DOI: 10.30827/cre.v19.28131
Yamani A. The kind dataset: A social collaboration approach for nuanced dialect data collection / Yamani A., Alziyady R., AlYami R., Albelali S., Albelali L., Almulhim J., Al-Zaidy R. // Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics: Student Research Workshop. 2024. С. 32–43.
Ye S., Zhao R., Fang X. An Ensemble Learning Method for Dialect Classification // IOP Conference Series: Materials Science and Engineering. 2019. 569 052064. DOI: 10.1088/1757-899X/569/5/052064.
Zhang Y., Ren W. From hǎo to hǒu – stylising online communication with Chinese dialects // International Journal of Multilingualism. 2022. № 21 (1). С. 149–168. DOI: 10.1080/14790718.2022.2061981
Исследование выполнено при финансовой поддержке Российского научного фонда № 23-28-01380, «Тематический словарь архангельских говоров с электронной поддержкой» (https://rscf.ru/project/23-28-01380/).