<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20190208//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.2" xml:lang="ru" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink"><front><journal-meta><journal-id journal-id-type="issn">2313-8912</journal-id><journal-title-group><journal-title>Научный результат. Вопросы теоретической и прикладной лингвистики</journal-title></journal-title-group><issn pub-type="epub">2313-8912</issn></journal-meta><article-meta><article-id pub-id-type="doi">10.18413/2313-8912-2024-10-4-0-6</article-id><article-id pub-id-type="publisher-id">3677</article-id><article-categories><subj-group subj-group-type="heading"><subject>Большие языковые модели и промпт-инжиниринг в лингвистических исследованиях</subject></subj-group></article-categories><title-group><article-title>&lt;strong&gt;Применение нейронных сетей CNN и LSTM для идентификации и классификации диалектизмов на материалах архангельских говоров&lt;/strong&gt;</article-title><trans-title-group xml:lang="en"><trans-title>&lt;strong&gt;Using CNN and LSTM neural networks&amp;nbsp;&amp;nbsp;for Arkhangelsk dialect word identification and classification&lt;/strong&gt;</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Шурыкина</surname><given-names>Людмила Сергеевна</given-names></name><name xml:lang="en"><surname>Shurykina</surname><given-names>Lyudmila S.</given-names></name></name-alternatives><email>l.shurykina@narfu.ru</email><xref ref-type="aff" rid="aff1" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Латухина</surname><given-names>Екатерина Александровна</given-names></name><name xml:lang="en"><surname>Latukhina</surname><given-names>Ekaterina A.</given-names></name></name-alternatives><email>e.latukhina@narfu.ru</email><xref ref-type="aff" rid="aff2" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Петрова</surname><given-names>Татьяна Викторовна</given-names></name><name xml:lang="en"><surname>Petrova</surname><given-names>Tatyana V.</given-names></name></name-alternatives><email>t.petrova@narfu.ru</email><xref ref-type="aff" rid="aff2" /></contrib></contrib-group><aff id="aff1"><institution>Северный (Арктический) федеральный университет имени М.В. Ломоносова, Архангельск, Россия.</institution></aff><aff id="aff2"><institution>Северный (Арктический) федеральный университет имени М.В. Ломоносова, Архангельск, Россия</institution></aff><pub-date pub-type="epub"><year>2024</year></pub-date><volume>10</volume><issue>4</issue><fpage>0</fpage><lpage>0</lpage><self-uri content-type="pdf" xlink:href="/media/linguistics/2024/4/Research_Result_4-42-120-139.pdf" /><abstract xml:lang="ru"><p>Изучение диалектов позволяет составить представление о культуре и истории народа, которые находят отражение в лексике языка. Диалектная лексика отличается от нормативной как значением, так и произношением, способами словопроизводства и грамматической структурой, прежде всего морфологией. Подобные закономерности характерны и для архангельских говоров. Цель исследования &amp;ndash; разработать классификатор диалектных слов, который поможет выделить диалектные слова в конкретном заданном тексте и отнести их к одной из заранее определенных категорий. Новизна исследования состоит в том, что в настоящее время отсутствует автоматизированная система для классификации диалектизмов, основанная на материалах архангельских говоров. В статье описывается разработка нейронных сетей для идентификации и классификации диалектных слов, извлеченных из диалектных текстов, которые были собраны во время диалектологических практик, проводившихся с 1960-х годов по настоящее время; сравниваются архитектуры LSTM (Long Short-Term Memory, нейронная сеть с долгосрочной кратковременной памятью) и CNN (Convolutional Neural Network, свёрточная нейронная сеть). Нейронная сеть обучается на малом количестве материала, что является одним из основных ограничений в задаче классификации диалектных слов. Чтобы обойти эти ограничения, исследуется возможность использовать биграммный подход кодирования слов в дополнение к униграммному. Обученная модель, показавшая наилучшие результаты, встроена в разрабатываемое приложение для обработки и анализа диалектизмов. Для этой модели была построена матрица ошибок, согласно которой лучше всего распознаются слова из словообразовательной категории, хуже всего &amp;ndash; из лексической.



</p></abstract><trans-abstract xml:lang="en"><p>The study of dialects provides an opportunity to gain an understanding of the culture and history of a people, which are reflected in language. Dialectal vocabulary differs from standard vocabulary in terms of both meaning and pronunciation, as well as word formation and grammatical structures, primarily in morphology. Similar patterns can also be observed in the Arkhangelsk dialects. The aim of this paper is to develop a dialect words classifier, which can be used to identify dialect words within a given text and categorize them into one of the pre-defined groups. The novelty of this research lies in the lack of an automated system for classifying dialect words based on Arkhangelsk dialect materials. The article describes the development of a neural network for dialect words identification and classification. Dialect words were identified from dialect texts gathered during dialectological research conducted between the 1960s and the present day. LSTM (long short-term memory) and CNN (convolutional neural network) architectures are compared. One of the main challenges in the task of dialect word classification is that the neural network is trained using a limited amount of data. To overcome these limitations, we are investigating the possibility of using a bigram-based approach in addition to the unigram-based words encoding. A trained model that demonstrated the best results was integrated into our application for dialect words processing and analysis. Confusion matrix was constructed for the best model which demonstrates the highest performance for the derivational class and the lowest for the lexical class.



</p></trans-abstract><kwd-group xml:lang="ru"><kwd>Классификация диалектизмов</kwd><kwd>Обработка естественного языка</kwd><kwd>Свёрточные нейронные сети</kwd><kwd>Нейронные сети с долгой краткосрочной памятью</kwd></kwd-group><kwd-group xml:lang="en"><kwd>Dialect word classification</kwd><kwd>Natural language processing</kwd><kwd>Convolutional neural network</kwd><kwd>Long short-term memory</kwd></kwd-group></article-meta></front><back><ack><p>Исследование выполнено при финансовой поддержке Российского научного фонда № 23-28-01380, &amp;laquo;Тематический словарь архангельских говоров с электронной поддержкой&amp;raquo; (https://rscf.ru/project/23-28-01380/).</p></ack><ref-list><title>Список литературы</title><ref id="B1"><mixed-citation>Adel&amp;nbsp;B. Using Transformers to Classify Arabic Dialects on Social Networks / Adel&amp;nbsp;B., Eddine&amp;nbsp;M.&amp;nbsp;C., Laouid&amp;nbsp;A., Chait&amp;nbsp;K., Kara&amp;nbsp;M. // 6th International Conference on Pattern Analysis and Intelligent Systems (PAIS), El Oued, Algeria. 2024. Pp. 1&amp;ndash;7. DOI: 10.1109/PAIS62114.2024.10541289</mixed-citation></ref><ref id="B2"><mixed-citation>Alali&amp;nbsp;M., Sharef&amp;nbsp;N., Murad&amp;nbsp;M. et al. Narrow Convolutional Neural Network for Arabic Dialects Polarity Classification // IEEE Access. 2019. № 7. DOI: 10.1109/ACCESS.2019.2929208</mixed-citation></ref><ref id="B3"><mixed-citation>Архангельский&amp;nbsp;Т.&amp;nbsp;А. Применение диалектометрического метода к классификации удмуртских диалектов // Урало-алтайские исследования. 2021. № 2&amp;nbsp;(41). С. 7&amp;ndash;20. DOI 10.37892/2500-2902-2021-41-2-7-20.</mixed-citation></ref><ref id="B4"><mixed-citation>Azim&amp;nbsp;M.&amp;nbsp;A., Hussein&amp;nbsp;W., Badr&amp;nbsp;N. Automatic Dialect identification of Spoken Arabic Speech using Deep Neural Networks // International Journal of Intelligent Computing and Information Sciences. 2022. DOI: 10.21608/ijicis.2022.152368.1207</mixed-citation></ref><ref id="B5"><mixed-citation>Buckley&amp;nbsp;K. Uncovering linguistic lineage through using a character N-gram based dialect classifier // The languages of Scotland and Ulster in a global context, past and present. Selected papers from the 13th triennial Forum for Research on the Languages of Scotland and Ulster, Munich, Germany. 2021. Pp.&amp;nbsp;139 Pp.76.</mixed-citation></ref><ref id="B6"><mixed-citation>Devlin&amp;nbsp;J. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / Devlin&amp;nbsp;J., Chang&amp;nbsp;M.-W., Lee&amp;nbsp;K., Toutanova&amp;nbsp;K. // arXiv preprint. 2019. DOI: 10.48550/arXiv.1810.04805</mixed-citation></ref><ref id="B7"><mixed-citation>Han&amp;nbsp;M. Research on Dialect Protection: Interaction Design of Chinese Dialects Based on BLSTM-CRF and FBM Theories / Han&amp;nbsp;M., Zhu&amp;nbsp;D., Wen&amp;nbsp;X., Shu&amp;nbsp;L., Yao&amp;nbsp;Z. // IEEE Access. 2024. №&amp;nbsp;12. Pp.&amp;nbsp;22059&amp;ndash;22071. DOI: 10.1109/ACCESS.2024.3364098.</mixed-citation></ref><ref id="B8"><mixed-citation>H&amp;oslash;yland&amp;nbsp;B., Nesse&amp;nbsp;A. Norwegian Dialect Classifications // Dialectologia. 2023. №&amp;nbsp;10. Pp.&amp;nbsp;255&amp;ndash;298. DOI: 10.1344/Dialectologia2022.2022.10.</mixed-citation></ref><ref id="B9"><mixed-citation>Huang, T. J., Yang, J. Q., Shen, C., Liu, K. Q., Zhan, D. C. and Ye, H. J. (2024). Improving LLMs for Recommendation with Out-Of-Vocabulary Tokens. DOI: 10.48550/arXiv.2406.08477</mixed-citation></ref><ref id="B10"><mixed-citation>Карбышева&amp;nbsp;Д.&amp;nbsp;Ю., Радченко&amp;nbsp;Г.&amp;nbsp;И. Типы диалектизмов и способы их перевода на иностранный язык (на материале романа М.А. Шолохова &amp;laquo;Тихий Дон&amp;raquo;) // Евразийское Научное Объединение. 2020. № 8&amp;ndash;5&amp;nbsp;(66). С.&amp;nbsp;294&amp;ndash;297.</mixed-citation></ref><ref id="B11"><mixed-citation>Kethireddy&amp;nbsp;R., Kadiri&amp;nbsp;S. and Gangashetty&amp;nbsp;S. Deep neural architectures for dialect classification with single frequency filtering and zero-time windowing feature representations // The Journal of the Acoustical Society of America. 2022. № 151. Pp.&amp;nbsp;1077&amp;ndash;1092. DOI: 10.1121/10.0009405.</mixed-citation></ref><ref id="B12"><mixed-citation>Колкова&amp;nbsp;Д.&amp;nbsp;Е. Самоидентификация личности посредством использования диалекта (на примере шотландского диалекта) // Креативная лингвистика: сборник научных статей. 2023. № 6. С. 106&amp;ndash;111.</mixed-citation></ref><ref id="B13"><mixed-citation>Корнаухова&amp;nbsp;Т.&amp;nbsp;В., Голоштанова&amp;nbsp;А.&amp;nbsp;А. Отражение современных реалий в диалектах английского языка (на примере диалекта кокни) // X Авдеевские чтения: Сборник статей по материалам Всероссийской научно-практической конференции, Пенза. 2022.</mixed-citation></ref><ref id="B14"><mixed-citation>С. 90&amp;ndash;94.</mixed-citation></ref><ref id="B15"><mixed-citation>Косицина&amp;nbsp;Ю.&amp;nbsp;В. Диалектизмы в современном региолекте с. Усманка Чебулинского района Кемеровской области // Филологические науки. Вопросы теории и практики. №&amp;nbsp;17. С.&amp;nbsp;1577&amp;ndash;1583. DOI: 10.30853/phil20240228.</mixed-citation></ref><ref id="B16"><mixed-citation>Kuparinen&amp;nbsp;O. Murre24: Dialect Identification of Finnish Internet Forum Messages // Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). 2024. Pp.&amp;nbsp;12003&amp;ndash;12015.</mixed-citation></ref><ref id="B17"><mixed-citation>Laith&amp;nbsp;B., Kang&amp;nbsp;S. Transformer Text Classification Model for Arabic Dialects That Utilizes Inductive Transfer // Mathematics. 2023. № 11. 4960. DOI: 10.3390/math11244960.</mixed-citation></ref><ref id="B18"><mixed-citation>Муталов&amp;nbsp;Р.&amp;nbsp;О. К проблеме разграничения даргинских языков и диалектов // The Newman in Foreign Policy. 2020. Т. 6. № 57&amp;nbsp;(101). С. 6&amp;ndash;8.</mixed-citation></ref><ref id="B19"><mixed-citation>Ненашева&amp;nbsp;Л.&amp;nbsp;В. Для каждой одежки своя застежка. // Cuadernos De Rus&amp;iacute;stica Espa&amp;ntilde;ola. №&amp;nbsp;17. С.&amp;nbsp;211&amp;ndash;221. DOI: 10.30827/cre.v17.21023</mixed-citation></ref><ref id="B20"><mixed-citation>Ненашева&amp;nbsp;Л.&amp;nbsp;В. Тематический словарь архангельских говоров. Архангельск: Общество с ограниченной ответственностью &amp;laquo;Консультационное информационно-рекламное агентство&amp;raquo;, 2023. 192 с.</mixed-citation></ref><ref id="B21"><mixed-citation>Ненашева&amp;nbsp;Л.&amp;nbsp;В., Шурыкина&amp;nbsp;Л.&amp;nbsp;С. Электронный словарь архангельских говоров // Арктика и Север. 2024. № 55. С.&amp;nbsp;243&amp;ndash;252. DOI: 10.37482/issn2221-2698.2024.55.243</mixed-citation></ref><ref id="B22"><mixed-citation>Пуртова&amp;nbsp;Г.&amp;nbsp;М. Меянкиели: диалект или язык? // Мировое историко-культурное наследие Арктики: Тезисы Международной научно-практической конференции, Санкт-Петербург. 2023. С. 27&amp;ndash;28.</mixed-citation></ref><ref id="B23"><mixed-citation>Ramachandran&amp;nbsp;P., Zoph&amp;nbsp;B., Le&amp;nbsp;Q.&amp;nbsp;V. Searching for Activation Functions // arXiv preprint. 2017. DOI: 10.48550/arXiv.1710.05941</mixed-citation></ref><ref id="B24"><mixed-citation>Sainath&amp;nbsp;T.&amp;nbsp;N. Convolutional, Long Short-Term Memory, fully connected Deep Neural Networks / Sainath&amp;nbsp;T.&amp;nbsp;N., Vinyals&amp;nbsp;O., Senior&amp;nbsp;A., Sak&amp;nbsp;H. // IEEE International Conference on Acoustics, Speech and Signal Processing, South Brisbane, Australia. 2015. 4580&amp;ndash;4584. DOI: 10.1109/ICASSP.2015.7178838.</mixed-citation></ref><ref id="B25"><mixed-citation>Самситова&amp;nbsp;Л.&amp;nbsp;Х. Диалект как отражение языковой картины мира (на примере северо-западного диалекта башкирского языка) // Мир науки, культуры, образования. 2020. № 6&amp;nbsp;(85). С.&amp;nbsp;474&amp;ndash;476. DOI: 10.24412/1991-5500-2020-685-474-476.</mixed-citation></ref><ref id="B26"><mixed-citation>Sciarretta&amp;nbsp;A. Dialectometry-based classification of the Central&amp;ndash;Southern Italian dialects // Journal of Linguistic Geography. 2024. № 12(1). Pp. 13&amp;ndash;23. DOI:10.1017/jlg.2024.7</mixed-citation></ref><ref id="B27"><mixed-citation>Шамшин&amp;nbsp;А.&amp;nbsp;Л. Роль знания диалектов итальянского языка в межкультурной коммуникации: их важность для успешной адаптации в Италии // Проблемы преподавания филологических дисциплин иностранным учащимся: Сборник материалов VIII Международной научно-методической конференции, Воронеж. 2024. С. 221&amp;ndash;225.</mixed-citation></ref><ref id="B28"><mixed-citation>Свидетельство о государственной регистрации программы для ЭВМ № 2023668038 Российская Федерация. Программа для заполнения базы данных диалектных слов &amp;laquo;Копилка слов&amp;raquo;: № 2023667071: заявл. 15.08.2023: опубл. 22.08.2023 / Л.&amp;nbsp;С.&amp;nbsp;Шурыкина, Е.&amp;nbsp;А.&amp;nbsp;Латухина, Л.&amp;nbsp;В.&amp;nbsp;Ненашева; заявитель Федеральное государственное автономное образовательное учреждение высшего образования &amp;laquo;Северный федеральный университет имени М.В. Ломоносова&amp;raquo;.</mixed-citation></ref><ref id="B29"><mixed-citation>Шурыкина&amp;nbsp;Л.&amp;nbsp;С., Латухина&amp;nbsp;Е.&amp;nbsp;А. Организация автоматизированного создания диалектных словарей // Актуальные проблемы прикладной математики, информатики и механики: сборник трудов Международной научной конференции, Воронеж. 2024. С.&amp;nbsp;1017&amp;ndash;1022.</mixed-citation></ref><ref id="B30"><mixed-citation>Сметанина&amp;nbsp;З.&amp;nbsp;В., Иванова&amp;nbsp;Г.&amp;nbsp;А. Вариантность слова в &amp;laquo;Областном словаре вятских говоров&amp;raquo; // Вестник Томского государственного университета. 2020. № 451. С.&amp;nbsp;56&amp;ndash;68. DOI: 10.17223/15617793/451/8.</mixed-citation></ref><ref id="B31"><mixed-citation>Themistocleous&amp;nbsp;C. Dialect classification using vowel acoustic parameters // Speech Communication. № 92. Pp. 13&amp;ndash;22. (2017).</mixed-citation></ref><ref id="B32"><mixed-citation>Themistocleous&amp;nbsp;C. Dialect Classification From a Single Sonorant Sound Using Deep Neural Networks // Frontiers in Communication. 2019. № 4. DOI: 10.3389/fcomm.2019.00064.</mixed-citation></ref><ref id="B33"><mixed-citation>Верняева&amp;nbsp;Р.&amp;nbsp;А., Жданова&amp;nbsp;Е.&amp;nbsp;А. Мультимедийный корпус русских говоров Удмуртии: электронный подкорпус устной речи // Cuadernos De Rus&amp;iacute;stica Espa&amp;ntilde;ola. №&amp;nbsp;19. С. 67&amp;ndash;79. DOI: 10.30827/cre.v19.28131</mixed-citation></ref><ref id="B34"><mixed-citation>Yamani&amp;nbsp;A. The kind dataset: A social collaboration approach for nuanced dialect data collection / Yamani&amp;nbsp;A., Alziyady&amp;nbsp;R., AlYami&amp;nbsp;R., Albelali&amp;nbsp;S., Albelali&amp;nbsp;L., Almulhim&amp;nbsp;J., Al-Zaidy&amp;nbsp;R. // Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics: Student Research Workshop. 2024. С.&amp;nbsp;32&amp;ndash;43.</mixed-citation></ref><ref id="B35"><mixed-citation>Ye&amp;nbsp;S., Zhao&amp;nbsp;R., Fang&amp;nbsp;X. An Ensemble Learning Method for Dialect Classification // IOP Conference Series: Materials Science and Engineering. 2019. 569 052064. DOI: 10.1088/1757-899X/569/5/052064.</mixed-citation></ref><ref id="B36"><mixed-citation>Zhang&amp;nbsp;Y., Ren&amp;nbsp;W. From hǎo to hǒu &amp;ndash; stylising online communication with Chinese dialects // International Journal of Multilingualism. 2022. № 21&amp;nbsp;(1). С. 149&amp;ndash;168. DOI: 10.1080/14790718.2022.2061981</mixed-citation></ref></ref-list></back></article>