<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20190208//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.2" xml:lang="ru" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink"><front><journal-meta><journal-id journal-id-type="issn">2313-8912</journal-id><journal-title-group><journal-title>Научный результат. Вопросы теоретической и прикладной лингвистики</journal-title></journal-title-group><issn pub-type="epub">2313-8912</issn></journal-meta><article-meta><article-id pub-id-type="doi">10.18413/2313-8912-2023-9-1-1-1</article-id><article-id pub-id-type="publisher-id">3062</article-id><article-categories><subj-group subj-group-type="heading"><subject>ИСПОЛЬЗОВАНИЕ НЕЙРОННЫХ СЕТЕЙ В ОБРАБОТКЕ ЕСТЕСТВЕННОГО ЯЗЫКА</subject></subj-group></article-categories><title-group><article-title>&lt;strong&gt;Метод глубокого обучения на основе языковых моделей для обработки русскоязычных команд естественного языка при взаимодействии человека и робота&lt;/strong&gt;</article-title><trans-title-group xml:lang="en"><trans-title>&lt;strong&gt;A deep learning method based on language models for processing&lt;/strong&gt; &lt;strong&gt;natural language Russian commands in human robot interaction&lt;/strong&gt;</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Сбоев</surname><given-names>Александр Георгиевич</given-names></name><name xml:lang="en"><surname>Sboev</surname><given-names>Alexander G.</given-names></name></name-alternatives><email>Sboev_AG@nrcki.ru</email><xref ref-type="aff" rid="aff1" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Грязнов</surname><given-names>Артем Викторович</given-names></name><name xml:lang="en"><surname>Gryaznov</surname><given-names>Artem V.</given-names></name></name-alternatives><email>Gryaznov_AV@nrcki.ru</email><xref ref-type="aff" rid="aff1" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Рыбка</surname><given-names>Роман Борисович</given-names></name><name xml:lang="en"><surname>Rybka</surname><given-names>Roman B.</given-names></name></name-alternatives><email>Rybka_RB@nrcki.ru</email><xref ref-type="aff" rid="aff1" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Скороходов</surname><given-names>Максим Сергеевич</given-names></name><name xml:lang="en"><surname>Skorokhodov</surname><given-names>Maxim S.</given-names></name></name-alternatives><email>Skorokhodov_MS@nrcki.ru</email><xref ref-type="aff" rid="aff1" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Молошников</surname><given-names>Иван Александрович</given-names></name><name xml:lang="en"><surname>Moloshnikov</surname><given-names>Ivan A.</given-names></name></name-alternatives><email>Moloshnikov_IA@nrcki.ru</email><xref ref-type="aff" rid="aff1" /></contrib></contrib-group><aff id="aff1"><institution>Национальный исследовательский центр «Курчатовский институт», Россия</institution></aff><pub-date pub-type="epub"><year>2023</year></pub-date><volume>9</volume><issue>1</issue><fpage>0</fpage><lpage>0</lpage><self-uri content-type="pdf" xlink:href="/media/linguistics/2023/1/Лингвистика_9_1_2023-174-191.pdf" /><abstract xml:lang="ru"><p>Реализация высокопроизводительных человеко-машинных интерфейсов для управления робототехническими платформами с помощью естественного языка представляется современной задачей междисциплинарной области взаимодействия человека и робота. В частности, это востребовано в том случае, когда управление платформой осуществляется оператором, который не обладает навыками, необходимыми для использования специализированных инструментов управления. В данной работе описан процесс преобразования сложных русскоязычных команд естественного языка в формализованный графовый RDF формат для взаимодействия с робототехнической платформой. В этом процессе последовательно задействованы модели нейронных сетей для поиска и замены местоимений в командах, восстановления пропущенных глаголов-действий, декомпозиции сложных команд с несколькими действиями на простые команды с одним действием, классификации атрибутов простых команд. В качестве моделей нейронных сетей используются современные решения &amp;ndash; языковые модели, основанные на архитектуре глубоких нейронных сетей &amp;laquo;трансформер&amp;raquo;. Для каждого из описанных этапов, в предыдущих наших работах были составлены собственные наборы данных на основе разработанного генератора русскоязычных текстовых команд, дополнительно были использованы технологии краудсорсинга и данные из открытых источников. На этих наборах данных был проведена точная настройка языковых моделей нейронных сетей. В предлагаемой работе, полученные настроенные языковые модели были имплементированы в управляющий интерфейс, и оценено&amp;nbsp; влияние этапа поиска и замены местоимений на эффективность преобразования команд. На базе разработанной в Национальном исследовательском центре &amp;laquo;Курчатовский институт&amp;raquo; виртуальной трехмерной модели робототехнического устройства было продемонстрировано, что процесс преобразования сложных русскоязычных команд в составе человеко-машинного интерфейса позволяет эффективно управлять робототехнической платформой при помощи естественного языка.</p></abstract><trans-abstract xml:lang="en"><p>The development of high performance human-machine interface systems for controlling robotic platforms by natural language is a relevant task in interdisciplinary field &amp;laquo;Human-Robot Interaction&amp;raquo;. In particular, it is in demand, when the robotic platform is controlled by an operator without any skills necessary to use specialized control tools. The paper describes a complex Russian language commands processing into a formalized RDF graph format to control a robotic platform. In this processing, neural network models are consistently used to search and replace pronouns in commands, restore missing verbs-actions, decompose a complex command with several actions into simple commands with only one action and classify simple command attribute. State-of-the-art solutions are applied as neural network models in this work. It is language models based on deep neural networks transformer architecture. The previous our papers show synthetic datasets based on developed generator of Russian language text commands, data based on crowdsourcing technologies and data from open sources for each of the described stages of processing. These datasets were used to fine-tune the language models of the neural networks. In this work, the resulting fine-tuned language models are implemented into the interface. The impact of the stage of searching and replacing pronouns on the efficiency of command conversion are evaluated. Using the virtual three-dimensional robotic platform simulator created at the National Research Center &amp;laquo;Kurchatov Institute&amp;raquo;, the high efficiency of complex Russian language commands processing as part of a human-machine interface system is demonstrated.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>Взаимодействие человека и робота</kwd><kwd>Обработка естественного языка</kwd><kwd>Глубокое обучение</kwd><kwd>Искусственный интеллект</kwd><kwd>Интерфейс человек-машина</kwd></kwd-group><kwd-group xml:lang="en"><kwd>Human-robot interaction</kwd><kwd>Natural language processing</kwd><kwd>Deep learning</kwd><kwd>Artificial intelligence</kwd><kwd>Human-robot interface</kwd></kwd-group></article-meta></front><back><ref-list><title>Список литературы</title><ref id="B1"><mixed-citation>Tensorflow: A system for large-scale machine learning / Abadi&amp;nbsp;M. et al. // Proceedings of the 12th USENIX conference on Operating Systems Design and Implementation. 2016. P.&amp;nbsp;265-283.</mixed-citation></ref><ref id="B2"><mixed-citation>Do As I Can and Not As I Say: Grounding Language in Robotic Affordances / Ahn&amp;nbsp;M. et al. // arXiv preprint arXiv: 2204.01691. 2022. https://doi.org/10.48550/arXiv.2204.01691</mixed-citation></ref><ref id="B3"><mixed-citation>Artetxe&amp;nbsp;M., Schwenk&amp;nbsp;H. Massively multilingual sentence embeddings for zero-shot cross-lingual transfer and beyond // Transactions of the Association for Computational Linguistics. 2019. Vol.&amp;nbsp;7. P.&amp;nbsp;597-610. https://doi.org/10.1162/tacl_a_00288</mixed-citation></ref><ref id="B4"><mixed-citation>Belkin&amp;nbsp;I. BERT finetuning and graph modeling for gapping resolution // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference &amp;ldquo;Dialogue 2019&amp;rdquo;. 2019. P.&amp;nbsp;63-71.</mixed-citation></ref><ref id="B5"><mixed-citation>Ru-eval-2019: Evaluating anaphora and coreference resolution for Russian / Budnikov&amp;nbsp;E.A. et al. // Dialogue Evaluation. 2019. URL: https://www.dialog-21.ru/media/4689/budnikovzverevamaximova2019evaluatinganaphoracoreferenceresolution.pdf (дата обращения: 10.10.2022).</mixed-citation></ref><ref id="B6"><mixed-citation>Universal sentence encoder / Cer&amp;nbsp;D. et al. // arXiv preprint arXiv: 1803.11175. 2018. https://doi.org/10.48550/arXiv.1803.11175</mixed-citation></ref><ref id="B7"><mixed-citation>Object Goal Navigation using Goal-Oriented Semantic Exploration / Chaplot&amp;nbsp;D.S., Gandhi&amp;nbsp;D., Gupta&amp;nbsp;A., Salakhutdinov&amp;nbsp;R. // arXiv preprint arXiv: 2007.00643. 2020. https://doi.org/10.48550/arXiv.2007.00643</mixed-citation></ref><ref id="B8"><mixed-citation>Choi&amp;nbsp;D., Langley&amp;nbsp;P. Evolution of the Icarus Cognitive Architecture // Cognitive Systems Research. 2018. P.&amp;nbsp;25-38. https://doi.org/10.1016/j.cogsys.2017.05.005</mixed-citation></ref><ref id="B9"><mixed-citation>Controlling Industrial Robots with High-Level Verbal Commands / Choi&amp;nbsp;D. et al. // ICSR 2021, Social Robotics. 2021. P.&amp;nbsp;216-226. https://doi.org/10.1007/978-3-030-90525-5_19</mixed-citation></ref><ref id="B10"><mixed-citation>PaLM: Scaling Language Modeling with Pathways / Chowdhery&amp;nbsp;A. et al. // arXiv preprint arXiv: 2204.02311. 2022. https://doi.org/10.48550/arXiv.2204.02311</mixed-citation></ref><ref id="B11"><mixed-citation>BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / Devlin&amp;nbsp;J., Chang&amp;nbsp;M-W., Lee&amp;nbsp;K., Toutanova&amp;nbsp;K. // arXiv preprint arXiv: 1810.04805. 2018. https://doi.org/10.48550/arXiv.1810.04805</mixed-citation></ref><ref id="B12"><mixed-citation>Language-agnostic bert sentence embedding / Feng,&amp;nbsp;F. et al. // Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2022. P.&amp;nbsp;878-891. http://dx.doi.org/10.18653/v1/2022.acl-long.62</mixed-citation></ref><ref id="B13"><mixed-citation>Gubbi&amp;nbsp;S.V., Upadrashta&amp;nbsp;R., Amrutur&amp;nbsp;B. Translating Natural Language Instructions to Computer Programs for Robot Manipulation // arXiv preprint arXiv: 2012.13695. 2020. https://doi.org/10.48550/arXiv.2110.12302</mixed-citation></ref><ref id="B14"><mixed-citation>Mask R-CNN / He&amp;nbsp;K., Gkioxari&amp;nbsp;G., Doll`ar&amp;nbsp;P., Girshick&amp;nbsp;R.B. // arXiv preprint arXiv: 1703.06870. 2017.</mixed-citation></ref><ref id="B15"><mixed-citation>Hochreiter&amp;nbsp;S., Schmidhuber&amp;nbsp;J. Long Short-term Memory // Neural computation. 1997. №&amp;nbsp;9. P.&amp;nbsp;1735-1780. https://doi.org/10.1162/neco.1997.9.8.1735</mixed-citation></ref><ref id="B16"><mixed-citation>BERT for Coreference Resolution: Baselines and Analysis / Joshi&amp;nbsp;M., Levy&amp;nbsp;O., Zettlemoyer&amp;nbsp;L., Weld&amp;nbsp;D. // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. 2019. P.&amp;nbsp;5803-5808. http://dx.doi.org/10.18653/v1/D19-1588</mixed-citation></ref><ref id="B17"><mixed-citation>Koenig&amp;nbsp;N., Howard&amp;nbsp;A. Design and use paradigms for Gazebo, an open-source multi-robot simulator // 2004 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Sendai, Japan, 2004. №&amp;nbsp;3. P.&amp;nbsp;2149-2154. DOI: 10.1109/IROS.2004.13897</mixed-citation></ref><ref id="B18"><mixed-citation>Korobov&amp;nbsp;M. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts. 2015. P.&amp;nbsp;320-332. https://doi.org/10.1007/978-3-319-26123-2_31</mixed-citation></ref><ref id="B19"><mixed-citation>Kuratov&amp;nbsp;Y., Arkhipov&amp;nbsp;M. Adaptation of deep bidirectional multilingual transformers for Russian language // arXiv preprint arXiv: 1905.07213. 2019. https://doi.org/10.48550/arXiv.1905.07213</mixed-citation></ref><ref id="B20"><mixed-citation>McBride &amp;nbsp;B. The Resource Description Framework (RDF) and its Vocabulary Description Language RDFS // Handbook on Ontologies. International Handbooks on Information Systems / Staab&amp;nbsp;S., Studer&amp;nbsp;R. (eds.) Springer, Berlin, Heidelberg, 2004. P.&amp;nbsp;51-65. https://doi.org/10.1007/978-3-540-24750-0_3</mixed-citation></ref><ref id="B21"><mixed-citation>FILM: Following Instructions in Language with Modular Methods / Min&amp;nbsp;S.Y. et al. // arXiv preprint arXiv: 2110.07342. 2021. https://doi.org/10.48550/arXiv.2110.07342</mixed-citation></ref><ref id="B22"><mixed-citation>ROS: an open-source Robot Operating System / Quigley&amp;nbsp;M., et al. // Workshops at the IEEE International Conference on Robotics and Automation. 2009.</mixed-citation></ref><ref id="B23"><mixed-citation>Language Models Are Unsupervised Multitask Learners / Radford&amp;nbsp;A. et al. // OpenAI. 2019.</mixed-citation></ref><ref id="B24"><mixed-citation>Raffel&amp;nbsp;C., Shazeer&amp;nbsp;N., Roberts&amp;nbsp;A. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer // arXiv preprint arXiv: 1910.10683. 2019. https://doi.org/10.48550/arXiv.1910.10683</mixed-citation></ref><ref id="B25"><mixed-citation>Нейросетевой интерфейс конвертации сложных русскоязычных текстовых команд в формализованный графовый вид для управления робототехническими устройствами / Сбоев&amp;nbsp;А.Г., Грязнов&amp;nbsp;А.В., Рыбка&amp;nbsp;Р.Б., Скороходов&amp;nbsp;М.С., Молошников&amp;nbsp;И.А. // Вестник Национального исследовательского ядерного университета МИФИ. 2022. Т.&amp;nbsp;11. №&amp;nbsp;2. P.&amp;nbsp;153-163. DOI:10.56304/S2304487X22020092.</mixed-citation></ref><ref id="B26"><mixed-citation>Sboev&amp;nbsp;A., Rybka&amp;nbsp;R., Gryaznov&amp;nbsp;A. Deep Neural Networks Ensemble with Word Vector Representation Models to Resolve Coreference Resolution in Russian // Advanced Technologies in Robotics and Intelligent Systems. 2020. P.&amp;nbsp;34-35. https://doi.org/10.1007/978-3-030-33491-8_4</mixed-citation></ref><ref id="B27"><mixed-citation>Agrr-2019: Automatic gapping resolution for Russian / Smurov&amp;nbsp;I.M., Ponomareva&amp;nbsp;M., Shavrina&amp;nbsp;T.O., Droganova&amp;nbsp;K. // Computational Linguistics and Intellectual Technologies. 2019. P.&amp;nbsp;561-575. DOI:10.18653/v1/W19-3705.</mixed-citation></ref><ref id="B28"><mixed-citation>Van&amp;nbsp;Rossum&amp;nbsp;G., Drake&amp;nbsp;F.L. Python 3 Reference Manual // CreateSpace, Scotts Valley, CA. 2009.</mixed-citation></ref><ref id="B29"><mixed-citation>Attention Is All You Need / Vaswani&amp;nbsp;A. et al. // arXiv preprint arXiv: 1706.03762. 2017. https://doi.org/10.48550/arXiv.1706.03762</mixed-citation></ref><ref id="B30"><mixed-citation>Williams&amp;nbsp;A., Nangia&amp;nbsp;N., Bowsman&amp;nbsp;S.R. A broad-coverage challenge corpus for sentence understanding through inference // arXiv preprint arXiv: 1704.05426. 2017. https://doi.org/10.48550/arXiv.1704.05426</mixed-citation></ref><ref id="B31"><mixed-citation>mT5: A massively multilingual pre-trained text-to-text transformer / Xue&amp;nbsp;L. et al. // arXiv preprint arXiv: 2010.11934. 2020. https://doi.org/10.48550/arXiv.1703.06870</mixed-citation></ref></ref-list></back></article>