<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20190208//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.2" xml:lang="ru" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink"><front><journal-meta><journal-id journal-id-type="issn">2313-8912</journal-id><journal-title-group><journal-title>Научный результат. Вопросы теоретической и прикладной лингвистики</journal-title></journal-title-group><issn pub-type="epub">2313-8912</issn></journal-meta><article-meta><article-id pub-id-type="doi">10.18413/2313-8912-2024-10-4-0-3</article-id><article-id pub-id-type="publisher-id">3674</article-id><article-categories><subj-group subj-group-type="heading"><subject>Большие языковые модели и промпт-инжиниринг в лингвистических исследованиях</subject></subj-group></article-categories><title-group><article-title>&lt;strong&gt;Prompt injection &amp;ndash; проблема лингвистических уязвимостей больших языковых моделей на современном этапе&lt;/strong&gt;</article-title><trans-title-group xml:lang="en"><trans-title>&lt;strong&gt;Prompt injection &amp;ndash; the problem of linguistic vulnerabilities of large language models at the present stage&lt;/strong&gt;</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Зырянова</surname><given-names>Ирина Николаевна</given-names></name><name xml:lang="en"><surname>Zyryanova</surname><given-names>Irina N.</given-names></name></name-alternatives><email>Irina_zyr@mail.ru</email><xref ref-type="aff" rid="aff1" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Чернавский</surname><given-names>Александр Сергеевич</given-names></name><name xml:lang="en"><surname>Chernavskiy</surname><given-names>Alexander S.</given-names></name></name-alternatives><email>Chernavskiy.com@gmail.com</email><xref ref-type="aff" rid="aff2" /></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Трубачев</surname><given-names>Станислав Олегович</given-names></name><name xml:lang="en"><surname>Trubachev</surname><given-names>Stanislav O.</given-names></name></name-alternatives><email>brandei@yandex.ru</email><xref ref-type="aff" rid="aff3" /></contrib></contrib-group><aff id="aff2"><institution>Федеральное государственное бюджетное образовательное учреждение высшего образования «Московский педагогический государственный университет»</institution></aff><aff id="aff3"><institution>ООО «ОПС Гуру»</institution></aff><aff id="aff1"><institution>Федеральное государственное бюджетное образовательное учреждение высшего образования «Байкальский государственный университет»</institution></aff><pub-date pub-type="epub"><year>2024</year></pub-date><volume>10</volume><issue>4</issue><fpage>0</fpage><lpage>0</lpage><self-uri content-type="pdf" xlink:href="/media/linguistics/2024/4/Research_Result_4-42-41-66.pdf" /><abstract xml:lang="ru"><p>В данной статье рассматривается феномен &amp;laquo;инъекции запросов&amp;raquo; в контексте современных больших языковых моделей (LLMs), что представляет собой актуальную проблему для разработчиков и исследователей в области ИИ. Исследование включает теоретический и методологический обзор научных публикаций, углубляющий понимание текущего состояния в этой области. Авторы представляют результаты кейс-стади, проводя сравнительный анализ лингвистической уязвимости популярных LLM, таких как Chat GPT 4o, Claude 3.5 и Yandex GPT. В ходе исследования были проведены эксперименты для проверки устойчивости этих моделей к различным векторным атакам с целью оценить, насколько эффективно каждая модель противостоит манипулятивным запросам, направленным на использование их лингвистических возможностей. На основе полученных данных была разработана таксономия типов атак &amp;laquo;инъекции запросов&amp;raquo;, классифицирующая их по эффективности и нацеленности на конкретные LLM. Эта классификация помогает понять природу уязвимости и служит основой для будущих исследований в данной области. Кроме того, в статье предлагаются рекомендации по повышению устойчивости языковых моделей к негативным манипуляциям, что является важным шагом к созданию более безопасных и этичных систем ИИ. Эти рекомендации основаны на эмпирических данных и направлены на предоставление практических рекомендаций для разработчиков, стремящихся улучшить безопасность своих моделей против потенциальных угроз. Результаты исследования расширяют наше понимание лингвистической уязвимости в LLM и способствуют разработке более эффективных стратегий защиты, что имеет практическое значение для будущих исследований и внедрения LLM в различных сферах, включая образование, здравоохранение и обслуживание клиентов в целом. Авторы подчеркивают необходимость постоянного мониторинга и улучшения безопасности языковых моделей в условиях постоянно меняющегося технологического ландшафта. Представленные выводы призывают к постоянному диалогу между заинтересованными сторонами для решения проблем, связанных с &amp;laquo;инъекцией запросов&amp;raquo;.



</p></abstract><trans-abstract xml:lang="en"><p>The article examines the phenomenon of &amp;ldquo;prompt injection&amp;rdquo; in the context of contemporary large language models (LLMs), elucidating a significant challenge for AI developers and researchers. The study comprises a theoretical and methodological review of scholarly publications, thereby enhancing the comprehension of the present state of research in this field. The authors present the findings of a case study, which employs a comparative analysis of the linguistic vulnerabilities of prominent LLMs, including Chat GPT 4.0, Claude 3.5, and Yandex GPT. The study employs experimental evaluation to assess the resilience of these models against a range of vector attacks, with the objective of determining the extent to which each model resists manipulative prompts designed to exploit their linguistic capabilities. A taxonomy of prompt injection attack types was developed based on the collected data, with classification according to effectiveness and targeting of specific LLMs. This classification facilitates comprehension of the nature of these vulnerabilities and provides a basis for future research in this field. Moreover, the article offers suggestions for bolstering the resilience of language models against negative manipulations, representing a significant stride towards the development of safer and more ethical AI systems. These recommendations are based on empirical data and aim to provide practical guidance for developers seeking to enhance the resilience of their models against potential threats. The research findings extend our understanding of linguistic vulnerabilities in LLMs, while also contributing to the development of more effective defence strategies. These have practical implications for the deployment of LLMs across various domains, including education, healthcare and customer service. The authors emphasise the necessity for continuous monitoring and improvement of language model security in an ever-evolving technological landscape. The findings suggest the necessity for an ongoing dialogue among stakeholders to address issues pertaining to the prompt injection of funds.



</p></trans-abstract><kwd-group xml:lang="ru"><kwd>Prompt injection</kwd><kwd>«Инъекции запросов»</kwd><kwd>БЯМ (Большие языковые модели)</kwd><kwd>Лингвистическая уязвимость БЯМ</kwd><kwd>Безопасность БЯМ</kwd><kwd>Лингвистические атаки БЯМ</kwd><kwd>Атаки на ИИ</kwd></kwd-group><kwd-group xml:lang="en"><kwd>Prompt injection</kwd><kwd>Large language models</kwd><kwd>LLM</kwd><kwd>LLM vulnerabilities</kwd><kwd>LLM jailbreak</kwd><kwd>security of AI</kwd><kwd>Linguistic attacks on LLM</kwd><kwd>Prompts security</kwd></kwd-group></article-meta></front><back><ref-list><title>Список литературы</title><ref id="B1"><mixed-citation>Chang&amp;nbsp;Z., Li&amp;nbsp;M., Liu&amp;nbsp;Y., Wang&amp;nbsp;J., Wang&amp;nbsp;Q., Liu&amp;nbsp;Y. Play guessing game with LLM: Indirect jailbreak attack with implicit clues. 2024. arXiv preprint arXiv:2402.09091. https://doi.org/10.48550/arXiv.2402.09091</mixed-citation></ref><ref id="B2"><mixed-citation>Chen S., Zharmagambetov A., Mahloujifar S., Chaudhuri K., Guo C. Aligning LLMs to be robust against prompt injection. 2024. arXiv preprint arXiv:2410.05451. https://doi.org/10.48550/arXiv.2410.05451</mixed-citation></ref><ref id="B3"><mixed-citation>Duan M., Suri A., Mireshghallah N., Min S., Shi W., Zettlemoyer L., Tsvetkov&amp;nbsp;Yu, Choi,Y., Evans&amp;nbsp;D., Hajishirzi H. Do membership inference attacks work on large language models? 2024. arXiv preprint arXiv:2402.07841. https://doi.org/10.48550/arXiv.2402.07841</mixed-citation></ref><ref id="B4"><mixed-citation>Hines&amp;nbsp;K., Lopez&amp;nbsp;G., Hall&amp;nbsp;M., Zarfati&amp;nbsp;F., Zunger&amp;nbsp;Y., Kiciman&amp;nbsp;E. Defending against indirect prompt injection attacks with spotlighting. 2024. arXiv preprint arXiv:2403.14720. https://doi.org/10.48550/arXiv.2403.14720</mixed-citation></ref><ref id="B5"><mixed-citation>Khandelwal&amp;nbsp;U., Levy&amp;nbsp;O., Jurafsky&amp;nbsp;D., Zettlemoyer&amp;nbsp;L. and Lewis&amp;nbsp;M. Generalization through memorization: Nearest neighbor language models. 2019. arXiv preprint arXiv:1911.00172. https://doi.org/10.48550/arXiv.1911.00172</mixed-citation></ref><ref id="B6"><mixed-citation>Kumar&amp;nbsp;S.&amp;nbsp;S., Cummings&amp;nbsp;M.&amp;nbsp;L., Stimpson&amp;nbsp;A. Strengthening LLM trust boundaries: A survey of prompt injection attacks // 2024 IEEE 4th International Conference on Human-Machine Systems (ICHMS).&amp;nbsp;2024, May. Pp.&amp;nbsp;1&amp;ndash;6. URL: https://www.researchgate.net/profile/Missy-Cummings/publication/378072627_Strengthening_LLM_Trust_Boundaries_A_Survey_of_Prompt_Injection_Attacks/links/65c57ac379007454976ae142/Strengthening-LLM-Trust-Boundaries-A-Survey-of-Prompt-Injection-Attacks.pdf/ (дата обращения: 29.06.2024). DOI: 10.1109/ICHMS59971.2024.10555871</mixed-citation></ref><ref id="B7"><mixed-citation>Li&amp;nbsp;X., Wang&amp;nbsp;R., Cheng&amp;nbsp;M., Zhou&amp;nbsp;T., Hsieh&amp;nbsp;C.&amp;nbsp;J. Drattack: Prompt decomposition and reconstruction makes powerful llm jailbreakers. 2024. arXiv preprint arXiv:2402.16914. https://doi.org/10.48550/arXiv.2402.16914</mixed-citation></ref><ref id="B8"><mixed-citation>Liu&amp;nbsp;X., Yu&amp;nbsp;Z., Zhang&amp;nbsp;Y., Zhang&amp;nbsp;N., Xiao&amp;nbsp;C. Automatic and universal prompt injection attacks against large language models. 2024. arXiv preprint arXiv:2403.04957. https://doi.org/10.48550/arXiv.2403.04957</mixed-citation></ref><ref id="B9"><mixed-citation>Marvin&amp;nbsp;G., Hellen&amp;nbsp;N., Jjingo&amp;nbsp;D., Nakatumba-Nabende&amp;nbsp;J. Prompt engineering in large language models // Proceedings of the International conference on data intelligence and cognitive informatics. Springer Nature Singapore, Singapore, 2023. Pp.&amp;nbsp;387&amp;ndash;402. URL: https://www.researchgate.net/publication/377214553_Prompt_Engineering_in_Large_Language_Models (дата обращения: 29.06.2024). DOI: 10.1007/978-981-99-7962-2_30</mixed-citation></ref><ref id="B10"><mixed-citation>Мударова&amp;nbsp;Р.&amp;nbsp;М., Намиот&amp;nbsp;Д.&amp;nbsp;Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. 2024. Т.&amp;nbsp;12. №&amp;nbsp;5. С.&amp;nbsp;39&amp;ndash;48.</mixed-citation></ref><ref id="B11"><mixed-citation>Pedro&amp;nbsp;R., Castro&amp;nbsp;D., Carreira&amp;nbsp;P. and Santos&amp;nbsp;N. From prompt injections to SQL injection attacks: How protected is your llm-integrated web application? 2023. arXiv preprint arXiv:2308.01990. DOI: https://doi.org/10.48550/arXiv.2308.01990</mixed-citation></ref><ref id="B12"><mixed-citation>Piet&amp;nbsp;J., Alrashed&amp;nbsp;M., Sitawarin&amp;nbsp;C., Chen&amp;nbsp;S., Wei&amp;nbsp;Z., Sun&amp;nbsp;E., Wagner&amp;nbsp;D. Jatmo: Prompt injection defense by task-specific finetuning. 2023. arXiv preprint arXiv:2312.17673. DOI: https://doi.org/10.48550/arXiv.2312.17673</mixed-citation></ref><ref id="B13"><mixed-citation>R&amp;ouml;ttger&amp;nbsp;P., Pernisi&amp;nbsp;F., Vidgen&amp;nbsp;B., Hovy&amp;nbsp;D. Safety prompts: a systematic review of open datasets for evaluating and improving large language model safety. 2024. arXiv preprint arXiv:2404.05399.m. https://doi.org/10.48550/arXiv.2404.05399</mixed-citation></ref><ref id="B14"><mixed-citation>Rossi&amp;nbsp;S., Michel&amp;nbsp;A.&amp;nbsp;M., Mukkamala&amp;nbsp;R.&amp;nbsp;R., Thatcher&amp;nbsp;J.&amp;nbsp;B. An early categorization of prompt injection attacks on Large Language Models. 2024. arXiv preprint arXiv:2402.00898. https://doi.org/10.48550/arXiv.2402.00898</mixed-citation></ref><ref id="B15"><mixed-citation>Tavabi&amp;nbsp;N., Goyal&amp;nbsp;P., Almukaynizi&amp;nbsp;M., Shakarian&amp;nbsp;P., Lerman&amp;nbsp;K. Darkembed: Exploit prediction with neural language models // Proceedings of the AAAI Conference on Artificial Intelligence. 2018. 32. 1. Pp.&amp;nbsp;7849&amp;ndash;7854. DOI: https://doi.org/10.1609/aaai.v32i1.11428</mixed-citation></ref><ref id="B16"><mixed-citation>Yan&amp;nbsp;J., Yadav&amp;nbsp;V., Li&amp;nbsp;S., Chen&amp;nbsp;L., Tang&amp;nbsp;Z., Wang&amp;nbsp;H., Jin&amp;nbsp;H. Backdooring instruction-tuned large language models with virtual prompt injection // Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2024. Vol. 1: Pp. 6065&amp;ndash;6086. DOI: 10.18653/v1/2024.naacl-long.337</mixed-citation></ref><ref id="B17"><mixed-citation>Yu&amp;nbsp;J., Wu&amp;nbsp;Y., Shu&amp;nbsp;D., Jin&amp;nbsp;M., Yang&amp;nbsp;S., Xing&amp;nbsp;X. Assessing prompt injection risks in 200+ custom GPTS. 2023. arXiv preprint arXiv:2311.11538. https://doi.org/10.48550/arXiv.2311.11538</mixed-citation></ref><ref id="B18"><mixed-citation>Yu&amp;nbsp;Z., Liu&amp;nbsp;X., Liang&amp;nbsp;S., Cameron&amp;nbsp;Z., Xiao&amp;nbsp;C. and Zhang&amp;nbsp;N. Don&amp;#39;t listen to me:&amp;nbsp;understanding and exploring jailbreak prompts of large language models. 2024. arXiv preprint arXiv:2403.17336. https://doi.org/10.48550/arXiv.2403.17336</mixed-citation></ref><ref id="B19"><mixed-citation>Zhang&amp;nbsp;J. Should we fear large language models? A structural analysis of the human reasoning system for elucidating LLM capabilities and risks through the lens of Heidegger&amp;rsquo;s philosophy. 2024. arXiv preprint arXiv:2403.03288. https://doi.org/10.48550/arXiv.2403.03288</mixed-citation></ref></ref-list></back></article>