Prompt injection – проблема лингвистических уязвимостей больших языковых моделей на современном этапе
В данной статье рассматривается феномен «инъекции запросов» в контексте современных больших языковых моделей (LLMs), что представляет собой актуальную проблему для разработчиков и исследователей в области ИИ. Исследование включает теоретический и методологический обзор научных публикаций, углубляющий понимание текущего состояния в этой области. Авторы представляют результаты кейс-стади, проводя сравнительный анализ лингвистической уязвимости популярных LLM, таких как Chat GPT 4o, Claude 3.5 и Yandex GPT. В ходе исследования были проведены эксперименты для проверки устойчивости этих моделей к различным векторным атакам с целью оценить, насколько эффективно каждая модель противостоит манипулятивным запросам, направленным на использование их лингвистических возможностей. На основе полученных данных была разработана таксономия типов атак «инъекции запросов», классифицирующая их по эффективности и нацеленности на конкретные LLM. Эта классификация помогает понять природу уязвимости и служит основой для будущих исследований в данной области. Кроме того, в статье предлагаются рекомендации по повышению устойчивости языковых моделей к негативным манипуляциям, что является важным шагом к созданию более безопасных и этичных систем ИИ. Эти рекомендации основаны на эмпирических данных и направлены на предоставление практических рекомендаций для разработчиков, стремящихся улучшить безопасность своих моделей против потенциальных угроз. Результаты исследования расширяют наше понимание лингвистической уязвимости в LLM и способствуют разработке более эффективных стратегий защиты, что имеет практическое значение для будущих исследований и внедрения LLM в различных сферах, включая образование, здравоохранение и обслуживание клиентов в целом. Авторы подчеркивают необходимость постоянного мониторинга и улучшения безопасности языковых моделей в условиях постоянно меняющегося технологического ландшафта. Представленные выводы призывают к постоянному диалогу между заинтересованными сторонами для решения проблем, связанных с «инъекцией запросов».
Иллюстрации
Зырянова И. Н., Чернавский А. С., Трубачев С. О. Prompt injection – проблема лингвистических уязвимостей больших языковых моделей на современном этапе // Научный результат. Вопросы теоретической и прикладной лингвистики. 2024. Т. 10. № 4. C. 40–52.
Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.
Chang Z., Li M., Liu Y., Wang J., Wang Q., Liu Y. Play guessing game with LLM: Indirect jailbreak attack with implicit clues. 2024. arXiv preprint arXiv:2402.09091. https://doi.org/10.48550/arXiv.2402.09091
Chen S., Zharmagambetov A., Mahloujifar S., Chaudhuri K., Guo C. Aligning LLMs to be robust against prompt injection. 2024. arXiv preprint arXiv:2410.05451. https://doi.org/10.48550/arXiv.2410.05451
Duan M., Suri A., Mireshghallah N., Min S., Shi W., Zettlemoyer L., Tsvetkov Yu, Choi,Y., Evans D., Hajishirzi H. Do membership inference attacks work on large language models? 2024. arXiv preprint arXiv:2402.07841. https://doi.org/10.48550/arXiv.2402.07841
Hines K., Lopez G., Hall M., Zarfati F., Zunger Y., Kiciman E. Defending against indirect prompt injection attacks with spotlighting. 2024. arXiv preprint arXiv:2403.14720. https://doi.org/10.48550/arXiv.2403.14720
Khandelwal U., Levy O., Jurafsky D., Zettlemoyer L. and Lewis M. Generalization through memorization: Nearest neighbor language models. 2019. arXiv preprint arXiv:1911.00172. https://doi.org/10.48550/arXiv.1911.00172
Kumar S. S., Cummings M. L., Stimpson A. Strengthening LLM trust boundaries: A survey of prompt injection attacks // 2024 IEEE 4th International Conference on Human-Machine Systems (ICHMS). 2024, May. Pp. 1–6. URL: https://www.researchgate.net/profile/Missy-Cummings/publication/378072627_Strengthening_LLM_Trust_Boundaries_A_Survey_of_Prompt_Injection_Attacks/links/65c57ac379007454976ae142/Strengthening-LLM-Trust-Boundaries-A-Survey-of-Prompt-Injection-Attacks.pdf/ (дата обращения: 29.06.2024). DOI: 10.1109/ICHMS59971.2024.10555871
Li X., Wang R., Cheng M., Zhou T., Hsieh C. J. Drattack: Prompt decomposition and reconstruction makes powerful llm jailbreakers. 2024. arXiv preprint arXiv:2402.16914. https://doi.org/10.48550/arXiv.2402.16914
Liu X., Yu Z., Zhang Y., Zhang N., Xiao C. Automatic and universal prompt injection attacks against large language models. 2024. arXiv preprint arXiv:2403.04957. https://doi.org/10.48550/arXiv.2403.04957
Marvin G., Hellen N., Jjingo D., Nakatumba-Nabende J. Prompt engineering in large language models // Proceedings of the International conference on data intelligence and cognitive informatics. Springer Nature Singapore, Singapore, 2023. Pp. 387–402. URL: https://www.researchgate.net/publication/377214553_Prompt_Engineering_in_Large_Language_Models (дата обращения: 29.06.2024). DOI: 10.1007/978-981-99-7962-2_30
Мударова Р. М., Намиот Д. Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. 2024. Т. 12. № 5. С. 39–48.
Pedro R., Castro D., Carreira P. and Santos N. From prompt injections to SQL injection attacks: How protected is your llm-integrated web application? 2023. arXiv preprint arXiv:2308.01990. DOI: https://doi.org/10.48550/arXiv.2308.01990
Piet J., Alrashed M., Sitawarin C., Chen S., Wei Z., Sun E., Wagner D. Jatmo: Prompt injection defense by task-specific finetuning. 2023. arXiv preprint arXiv:2312.17673. DOI: https://doi.org/10.48550/arXiv.2312.17673
Röttger P., Pernisi F., Vidgen B., Hovy D. Safety prompts: a systematic review of open datasets for evaluating and improving large language model safety. 2024. arXiv preprint arXiv:2404.05399.m. https://doi.org/10.48550/arXiv.2404.05399
Rossi S., Michel A. M., Mukkamala R. R., Thatcher J. B. An early categorization of prompt injection attacks on Large Language Models. 2024. arXiv preprint arXiv:2402.00898. https://doi.org/10.48550/arXiv.2402.00898
Tavabi N., Goyal P., Almukaynizi M., Shakarian P., Lerman K. Darkembed: Exploit prediction with neural language models // Proceedings of the AAAI Conference on Artificial Intelligence. 2018. 32. 1. Pp. 7849–7854. DOI: https://doi.org/10.1609/aaai.v32i1.11428
Yan J., Yadav V., Li S., Chen L., Tang Z., Wang H., Jin H. Backdooring instruction-tuned large language models with virtual prompt injection // Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2024. Vol. 1: Pp. 6065–6086. DOI: 10.18653/v1/2024.naacl-long.337
Yu J., Wu Y., Shu D., Jin M., Yang S., Xing X. Assessing prompt injection risks in 200+ custom GPTS. 2023. arXiv preprint arXiv:2311.11538. https://doi.org/10.48550/arXiv.2311.11538
Yu Z., Liu X., Liang S., Cameron Z., Xiao C. and Zhang N. Don't listen to me: understanding and exploring jailbreak prompts of large language models. 2024. arXiv preprint arXiv:2403.17336. https://doi.org/10.48550/arXiv.2403.17336
Zhang J. Should we fear large language models? A structural analysis of the human reasoning system for elucidating LLM capabilities and risks through the lens of Heidegger’s philosophy. 2024. arXiv preprint arXiv:2403.03288. https://doi.org/10.48550/arXiv.2403.03288