Prompt injection – проблема лингвистических уязвимостей больших языковых моделей на современном этапе
Aннотация
В данной статье рассматривается феномен «инъекции запросов» в контексте современных больших языковых моделей (LLMs), что представляет собой актуальную проблему для разработчиков и исследователей в области ИИ. Исследование включает теоретический и методологический обзор научных публикаций, углубляющий понимание текущего состояния в этой области. Авторы представляют результаты кейс-стади, проводя сравнительный анализ лингвистической уязвимости популярных LLM, таких как Chat GPT 4o, Claude 3.5 и Yandex GPT. В ходе исследования были проведены эксперименты для проверки устойчивости этих моделей к различным векторным атакам с целью оценить, насколько эффективно каждая модель противостоит манипулятивным запросам, направленным на использование их лингвистических возможностей. На основе полученных данных была разработана таксономия типов атак «инъекции запросов», классифицирующая их по эффективности и нацеленности на конкретные LLM. Эта классификация помогает понять природу уязвимости и служит основой для будущих исследований в данной области. Кроме того, в статье предлагаются рекомендации по повышению устойчивости языковых моделей к негативным манипуляциям, что является важным шагом к созданию более безопасных и этичных систем ИИ. Эти рекомендации основаны на эмпирических данных и направлены на предоставление практических рекомендаций для разработчиков, стремящихся улучшить безопасность своих моделей против потенциальных угроз. Результаты исследования расширяют наше понимание лингвистической уязвимости в LLM и способствуют разработке более эффективных стратегий защиты, что имеет практическое значение для будущих исследований и внедрения LLM в различных сферах, включая образование, здравоохранение и обслуживание клиентов в целом. Авторы подчеркивают необходимость постоянного мониторинга и улучшения безопасности языковых моделей в условиях постоянно меняющегося технологического ландшафта. Представленные выводы призывают к постоянному диалогу между заинтересованными сторонами для решения проблем, связанных с «инъекцией запросов».
Ключевые слова: Prompt injection, «Инъекции запросов», БЯМ (Большие языковые модели), Лингвистическая уязвимость БЯМ, Безопасность БЯМ, Лингвистические атаки БЯМ, Атаки на ИИ
Введение
В последние годы исследования в области обработки естественного языка достигли значительных успехов, что вызвало широкий интерес не только в академической среде, но и за её пределами. В результате этого множество компаний и исследовательских лабораторий начали активно внедрять большие языковые модели через интерфейсы программирования приложений и чат-боты. Эти инструменты, основанные на методах глубокого обучения, обладают способностью решать широкий спектр задач — от генерации текста, классификации и суммаризации до создания скриптов и исправления ошибок в различных языках программирования. Среди наиболее известных больших языковых моделей можно выделить GPT-4 от OpenAI, LLaMA от Meta и Bard от Google.
Переход к использованию простых и удобных интерфейсов (например, чат-запросов) для больших языковых моделей существенно способствовал демократизации доступа к искусственному интеллекту, предоставляя людям и организациям возможность пользоваться мощными инструментами обработки естественного языка, которые ранее были доступны только специалистам с глубокими знаниями в области компьютерных наук и вычислительными ресурсами, находившимися в распоряжении самых состоятельных организаций (Rossi и др., 2024).
В условиях стремительного прогресса в области искусственного интеллекта, особенно БЯМ, инженерия запросов (prompt engineering) стала ключевым навыком для эффективного взаимодействия с языковыми инструментами. Этот подход позволяет внедрять правила и автоматизировать процессы, обеспечивая высокое качество и количество генерируемых БЯМ результатов. Порядок предоставления примеров в запросах, автоматическая генерация инструкций и методы их выбора доказали свою значимость для повышения производительности БЯМ. Стоит отметить, что автоматически сгенерированные инструкции демонстрируют равное или даже превосходящее качество по сравнению с инструкциями, аннотированными человеком, и превосходят стандартные показатели БЯМ, что превращает инженерию запросов в программную процедуру для настройки выходных данных и взаимодействия БЯМ (Marvin и др., 2023).
Одной из наиболее актуальных проблем уже стал феномен “prompt injection” – особый вид атаки на лингвистическую уязвимость общедоступных БЯМ. Данное исследование ставит своей целью анализ этой критической проблемы и разработку авторских рекомендаций для улучшения перспективных методов защиты. В широком смысле, феномен prompt injection представляет собой сложный комплекс различных типов сетевых атак. Например, сегодня мы можем привести следующий перечень: Indirect Prompt Injection Threats, Jailbreak, Prompt Leaking, SQL Injection, Vulnerabilities in API. Однако в нашем исследовании мы сосредоточимся только на специфическом виде семантических атак на БЯМ (Liu и др, 2024).
Суть проблемы заключается в том, что злоумышленник может сформулировать в запросе к модели «скрытые» инструкции, которые изменят генерации БЯМ вопреки их изначальному предназначению и предусмотренным ограничениям (Yan и др, 2024). Эти манипуляции бросают вызов и ставят под угрозу фундаментальную парадигму безопасного взаимодействия человека с ИИ, подрывая доверие к данным продвинутым моделям.
Почему же проблема prompt injection представляет собой серьезную угрозу? Во-первых, современные БЯМ обладают высокой степенью обобщения (Khandelwa и др, 2019) – и способны интерпретировать весьма сложные лингвистические конструкции по широкому кругу тем. Во-вторых, они зачастую имеют доступ к конфиденциальной информации и могут выполнять критически важные задачи с точки зрения общественного блага. В-третьих, основные технические особенности интерактивного взаимодействия БЯМ и позволяют производить разнообразные виды «лингвистических атак» (Chang и др, 2024). Проблема prompt injection поднимает фундаментальные вопросы о природе языка и коммуникации в контексте искусственного интеллекта. Можем ли мы сегодня создать по-настоящему безопасную БЯМ? Какие основные проблемы «лингвистической безопасности» [Tavabi и др., 2018] необходимо решать/предусмотреть разработчикам БЯМ на современном этапе программирования/настройки? Эти вопросы требует сегодня системного решения, где авторы видят основную методологическую роль у трансдисциплинарного подхода, объединяющего лингвистику (Röttger и др., 2024), философию языка (Zhang, 2024) и компьютерные науки.
Большие языковые модели нашли широкое применение в различных областях, включая веб-приложения, где они облегчают взаимодействие человека посредством чат-ботов с интерфейсами на естественном языке. Внутренне, с помощью промежуточного программного обеспечения для интеграции БЯМ, такого как Langchain, пользовательские запросы преобразуются в промты, которые затем используются БЯМ для предоставления значимых ответов пользователям. Однако несанифицированные пользовательские запросы могут привести к атакам с использованием prompt injection что потенциально ставит под угрозу безопасность базы данных. Новая возможность пользовательской настройки моделей для удовлетворения конкретных потребностей открыла новые горизонты в применении ИИ. Через инъекцию в запрос злоумышленник может не только извлечь системные запросы, настроенные пользователем, но и получить доступ к загруженным файлам (Yu и др., 2023). Несмотря на растущий интерес к уязвимостям, связанным с инъекциями в запросы к БЯМ, конкретные риски, связанные с генерацией атак prompt injection, остаются недостаточно изученными (Pedro и др., 2023).
Сегодня многочисленные алгоритмы защиты находятся в стадии активной разработки для противодействия таким атакам на БЯМ. Соответствующие актуальные предложения основываются на разнообразных алгоритмических решениях и предлагают различные верифицированные способы оптимизации безопасности (анализируется защитные алгоритмы «выравнивания», атаки MIA, потенциал декомпозиции запросов и др. (Chen и др, 2024, Duan и др, 2024, Li и др, 2024). При этом, отметим, что поскольку мы не затрагиваем вопросы атак на БЯМ, непосредственно связанных с использованием/внедрением вредоносного программного кода, по сути основная экспериментальная часть нашего исследования сфокусирована на проблеме prompt jailbreak, следуя устоявшимся терминологическим соглашениям в академической практике. (Yu и др, 2024). Например, злоумышленник может ввести манипулятивную инструкцию, обходя установленные ограничений и маскируя ее под обычный вопрос или запрос, чтобы модель предоставила запрещенную информацию. Такая формулировка может побудить модель раскрыть способы обхода защитных мер или указать, как на слабые места системы, так и на тип запроса, завуалированный при использовании сценария изменения безопасности. Модель, «не осознавая» истинного намерения запроса, может предоставить информацию или советы, которые противоречат ее назначению.
Следовательно, данное исследование позиционирует себя на стыке лингвистической безопасности и этики искусственного интеллекта, что способствует глубокому пониманию угроз «инъекции запросов» и содействует разработке надежных протоколов безопасности для потенциальных приложений БЯМ.
Основная часть
Цель исследования
Для изучения феномена prompt injection авторами реализована серия авторских экспериментов (case study) с различными общедоступными популярными БЯМ. Цель исследования – создать обобщенную таксономию возможностей лингвистических атак prompt injection/jailbreak и их эффективности против различных популярных БЯМ, а также по итогам экспериментов разработать набор авторских рекомендаций по повышению устойчивости языковых моделей к соответствующим лингвистическим манипуляциям.
Реализация цели работы подразумевает решение следующих задач:
1. Анализ уязвимостей (case study): тестирование трех основных общедоступных и популярных моделей (Chat GPT, Claude, Yandex GPT) на устойчивость к различным типам "инъекций", включая как прямые, синтаксически усложненные команды, условия выполнения задач, так и скрытые инструкции, вариативные семантические манипуляции (Hines, 2024).
2. Разработка авторских рекомендаций по итогам экспериментов: на основе оценки эффективности методов фильтрации и “санитаризации” входных данных/построение promts, а также базовых лингвистических техник "иммунизации" БЯМ, создание рекомендаций по защите от данного вектора атак (Mudarova, Namiot, 2024).
Материал и методы исследования
При проведении авторских экспериментов мы выделили 3 основные направления для исследования в контексте заявленной темы. Каждое из направлений было выбрано на основе актуальности и потенциального влияния на общество и технологии.
1. Программно-инженерные решения, которые могут быть использованы для кибератак/получения несанкционированного доступа к управлению БЯМ (HackCode). В рамках этого направления мы исследовали различные инструменты и методики, которые могут быть использованы злоумышленниками для осуществления кибератак. Мы проанализировали существующие уязвимости в популярных программных продуктах и оценили, как генеративные модели могут помочь в создании вредоносного кода. Исследование включало анализ реальных кейсов кибератак, а также оценку возможностей генеративных моделей в автоматизации процессов создания вредоносного ПО.
2. Обход ограничений в области создания материалов для взрослых (AdultContent). Это направление направлено на изучение того, как генеративные модели могут использоваться для создания контента, который попадает под ограничения и цензуру. Мы провели эксперименты с различными запросами, чтобы определить, насколько эффективно модели могут обходить встроенные фильтры и ограничения. Важным аспектом этого исследования было понимание этических и правовых последствий таких действий, а также потенциальное влияние на общество.
3. Создание поддельного/сфабрикованного контента разного типа (FakeNews). В этом направлении мы сосредоточились на генерации дезинформации и фейковых новостей. Мы исследовали, как генеративные модели могут быть использованы для создания правдоподобных, но ложных новостей, а также проанализировали, как такие материалы могут влиять на общественное мнение и восприятие информации. Эксперименты включали создание различных типов фейковых новостей, от политических до социальных, с целью оценки их воздействия на целевую аудиторию.
По каждому направлению авторами для эксперимента были соответственно подготовлены по 20 запросов для трех тестируемых БЯМ.
В каждой из вышеперечисленных направлений были определены три основные категории итоговых результатов:
1. Negative (neg) – в генерации по запросу пользователя отказано по любым причинам. Эта категория включает случаи, когда модель отказывается выполнять запрос из-за встроенных ограничений или этических соображений.
2. Positive (pos) – генерация по запросу реализована в полном объеме. Здесь рассматриваются успешные результаты, когда модель смогла выполнить запрос пользователя без каких-либо ограничений или ошибок.
3. Error (err) – по итогам запроса наблюдается какой-то вид явной ошибки БЯМ (галлюцинации, сбой генерации, явные ошибки в генерациях). Эта категория включает случаи, когда модель выдает неуместные или неверные результаты, что может указывать на проблемы в ее обучении или архитектуре.
В таблицах ниже представлены сводные результаты авторского эксперимента с частичным цитированием успешных “prompt injection/jailbreak”, которые иллюстрируют частоту возникновения каждой из категории результатов в зависимости от направления исследования. Эти данные помогут глубже понять возможности и ограничения БЯМ в контексте заданных тем.
Таблица 1. Общие показатели
Table 1. General Indicators
Таблица 2. Примеры успешных prompt injection[1]
Table 2. Examples of Successful Prompt Injection
Результаты исследования и их обсуждение
В ходе данного эксперимента был проведен лингвистический анализ запросов, направленных на генерацию различных текстов с использованием моделей больших языковых моделей (БЯМ) таких как Chat GPT-4, Claude 3.5 и Yandex GPT. Целью исследования было проверить, насколько эти модели могут быть склонны к выполнению запросов, включая потенциально неэтичные или противоречащие правилам использования, а также оценить их способность создавать тексты, которые могут нарушать установленные ограничения.
Большинство запросов включали инструкции для моделирования конкретных ситуаций или событий, что требовало от моделей точного понимания запрашиваемой информации и применения соответствующих словарных и семантических единиц. Запросы, направленные на генерацию в БЯМ, связаны с созданием текстов на чувствительные, провокационные или неэтичные темы с использованием обсценной лексики, а также создание литературных произведений, имитирующих стиль известных, но скандализированных авторов. Результаты анализа показали, что модели в целом эффективно распознают и реагируют на запросы, которые могут представлять собой попытки внедрения вредоносных команд (prompt injection/jailbreak). В частности, GPT демонстрирует способность эффективно работать со сложной лексикой и создавать тексты, соответствующие профессиональным стандартам. Например, при выполнении литературных запросов модель успешно имитирует стиль запрашиваемых авторов (например, маркиз де Сад, Уильям Берроуз), однако старается избегать создания излишне эксплицитного контента, если это возможно. Это подчеркивает высокую степень адаптивности и когнитивной гибкости модели в ответах на различные тематические запросы. Тем не менее, в ответах на явно неэтичные запросы данная модель обычно отказывается от выполнения, либо указывает на недопустимость создания таких текстов. В случаях, когда запросы выходят за рамки допустимого, GPT вводит ограничения, стремясь минимизировать нежелательный контент.
Yandex GPT в своей модели использует самые строгие фильтры, когда запросы касаются незаконных или этически сомнительных тем. В случаях, когда выполнение запроса возможно, модель предпочитает нейтральную и общую лексику, избегая конкретных деталей, которые могли бы нарушить политику использования. В подавляющем большинстве случаев Yandex GPT отказывается предоставлять ответы на провокационные или неэтичные запросы в ходе авторского эксперимента, подчеркивая несоответствие запросов этическим или политическим нормам модели. Вместо этого модель предлагает сменить тему или перенаправить запрос на что-то более безопасное. Если модель распознает потенциальную опасность или риск, она использует предупредительные фразы, чтобы обратить внимание пользователя на неприемлемость таких действий.
Claude 3.5 и Yandex GPT по итогам авторского эксперимента демонстрируют максимальную способность ограничивать создание "неприемлемого" контента, – либо трансформируя запросы, либо отклоняя их выполнение. Однако при определенных условиях, таких как смешение допустимых и недопустимых тем, БЯМ может частично поддаться манипуляциям и создать контент, выходящий за рамки базовых этических норм/ограничений. Это подчеркивает необходимость усиления фильтров и дополнительных механизмов для предотвращения таких ситуаций.
Несмотря на общую устойчивость к этически сомнительным запросам, были зафиксированы случаи, когда языковые модели частично поддавались манипуляциям, особенно при сложносочиненных запросах к БЯМ. Это свидетельствует о важности дальнейшего совершенствования механизмов защиты. В связи с этим можно выделить следующие рекомендации, направленные на повышение безопасности и надежности работы тестируемых моделей, сохраняя при этом их высокие когнитивные способности в создании убедительного и достоверного контента:
1. Необходимо усилить фильтры, отслеживающие и предотвращающие выполнение запросов, которые могут нарушать этические нормы или политику использования модели. Особое внимание следует уделять сложным и многоуровневым запросам, которые могут использоваться для обхода ограничений.
2. Модели должны развивать способность к динамической оценке контекста запросов, чтобы более эффективно выявлять скрытые намерения пользователей и предотвращать попытки манипуляции.
3. В условиях постоянно развивающихся тактик prompt injection/jailbreak важно регулярно обновлять алгоритмы распознавания запросов к моделям, адаптируя их к новым угрозам и улучшая способность распознавать манипулятивные и провокационные запрос.
4. Необходимо продолжать обучение моделей с акцентом на этические аспекты генерации текста, чтобы модели могли не только распознавать, но и корректно реагировать на запросы, которые могут быть потенциально опасными или неэтичными.
Заключение
В целом, анализ показывает, что модели Claude 3,5 и YandexGPT эффективнее защищены от попыток prompt injection по сравнению с Chat GPT 4o, демонстрируя устойчивость к провокационным и манипулятивным запросам. Модель проявляет осторожность, избегая выдачи ответов на запросы, нарушающие политику использования, и сохраняет нейтральный и безопасный стиль в своих ответах. Лексика и семантика ответов показывают, что модель в большинстве случаев распознает опасные запросы и эффективно предотвращает их выполнение. Вместе с тем, необходимо следовать ряду рекомендации для того, чтобы сделать работу с БЯМ более эффективной и безопасной.
[1] Для наглядного представления результатов авторского эксперимента по теме «Prompt injection – проблема лингвистической уязвимости больших языковых моделей на современном этапе» авторы далее приводят частичные результаты исследования (три блока по 20 запросов) по трем темам (HackCode, AdultContent и FakeNews) с генерациями различных больших языковых моделей, задействованных для авторского эксперимента. URL: https://www.researchgate.net/publication/385855436_Appendix_to_the_Article_Prompt_Injection_The_Problem_of_Linguistic_Vulnerability_of_Large_Language_Models_at_the_Current_Stage (дата обращения 16.11.2024)
Список литературы
Chang Z., Li M., Liu Y., Wang J., Wang Q., Liu Y. Play guessing game with LLM: Indirect jailbreak attack with implicit clues. 2024. arXiv preprint arXiv:2402.09091. https://doi.org/10.48550/arXiv.2402.09091
Chen S., Zharmagambetov A., Mahloujifar S., Chaudhuri K., Guo C. Aligning LLMs to be robust against prompt injection. 2024. arXiv preprint arXiv:2410.05451. https://doi.org/10.48550/arXiv.2410.05451
Duan M., Suri A., Mireshghallah N., Min S., Shi W., Zettlemoyer L., Tsvetkov Yu, Choi,Y., Evans D., Hajishirzi H. Do membership inference attacks work on large language models? 2024. arXiv preprint arXiv:2402.07841. https://doi.org/10.48550/arXiv.2402.07841
Hines K., Lopez G., Hall M., Zarfati F., Zunger Y., Kiciman E. Defending against indirect prompt injection attacks with spotlighting. 2024. arXiv preprint arXiv:2403.14720. https://doi.org/10.48550/arXiv.2403.14720
Khandelwal U., Levy O., Jurafsky D., Zettlemoyer L. and Lewis M. Generalization through memorization: Nearest neighbor language models. 2019. arXiv preprint arXiv:1911.00172. https://doi.org/10.48550/arXiv.1911.00172
Kumar S. S., Cummings M. L., Stimpson A. Strengthening LLM trust boundaries: A survey of prompt injection attacks // 2024 IEEE 4th International Conference on Human-Machine Systems (ICHMS). 2024, May. Pp. 1–6. URL: https://www.researchgate.net/profile/Missy-Cummings/publication/378072627_Strengthening_LLM_Trust_Boundaries_A_Survey_of_Prompt_Injection_Attacks/links/65c57ac379007454976ae142/Strengthening-LLM-Trust-Boundaries-A-Survey-of-Prompt-Injection-Attacks.pdf/ (дата обращения: 29.06.2024). DOI: 10.1109/ICHMS59971.2024.10555871
Li X., Wang R., Cheng M., Zhou T., Hsieh C. J. Drattack: Prompt decomposition and reconstruction makes powerful llm jailbreakers. 2024. arXiv preprint arXiv:2402.16914. https://doi.org/10.48550/arXiv.2402.16914
Liu X., Yu Z., Zhang Y., Zhang N., Xiao C. Automatic and universal prompt injection attacks against large language models. 2024. arXiv preprint arXiv:2403.04957. https://doi.org/10.48550/arXiv.2403.04957
Marvin G., Hellen N., Jjingo D., Nakatumba-Nabende J. Prompt engineering in large language models // Proceedings of the International conference on data intelligence and cognitive informatics. Springer Nature Singapore, Singapore, 2023. Pp. 387–402. URL: https://www.researchgate.net/publication/377214553_Prompt_Engineering_in_Large_Language_Models (дата обращения: 29.06.2024). DOI: 10.1007/978-981-99-7962-2_30
Мударова Р. М., Намиот Д. Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. 2024. Т. 12. № 5. С. 39–48.
Pedro R., Castro D., Carreira P. and Santos N. From prompt injections to SQL injection attacks: How protected is your llm-integrated web application? 2023. arXiv preprint arXiv:2308.01990. DOI: https://doi.org/10.48550/arXiv.2308.01990
Piet J., Alrashed M., Sitawarin C., Chen S., Wei Z., Sun E., Wagner D. Jatmo: Prompt injection defense by task-specific finetuning. 2023. arXiv preprint arXiv:2312.17673. DOI: https://doi.org/10.48550/arXiv.2312.17673
Röttger P., Pernisi F., Vidgen B., Hovy D. Safety prompts: a systematic review of open datasets for evaluating and improving large language model safety. 2024. arXiv preprint arXiv:2404.05399.m. https://doi.org/10.48550/arXiv.2404.05399
Rossi S., Michel A. M., Mukkamala R. R., Thatcher J. B. An early categorization of prompt injection attacks on Large Language Models. 2024. arXiv preprint arXiv:2402.00898. https://doi.org/10.48550/arXiv.2402.00898
Tavabi N., Goyal P., Almukaynizi M., Shakarian P., Lerman K. Darkembed: Exploit prediction with neural language models // Proceedings of the AAAI Conference on Artificial Intelligence. 2018. 32. 1. Pp. 7849–7854. DOI: https://doi.org/10.1609/aaai.v32i1.11428
Yan J., Yadav V., Li S., Chen L., Tang Z., Wang H., Jin H. Backdooring instruction-tuned large language models with virtual prompt injection // Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2024. Vol. 1: Pp. 6065–6086. DOI: 10.18653/v1/2024.naacl-long.337
Yu J., Wu Y., Shu D., Jin M., Yang S., Xing X. Assessing prompt injection risks in 200+ custom GPTS. 2023. arXiv preprint arXiv:2311.11538. https://doi.org/10.48550/arXiv.2311.11538
Yu Z., Liu X., Liang S., Cameron Z., Xiao C. and Zhang N. Don't listen to me: understanding and exploring jailbreak prompts of large language models. 2024. arXiv preprint arXiv:2403.17336. https://doi.org/10.48550/arXiv.2403.17336
Zhang J. Should we fear large language models? A structural analysis of the human reasoning system for elucidating LLM capabilities and risks through the lens of Heidegger’s philosophy. 2024. arXiv preprint arXiv:2403.03288. https://doi.org/10.48550/arXiv.2403.03288