16+

Выявление культурно обусловленных различий в значении слова с помощью трехъязычных векторных пространств: новый подход к аудиту LLM

Большие языковые модели (Large Language Models, LLM) всё чаще позиционируются как авторитетные посредники в передаче информации посредством текста, однако их способность сохранять культурно обусловленные лексические различия остаётся под вопросом. Эта проблема особенно остра в отношении ключевой лексики – высокочастотных, культурно значимых слов, формирующих концептуальный каркас языкового сознания конкретного сообщества. Если фундаментальные значения этих слов искажаются, возникающий семантический сдвиг может распространяться на последующие интерпретации, учебные материалы. Несмотря на реальность этой угрозы, надёжные методы оценки того, насколько LLM сохраняют культурно закреплённую лексическую семантику, остаются слабо разработанными.

В данной статье предлагается новый диагностический подход к оценке LLM-текстов, основанный на трехъязычных выровненных векторных пространствах (эмбеддингах) для русского, французского языков и языка лингала. Путём приведения эмбеддингов в общее векторное пространство через прокрустово выравнивание мы получаем независимую семантическую систему отсчёта, сохраняющую внутреннюю структуру каждого языка. Французский язык выступает в роли высокоресурсного языка-пивота, что позволяет выполнять сопоставление, не вынуждая малоресурсный язык конкурировать с англоязычной или русскоязычной семантической геометрией.

Мы рассматриваем несколько культурно значимых лексем – термины родства и лексику с оценочной семантикой, чтобы показать, как сформированное нами выравненное векторное пространство может выявлять потенциальные зоны "семантического разногласия" между выдачей LLM и корпусно обоснованной семантикой. Хотя наши примеры не претендуют на установление систематической семантической предвзятости LLM ("английского семантического акцента"), они демонстрируют, как предложенная методология способна выявлять тонкие расхождения в представлении значений культурно значимых слов в разных языках и служить ориентиром для дальнейших исследований.

Мы утверждаем, что диагностика, основанная на эмбеддингах, является перспективным инструментом аудита многоязычного поведения LLM, особенно в контексте малоресурсных языков, чьи семантические категории рискуют быть поглощёнными семантикой английского языка. Настоящая работа очерчивает научную траекторию и призывает NLP-сообщество к более масштабным усилиям по защите языковой и культурной специфики в эпоху генеративного искусственного интеллекта.

Количество просмотров: 11 (смотреть статистику)
Количество скачиваний: 27
Полный текст (HTML)К списку статей
  • Комментарии
  • Список литературы
  • Благодарности

Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.

Оставить комментарий: