DOI: 10.18413/2313-8912-2026-12-1-0-5

Метрики культурно-семантической эквивалентности для больших языковых моделей: взгляд со стороны малоресурсных языков

Татьяна Александровна Литвинова (Воронежский государственный педагогический университет, Россия)
Галина Анатольевна Заварзина (Воронежский государственный педагогический университет, Воронеж, Россия)

Мультиязычные большие языковые модели (LLM) преимущественно обучаются и оцениваются на англоязычном материале как доминирующем в датасете. Однако семантические последствия опосредования английским языком их выдачи (например, в результате перевода либо при генерации текстов) на уровне текстовых представлений до сих пор остаются недостаточно изученными за пределами поверхностных мер семантического сходства. В данной работе предлагается метрико-ориентированная методология оценки культурно-семантической целостности текстов, созданных с использованием многоязычных LLM, с особым акцентом на малоресурсные языки.

Мы предлагаем набор взаимодополняющих метрик на основе мультиязычных эмбеддингов, предназначенных для исследования эффекта влияния английского посредничества на нескольких уровнях. Используя англо-опосредованный обратный перевод с помощью LLM в качестве диагностического инструментария, мы сравниваем такое влияние на тексты на высокоресурсном (русский) и малоресурсном (лингала) языках. Тексты (оригиналы и обратные переводы) проецируются в общее семантическое пространство, а их семантическая эквивалентность оценивается с помощью трёх метрик: 1) метрики семантического автосходства (SemanticSelf-Similarity, SSI), отражающее семантическую близость текста-оригинала и текста после обратного перевода; 2) метрики сходства семантических соседей (Neighborhood Preservation Score, NPS), измеряющей стабильность локальных семантических связей; 3) метрики сдвига по семантической оси (axis-based drift), количественно описывающей семантическое смещение вдоль интерпретируемой семантической оппозиции.

Результаты исследования показывают выраженную межъязыковую асимметрию. Русские тексты сохраняют высокую семантическую схожесть до и после перевода, что указывает на сохранение поверхностной семантики, однако демонстрируют лишь умеренную сохранность семантических соседей, отражающую нетривиальную структурную реорганизацию датасета. В противоположность этому тексты на языке лингала показывают резкое ухудшение как семантической схожести, так и сохранности семантических окрестностей, что свидетельствует о коллапсе реляционной семантической структуры под влиянием английского языка как промежуточного канала. Кроме того, лингала — в отличие от русского — демонстрирует небольшое, но систематическое направленное смещение вдоль рассматриваемой семантической оси. Принципиально важно, что данное направленное смещение не зависит от структурной нестабильности, что указывает на наличие нескольких различных механизмов влияния английского языка при посредничестве LLM.

Полученные результаты демонстрируют, что метрики поверхностного семантического сходства существенно недооценивают масштабы семантических искажений при обратном переводе, особенно в случае малоресурсного языка. Предложенная методика представляет собой масштабируемый диагностический инструментарий для оценки семантической эквивалентности текстов, созданных с помощью многоязычных LLM.

Ключевые слова: Культурно-семантическая эквивалентность, большие языковые модели, малоресурсные языки, семантический сдвиг, многоязычные эмбеддинги, англоцентричное смещение.

Количество просмотров: 8 (смотреть статистику)

Количество скачиваний: 15

Скачать XML К списку статей

Комментарии
Список литературы
Благодарности

Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.

Все журналы

Отправить статью

Научный результат. Вопросы теоретической и прикладной лингвистики включен в научную базу РИНЦ (лицензионный договор № 765-12/2014 от 08.12.2014).

Журнал включен в перечень рецензируемых научных изданий, рекомендуемых ВАК

Журнал индексируется следующими научными базами и платформами

Научный результат. Научный результат. Вопросы теоретической и прикладной лингвистики (ISSN 2313-8912)

The journal materials and website are licensed under Creative Commons «Attribution» 4.0 International.

Учредитель: федеральное государственное автономное образовательное учреждение высшего образования «Белгородский государственный национальный исследовательский университет» (НИУ «БелГУ»). Адрес: 308015, Белгородская область, г. Белгород, ул. Победы, 85.

Издатель: федеральное государственное автономное образовательное учреждение высшего образования «Белгородский государственный национальный исследовательский университет» (НИУ «БелГУ»). Адрес: 308015, Белгородская область, г. Белгород, ул. Победы, 85.

Редакция: главный редактор Ольга Витальевна Дехнич, e-mail: RR_Linguistics@bsuedu.ru, тел.: (4722) 301254.

Зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор)

Свидетельство СМИ

Устав редакции средства массовой информации «Научный результат. Вопросы теоретической и прикладной лингвистики»

Приказ № 636-ОД от 30.06.2023 "Об утверждении Уставов редакций средств массовой информации научных журналов НИУ «БелГУ»

Приказ № 1097-ОД от 15.11.2023 "Об утверждении Регламента издания научных журналов НИУ «БелГУ»"

Приказ № 76-ОД от 10.02.2026 "Об утверждении состава редакционной коллегии журнала «Научный результат. Вопросы теоретической и прикладной лингвистики»"

Остались вопросы?
Можете написать нам:

✉ Ответственный cекретарь

✉ Администратор сайта

✉ Контент менеджер