16+

Потенциал и ограничения ChatGPT: анализ качества перевода и переводческих ошибок больших языковых моделей

Aннотация

В условиях быстрого развития технологий обработки естественного языка и увеличения использования автоматизированных инструментов в переводческой деятельности, важно исследовать возможности и ограничения больших языковых моделей, таких как ChatGPT, в переводе текстов различных стилистических форм и тематической направленности. Существует необходимость в сравнительном анализе качества автоматического перевода, выполненного с помощью ChatGPT, особенно в контексте различных типов текстов (специализированные, художественные, научные) и их стилистических особенностей. В данной связи важным является понимание ошибок, связанных с определением контекста и возможными «галлюцинациями» модели.

В представленном исследовании на основании сравнительного анализа выявлены критерии работы ChatGPT, а именно: потенциал в определении контекста, коммуникативной ситуации, решение определенных переводческих задач на уровне стилистических соответствий и лексической эквивалентности. В исследовании представлены результаты оценки качества автоматического перевода как метрикой, основанной на лингвистических параметрах, так и автоматической метрической системой BLEU. Результаты проведенного исследования показывают определенную зависимость качества автоматического перевода от точности формулировки запроса и характера текста. Так, показатели лингвистической метрики оценки качества перевода и показатели системы BLEU свидетельствуют о том, что качество перевода текстов, характеризующихся высоким содержанием специализированной лексики выше, чем качество перевода художественного или научного текста, требующего особого подхода при построении высказываний или выбора терминов в рамках узуальной распространенности. Кроме того, результаты также свидетельствуют и о таких свойствах больших языковых моделей генеративного искусственного интеллекта, как ошибочность определения контекста и «галлюцинациях», которые могут ввести в заблуждение и привести к ошибкам при переводе или редактировании текстов. В статье предлагаются необходимые практические приемы, позволяющие переводчику грамотно использовать технологию нейронных сетей, а именно последние версии инновационного чат-бота ChatGPT в различных аспектах деятельности.


Введение (INTRODUCTION)

В современном мире важность перевода и межкультурной коммуникации значительно возросла во многих отраслях человеческой деятельности – от практической внешнеэкономической деятельности и выстраивания международных дипломатических контактов до академической и научной работы. Перевод, и как явление, и как процесс, рассматривался с разных точек зрения. На первых этапах развития теории перевода доминировало представление о разделение перевода на особый вид деятельности, которой присущи определённые закономерности, и на перевод как продукт переводческой деятельности. В дальнейшем лингвисты пришли к однозначному выводу о невозможности подобного искусственного разделения. Детальные исследования функционирования естественного языка позволили судить о том, что, изучая результат перевода можно понять и сам процесс. С этого момента надолго утвердилось представление о процессе перевода как о поэтапном преобразовании языковых структур или единиц, то есть при описании перевода учитывались как исходные структуры или единицы, так и конечные. Такой подход лег в основу многих теорий эквивалентности и адекватности перевода, принципиальной переводимости и непереводимости языковых категорий. Это же представление сохранялось и в период развития компьютерных технологий, когда появилась возможность создать систему, способную автоматически осуществить перевод на основе заданных правил и определенным образом закодированных языковых структур. Результат машинного перевода долгое время оставался весьма удовлетворительным, пока на смену обычным автоматическим системам не пришли нейронные сети, чей принцип работы основывается на алгоритмах обработки естественного языка. Именно тогда стало ясно, что нейросетевые модели генеративного искусственного интеллекта не опираются на аналитические понятия, разработанные лингвистами, но в процессе обработки сигналов могут формировать перевод, не прибегая к понятиям о структурных компонентах языка, к которым обычно обращались при описании и изучении переводческого процесса. В наше время противоречие этих двух, принципиально разных, подходов к пониманию естественного языка, процесса перевода и, соответственно выстраиванию переводческой деятельности снимается масштабным внедрением искусственного интеллекта, который с одной стороны поэтапно анализирует запросы на естественном языке, а с другой – так же поэтапно генерирует новый контент.

Решения искусственного интеллекта модели генеративных предварительно обученных преобразователей (GPT) OpenAI, известные своими способностями генерировать лингвистические алгоритмы, стали особенно важным предметом исследований современных лингвистов и разработчиков искусственного интеллекта.

Тем не менее, какими бы многообещающими ни казались модели искусственного интеллекта, всё ещё остается много вопросов: могут ли такие модели, как GPT, действительно улучшить процесс перевода, и если да, то в какой степени; каковы их отличительные способности, и в чем заключаются их ограничения; могут ли они действительно восприниматься как замена или дополнение к переводу профессионального переводчика.

Основная часть (MAIN PART):

Цель работы

Цель настоящей статьи – провести сравнительно-сопоставительный анализ возможностей ChatGPT, который представляет собой большую языковую модель, состоящую из нейронной сети, применительно к деятельности профессионального переводчика.

К настоящему времени машинный перевод прошел долгий путь развития и теоретического осмысления. Еще в середине XX века израильский исследователь Йеошуа Бар-Илель заложил основы формальной лингвистики для машинного перевода (Bar-Hilel, 1953), а Джорджтаунский эксперимент 1954 года (П. Гарвин, П. Шеридан) продемонстрировал принципиальную возможность компьютерного перевода на примере 60 простых предложений с русского на английский. Вскоре концепция трансформационной порождающей грамматики Н. Хомского и генеративная лингвистика предложили новый аппарат описания формальных языковых структур, где единицей языка становится не фонема или морфема (Jones, 1909; Блумфилд, 1968; Якобсон, Халле, 1962), а предложение, формируемое по формационным и трансформационным правилам (Chomsky, 1980). Как отмечает О. В. Ефимова, для теории перевода того периода характерно приравнивание процесса перевода к межъязыковым трансформациям с опорой на ядерные структуры-эквиваленты (Ефимова, 2017). Параллельно О. Каде (Kade, 1968) разработал трехуровневую коммуникативную модель перевода, а в СССР математическая лингвистика (А. А. Ляпунов, В. Ю. Розенцвейг, А. А. Реформатский, П. С. Кузнецов) изучала язык как абстрактную знаковую систему для создания алгоритмов перевода, одновременно акцентируя семантические связи знаков (Розенцвейг, 1974).

Однако в современной лингвистической индустрии ведущую роль занимает не история, а технологии синхронного анализа и самообучающиеся алгоритмы. Сегодня ключевой сервис Google Translate функционирует на базе методов статистического машинного перевода (SMT), теоретически обоснованных П. Брауном с коллегами (Brown et al., 1993) и применявшихся также в системе PROMPT. Статистический подход позволяет находить соответствия между частотными вариантами на основе анализа параллельных корпусов, но не всегда учитывает контекст и культурные реалии, поэтому результат требует постредактуры (Hutchins, 1999). Именно синхронический срез – изучение текущего состояния машинного перевода, его алгоритмов и ограничений – становится главным фокусом современного этапа развития ИИ в переводческой деятельности.

Важным этапом в эре машинного перевода стал переход в марте 2017 года движка Google Translate от статистического перевода на нейронные сети.

Сейчас служба Google Translate работает с 243 языками. На алгоритмы нейронных сетей переходят также такие службы как DeepL (29 языков) и Яндекс перевод (98 языков).

Возможности искусственного интеллекта вышли за пределы отмеченных выше систем и стали использоваться не только для машинного перевода, требующего редактуры, но и для предпереводческого анализа, в частности, осуществления контекстной работы.

Нейронные сети позволили перейти от метода статистического перевода и обработки естественного языка (Natural Language Processing – NLP), основанного на частотности употребления лексических единиц и набора грамматических правил, к системам, работающим по принципу работы нейронных сетей головного мозга, где сигналы от рецепторов обрабатываются нейронными кластерами в целом. Упрощенно принцип обработки естественного языка можно представить в следующем виде:

Как видно из схемы, обработка естественного языка не опирается на заложенные грамматические правила, но как бы генерирует их. В этом и заключается принципиально новый подход в использовании моделей, управляемых данными, таких как глубокие нейронные сети. Функционирование этих моделей основано на методах машинного обучения на массиве данных, и создания репрезентативной модели естественного языка. В таких системах обработка естественного языка осуществляется путем анализа синтаксиса, семантики и контекста текста (Dynel, 2023).

С момента выпуска в конце 2022 года ChatGPT (OpenAI 2022), чат-бот, основанный на расширенных языковых моделях, быстро завоевал популярность благодаря своей впечатляющей производительности в широком спектре задач обработки естественного языка. Эти задачи включают, среди прочего, генерацию текста, ответы на вопросы, классификацию текста и перевод (Wu et al., 2023, Lai et al., 2023). Возможность анализировать контекст и генерировать последовательные, релевантные ответы делает его многообещающим инструментом для различных отраслей, включая переводческий сектор. За короткий период ChatGPT прошел определенный путь эволюционного развития и продолжает совершенствоваться. Следует остановиться подробнее на двух последних версиях чат-бота, в частности GPT-4 и GPT-4o. Версия GPT-4, интегрирует точную настройку инструкций и обучение с подкреплением с обратной связью от пользователя (Ouyang et al., 2023). Точная настройка инструкций тренирует языковую модель на конкретных примерах, улучшая понимание языковых нюансов и позволяя выдавать более точные и релевантные ответы. ChatGPT продемонстрировал выдающуюся производительность в решении различных переводческих задач, генерации текста и межъязыковой коммуникации (Wang et al., 2023). В течение недели после запуска ChatGPT привлек 100 миллионов пользователей, а уже в марте 2023 года чат был расширен до версии GPT-4 (OpenAI 2023). По данным OpenAI, эта новая модель обеспечивает визуальный ввод и расширенные возможности обработки естественного языка. Это позволяет GPT-4 генерировать более сложные ответы, демонстрируя впечатляющие результаты, в том числе для решения сложных теоретических и практических научных задач. С момента выхода в широкий доступ чат бота, стали появляться исследования направленные на изучение работы ChatGPT в переводческой деятельности. Сиу изучает функционирование языковой модели чата и приходит к выводу о том, что языковая модель искусственного интеллекта революционные возможности «сотрудничества» искусственного интеллекта и переводчика, особенно в практической сфере анализа текстов больших форматов и разной тематики (Siu, 2023). Кэцин Пэн с соавторами с помощью математических методов изучения ответов на запросы доказывает возможность быстрого и качественно перевода документов, в том числе находящихся в оцифрованных архивах, что может открыть новые возможности специалистам в разных различных секторах профессиональной деятельности (Peng et al., 2023). Изучая лингвистические модели искусственного интеллекта и их архитектуру глубокого обучения, Васвани и др. (Vaswani et al., 2017), а также Ву и др. (Wu et al., 2023) сообщают о значительном прорыве в понимании их потенциала в создании высококачественного, контекстно-релевантного текста, а, следовательно, как отмечается в их работах, модели искусственного интеллекта могут существенно улучшить качество профессионального перевода. В дальнейшем, работы оксфордских исследователей, таких как Бентивольи и др. (Bentivogli, et al., 2018), которые изучают лингвистические возможности моделей GPT, подтвердили эти выводы. Однако имеются исследования, как, например, проект Бьюбек и др. (Bubeck et al., 2023), который показал, что GPT-4, как и его последующие версии, имеет существенные недостатки, которые могут быть присущи его архитектуре прогнозирования следующего слова и генерировании ложного контента. Кроме того, обнаружилось, что GPT-4 страдает от таких проблем, как ненадежность выбранных терминов (Peng et al., 2023), несоответствие стиля и ошибки в определении контекста (Hendy et al., 2023), галлюцинации, ограниченность знаний, чрезмерное категоричная уверенность в неправильных прогнозах и недостаточная самопроверка (Bang et al., 2023). В текстах, где важно сохранение художественных особенностей оригинала, в частности текстов на языках, представленных реже в интернет-пространстве, как, например, арабский или фарси, автоматический перевод версий ChatGPT-4 и -4о, значительно отстает от переводов, выполненных человеком (Al Rousan et al., 2025). Учитывая эти проблемы, очень важно понимать, что использование чат-бота в профессиональной переводческой деятельности может быть довольно ограниченным. В российском сегменте, занимающимся проблемами прикладных задач искусственного интеллекта, заметны исследования К. И. Аветесяна, затронувшего тему методов обнаружения межъязыковых заимствований в тексте, в том числе и с помощью систем искусственного интеллекта (Аветесян, 2023), С. В. Пальмова и Д. А. Тюриной, изучающих роль нейронных сетей в обработке естественного языка (Тюрина, Пальмов, 2023), а также исследование программы преобразования речи как инструмента письменного перевода А. Р. Биктимирова (Биктимиров, 2023), часто большие языковые модели становятся предметом философского осмысления, что также необходимо в сфере прикладных исследований и прогнозирования вектора научного развития. Так, М. А. Сущин (Сущин, 2024) рассматривает гипотезу расширенного познания А. Кларка и Д. Чалмерса о том, что интеллектуальные артефакты, наподобие записных книжек, без каких-либо сложных интерфейсов (типа интерфейса «компьютер-мозг») при определенных условиях следует рассматривать в качестве внешней когнитивной системы человека, и делает вывод о ее неоднозначности. Вместо этого интеллектуальные артефакты предлагается рассматривать как часть «социокультурных лесов» человеческого познания. В своем исследовании Лю Мяо и Шао Цин разработали интерактивный мультиагентный переводческий фреймворк MAGIC-PTF (Multi-Agent Interactive Chinese Political Translation Framework), в котором сочетаются технологии оптимизации больших языковых моделей и стандартизированные требования к переводу политического дискурса (Мяо, Цин, 2024). Такой фреймворк решает многие проблемы перевода китайского политического дискурса на русский язык. В статье П. А. Ломова предлагается подход к применению технологии RAG (Retrieval-Augmented Generation, RAG), ориентированной на построение контекста для пользовательского запроса к большим языковым моделям на основе онтологии предметной области вместо векторной базы данных. Технология RAG состоит в предварительном обращении к онтологиям, т.е. к уже представленной, подтвержденной информации в корпусе текстов, что позволяет заметно увеличить степень семантического соответствия запросу пользователя (Ломов, 2025). Интересное предположение высказывает Д. В. Зайцев, рассуждая о причинах отсутствия или недостаточной развитости рассудительной способности больших языковых моделей, и обоснованно связывает способность рассуждать с перцепцией внешнего мира, пока такая полноценная перцепция остается неразвитой способность рассуждать у интеллектуальных систем остается на сравнительно низком уровне (Зайцев, 2024). В работе с большими объемами текстов, переводчику необходимо, кроме составления рабочего глоссария, выделять определенные фрагменты, систематизировать извлеченную информацию, для этого существуют инструменты эмбендинга. Преимущества эмбендинга раскрываются в статье А. П. Ляха, делающего вывод о том, что эмбендинг можно эффективно использовать, за счет представления слов и предложений в виде векторов, упрощающих обработку данных (Лях, 2024). Соблюдение стиля и жанрово-речевой специфики дискурса выступает одним из ключевых критериев эквивалентности перевода. Однако модели архитектуры GPT не обеспечивают автоматическую реализацию данных параметров без применения уточняющего промптинга (prompt engineering), предварительного обучения или тонкой настройки (fine-tuning). Кроме того, верификация полученных результатов требует экспертной лингвистической интерпретации, что подтверждает необходимость гибридного подхода к оценке качества генеративного перевода. Несмотря на то, что большие языковые модели стали обычным явлением в информационном и технологическом ландшафте, переводческий аспект использования искусственного интеллекта остается предметом актуального изучения и дискуссий.

Таким образом, понимание актуальности использования больших языковых моделей дает исследователям представление перспективных направлениях, помогающих не только теоретически осмыслить новое явление, но и практически изучать их возможности в разных областях, в том числе и в лингвистической, переводческой работе.

Материалы и методы исследования (Materialsandmethods)

Материал исследования представлен репрезентативной выборкой текстов из классической и современной художественной литературы, а также текстов договоров и научно-публицистических материалов на английском языке. Выбор материала обусловлен необходимостью изучить работу GPT на примерах текстов, относящихся к разным эпохам, а также к разным стилистическим и тематическим формам. Гетерогенный характер эмпирического материала, объединяющего юридические тексты с их прецизионной терминологией и художественные произведения с их метафорической сложностью и культурными реалиями, создает методологическую основу для двустороннего анализа: валидации алгоритмов машинного перевода (на примере ChatGPT) и систематизации профессиональных стратегий человека-переводчика – от формально-эквивалентных решений до креативной адаптации в условиях культурно-специфической семантики. Для получения результатов текст отправляется в виде запросов (request) в ChatGPT обеих последних версий: GPT 3.5 и GPT 4 (рис. 2).

Общий принцип формирования результатов в чат-боте представлен на рис. 3

Архитектура лингвистической модели ChatGPT предусматривает использование разного рода промпта (Prompts), в тех случаях, когда результат запроса не удовлетворяет критерии пользователя. Выделяют два основных типа промпта: TSP – TaskSpecificPrompts, то есть промпт для конкретной задачи, и DSP – DomainSpecificPrompts, то есть специфические для предметной области запроса.

Кроме того, чат-бот работает с «командами» пользователя, например, чтобы продолжить работу по ранее сделанному запросу можно применить промпт «продолжай» («continue» или «keepon») (рис. 4).

Задачи, поставленные перед чат-ботом в этом исследовании, обобщенно отражают основные этапы работы практического переводчика, а именно:

1. Определение контекстуального фона.

2. Лексический и фразеологический анализ.

3. Перевод.

На этапе работы с контекстом для чат-бота формируются задания для определения контекста. Цель этой стадии исследования заключается в изучении способности чат-бота найти контекст, отражающий коммуникативную ситуацию переводимого текста, а также предлагать отдельные лексические единицы в качестве необходимых эквивалентов. Лексический и фразеологический анализ позволяет вносить определенные «промпты», касающиеся уточнения лексический единиц или фразеологических выражений. На стадии перевода в качестве задания чат-боту предлагается исходный материал в виде фрагментов текстов, а результатом является его перевод.

Для оценки качества выполненного перевода предлагается следующая метрическая система:

– оценка качества лингвистическими методами, осуществляемая вручную;

– автоматизированная оценка качества.

Основы лингвистической оценки качества машинного перевода были заложены М. Нагао (Nagao, 1989), предложившим пятибалльную шкалу верификации. Согласно данной методике, высший балл (1) присваивается текстам с полной семантической эквивалентностью и нормативным стилистическим оформлением. Промежуточные значения (2–4) отражают градуальное нарастание девиаций: от незначительных лексико-грамматических погрешностей до серьезных нарушений синтаксической структуры, затрудняющих перцепцию. Низший балл (5) верифицирует перевод как функционально непригодный из-за критического искажения смысла. Следует констатировать, что предложенные критерии носят скорее эмпирико-субъективный характер, нежели строго лингвистический, так как они апеллируют к общему восприятию текста, а не к верифицируемым языковым параметрам. Несколько доработав систему оценки качества перевода, предложенную М. Р. Набабаном (Nababan et al., 2012), в работе выделяются следующие категории для построения алгоритма обработки результатов:

1) точность предложенного контекста – степень соответствия коммуникативной ситуации;

2) стилистическое соответствие – соответствие стилистических форм в языке перевода соответствующим формам языка оригинала;

3) эквивалентность лексики – анализ лексических средств языка перевода;

4) отражение коммуникативной цели – стадия оценки общей функциональности текста, сохранение смысла и его общей структуры.

Методика М. Р. Набабана (Nababan et al., 2012) позволяет сформировать комплексный алгоритм обработки результатов, базирующийся на четырех критериях. Прежде всего, оценивается точность контекстуальной реализации, определяющая степень соответствия текста параметрам коммуникативной ситуации. Данный критерий дополняется анализом стилистических форм в языке перевода соответствующих формам языка оригинала. Параллельно проводится верификация лексической эквивалентности для оценки точности выбора терминологических и общеязыковых средств в языке перевода. Завершающим этапом выступает соотнесение коммуникативной цели и функциональной целостности текста, сохранение его инвариантной семантики и структурной архитектоники.

По каждой категории переводу присваивается от 3 (наиболее высокий) до 1 (наиболее низкий). Категории оценки, критерии качества и оценка качества систематизированы в таблице 1.

Наряду с экспертной оценкой (human evaluation), для верификации результатов работы нейросетевых архитектур и больших языковых моделей применяются автоматизированные метрики. Данный количественный подход базируется на компаративном анализе исходного текста (source), машинного перевода и эталонного текста, созданного профессиональным переводчиком (human translation), который в рамках исследования выступает в качестве референса (reference). Использование подобных метрик позволяет объективировать процесс сопоставления выходных данных систем машинного перевода и генеративных моделей, таких как ChatGPT, с принятым лингвистическим стандартом. Основополагающим автоматическим методом оценки машинного перевода является BLEUBilingual Evaluation Understudy. Автоматическая метрика BLEU оценивает качество перевода, сравнивая количество совпадений n-грамм – последовательности n-элементов (чаще всего слов), идущих подряд в тексте, сравнивая с референсным, эталонным, переводом, и чем ближе будет показатель машинного перевода к эталонному, тем выше можно судить о качестве машинного перевода (Bang et al., 2023). Метрика хорошо оценивает полноту перевода по количеству элементов текста перевода и оригинала, но не дает полной лингвистической оценки. Исходя из этого, в настоящем исследовании, результаты обрабатываются по двум принципиальным метрикам: ручной – лингвистическому алгоритму и автоматической метрикой BLEU.

Результаты исследования и их обсуждение (Results and Discussion)

С момента запуска ChatGPT продемонстрировал свой потенциал в различных сферах деятельности, включая профессиональный перевод (Wu et al., 2023, Wang et al., 2023). ChatGPT, хоть и не разрабатывался специально для переводческой отрасли, его способность следовать сложным инструкциям делает его ценным ресурсом для переводчиков. Для оценки эффективности чат-бота используют такое понятие как температура. Температура – это определенная степень допуска к творчеству, то есть пользователь может настроить чат с помощью заданий-промптов, чтобы уменьшить или увеличить долю творческой генерации чата при выполнении поставленной задачи (Zhou et al., 2022).

Работа с контекстом (ContextualAwareness)

Переводчик постоянно сталкивается с необходимостью определения узкого контекста употребления того или иного термина или целого выражения, так как неправильно подобранное эквивалентное значение может значительно изменить смысл текста или стилистический фон перевода. Сама проблема эквивалентности в переводе состоит из многих аспектов и большинство из них связаны с выбором эквивалента исходя из контекстного окружения, стилистики, лексических и синтаксических особенностей переводимого текста.

Стоит обратить внимание, что специфической функцией ChatGPT является уточнение значения различных текстовых элементов, включая лексических единиц, фразеологических оборотов и предложений, принимая во внимание их контекст внутри самого предложения или целого абзаца. Эта функция особенно полезна при работе с полисемантической лексикой, находящейся, к тому же, в сложном контекстном поле. Такие условия создают сложную задачу переводчику для выполнения полноценного и адекватного перевода. Коммуникация с чатом-GPT ведется на английском языке, так как корпус английского языка шире представлен в цифровом пространстве, следовательно, языковая модель генерирует более релевантную информацию. Для работы с образцами текстов в качестве промпта были выбраны следующие фразы: Consider the text below, What is the meaning of the expression in the text? Это промпт для конкретной задачи (TSP), то есть мы задаем направление работы чата для уточнения контекста. Рассмотрим следующие примеры.

Текст 1.[1]

Запрос (Prompt)Considerthetextbelow:

The Residence Purchase Price is not subject to determination by reference to areas and shall not be modified other than in accordance with this Clause of this Agreement.

What is the meaning of the expression "Residence Purchase Price" in the text?

ChatGPT-4

The "Residence Purchase Price" refers to the amount of money that is agreed upon for the purchase of the residence. This price is not subject to determination by reference to areas, unless there is a significant difference in the actual gross liveable area of the residence when built compared to the planned gross liveable area specified in the agreement. If there is a difference of more than five percent, the purchase price may be reduced unless the reduction in gross liveable area was caused by a change requested by the buyer.

ChatGPT-4o

The "Residence Purchase Price" in the text refers to the agreed upon amount of money that the buyer will pay to the seller for the acquisition of the residence. This price is set forth in the agreement for the purchase of the property and is not to be changed based on the size or area of the residence. It can only be modified according to the specific terms set out in the clause referred to in the text.

В качестве задания (prompt) чат-боту предлагается определить значение выражения «Residence Purchase Price», которое является ключевым понятием в данном фрагменте текста. Версия GPT-4 сообщает определение термина и дополняет его расширенным комментарием, из которого можно узнать, что термин ResidencePurchasePrice употребляется гораздо уже, чем можно предположить на первый взгляд, исходя из его первого эквивалентного значения – цена покупки жилья. Также в этой версии предлагается фактор, уточняющий использование термина – Ifthereisadifferenceofmorethanfivepercent, thepurchasepricemaybereducedunlessthereductioningrossliveableareawascausedbyachangerequestedbythebuyerто есть “цена покупки может быть снижена при пятипроцентной разнице между запланированной и фактической площадью строения, если уменьшение площади потребовал сам покупатель”.

Версия GPT-4o также предлагает краткое определение на контекстном, лексическом и стилистическом уровнях, отвечающее запросу, однако расширение информации, в данном случае, минимальное – уточняется лишь, что «priceissetforthintheagreementforthepurchaseofthepropertyandisnottobechangedbasedonthesizeorareaoftheresidence» (“цена указана в договоре о покупке недвижимости и не подлежит изменению по размеру или площади проживания”). Однако, даже при минимальном расширении, контекст определяется правильно, и на лексическом уровне соблюдается эквивалентность и реализация семантического поля терминологического оборота.

Таким образом, информация, полученная в ответ на запрос, полностью соответствует контексту и достигает коммуникативной цели текста на языке оригинала и может быть полноценно использована в работе над переводом.

Юридический текст обычно насыщен терминами, и представляет собой довольно жесткую семантическую структуру, но, чтобы проанализировать возможности chatGPT определить контекст в более гибком художественном тексте, где возможны сложные метафоры и отсылки к другим литературным произведениям, рассмотрим фрагмент из художественного произведения, данный в минимальном контекстном окружении:

Текст 2.[2]

Запрос (Prompt):

Consider the text below:
‘Bring your girl along,’ said Sparsholt.
‘Oh, well…yes. I’ll find out if she’s free.’
I didn’t suppose she had a very full diary, but I couldn’t see her in a pub - unless she took it, in her resolute way, as a challenge.
‘What’s her name, by the way?’
‘She’s called Jill.’
Was there something charitable in his hint of a smile? ‘Ah, that’s a nice name’
"Well’ I said. It had always made me uneasy, it was too close to chill, and to jilt, and not at all far from gill, a quarter – pint of cold water.

What is the meaning of the expression "gill" in the text?

ChatGPT-4

In this context, the expression "gill" refers to a quarter-pint of cold water. The speaker is expressing their uneasiness with the name "Jill" because it is too close to the word "gill" which reminds them of a small quantity of cold water.

ChatGPT-4o

In the context provided, "gill" refers to a measure of volume in British Imperial units. Specifically, a gill is equivalent to a quarter of a pint. In the United Kingdom, a pint is equal to 20 imperial fluid ounces, so a gill is 5 imperial fluid ounces. The passage plays on a series of words that the name "Jill" phonetically resembles, including "chill," "jilt," and "gill." The narrator is reflecting on thename "Jill" and how it uncomfortably brings to mind these other words with entirely different meanings – in this case, "gill" not only refers to the unit of measurement but also likely connotes something small or insignificant, akin to a small measure of water, emphasizing the narrator's unease with the name.

Этот фрагмент художественного текста представляет собой диалог, содержащий лексические единицы и обороты, а также метафору, которые могут составить определенную задачу при переводе данного фрагмента. Кроме этого, можно заметить и сложную стилистическую организацию текста на языке оригинала: разговорная речь сменяется рассуждениями героя художественного произведения, где в нескольких строках уместилась определенная палитра ассоциаций, вызванных произнесением имени девушки Jill. Комментарий GPT-4 дает очень ограниченную информацию, и, в принципе, делает ошибочный вывод, что беспокойство героя вызвано созвучием имени со словом «gill». При этом GPT-4o останавливается на прием аллитерации, используемый автором, и выделяет фонетическую связь между именем Jill и возникающими, неприятными, ассоциациями в сознании героя "chill," "jilt," and "gill". Кроме того, нейронная сеть распознает не только стилистические приемы, но предлагает ещё один комментарий, касающийся лексической единицы gill и ее семантической роли в общем контексте, в частности chatGPT поясняет, что gillэто не только четверть пинты, но может указывать на что-то очень незначительно: likelyconnotessomethingsmallorinsignificant, akintoasmallmeasureofwater, emphasizingthenarrator'suneasewiththename.

Эти два примера показывают, что chatGPT может ускорить и усовершенствовать процесс перевода, по крайней мере, предложив переводчику контекстные маркеры, существенно облегчающие понимание текста.

Возможности СhatGPT выходят за рамки простого уточнения лексем и словосочетаний, основываясь на их текстуальном контексте. Эта платформа позволяет производить поиск, в результате которого можно получить комментарий, учитывающий культурный и исторический фон текста, что особенно полезно, когда речь идёт о специфических выражениях или культурных реалиях. Эти явления могут представлять определенную сложность для переводчика, носителя другой языковой культуры. Рассмотрим несколько примеров того, как две версии СhatGPT справляются с этой задачей. В качестве первого запроса возьмём название статьи, вышедшей в журнале Caring for Ages в августе 2021г.:

Текст 3.[3]

Запрос:

Consider the text below:

I’ve fallen, and I can’t Get Up: Screening, Prevention, and Impact of Medication

What is the meaning of the expression "I’ve fallen, and I can’t Get Up" in the text?

ChatGPT-4:

"I’ve fallen, and I can’t Get Up" is a well-known slogan from a commercial for a medical alert system. The expression is often used humorously or ironically to convey a sense of helplessness or vulnerability, often in situations where assistance is needed. In the context of the text you provided, it seems to be used metaphorically in relation to the screening, prevention, and impact of medication, suggesting a need for support or intervention in the face of health challenges.

ChatGPT-4.0:

The expression "I've fallen and I can't get up" is a popular catchphrase that originated from a 1980s television commercial for LifeCall, a medical alert system. The phrase was used in the advertisement to demonstrate the purpose of the product, which was to provide help to elderly or disabled individuals who had fallen and were unable to get up without assistance.

Обе версии генерируют развернутый комментарий, ссылаясь на широко известную фразу I've fallen and I can't get up, и если версия GPT-4 определяет не только исторический фон возникновения фразы, но и эмотивный характер использования выражения в запрашиваемом конкретном контексте: The expression is often used humorously or ironically to convey a sense of helplessness or vulnerability. Версия GPT-4o такого расширения не представляет и предлагает эту фразу вписать в контекст в ее первоначальном значении, не учитывая коммуникативную ситуацию текста в целом, хотя GPT-4 в дополнение ссылается и на достоверный источник и даже время, когда рассматриваемый оборот вошел в обиход.

В качестве следующего примера возьмем один отрывок, не имеющий в себе расширенного контекста, но содержащий выражение, которое глубоко уходит корнями в английскую литературу и представляет собой яркую метафору. Определим с помощью ChatGPT значение и контекст выражения.

Текст 4.[4]

Запрос:

Consider the text below:

And she was weaned, - I never shall forget it

- Of all the days of the year upon that day,

For I had then laid wormwood to my dug

What does the expression “For I had then laid wormwood to my dug” mean in the text?

Chat GPT-4

This line is from the poem "Sonnets from the Portuguese" by Elizabeth Barrett Browning. In this context, the phrase "For I had then laid wormwood to my dug" refers to the bitterness and pain experienced by the speaker during the process of weaning her child. The phrase "laid wormwood to my dug" is a poetic way of expressing the idea of making something bitter or causing suffering. "Dug" is an old term for a woman's breast, so the line suggests that the speaker experienced a painful or bitter separation from her child during the weaning process.

Chat GPT-4o

The phrase "For I had then laid wormwood to my dug" comes from William Shakespeare's play "Romeo and Juliet," spoken by the character Nurse in Act 1, Scene 3. In this context, "dug" is an archaic term for a woman's breast, which in Shakespeare's time might also refer more generally to the nipples.

The use of wormwood, a bitter herb, has historical significance. In the context of the play, the Nurse is recounting how she weaned Juliet as a baby. By placing wormwood on her breast ("dug"), she is applying a traditional weaning technique. Wormwood's bitter taste would discourage the child from wanting to nurse, encouraging the child to reject the breast and transition to solid food.

It's a practical memory the Nurse shares to underscore how long she has been with Juliet and how well she knows her, using a personal story to give a sense of Juliet's background and the Nurse's affectionate, if somewhat bawdy, relationship with her charge.

На этом примере мы сталкиваемся с явлением, которое, в отношении именно искусственного интеллекта получило название «галлюцинации». Дело в том, что версия 4 отсылает нас к реальному литературному произведению – «Сонеты о Португалии» Элизабет Барет Браунинг, но не содержащему, однако, искомую фразу. Тем не менее контекст выявлен верно, раскрыта метафора и коммуникативный эффект определенным образом достигается. Версия 4o очень точно определяет источник фразы, раскрывает контекст и комментирует мотивированность метафоры: «It'sapracticalmemorytheNursesharestounderscorehowlongshehasbeenwithJulietandhowwellsheknowsher».

Следуя лингвистической метрике, можно оценить качество контекста, представленного нейронной сетью GPT (табл. 2).

Из полученных результатов видно, что ChatGPT-4o, в целом получает больше высоких оценок, чем его предыдущая версия. Контекст, определяемый обеими версиями, в основном, не искажает смыслового содержания, а нейронная сеть последовательно и системно предлагает мотивированные контекстные решения. Тем не менее можно отметить, что обе версии допускают ошибочное толкование, и тем самым могут затруднить предпереводческий, контекстный, анализ.

Перевод текстов (Textstranslation)

Еще одной особенностью ChatGPT, как показывают исследования (Hendy et al., 2023, Wu et al., 2023, Wang et al. 2023), является его способность автоматически генерировать переводы текстов. Переводы, выполненные генеративной моделью, подобно переводам, предоставляемым традиционными системами машинного перевода, можно рассматривать как черновые варианты перевода (Draft translation), которые предоставляют пользователям полезную отправную точку для перевода текста. Например, пользователь может ввести предложение или абзац для перевода на другой язык, используя такие ориентированные на задачу промпты, как «Переведите следующий текст на [целевой язык]». Затем ChatGPT генерирует черновик или даже предложит несколько вариантов одного и того же перевода в соответствии с инструкциями, приведенными в промпте. Такие машинно-генерируемые варианты могут помочь переводчикам в их работе над текстами, позволяют им уточнять и улучшать черновой вариант, тем гарантировать точную передачу плана исходного текста в языке перевода.

Рассмотрим примеры сгенерированного перевода.

Текст 1.[5]

Промпт:

Translate the text below from English into Russian:

Falls are a serious problem that could quickly move an older adult from an assisted living community into a skilled nursing facility. Prevention of falls that contribute to disability in older adults is a high priority for maintaining their independence and quality of life. Ensuring the highest level of functionality for older adults is an important element in preventing disability for as long as possible. Multiple studies have identified factors that increase the risk for falls in older adults, and medications are associated with this increased risk due to causes including sedation, drops in blood pressure, drug interactions, and polypharmacy.

Reference: Риск внезапных падений – серьезная проблема, которая может привести к тому, что пожилого человека придется перевести из дома престарелых в учреждение квалифицированного сестринского ухода. Профилактика падений, приводящих к инвалидности, является первоочередной задачей для поддержания их качества жизни и возможности самообслуживания. Обеспечение наиболее высокого уровня функциональности для пожилых людей является важным элементом предотвращения инвалидности на достаточно длительный срок. Многочисленные исследования показали факторы, которые увеличивают риск внезапных падений у пожилых людей, среди этих факторов лекарственные препараты, увеличивающие риски из-за своего седативного эффекта, понижения артериального давления, совместимости с другими лекарственными препаратами и полипрагмазия.

ChatGPT-4

Падения представляют собой серьезную проблему, которая быстро может перевести пожилого человека из общины с уходом в отведенное место проживания в учреждение по уходу высокой квалификации. Предотвращение падений, способствующих инвалидности у пожилых людей, является высокоприоритетной задачей для поддержания их независимости и качества жизни. Обеспечение максимального уровня функциональности для пожилых людей важный элемент в предотвращении инвалидности насколько это возможно. Множество исследований выявило факторы, увеличивающие риск падений у пожилых людей, и медикаменты связаны с этим повышенным риском из-за таких причин, как седация, снижение артериального давления, взаимодействие с другими лекарствами и полифармакология.

ChatGPT-4o:

Падения – серьезная проблема, которая может быстро перевести пожилого человека из дома престарелых в учреждение квалифицированного сестринского ухода. Предотвращение падений, которые приводят к инвалидности пожилых людей, является первоочередной задачей для поддержания их независимости и качества жизни. Обеспечение наивысшего уровня функциональности для пожилых людей является важным элементом предотвращения инвалидности на как можно более длительный срок. Многочисленные исследования выявили факторы, которые увеличивают риск падений у пожилых людей, и лекарства связаны с этим повышенным риском по причинам, включая седативный эффект, падение артериального давления, взаимодействие лекарств и полипрагмазию.

Результаты автоматического перевода чатом-GPT представляют собой переводы, которые можно использовать для первичного ознакомления с текстом оригинала, но, если сравнивать с референсным (эталонным) переводом, выполненным человеком, можно выделить ряд характерных отличий. Обращает внимание дословность перевода, сохранение синтаксических последовательностей, что затрудняет его стилистическое восприятие, а иногда и понимание смысла. Так, для falls автоматический перевод предлагает прямой эквивалент «падения», в то время, когда профессиональный переводчик применяет комплексный прием перевода в виде лексического дополнения, который в данном случае наиболее мотивирован и максимально передает спектр имплицитных семантических компонентов лексической единицы языка оригинала. Понятие independence в автоматическом переводе выражено эквивалентом «независимость», этот эквивалент сохраняет общее семантическое единство с оригиналом, при том, что стилистически этот термин не употребляется в русскоязычном пространстве в контексте переводимого текста, и не отражает функциональности самого понятия, поэтому в эталонном переводе переводчик развивает смысл понятия independence выражением «возможность самообслуживания», которое как нельзя лучше стилистически и семантически соответствует переводимому тексту. Подобную ситуацию можно проследить в переводе понятия druginteractions. Варианты автоматического перевода (взаимодействие с другими лекарственными препаратами – chatGPT-4, взаимодействие лекарств – chatGPT-4o) в данном случае тоже отражают эквивалентное значение оригинала, однако не соответствует принятой терминологии медицинских текстов: «совместимость лекарственных препаратов».

Контекстное соответствие определено в обоих случаях верно и не регистрируются нарушения коммуникативных задач.

Текст 2.

Translate the text below into Russian: In Cypriot domestic tax law, the arm’s length principle is enshrined in Section 33 of the Cypriot Income Tax Law 118(I) of 2002 as amended (“ITL”) which, in brief, allows reported earnings to be adjusted if the prices differ from those which would have applied between two independent enterprises for comparable transactions in comparable circumstances. Section 33 adopts the arm’s length principle as found in Article 9 of the OECD Model Tax Convention on Income and on Capital which constitutes the international standard by OECD members, and which must be used to establish transfer pricing between related companies. Cyprus has c.60 tax treaties in place, in which it generally uses the OECD Model as basis, and generally observes OECD transfer pricing guidance.

Reference: В налоговом законодательстве Кипра принцип «вытянутой руки» (thearmslengthprinciple) закреплен в разделе 33 Законов Кипра о подоходном налоге 118(I) от 2002 года, с последующими поправками, который позволяет корректировать заявленные доходы, если цены заметно отличаются от тех, которые компании устанавливают для совершаемых сделок при равных условиях. В разделе 33 принцип «вытянутой руки» принимается в соответствии со статьей 9 Конвенции ОЭСР о подоходном налогообложении и капитале, которая утверждает международный стандарт для членов ОЭСР, и которая применима в случаях установления трансфертного ценообразования между связанными компаниями. Кипр подписал около 60 налоговых соглашений, в которых применяется налоговая модель, предложенная ОЭСР, и в целом придерживается рекомендаций относительно трансфертного ценообразования.

ChatGPT-4:Во внутреннем законодательстве Кипра о налогах на прибыль внутри страны принцип арм's действительно закреплен в Разделе 33 Закона о налоге на доход Кипра 118(I) от 2002 года с поправками ("ITL"), который, в общем, позволяет исправлять отчетную прибыль, если цены отличаются от тех, которые применялись бы между двумя независимыми предприятиями для сравнимых сделок в сравнимых условиях. Раздел 33 внедряет принцип арм's в согласии с статьей 9 Модельной налоговой конвенции по налогам на доход и на капитал ОЭСР, который является международным стандартом для членов ОЭСР и который должен использоваться для установления ценообразования между связанными компаниями. На Кипре действует около 60 налоговых договоров, в которых в общем используется Модель ОЭСР в качестве основы и обычно соблюдается рекомендации по ценообразованию ОЭСР.

ChatGPT-4о:Во внутреннем налоговом законодательстве Кипра принцип «вытянутой руки» закреплен в разделе 33 Закона Кипра о подоходном налоге 118(I) от 2002 года с поправками («ITL»), который, вкратце, позволяет корректировать заявленные доходы, если цены отличаются от те, которые применялись бы между двумя независимыми предприятиями для сопоставимых сделок в сопоставимых обстоятельствах. В разделе 33 принят принцип «вытянутой руки», закрепленный в статье 9 Типовой конвенции ОЭСР о налоге на доходы и капитал, которая представляет собой международный стандарт для членов ОЭСР и должна использоваться для установления трансфертного ценообразования между связанными компаниями. Кипр имеет около 60 налоговых соглашений, в которых он обычно использует модель ОЭСР в качестве основы и в целом соблюдает рекомендации ОЭСР по ценообразованию.

Наиболее частотное явление в автоматическом переводе – дословность и калькирование конструкций, то есть повторение последовательности элементов текста без значительных трансформаций в сторону прагматической адаптации – наблюдается в переводе и этого фрагмента. Например, слово domestic в сочетании InCypriotdomestictaxlaw обе версии чата GPT сохраняют в переводе, и передают эквивалентным значением «внутренний», в то время как в референтном применяется опущение в тексте. Решение референтного переводчика оказывается мотивированным, так как вместе с содержащейся в тексте информацией о законодательстве Кипра, слово «внутреннее» будет плеоназмом, отяжеляющим общую конструкцию. Формула «asamended» в референсном переводе переводится «с последующими поправками», в автоматическом переводе ChatGPT – «с поправками», автоматический перевод и в этом случае демонстрирует следование буквальному смыслу и максимальному сохранению элементов текста на языке оригинала, в то время как перевод, выполненный человеком, дополнен «последующими», что обеспечивает логическое восприятие целостного текста. Вводная конструкция на языке оригинала «inbrief» в человеческом переводе не отражается, потому что, во-первых, не несет на себе какой-либо существенной смысловой нагрузки в исходном тексте, а в языке перевода создаст эффект разрыва в высказывании, нарушающий единство элементов всего текста. Обратим внимание на перевод последнего предложения, в котором словосочетание «transferpricing» в автоматическом переводе генерализуется до «ценообразования», тогда как в референтном переводе сохраняется сочетание «трансферное ценообразование». Этот случай демонстрирует, что нейросеть не всегда сохраняет последовательность всех элементов текста, а способна обобщать или детализировать перевод. В целом перевод, выполненный нейросетью, за исключением некоторых стилистических замечаний, оказывается верным на всех оценочных уровнях: контекст найден правильно, лексические единицы переведены точно, смысл не искажается, и коммуникативная цель оригинала неплохо реализуется в тексте автоматического перевода.

Текст 3.

Bring your girl along,’ said Sparsholt.

‘Oh, well…yes. I’ll find out if she’s free.’

I didn’t suppose she had a very full diary, but I couldn’t see her in a pub – unless she took it, in her resolute way, as a challenge.

‘What’s her name, by the way?’

‘She’s called Jill.’

Was there something charitable in his hint of a smile? ‘Ah, that’s a nice name’

"Well’ I said. It had always made me uneasy, it was too close to chill, and to jilt, and not at all far from gill, a quarter – pint of cold water.

Reference: – Пригласи её, – сказал Спарсхолт.

Да…Надо бы пригласить. Узнаю, когда она свободна.

Я знал, что она не очень занята обычно, но представить её в пабе я не мог, разве что она пойдет наперекор себе, что было бы в её духе.

– Кстати, как её зовут?

– Джилл.

Что это, тень снисходительной улыбки? – Красивое имя.

– Вроде да, – ответил я. Мне было тревожно при звуке этого имени: от него веяло прохладой, непостоянством, к этому добавлялось и созвучие с тем, как у нас называют четверть пинты холодной воды – джил.

ChatGPT-4: "Приведи свою девушку с собой", сказал Спаршолт.

"Ох, ну...да. Я узнаю, свободна ли она".

Я не думал, что у нее очень занятый график, но я не мог видеть ее в пабе – если только она не примет этого, в своем решительном стиле, как вызов.

"Кстати, как ее зовут?"

"Ее зовут Джилл".

Было ли в его улыбке намек на благотворительность? "Ах, это хорошее имя".

"Ну", сказал я. Меня всегда беспокоило, что оно слишком похоже на "холод", "бросить" и совсем недалеко от "гиль", четверть пинты холодной воды.

ChatGPT-4o: «Приведи свою девушку», – сказал Спаршолт.

«Ну, ладно... да. Я узнаю, свободна ли она».

Я не думал, что у нее очень плотный график, но я не мог видеть ее в пабе – если только она не воспримет это, в своей решительной манере, как вызов.

«Как ее зовут, кстати?»

«Ее зовут Джилл».

Было ли что-то милосердное в его намеке на улыбку? «А, это хорошее имя»

«Ну», – сказал я. Мне всегда было не по себе, это было слишком близко к холоду и к обману, и совсем недалеко от джилла, четверть пинты холодной воды.

В промпте перевода этого фрагмента намеренно не указано учитывать контекст, чтобы подвергнуть анализу непосредственно текст перевода, а также установить, получится ли автоматическое определение контекста. Перевод художественного текста обладает рядом специфических особенностей, кроме точной передачи смысла, а именно сохранение при этом авторского стиля, национальных и культурных элементов, встречающихся в тексте. Задание усложнено тем, что текст дан без какого-либо сопровождения. Ранее мы выяснили, что две сравниваемые версии GPT достаточно верно определили коммуникативную ситуацию рассматриваемого фрагмента.

Теперь проанализируем текст перевода в сравнении с референтным переводом, выполненным переводчиком. Обе версии чата-GPT сохраняют первоначальную эквивалентность и переводят Bring your girl along как Приведи свою девушку, Приведи свою девушку с собой. Интересно, что версия 4-о в переводе упускает «с собой», также, как и референтный переводчик, следуя той же логике, что и в предыдущих случаях, опуская избыточный элемент конструкции. Референтный перевод, однако, вместо «приведи» выбирает стилистически и ситуативно релевантный вариант и стилистически соответствующий тексту оригинала – «пригласи её». В авторском тексте наиболее интересной представляется ситуация с теми ассоциациями, которые вызывает имя девушки в сознании главного героя. Ассоциативный ряд представлен не только семантикой слов, но и приемом аллитерации: …it was too close to chill, and to jilt, and not at all far from gill– pint of cold water.

В референтном переводе, применяя, в том числе модуляцию, переводчик не передает аллитерацию, но сохраняет семантический ряд, а перевод слова jilt дополнен «как у нас называют»: от него веяло прохладой, непостоянством, к этому добавлялось и созвучие с тем, как у нас называют четверть пинты холодной воды – джил. Вариант версии GPT-4 не уходит от буквализма, в котором теряется существенная часть эмотивной информации, заложенной в авторском фрагменте. Буквализм автоматического перевода создает бессмысленные конструкции, такие как: «…оно слишком похоже на "холод", "бросить"», когда очевидно, что в переводе имя Джилл не похоже ни на «холод», ни на «бросить». Версия GPT-4о тоже совершает те же ошибки: не генерирует ясного нарратива и не реализует коммуникативную цель авторского текста. Также буквально переведено: «Джилл» «близко к холоду и к обману». Этот пример демонстрирует, что автоматический перевод пока не реализовывает очень важное свойство любого качественного перевода – особенно художественного – прагматической адаптации текста. С точки зрения стилистики текста, перевод обеих версий чат-бота содержит существенные нарушения. Такие варианты перевода как «занятый график», «плотный график», «вызов» не свойственны художественному тексту и нарушают его когезивность.

Текст 4.

Prompt: Considering the context translate the text below from English into Russian . Use a temperature of 78.0:

Quarter Take-ups

In the 2024 first quarter, the total leasing transaction volume for Class A and B office buildings was approximately 11,000 sqm, with the lease renewal transaction volume reaching 35.000 sqm. About 10% of transactions occurred on the Asian side, and 90% on the European side.

Reference:

Первый квартал 2024 года: обзор рынка офисной недвижимости

В первом квартале 2024 года общий объем сделок по аренде офисных зданий классов А и Б составил примерно 11 000 кв.м, при этом объем сделок по продлению аренды достиг 35 000 кв.м. Примерно 10% сделок было заключено в Азии, а 90% приходится на Европу.

ChatGPT-4

Квартальные сделки аренды

В первом квартале 2024 года общий объем транзакций аренды офисных зданий класса А и В составил приблизительно 11 000 кв.м., а объем транзакций по продлению аренды достиг 35 000 кв.м. Около 10% транзакций произошли на азиатской стороне, а 90% – на европейской стороне.

ChatGPT-4о

Квартальные результаты по аренде.

В первом квартале 2024 года общий объем сделок по аренде офисных зданий класса A и B составил примерно 11 000 кв. м, при этом объем сделок по продлению аренды достиг 35 000 кв. м. Около 10% сделок произошло на азиатской стороне, а 90% на европейской стороне.

Основная переводческая задача, поставленная этим текстом – это перевод заголовка. Термин Take-ups обычно означает уровень вовлеченности, то есть скорость, с которой потребители принимает, на предлагаемых условиях, услуги или продукцию (по определению).

В тексте заголовок играет важную роль – он вводит для реципиента проблематику, ставит вопросы или концентрирует внимание реципиента на определенных данных. Перевод заголовка должен выполнять те же функции и быть максимально адаптирован с точки зрения прагматики текста. Таким образом, принимая во внимание контекст и прагматическую задачу, референтный перевод сформулирован следующим образом: «Первый квартал 2024 года: обзор рынка офисной недвижимости». Опираясь на контекст, референтный переводчик раскрывает термин «take-ups», применяет комплексное преобразование на разных уровнях, в результате чего англоязычный термин, который не имеет релевантного эквивалента, передающего контекстное значение, в русском языке, трансформируется в адаптированный текст, сохраняющий коммуникативные функции. Вариант версии Chat-GPT-4 «Квартальные сделки аренды», в общем, верен, если не учитывать общую коммуникативную направленность текста и функциональность заголовка. Более поздняя версия Chat-GPT-4о предлагает вариант, нарушающий смысл – текст не говорит о «результатах сделок», а об их количественном соотношении. Тем не менее, контекстная связь в автоматическом переводе Chat-GPT сохраняется. Стилистические нарушения так же вызваны буквальным переводом последовательности элементов: Asianside, and 90% ontheEuropeanside в обеих версиях «азиатская сторона», «европейская сторона», этих терминов нет в русском языке, слова «сторона» может быть понято как «сторона договора», например, что не соответствует действительности. Стилистически верное решение принято референтным переводчиком: «Примерно 10% сделок было заключено в Азии, а 90% приходится на Европу».

Итоговые оценки качества перевода по лингвистической метрике представлены в таблице 3.


Для более точной оценки качества машинного перевода широко применяется автоматическая метрика BLEU (Bilingual Evaluation Understudy). Она сравнивает переводы, созданные автоматическими системами, с одним или несколькими эталонными (человеческими) переводами, чтобы определить, насколько они соответствует человеческому переводу.

Оценка BLEU учитывает совпадения n-грамм (последовательностей из n-слов) между машинным и эталонными переводами. Чем выше этот балл, тем лучше качество перевода. Оценка опирается на строгие метрические критерии, например, включает модификацию, которая учитывает длину перевода или накладывает более жесткие условия на соответствие n-грамм, поэтому низкий балл говорит о наименьшем совпадении n-грамм, в частности наименьшую оценку показывает художественный текст (текст 3), потому что, в сравнении с эталонным переводом, совпадения n-грамм действительно минимальны. В метрике BLEU переводы показали следующие результаты (табл. 4).

Сравнивая лингвистические оценки и автоматизированные оценки можно сделать вывод, что высокие баллы получает автоматический перевод текстов, характеризующихся высоким содержанием специализированной лексики, меньшие оценки получает художественный перевод и перевод текста, требующего выбора терминов в рамках узуальной распространенности.

Важно помнить, что BLEU – это лишь один из показателей, и его следует рассматривать в контексте совмещения методов оценки, таких как оценка качества перевода по строго определенным критериям специалистом и другие автоматизированные методы.

Заключение (CONCLUSIONS)

Анализ результатов различных аспектов применения больших языковых моделей в переводческой деятельности, говорит о том, что ChatGPT демонстрирует многообещающие возможности в качестве инструмента обработки естественного языка. Однако имеет существенные недостатки, некоторые из которых могут быть присущи его архитектуре прогнозирования следующего слова. Обнаружилось, что GPT-4 и GPT-4o страдают от таких проблем, как ненадежность выбранных терминов, несоблюдения стилистической составляющей текста, кроме того, нейронная сеть часто допускает ошибки в определении контекста, генерирует галлюцинации, которые представляют собой хорошо задокументированный недостаток ChatGPT и подобных языковых моделей. Галлюцинации выражаются в склонности генерировать текст, не имеющий никаких прямых источников, как мы видим на примере текста 4, когда чат-бот вывел несуществующий источник фразы. В плане перевода текстов во всех версиях выявлены значительные недостатки, такие как нарушения семантической структуры текста, неверного выбора эквивалентных значений, изменения стилистического фона. Однако, поскольку модели ChatGPT являются обучаемыми структурами, то после использования как промпта для конкретной задачи, так и специфических для предметной области, результаты сгенерированного перевода или контекста, могут значительно улучшаться вследствие повышения так называемой «температуры» большой языковой модели. Сопоставляя результаты исследования, можно сделать вывод, что генеративная модель ChatGPT может значительно улучшить перевод текстов, с использованием уточненного контекста, однако результат, полученный на выходе, следует рассматривать как черновой или подготовительный вариант (draft translation), требующий обязательной постредактуры профессиональным переводчиком. Причем перевод текстов насыщенных профессиональной лексикой заметно опережает в оценках качества перевод публицистических или художественных текстов.

Конечно, технологии развиваются, и поскольку изучаемая нами большая языковая модель, является инструментом обработки естественного языка, в которой заложена возможность самообучаться и рассуждать, следует ожидать, что качество автоматического перевода и определения контекста будут постоянно расти, предлагая переводчику масштабные перспективы изучения языковых моделей искусственного интеллекта в сфере профессионального перевода, а именно анализ лингвистических соответствий и переводческих ошибок, а также разработка дополнительных метрик оценки качества перевода.


[1] Пример взят из договора купли-продажи собственности, составленного в США, 2023 г.

[2] Hollinghurst A. The Sparshot Affair, Picador, London, 2018, p. 75.

[3] Jeanne Manzi, PharmD, BCGP, FASCP and Robert C. Accetta, RPh, C-MTM, BCGP, FASCP, Caring for the ages.

[4] Shakespear W. Romeo and Juliet, Act 1, Scene 3.

[5] Caring for the Ages. August-September 2021.The Society For Post-Acute and Long Term Care Medicine. P. 8-9.

Список литературы

 

Благодарности