16+
DOI: 10.18413/2313-8912-2024-10-2-0-2

Машинный перевод вчера и сегодня

Работа посвящена анализу ключевых проектов на всем треке развития машинного перевода (МП) и их роли в решение практических задач. На примере наиболее успешных инициатив установлено, что в период становления МП фактором, определяющим работоспособность систем, была энтропия текстов: чем меньше энтропия, тем выше предсказуемость, следовательно, выше эффективность технологии. Именно это объясняет успех Джорджтаунского эксперимента и проекта МЕТЕО-1, с помощью которой метеорологическая служба Канады четверть века обеспечивала автоматический перевод с английского языка на французский и обратно погодных сводок, благодаря высокой формализации текста. Доклад Консультативного комитета по автоматической обработке языка ALPAC, опубликованный в 1964 году, поставил под сомнение валидность полноценного машинного перевода, но не самой технологии, успехи которой отмечены в проектах при участии людей. Это направление, в частности, развилось в отдельную ветвь автоматизации перевода, так называемый накопительный перевод. Авторы отмечают цикличный характер развития методов и механизмов перевода с привлечением решений из области МП. Современная комбинация ресурсов и порядка их использования отличается немногим от представлений прошлого века. Разница заключается в возможностях технологий, которые проделали длинный путь от перевода, основанного на правилах и корпусе до современного статистического и нейронного перевода. Установлено, что для повышения качества последних требуется значительное увеличение объемов параллельных корпусов, должным образом обработанных, размеченных и подготовленных для автоматического обучения языковых моделей. С учетом прогресса и приобретенных преимуществ МП авторы моделируют базовые ситуации обработки текстов, в том числе с использованием ИИ. По результатам практической апробации различных методов работы с МП предложены дальнейшие пути совершенствования технологии в интересах профессиональных переводчиков, в том числе через самостоятельное обучение языковых моделей, развитие практики постредактирования (PEMT) и предредактирования для подготовки почвы для более глубоких трансформаций и достижения низких уровней эквивалентности. Массивы продолжают оставаться в центре внимания при обучении современных технологий МП. В этой связи выделяется два основных направления: совершенствование подготовки корпусов для восприятия компьютером посредством автоматизации основных типов разметки и повышение обеспеченности низкоресурсных языков.

Количество просмотров: 526 (смотреть статистику)
Количество скачиваний: 800
Полный текст (HTML)Полный текст (PDF)К списку статей
  • Комментарии
  • Список литературы

Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.

Оставить комментарий: