Решающую роль в оценке качества переводов, выполняемых системами машинного перевода, играют показатели автоматизированной оценки. В отличие от оценок, проводимых человеком, которые могут быть субъективными и трудоемкими, автоматизированные метрики дают быстрый, объективный и повторяемый способ оценить эффективность систем машинного перевода (МТ).
Phrase Custom AI включает несколько хорошо зарекомендовавших себя автоматизированных метрик для оценки качества машинного перевода: BLEU, TER, chrf3 и COMET.
Рекомендуется внедрять специализированные системы в рабочую среду при соблюдении обоих следующих условий:
-
BLEU-улучшение как минимум на 5 пунктов (абсолютное значение, например, 40 против 35) или chrf-улучшение как минимум на 4 пункта.
-
Существенного снижения оценки COMET не произошло.
В большинстве случаев улучшения такого масштаба легко заметны для переводчиков-людей и приводят к сокращению времени постредактирования.
Рекомендуемый подход
Как правило, абсолютные значения показателей варьируются в зависимости от языковой пары, отрасли и других факторов. Чтобы оценить, насколько успешно прошел процесс настройки, изучите разницу между показателями универсальной и специализированной системы.
BLEU, chrf и TER измеряют пересечение строк между результатами машинного перевода (МТ) и справочными файлами. Значительное улучшение этих показателей по определению предполагает меньше усилий на постредактирование для переводчиков.
COMET измеряет качество перевода в общем смысле. Комиссия COMET не обязательно будет расти после адаптации (индивидуализированная система может давать результаты переводов аналогичного качества, разница заключается в совпадении стиля, тона перевода, терминологии клиента и т.д.). Однако значительное снижение оценки COET может свидетельствовать о проблеме с адаптированной системой.
Доступные метрики
Phrase Custom AI включает несколько хорошо зарекомендовавших себя автоматизированных метрик для оценки качества машинного перевода: BLEU, TER, chrf3 и COMET. Каждый из этих показателей предлагает уникальный подход к оценке качества перевода, учитывающий различные аспекты перевода.
COMET (многоязычная оптимизированная система оценки перевода)
-
Обзор
COMET - это более поздняя метрика, в которой используются модели машинного обучения для оценки переводов. В отличие от традиционных метрик, она не только полагается на сопоставление текста на поверхностном уровне.
-
Рабочий механизм
COMET использует нейронную сеть, обучающуюся на основе больших наборов данных суждений человека. Он оценивает переводы, учитывая различные аспекты качества перевода, включая беглость, адекватность и сохранение смысла.
-
Использовать варианты
COMET эффективен в сценариях, где требуется более глубокое понимание качества перевода. Он особенно удобен для оценки переводов, в которых контекстуальная и смысловая точность важнее буквального слово в слово.
BLEU (дублер по двуязычной оценке)
-
Обзор
BLEU, одна из самых ранних и широко используемых метрик, оценивает качество машинно переведенного текста, сравнивая его с одним или несколькими высококачественными справочными файлами. BLEU измеряет соответствие фраз машинно сгенерированному тексту и справочным файлам, ориентируясь на точность совпадений слов.
-
Рабочий механизм
BLEU рассчитывает точность n-грамма для различных длин n-граммов (обычно от 1 до 4 слов), а затем объединяет эти показатели, используя среднее геометрическое значение. В нем также предусматривается штраф за краткость для решения вопроса слишком коротких переводов.
-
Использовать варианты
BLEU особенно эффективен при оценке переводов, где важно точное совпадение фраз и заказа слов. Однако использование точных совпадений может стать препятствием в определении качества более четкого или идиоматичного перевода.
ТЭР (ставка редактируемого перевода)
-
Обзор
TER — это метрика, измеряющая количество редактирований, необходимое для того, чтобы изменить текст с машинным переводом в справочный файл. Он основан на концепции редактируемого расстояния и включает такие операции, как вставки, удаления и замены. В отличие от других показателей в этом списке, более низкая оценка TER означает более качественный перевод.
-
Рабочий механизм
ТЕР рассчитывает минимальное количество правок, необходимое для преобразования машинного перевода в один из справочных файлов. Затем оценка нормализуется общим количеством слов в справочном файле перевода.
-
Использовать варианты
ТЕЖ полезна для оценки переводов, в которых основное внимание уделяется объему необходимой работы постредактирования. Это особенно актуально в сценариях, когда переводы будут постредактированы человеком.
chrf3 (символ n-грамм оценка F)
-
Обзор
chrf3, или оценка символов n-грамм F — это метрика, которая оценивает переводы на основе n-грамм уровня символов. В нем учитываются как точность, так и отзывчивость и обеспечивается баланс между ними.
-
Рабочий механизм
chrf3 рассчитывает оценку F — среднее гармоническое значение точности и запоминания — на основе совпадений n-грамм символов машинного перевода и справочного файла.
-
Использовать варианты
chrf3 выгодно для языков, в которых существует проблема сегментации слов, или для богатых морфологией языков. Также она менее чувствительна к заказу слов, чем BLEU, что делает ее более гибкой при оценке переводов с разными, но приемлемыми формулировками.
Диапазоны оценок
Абсолютные значения метрик значительно варьируются в зависимости от языковой пары, отрасли и других факторов. Поэтому трудно разработать общие руководящие принципы интерпретации значений оценки, и пользователи должны принимать решение в первую очередь на основе различий между типовой и специализированной системами (оцениваемыми на основе идентичного набора данных).
Эту таблицу можно считать полезной исходной точкой для интерпретации значений отдельных метрик:
-
Оценки ниже низкокачественного порога машинного перевода (МТ) могут указывать на серьезные проблемы, и такие системы, как правило, не следует внедрять без дальнейшего анализа.
-
Баллы, превышающие порог высококачественного машинного перевода (МТ), обычно свидетельствуют о весьма эффективной системе, которая выдает четкие и адекватные переводы.
Метрика |
Диапазон |
Порог низкокачественного машинного перевода (МТ) |
Порог высококачественного машинного перевода (МТ) |
---|---|---|---|
COMET |
Обычно от 0 до 1 |
< 0.3 |
> 0.8 |
BLEU |
от 0 до 100 |
< 15 |
> 50 |
TER |
от 0 до 100, ниже — лучше |
> 70 |
< 30 |
chrf3 |
от 0 до 100 |
< 20 |
> 60 |