Автоматизированные оценочные метрики играют ключевую роль в оценке качества переводов, произведенных системами машинного перевода. В отличие от человеческих оценок, которые могут быть субъективными и трудоемкими, автоматизированные метрики предоставляют быстрый, объективный и повторяемый способ оценки производительности систем МТ.
Phrase Custom AI включает несколько хорошо зарекомендовавших себя автоматизированных метрик для оценки качества машинного перевода: BLEU, TER, chrf3 и COMET.
Рекомендуется развертывать настраиваемые системы в производственной среде, если выполнены оба следующих условия:
-
BLEU улучшение как минимум на 5 пунктов (абсолютное, например, 40 против 35), или chrf улучшение как минимум на 4 пункта.
-
Отсутствие значительного снижения оценки COMET.
В большинстве случаев улучшения такого масштаба легко заметны для человеческих переводчиков и приводят к сокращению времени постредактирования.
Рекомендуемый подход
В общем, абсолютные значения метрик варьируются в зависимости от языковой пары, отрасли и других факторов. Чтобы оценить, насколько успешным был процесс настройки, проверьте разницу между оценками общей и настраиваемой системы.
BLEU, chrf и TER все измеряют совпадение строк между выводами МТ и справочными переводами. По определению, значительное улучшение этих оценок подразумевает меньшие усилия по постредактированию для переводчиков.
COMET измеряет качество перевода в общем смысле. COMET не обязательно увеличится после настройки (настраиваемая система может выдавать переводы аналогичного качества, разница заключается в том, соответствуют ли переводы стилю, тону, терминологии клиента и т.д.). Тем не менее, значительное снижение COMET может сигнализировать о проблеме с настраиваемой системой.
Доступные метрики
Phrase Custom AI включает несколько хорошо зарекомендовавших себя автоматизированных метрик для оценки качества машинного перевода: BLEU, TER, chrf3 и COMET. Каждая из этих метрик предлагает уникальный подход к оценке качества перевода, учитывая различные аспекты перевода.
COMET (Кросс-языковая оптимизированная метрика для оценки перевода)
-
Обзор
COMET — это более современная метрика, которая использует модели машинного обучения для оценки переводов. В отличие от традиционных метрик, она не полагается исключительно на поверхностные текстовые сравнения.
-
Рабочий механизм
COMET использует модель нейронной сети, обученную на больших наборах данных человеческих оценок. Она оценивает переводы, учитывая различные аспекты качества перевода, включая беглость, адекватность и сохранение смысла.
-
Варианты использования
COMET эффективен в сценариях, где требуется более глубокое понимание качества перевода. Он особенно полезен для оценки переводов, где контекстуальная и семантическая точность важнее, чем буквальное соответствие слов.
BLEU (Билингвальная оценка подмены)
-
Обзор
BLEU, одна из самых ранних и широко используемых метрик, оценивает качество машинного перевода, сравнивая его с одной или несколькими высококачественными справочными переводами. BLEU измеряет соответствие фраз между машинно-сгенерированным текстом и справочными текстами, сосредотачиваясь на точности совпадений слов.
-
Рабочий механизм
BLEU вычисляет точность n-грамм для различных длин n-грамм (обычно от 1 до 4 слов) и затем комбинирует эти оценки с использованием геометрического среднего. Она также включает штраф за краткость, чтобы решить проблему чрезмерно коротких переводов.
-
Варианты использования
BLEU особенно эффективен для оценки переводов, где важно точное совпадение фраз и порядок слов. Однако его зависимость от точных совпадений может быть ограничением в захвате качества более беглых или идиоматических переводов.
TER (Коэффициент редактирования перевода)
-
Обзор
TER — это метрика, которая измеряет количество правок, необходимых для изменения машинно переведенного текста в справочный перевод. Она основана на концепции расстояния редактирования и включает операции, такие как вставки, удаления и замены. В отличие от других метрик в этом списке, более низкий балл TER означает лучший перевод.
-
Рабочий механизм
TER вычисляет минимальное количество правок, необходимых для преобразования машинного перевода в один из справочных переводов. Оценка затем нормализуется по общему количеству слов в справочном переводе.
-
Варианты использования
TER полезен для оценки переводов, где акцент делается на объеме постредактирования, необходимом для работы. Это особенно актуально в сценариях, когда переводы будут постредактированы людьми.
chrf3 (Оценка F-меры символов n-грамм)
-
Обзор
chrf3, или оценка F-меры символов n-грамм, является метрикой, которая оценивает переводы на основе символов n-грамм. Она учитывает как точность, так и полноту, обеспечивая баланс между ними.
-
Рабочий механизм
chrf3 вычисляет F-меру, гармоническое среднее точности и полноты, на основе перекрытия символов n-грамм между машинным переводом и справочным текстом.
-
Варианты использования
chrf3 выгоден для языков, где сегментация слов является сложной задачей, или для морфологически богатых языков. Он также менее чувствителен к порядку слов, чем BLEU, что делает его более гибким в оценке переводов с различными, но приемлемыми формулировками.
Диапазоны оценок
Абсолютные значения метрик значительно варьируются в зависимости от языковой пары, отрасли и других факторов. Поэтому трудно установить общие рекомендации для интерпретации значений оценок, и пользователи должны в первую очередь принимать решения на основе различий между общим и индивидуализированным системами (оцененными на идентичном наборе данных).
Эта таблица может считаться полезной отправной точкой для интерпретации значений отдельных метрик:
-
Оценки ниже порога низкокачественного машинного перевода могут указывать на серьезные проблемы, и такие системы обычно не должны развертываться без дальнейшего анализа.
-
Оценки, превышающие порог высококачественного машинного перевода, обычно указывают на очень хорошо работающую систему, которая производит плавные и адекватные переводы.
|
Метрика |
Диапазон |
Порог низкокачественного машинного перевода |
Порог высококачественного машинного перевода |
|---|---|---|---|
|
КОМЕТА |
Обычно от 0 до 1 |
< 0,3 |
> 0,8 |
|
BLEU |
от 0 до 100 |
< 15 |
> 50 |
|
TER |
от 0 до 100, меньше - лучше |
> 70 |
< 30 |
|
chrf3 |
от 0 до 100 |
< 20 |
> 60 |