Использование метрик МТ

Контент автоматически переведен с английского языка с помощью Phrase Language AI.

Автоматизированные оценочные метрики играют ключевую роль в оценке качества переводов, произведенных системами машинного перевода. В отличие от человеческих оценок, которые могут быть субъективными и трудоемкими, автоматизированные метрики предоставляют быстрый, объективный и повторяемый способ оценки производительности систем МТ.

Phrase Custom AI включает несколько хорошо зарекомендовавших себя автоматизированных метрик для оценки качества машинного перевода: BLEU, TER, chrf3 и COMET.

Рекомендуется развертывать настраиваемые системы в производственной среде, если выполнены оба следующих условия:

BLEU улучшение как минимум на 5 пунктов (абсолютное, например, 40 против 35), или chrf улучшение как минимум на 4 пункта.
Отсутствие значительного снижения оценки COMET.

В большинстве случаев улучшения такого масштаба легко заметны для человеческих переводчиков и приводят к сокращению времени постредактирования.

Доступные метрики

Phrase Custom AI включает несколько хорошо зарекомендовавших себя автоматизированных метрик для оценки качества машинного перевода: BLEU, TER, chrf3 и COMET. Каждая из этих метрик предлагает уникальный подход к оценке качества перевода, учитывая различные аспекты перевода.

COMET (Кросс-языковая оптимизированная метрика для оценки перевода)

Обзор

COMET — это более новая метрика, которая использует модели машинного обучения для оценки переводов. В отличие от традиционных метрик, она не полагается исключительно на поверхностные текстовые сравнения.
Рабочий механизм

COMET использует модель нейронной сети, обученную на больших наборах данных человеческих оценок. Она оценивает переводы, учитывая различные аспекты качества перевода, включая беглость, адекватность и сохранение смысла.
Варианты использования

COMET эффективен в сценариях, где требуется более глубокое понимание качества перевода. Он особенно полезен для оценки переводов, где контекстуальная и семантическая точность важнее, чем буквальное соответствие слов.

BLEU (Билингвальная оценка подмены)

Обзор

BLEU, одна из самых ранних и широко используемых метрик, оценивает качество текста, переведенного машиной, сравнивая его с одной или несколькими высококачественными справочными переводами. BLEU измеряет соответствие фраз между машинно-сгенерированным текстом и справочными текстами, сосредотачиваясь на точности совпадений слов.
Рабочий механизм

BLEU вычисляет точность n-грамм для различных длин n-грамм (обычно от 1 до 4 слов) и затем комбинирует эти оценки с использованием геометрического среднего. Он также включает штраф за краткость, чтобы решить проблему чрезмерно коротких переводов.
Варианты использования

BLEU особенно эффективен для оценки переводов, где важно точное совпадение фраз и порядок слов. Однако его зависимость от точных совпадений может быть ограничением в захвате качества более беглых или идиоматических переводов.

TER (Коэффициент редактирования перевода)

Обзор

TER — это метрика, которая измеряет количество правок, необходимых для изменения текста, переведенного машиной, в справочный перевод. Она основана на концепции расстояния редактирования и включает операции, такие как вставки, удаления и замены. В отличие от других метрик в этом списке, более низкий балл TER означает лучший перевод.
Рабочий механизм

TER вычисляет минимальное количество правок, необходимых для преобразования машинного перевода в один из справочных переводов. Оценка затем нормализуется по общему количеству слов в справочном переводе.
Варианты использования

TER полезен для оценки переводов, где акцент делается на объеме постредактирования, необходимом для работы. Это особенно актуально в сценариях, когда переводы будут постредактированы людьми.

chrf3 (Оценка F-меры символов n-грамм)

Обзор

chrf3, или оценка F-меры символов n-грамм, является метрикой, которая оценивает переводы на основе символов n-грамм. Она учитывает как точность, так и полноту, обеспечивая баланс между ними.
Рабочий механизм

chrf3 вычисляет F-меру, гармоническое среднее точности и полноты, на основе перекрытия символов n-грамм между машинным переводом и справочным текстом.
Варианты использования

chrf3 выгоден для языков, где сегментация слов является сложной, или для морфологически богатых языков. Он также менее чувствителен к порядку слов, чем BLEU, что делает его более гибким в оценке переводов с различными, но приемлемыми формулировками.

Диапазоны оценок

Абсолютные значения метрик значительно варьируются в зависимости от языковой пары, отрасли и других факторов. Поэтому трудно установить общие рекомендации для интерпретации значений оценок, и пользователи должны в первую очередь принимать решения на основе различий между общим и индивидуализированным системами (оцененными на идентичном наборе данных).

Эта таблица может считаться полезной отправной точкой для интерпретации значений отдельных метрик:

Оценки ниже порога низкокачественного машинного перевода могут указывать на серьезные проблемы, и такие системы обычно не должны развертываться без дальнейшего анализа.
Оценки, которые превышают порог высококачественного машинного перевода, обычно указывают на очень хорошо работающую систему, которая производит плавные и адекватные переводы.

Метрика	Диапазон	Порог низкокачественного машинного перевода	Порог высококачественного машинного перевода
КОМЕТА	Обычно от 0 до 1	< 0,3	> 0,8
BLEU	от 0 до 100	< 15	> 50
TER	от 0 до 100, меньше - лучше	> 70	< 30
chrf3	от 0 до 100	< 20	> 60