Custom AI

Using MT Metrics

Контент автоматически переведен с английского языка с помощью Phrase Language AI.

Решающую роль в оценке качества переводов, выполняемых системами машинного перевода, играют показатели автоматизированной оценки. В отличие от оценок, проводимых человеком, которые могут быть субъективными и трудоемкими, автоматизированные метрики дают быстрый, объективный и повторяемый способ оценить эффективность систем машинного перевода (МТ).

Phrase Custom AI включает несколько хорошо зарекомендовавших себя автоматизированных метрик для оценки качества машинного перевода: BLEU, TER, chrf3 и COMET.

Рекомендуется внедрять специализированные системы в рабочую среду при соблюдении обоих следующих условий:

  • BLEU-улучшение как минимум на 5 пунктов (абсолютное значение, например, 40 против 35) или chrf-улучшение как минимум на 4 пункта.

  • Существенного снижения оценки COMET не произошло.

В большинстве случаев улучшения такого масштаба легко заметны для переводчиков-людей и приводят к сокращению времени постредактирования.

Рекомендуемый подход

Как правило, абсолютные значения показателей варьируются в зависимости от языковой пары, отрасли и других факторов. Чтобы оценить, насколько успешно прошел процесс настройки, изучите разницу между показателями универсальной и специализированной системы.

BLEU, chrf и TER измеряют пересечение строк между результатами машинного перевода (МТ) и справочными файлами. Значительное улучшение этих показателей по определению предполагает меньше усилий на постредактирование для переводчиков.

COMET измеряет качество перевода в общем смысле. Комиссия COMET не обязательно будет расти после адаптации (индивидуализированная система может давать результаты переводов аналогичного качества, разница заключается в совпадении стиля, тона перевода, терминологии клиента и т.д.). Однако значительное снижение оценки COET может свидетельствовать о проблеме с адаптированной системой.

Доступные метрики

Phrase Custom AI включает несколько хорошо зарекомендовавших себя автоматизированных метрик для оценки качества машинного перевода: BLEU, TER, chrf3 и COMET. Каждый из этих показателей предлагает уникальный подход к оценке качества перевода, учитывающий различные аспекты перевода.

COMET (многоязычная оптимизированная система оценки перевода)

  • Обзор

    COMET - это более поздняя метрика, в которой используются модели машинного обучения для оценки переводов. В отличие от традиционных метрик, она не только полагается на сопоставление текста на поверхностном уровне.

  • Рабочий механизм

    COMET использует нейронную сеть, обучающуюся на основе больших наборов данных суждений человека. Он оценивает переводы, учитывая различные аспекты качества перевода, включая беглость, адекватность и сохранение смысла.

  • Использовать варианты

    COMET эффективен в сценариях, где требуется более глубокое понимание качества перевода. Он особенно удобен для оценки переводов, в которых контекстуальная и смысловая точность важнее буквального слово в слово.

BLEU (дублер по двуязычной оценке)

  • Обзор

    BLEU, одна из самых ранних и широко используемых метрик, оценивает качество машинно переведенного текста, сравнивая его с одним или несколькими высококачественными справочными файлами. BLEU измеряет соответствие фраз машинно сгенерированному тексту и справочным файлам, ориентируясь на точность совпадений слов.

  • Рабочий механизм

    BLEU рассчитывает точность n-грамма для различных длин n-граммов (обычно от 1 до 4 слов), а затем объединяет эти показатели, используя среднее геометрическое значение. В нем также предусматривается штраф за краткость для решения вопроса слишком коротких переводов.

  • Использовать варианты

    BLEU особенно эффективен при оценке переводов, где важно точное совпадение фраз и заказа слов. Однако использование точных совпадений может стать препятствием в определении качества более четкого или идиоматичного перевода.

ТЭР (ставка редактируемого перевода)

  • Обзор

    TER — это метрика, измеряющая количество редактирований, необходимое для того, чтобы изменить текст с машинным переводом в справочный файл. Он основан на концепции редактируемого расстояния и включает такие операции, как вставки, удаления и замены. В отличие от других показателей в этом списке, более низкая оценка TER означает более качественный перевод.

  • Рабочий механизм

    ТЕР рассчитывает минимальное количество правок, необходимое для преобразования машинного перевода в один из справочных файлов. Затем оценка нормализуется общим количеством слов в справочном файле перевода.

  • Использовать варианты

    ТЕЖ полезна для оценки переводов, в которых основное внимание уделяется объему необходимой работы постредактирования. Это особенно актуально в сценариях, когда переводы будут постредактированы человеком.

chrf3 (символ n-грамм оценка F)

  • Обзор

    chrf3, или оценка символов n-грамм F — это метрика, которая оценивает переводы на основе n-грамм уровня символов. В нем учитываются как точность, так и отзывчивость и обеспечивается баланс между ними.

  • Рабочий механизм

    chrf3 рассчитывает оценку F — среднее гармоническое значение точности и запоминания — на основе совпадений n-грамм символов машинного перевода и справочного файла.

  • Использовать варианты

    chrf3 выгодно для языков, в которых существует проблема сегментации слов, или для богатых морфологией языков. Также она менее чувствительна к заказу слов, чем BLEU, что делает ее более гибкой при оценке переводов с разными, но приемлемыми формулировками.

Диапазоны оценок

Абсолютные значения метрик значительно варьируются в зависимости от языковой пары, отрасли и других факторов. Поэтому трудно разработать общие руководящие принципы интерпретации значений оценки, и пользователи должны принимать решение в первую очередь на основе различий между типовой и специализированной системами (оцениваемыми на основе идентичного набора данных).

Эту таблицу можно считать полезной исходной точкой для интерпретации значений отдельных метрик:

  • Оценки ниже низкокачественного порога машинного перевода (МТ) могут указывать на серьезные проблемы, и такие системы, как правило, не следует внедрять без дальнейшего анализа.

  • Баллы, превышающие порог высококачественного машинного перевода (МТ), обычно свидетельствуют о весьма эффективной системе, которая выдает четкие и адекватные переводы.

Метрика

Диапазон

Порог низкокачественного машинного перевода (МТ)

Порог высококачественного машинного перевода (МТ)

COMET

Обычно от 0 до 1

< 0.3

> 0.8

BLEU

от 0 до 100

< 15

> 50

TER

от 0 до 100, ниже — лучше

> 70

< 30

chrf3

от 0 до 100

< 20

> 60

Была ли эта статья полезной?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.