Custom AI

Использование метрик МТ

Контент автоматически переведен с английского языка с помощью Phrase Language AI.

Автоматизированные оценочные метрики играют ключевую роль в оценке качества переводов, произведенных системами машинного перевода. В отличие от человеческих оценок, которые могут быть субъективными и трудоемкими, автоматизированные метрики предоставляют быстрый, объективный и повторяемый способ оценки производительности систем МТ.

Phrase Custom AI включает несколько хорошо зарекомендовавших себя автоматизированных метрик для оценки качества машинного перевода: BLEU, TER, chrf3 и COMET.

Рекомендуется развертывать настраиваемые системы в производственной среде, если выполнены оба следующих условия:

  • BLEU улучшение как минимум на 5 пунктов (абсолютное, например, 40 против 35), или chrf улучшение как минимум на 4 пункта.

  • Отсутствие значительного снижения оценки COMET.

В большинстве случаев улучшения такого масштаба легко заметны для человеческих переводчиков и приводят к сокращению времени постредактирования.

Рекомендуемый подход

В общем, абсолютные значения метрик варьируются в зависимости от языковой пары, отрасли и других факторов. Чтобы оценить, насколько успешным был процесс настройки, проверьте разницу между оценками общей и настраиваемой системы.

BLEU, chrf и TER все измеряют совпадение строк между выводами МТ и справочными переводами. По определению, значительное улучшение этих оценок подразумевает меньшие усилия по постредактированию для переводчиков.

COMET измеряет качество перевода в общем смысле. COMET не обязательно увеличится после настройки (настраиваемая система может выдавать переводы аналогичного качества, разница заключается в том, соответствуют ли переводы стилю, тону, терминологии клиента и т.д.). Тем не менее, значительное снижение COMET может сигнализировать о проблеме с настраиваемой системой.

Доступные метрики

Phrase Custom AI включает несколько хорошо зарекомендовавших себя автоматизированных метрик для оценки качества машинного перевода: BLEU, TER, chrf3 и COMET. Каждая из этих метрик предлагает уникальный подход к оценке качества перевода, учитывая различные аспекты перевода.

COMET (Кросс-языковая оптимизированная метрика для оценки перевода)

  • Обзор

    COMET — это более современная метрика, которая использует модели машинного обучения для оценки переводов. В отличие от традиционных метрик, она не полагается исключительно на поверхностные текстовые сравнения.

  • Рабочий механизм

    COMET использует модель нейронной сети, обученную на больших наборах данных человеческих оценок. Она оценивает переводы, учитывая различные аспекты качества перевода, включая беглость, адекватность и сохранение смысла.

  • Варианты использования

    COMET эффективен в сценариях, где требуется более глубокое понимание качества перевода. Он особенно полезен для оценки переводов, где контекстуальная и семантическая точность важнее, чем буквальное соответствие слов.

BLEU (Билингвальная оценка подмены)

  • Обзор

    BLEU, одна из самых ранних и широко используемых метрик, оценивает качество машинного перевода, сравнивая его с одной или несколькими высококачественными справочными переводами. BLEU измеряет соответствие фраз между машинно-сгенерированным текстом и справочными текстами, сосредотачиваясь на точности совпадений слов.

  • Рабочий механизм

    BLEU вычисляет точность n-грамм для различных длин n-грамм (обычно от 1 до 4 слов) и затем комбинирует эти оценки с использованием геометрического среднего. Она также включает штраф за краткость, чтобы решить проблему чрезмерно коротких переводов.

  • Варианты использования

    BLEU особенно эффективен для оценки переводов, где важно точное совпадение фраз и порядок слов. Однако его зависимость от точных совпадений может быть ограничением в захвате качества более беглых или идиоматических переводов.

TER (Коэффициент редактирования перевода)

  • Обзор

    TER — это метрика, которая измеряет количество правок, необходимых для изменения машинно переведенного текста в справочный перевод. Она основана на концепции расстояния редактирования и включает операции, такие как вставки, удаления и замены. В отличие от других метрик в этом списке, более низкий балл TER означает лучший перевод.

  • Рабочий механизм

    TER вычисляет минимальное количество правок, необходимых для преобразования машинного перевода в один из справочных переводов. Оценка затем нормализуется по общему количеству слов в справочном переводе.

  • Варианты использования

    TER полезен для оценки переводов, где акцент делается на объеме постредактирования, необходимом для работы. Это особенно актуально в сценариях, когда переводы будут постредактированы людьми.

chrf3 (Оценка F-меры символов n-грамм)

  • Обзор

    chrf3, или оценка F-меры символов n-грамм, является метрикой, которая оценивает переводы на основе символов n-грамм. Она учитывает как точность, так и полноту, обеспечивая баланс между ними.

  • Рабочий механизм

    chrf3 вычисляет F-меру, гармоническое среднее точности и полноты, на основе перекрытия символов n-грамм между машинным переводом и справочным текстом.

  • Варианты использования

    chrf3 выгоден для языков, где сегментация слов является сложной задачей, или для морфологически богатых языков. Он также менее чувствителен к порядку слов, чем BLEU, что делает его более гибким в оценке переводов с различными, но приемлемыми формулировками.

Диапазоны оценок

Абсолютные значения метрик значительно варьируются в зависимости от языковой пары, отрасли и других факторов. Поэтому трудно установить общие рекомендации для интерпретации значений оценок, и пользователи должны в первую очередь принимать решения на основе различий между общим и индивидуализированным системами (оцененными на идентичном наборе данных).

Эта таблица может считаться полезной отправной точкой для интерпретации значений отдельных метрик:

  • Оценки ниже порога низкокачественного машинного перевода могут указывать на серьезные проблемы, и такие системы обычно не должны развертываться без дальнейшего анализа.

  • Оценки, превышающие порог высококачественного машинного перевода, обычно указывают на очень хорошо работающую систему, которая производит плавные и адекватные переводы.

Метрика

Диапазон

Порог низкокачественного машинного перевода

Порог высококачественного машинного перевода

КОМЕТА

Обычно от 0 до 1

< 0,3

> 0,8

BLEU

от 0 до 100

< 15

> 50

TER

от 0 до 100, меньше - лучше

> 70

< 30

chrf3

от 0 до 100

< 20

> 60

Была ли эта статья полезной?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.