Custom AI

MT 메트릭스 사용

컨텐츠는 영어 텍스트를 Phrase Language AI를 이용해 기계 번역한 것입니다.

자동화된 평가 메트릭스는 기계 번역 시스템이 생성한 번역의 품질을 평가하는 데 중요한 역할을 합니다. 주관적이고 시간 소모적인 인간 평가와 달리, 자동화된 메트릭스는 MT 시스템의 성능을 측정하는 빠르고 객관적이며 반복 가능한 방법을 제공합니다.

Phrase Custom AI는 기계 번역 품질을 평가하기 위해 여러 잘 확립된 자동화된 메트릭스를 통합합니다: BLEU, TER, chrf3 및 COMET.

다음 두 가지 조건이 모두 충족되는 경우 사용자 지정 시스템을 프로덕션 환경에 배포하는 것이 좋습니다:

  • BLEU 최소 5점(절대, 예: 40 대 35) 개선 또는 chrf 최소 4점 개선.

  • COMET 점수의 유의미한 감소가 없습니다.

대부분의 경우, 이러한 규모의 개선은 인간 번역가에게 쉽게 눈에 띄며 사후 편집 시간을 단축시킵니다.

추천 접근 방식

일반적으로 메트릭의 절대 값은 언어 쌍, 도메인 및 기타 요인에 따라 달라집니다. 사용자 지정 프로세스가 얼마나 성공적이었는지 평가하기 위해 일반 시스템과 사용자 지정 시스템의 점수 차이를 검토하십시오.

BLEU, chrfTER는 모두 MT 출력과 참조 번역 간의 문자열 중복을 측정합니다. 정의상, 이러한 점수의 유의미한 개선은 번역가의 사후 편집 노력을 줄임을 의미합니다.

COMET은 일반적인 의미에서 번역 품질을 측정합니다. COMET는 사용자 지정 후 반드시 증가하지는 않습니다(사용자 지정 시스템이 유사한 품질의 번역을 출력할 수 있으며, 차이는 번역이 고객의 스타일, 목소리 톤, 용어 등에 맞는지 여부입니다). 그러나 COMET의 유의미한 감소는 사용자 지정 시스템에 문제가 있음을 나타낼 수 있습니다.

사용 가능한 메트릭

Phrase Custom AI는 기계 번역 품질을 평가하기 위해 여러 잘 확립된 자동화된 메트릭스를 통합합니다: BLEU, TER, chrf3, 및 COMET. 이러한 각 메트릭은 번역 품질을 평가하는 독특한 접근 방식을 제공하며, 번역의 다양한 측면에 맞춰져 있습니다.

COMET(번역 평가를 위한 교차 언어 최적화 메트릭)

  • 개요

    COMET는 번역을 평가하기 위해 기계 학습 모델을 사용하는 최신 메트릭입니다. 전통적인 메트릭과 달리, 표면 수준의 텍스트 비교에만 의존하지 않습니다.

  • 작동 메커니즘

    COMET는 대규모 인간 판단 데이터셋으로 훈련된 신경망 모델을 사용합니다. 번역의 유창성, 적합성 및 의미 보존을 포함한 다양한 번역 품질 측면을 고려하여 번역을 평가합니다.

  • 사용 사례

    COMET는 번역 품질에 대한 더 깊은 이해가 필요한 시나리오에서 효과적입니다. 문맥적 및 의미적 정확성이 문자 그대로의 단어 대 단어 일치보다 더 중요한 번역 평가에 특히 유용합니다.

BLEU (이중 평가 대체 지표)

  • 개요

    BLEU는 가장 초기이자 널리 사용되는 메트릭 중 하나로, 기계 번역된 텍스트의 품질을 하나 이상의 고품질 참조 번역과 비교하여 평가합니다. BLEU는 기계 생성 텍스트와 참조 텍스트 간의 구문 일치를 측정하며, 단어 일치의 정확성에 중점을 둡니다.

  • 작동 메커니즘

    BLEU는 다양한 n-그램 길이(일반적으로 1에서 4단어)에 대한 n-그램 정확성을 계산한 후, 이러한 점수를 기하 평균을 사용하여 결합합니다. 또한 지나치게 짧은 번역 문제를 해결하기 위해 간결성 패널티를 포함합니다.

  • 사용 사례

    BLEU는 구문과 단어 순서의 정확한 일치가 중요한 번역 평가에 특히 효과적입니다. 그러나 정확한 일치에 의존하는 것은 더 유창하거나 관용적인 번역의 품질을 포착하는 데 한계가 될 수 있습니다.

TER (번역 편집 비율)

  • 개요

    TER는 기계 번역된 텍스트를 참조 번역으로 변경하는 데 필요한 편집 수를 측정하는 메트릭입니다. 편집 거리 개념에 기반하며, 삽입, 삭제 및 대체와 같은 작업을 포함합니다. 이 목록의 다른 메트릭과 달리, 낮은 TER 점수는 더 나은 번역을 의미합니다.

  • 작동 메커니즘

    TER는 기계 번역을 참조 번역 중 하나로 변환하는 데 필요한 최소 편집 수를 계산합니다. 점수는 참조 번역의 총 단어 수로 정규화됩니다.

  • 사용 사례

    TER는 사후 편집 작업의 양에 중점을 두고 번역을 평가하는 데 유용합니다. 특히 번역이 인간에 의해 사후 편집될 시나리오에서 관련성이 높습니다.

chrf3 (글자 n-그램 F-점수)

  • 개요

    chrf3 또는 글자 n-그램 F-점수는 글자 수준 n-그램을 기반으로 번역을 평가하는 메트릭입니다. 정확도와 재현율을 모두 고려하여 두 가지 간의 균형을 제공합니다.

  • 작동 메커니즘

    chrf3는 기계 번역과 참조 텍스트 간의 글자 n-그램의 중복을 기반으로 정확도와 재현율의 조화 평균인 F-점수를 계산합니다.

  • 사용 사례

    chrf3는 단어 세그먼트화가 어려운 언어 또는 형태적으로 풍부한 언어에 유리합니다. BLEU보다 단어 순서에 덜 민감하여 서로 다른 그러나 허용 가능한 구문으로 번역을 평가하는 데 더 유연합니다.

점수 범위

메트릭의 절대 값은 언어 쌍, 도메인 및 기타 요인에 따라 크게 달라집니다. 따라서 점수 값을 해석하기 위한 일반적인 지침을 설정하기 어렵고 사용자는 주로 일반 시스템과 맞춤형 시스템 간의 차이를 기반으로 결정해야 합니다(동일한 데이터 세트에서 평가됨).

이 표는 개별 메트릭 값 해석을 위한 유용한 출발점으로 간주될 수 있습니다:

  • 저품질 MT 임계값 이하의 점수는 심각한 문제를 나타낼 수 있으며, 이러한 시스템은 일반적으로 추가 분석 없이 배포되어서는 안 됩니다.

  • 고품질 MT 임계값을 초과하는 점수는 일반적으로 유창하고 적절한 번역을 생성하는 매우 잘 작동하는 시스템을 나타냅니다.

메트릭

범위

저품질 MT 임계값

고품질 MT 임계값

코멧

일반적으로 0에서 1

< 0.3

> 0.8

블루

0에서 100

< 15

> 50

TER

0에서 100, 낮을수록 좋음

> 70

< 30

chrf3

0에서 100

< 20

> 60

도움이 되었습니까?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.