자동화된 평가 메트릭스는 기계 번역 시스템이 생성한 번역의 품질을 평가하는 데 중요한 역할을 합니다. 주관적이고 시간 소모적인 인간 평가와 달리, 자동화된 메트릭스는 MT 시스템의 성능을 측정하는 빠르고 객관적이며 반복 가능한 방법을 제공합니다.
Phrase Custom AI는 기계 번역 품질을 평가하기 위해 여러 잘 확립된 자동화된 메트릭스를 통합합니다: BLEU, TER, chrf3 및 COMET.
다음 두 가지 조건이 모두 충족되는 경우 사용자 지정 시스템을 프로덕션 환경에 배포하는 것이 좋습니다:
-
BLEU 최소 5점(절대, 예: 40 대 35) 개선 또는 chrf 최소 4점 개선.
-
COMET 점수의 유의미한 감소가 없습니다.
대부분의 경우, 이러한 규모의 개선은 인간 번역가에게 쉽게 눈에 띄며 사후 편집 시간을 단축시킵니다.
추천 접근 방식
일반적으로 메트릭의 절대 값은 언어 쌍, 도메인 및 기타 요인에 따라 달라집니다. 사용자 지정 프로세스가 얼마나 성공적이었는지 평가하기 위해 일반 시스템과 사용자 지정 시스템의 점수 차이를 검토하십시오.
BLEU, chrf 및 TER는 모두 MT 출력과 참조 번역 간의 문자열 중복을 측정합니다. 정의상, 이러한 점수의 유의미한 개선은 번역가의 사후 편집 노력을 줄임을 의미합니다.
COMET은 일반적인 의미에서 번역 품질을 측정합니다. COMET는 사용자 지정 후 반드시 증가하지는 않습니다(사용자 지정 시스템이 유사한 품질의 번역을 출력할 수 있으며, 차이는 번역이 고객의 스타일, 목소리 톤, 용어 등에 맞는지 여부입니다). 그러나 COMET의 유의미한 감소는 사용자 지정 시스템에 문제가 있음을 나타낼 수 있습니다.
사용 가능한 메트릭
Phrase Custom AI는 기계 번역 품질을 평가하기 위해 여러 잘 확립된 자동화된 메트릭스를 통합합니다: BLEU, TER, chrf3, 및 COMET. 이러한 각 메트릭은 번역 품질을 평가하는 독특한 접근 방식을 제공하며, 번역의 다양한 측면에 맞춰져 있습니다.
COMET(번역 평가를 위한 교차 언어 최적화 메트릭)
-
개요
COMET는 번역을 평가하기 위해 기계 학습 모델을 사용하는 최신 메트릭입니다. 전통적인 메트릭과 달리, 표면 수준의 텍스트 비교에만 의존하지 않습니다.
-
작동 메커니즘
COMET는 대규모 인간 판단 데이터셋으로 훈련된 신경망 모델을 사용합니다. 번역의 유창성, 적합성 및 의미 보존을 포함한 다양한 번역 품질 측면을 고려하여 번역을 평가합니다.
-
사용 사례
COMET는 번역 품질에 대한 더 깊은 이해가 필요한 시나리오에서 효과적입니다. 문맥적 및 의미적 정확성이 문자 그대로의 단어 대 단어 일치보다 더 중요한 번역 평가에 특히 유용합니다.
BLEU (이중 평가 대체 지표)
-
개요
BLEU는 가장 초기이자 널리 사용되는 메트릭 중 하나로, 기계 번역된 텍스트의 품질을 하나 이상의 고품질 참조 번역과 비교하여 평가합니다. BLEU는 기계 생성 텍스트와 참조 텍스트 간의 구문 일치를 측정하며, 단어 일치의 정확성에 중점을 둡니다.
-
작동 메커니즘
BLEU는 다양한 n-그램 길이(일반적으로 1에서 4단어)에 대한 n-그램 정확성을 계산한 후, 이러한 점수를 기하 평균을 사용하여 결합합니다. 또한 지나치게 짧은 번역 문제를 해결하기 위해 간결성 패널티를 포함합니다.
-
사용 사례
BLEU는 구문과 단어 순서의 정확한 일치가 중요한 번역 평가에 특히 효과적입니다. 그러나 정확한 일치에 의존하는 것은 더 유창하거나 관용적인 번역의 품질을 포착하는 데 한계가 될 수 있습니다.
TER (번역 편집 비율)
-
개요
TER는 기계 번역된 텍스트를 참조 번역으로 변경하는 데 필요한 편집 수를 측정하는 메트릭입니다. 편집 거리 개념에 기반하며, 삽입, 삭제 및 대체와 같은 작업을 포함합니다. 이 목록의 다른 메트릭과 달리, 낮은 TER 점수는 더 나은 번역을 의미합니다.
-
작동 메커니즘
TER는 기계 번역을 참조 번역 중 하나로 변환하는 데 필요한 최소 편집 수를 계산합니다. 점수는 참조 번역의 총 단어 수로 정규화됩니다.
-
사용 사례
TER는 사후 편집 작업의 양에 중점을 두고 번역을 평가하는 데 유용합니다. 특히 번역이 인간에 의해 사후 편집될 시나리오에서 관련성이 높습니다.
chrf3 (글자 n-그램 F-점수)
-
개요
chrf3 또는 글자 n-그램 F-점수는 글자 수준 n-그램을 기반으로 번역을 평가하는 메트릭입니다. 정확도와 재현율을 모두 고려하여 두 가지 간의 균형을 제공합니다.
-
작동 메커니즘
chrf3는 기계 번역과 참조 텍스트 간의 글자 n-그램의 중복을 기반으로 정확도와 재현율의 조화 평균인 F-점수를 계산합니다.
-
사용 사례
chrf3는 단어 세그먼트화가 어려운 언어 또는 형태적으로 풍부한 언어에 유리합니다. BLEU보다 단어 순서에 덜 민감하여 서로 다른 그러나 허용 가능한 구문으로 번역을 평가하는 데 더 유연합니다.
점수 범위
메트릭의 절대 값은 언어 쌍, 도메인 및 기타 요인에 따라 크게 달라집니다. 따라서 점수 값을 해석하기 위한 일반적인 지침을 설정하기 어렵고 사용자는 주로 일반 시스템과 맞춤형 시스템 간의 차이를 기반으로 결정해야 합니다(동일한 데이터 세트에서 평가됨).
이 표는 개별 메트릭 값 해석을 위한 유용한 출발점으로 간주될 수 있습니다:
-
저품질 MT 임계값 이하의 점수는 심각한 문제를 나타낼 수 있으며, 이러한 시스템은 일반적으로 추가 분석 없이 배포되어서는 안 됩니다.
-
고품질 MT 임계값을 초과하는 점수는 일반적으로 유창하고 적절한 번역을 생성하는 매우 잘 작동하는 시스템을 나타냅니다.
|
메트릭 |
범위 |
저품질 MT 임계값 |
고품질 MT 임계값 |
|---|---|---|---|
|
코멧 |
일반적으로 0에서 1 |
< 0.3 |
> 0.8 |
|
블루 |
0에서 100 |
< 15 |
> 50 |
|
TER |
0에서 100, 낮을수록 좋음 |
> 70 |
< 30 |
|
chrf3 |
0에서 100 |
< 20 |
> 60 |