MT 메트릭스 사용

컨텐츠는 영어 텍스트를 Phrase Language AI를 이용해 기계 번역한 것입니다.

자동화된 평가 메트릭스는 기계 번역 시스템이 생성한 번역의 품질을 평가하는 데 중요한 역할을 합니다. 주관적이고 시간 소모적인 인간 평가와 달리, 자동화된 메트릭스는 MT 시스템의 성능을 측정하는 빠르고 객관적이며 반복 가능한 방법을 제공합니다.

Phrase Custom AI는 기계 번역 품질을 평가하기 위해 여러 잘 확립된 자동화된 메트릭스를 통합합니다: BLEU, TER, chrf3 및 COMET.

다음 두 가지 조건이 모두 충족되는 경우 사용자 지정 시스템을 프로덕션 환경에 배포하는 것이 좋습니다:

BLEU 최소 5점(절대, 예: 40 대 35) 개선 또는 chrf 최소 4점 개선.
COMET 점수의 유의미한 감소가 없습니다.

대부분의 경우, 이러한 규모의 개선은 인간 번역가에게 쉽게 눈에 띄며 사후 편집 시간을 단축시킵니다.

사용 가능한 메트릭

Phrase Custom AI는 기계 번역 품질을 평가하기 위해 여러 잘 확립된 자동화된 메트릭스를 통합합니다: BLEU, TER, chrf3, 및 COMET. 이러한 각 메트릭은 번역 품질을 평가하는 독특한 접근 방식을 제공하며, 번역의 다양한 측면에 맞춰져 있습니다.

COMET(번역 평가를 위한 교차 언어 최적화 메트릭)

개요

COMET는 번역을 평가하기 위해 기계 학습 모델을 사용하는 최신 메트릭입니다. 전통적인 메트릭과 달리, 표면 수준의 텍스트 비교에만 의존하지 않습니다.
작동 메커니즘

COMET는 대규모 인간 판단 데이터셋으로 훈련된 신경망 모델을 사용합니다. 번역의 유창성, 적합성 및 의미 보존을 포함한 다양한 번역 품질 측면을 고려하여 번역을 평가합니다.
사용 사례

COMET는 번역 품질에 대한 더 깊은 이해가 필요한 시나리오에서 효과적입니다. 문맥적 및 의미적 정확성이 문자 그대로의 단어 대 단어 일치보다 더 중요한 번역 평가에 특히 유용합니다.

BLEU (이중 평가 대체 지표)

개요

BLEU는 가장 초기이자 널리 사용되는 메트릭 중 하나로, 기계 번역된 텍스트의 품질을 하나 이상의 고품질 참조 번역과 비교하여 평가합니다. BLEU는 기계 생성 텍스트와 참조 텍스트 간의 구문 일치를 측정하며, 단어 일치의 정확성에 중점을 둡니다.
작동 메커니즘

BLEU는 다양한 n-그램 길이(일반적으로 1에서 4단어)에 대한 n-그램 정확성을 계산한 후, 이러한 점수를 기하 평균을 사용하여 결합합니다. 또한 지나치게 짧은 번역 문제를 해결하기 위해 간결성 패널티를 포함합니다.
사용 사례

BLEU는 구문과 단어 순서의 정확한 일치가 중요한 번역 평가에 특히 효과적입니다. 그러나 정확한 일치에 의존하는 것은 더 유창하거나 관용적인 번역의 품질을 포착하는 데 한계가 될 수 있습니다.

TER (번역 편집 비율)

개요

TER는 기계 번역된 텍스트를 참조 번역으로 변경하는 데 필요한 편집 수를 측정하는 메트릭입니다. 편집 거리 개념에 기반하며, 삽입, 삭제 및 대체와 같은 작업을 포함합니다. 이 목록의 다른 메트릭과 달리, 낮은 TER 점수는 더 나은 번역을 의미합니다.
작동 메커니즘

TER는 기계 번역을 참조 번역 중 하나로 변환하는 데 필요한 최소 편집 수를 계산합니다. 점수는 참조 번역의 총 단어 수로 정규화됩니다.
사용 사례

TER는 사후 편집 작업의 양에 중점을 두고 번역을 평가하는 데 유용합니다. 특히 번역이 인간에 의해 사후 편집될 시나리오에서 관련성이 높습니다.

chrf3 (글자 n-그램 F-점수)

개요

chrf3 또는 글자 n-그램 F-점수는 글자 수준 n-그램을 기반으로 번역을 평가하는 메트릭입니다. 정확도와 재현율을 모두 고려하여 두 가지 간의 균형을 제공합니다.
작동 메커니즘

chrf3는 기계 번역과 참조 텍스트 간의 글자 n-그램의 중복을 기반으로 정확도와 재현율의 조화 평균인 F-점수를 계산합니다.
사용 사례

chrf3는 단어 세그먼트화가 어려운 언어 또는 형태적으로 풍부한 언어에 유리합니다. BLEU보다 단어 순서에 덜 민감하여 서로 다른 그러나 허용 가능한 구문으로 번역을 평가하는 데 더 유연합니다.

점수 범위

메트릭의 절대 값은 언어 쌍, 도메인 및 기타 요인에 따라 크게 달라집니다. 따라서 점수 값을 해석하기 위한 일반적인 지침을 설정하기 어렵고 사용자는 주로 일반 시스템과 맞춤형 시스템 간의 차이를 기반으로 결정해야 합니다(동일한 데이터 세트에서 평가됨).

이 표는 개별 메트릭 값 해석을 위한 유용한 출발점으로 간주될 수 있습니다:

저품질 MT 임계값 이하의 점수는 심각한 문제를 나타낼 수 있으며, 이러한 시스템은 일반적으로 추가 분석 없이 배포되어서는 안 됩니다.
고품질 MT 임계값을 초과하는 점수는 일반적으로 유창하고 적절한 번역을 생성하는 매우 잘 작동하는 시스템을 나타냅니다.

메트릭	범위	저품질 MT 임계값	고품질 MT 임계값
코멧	일반적으로 0에서 1	< 0.3	> 0.8
블루	0에서 100	< 15	> 50
TER	0에서 100, 낮을수록 좋음	> 70	< 30
chrf3	0에서 100	< 20	> 60