MT 엔진 훈련에 있어 가장 중요한 요소는 양뿐만 아니라 데이터 품질입니다. 데이터 정리는 오랜 역사를 가진 만연한 문제이며, 수동 정리는 힘든 과정입니다. 깨끗한 데이터는 더 빠른 훈련과 더 높은 품질의 모델로 이어집니다.
Phrase Custom AI는 AI 기반 및 규칙 기반 정리 필터의 도움으로 번역 메모리를 데이터 세트에 적응할 수 있게 합니다. 새로운 사용자에게 적합할 수 있는 기본 설정이 제공됩니다.
사용 가능한 필터 세트에는 규칙 기반 필터와 ML 기반 필터가 포함됩니다:
-
규칙 기반
명확하게 정의된 규칙으로 작동하며 인간이 쉽게 이해할 수 있는 필터입니다. 이 필터 카테고리에는
, , , , , , 이 포함됩니다. -
ML 기반
고정된 규칙 세트를 단순히 따르기보다는 텍스트 자체의 내용을 분석하여 결정을 내리는 필터입니다. 이 필터 카테고리에는
과 가 포함됩니다.
모든 필터는 세그먼트의 정리된 버전에서 평가됩니다. 예를 들어, 여러 개의 공백은 하나로 줄어들고 Phrase 태그가 제거됩니다.
날짜 범위
시작일과 종료일 모두 포함되며, 세그먼트의 마지막 수정 날짜가 고려됩니다.
비정렬된 소스 및 대상
이 필터는 사용자가 의미와 의미적 유사성 측면에서 세그먼트가 얼마나 잘 일치하는지를 결정할 수 있게 하여 최악의 평가를 받은 항목을 제거합니다. 문장 쌍 정렬은 LASER 메트릭을 사용하여 측정됩니다.
AI 엔진은 소스와 대상 텍스트가 같은 의미인지 또는 얼마나 같은 의미인지 확인하는 데 사용됩니다. 권장 설정은 10%의 최악의 세그먼트를 버리고 90%의 최상의 세그먼트를 유지합니다.
고급 설정은 정렬을 변경하거나 0과 1 사이의 숫자를 사용하여 원시 유사성 점수를 기반으로 필터가 될 수 있습니다(1은 완전 정렬을 의미). 각 언어 쌍은 점수의 분포가 다르므로 원시 유사성 점수를 사용할 때 주의가 필요하며, 한 언어 쌍에 대해 좋은 점수로 간주되는 것이 다른 언어 쌍에 대해 불만족스러운 점수가 될 수 있습니다.
일반적으로 0.5 이하의 세그먼트는 그리 좋지 않으며, 1에 가까운 세그먼트는 두 언어에서 동일한 세그먼트입니다.
예시:
{"source": "Super.", "target": "Super.", "similarity": 1.05}
{"source": "Hello", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}
최소 글자 및 문자 수
문자 수는 모든 문자를 포함합니다. 여기에는 모든 문자, 공백, 구두점 및 기호가 포함됩니다. 훈련 목적으로, 문자가 포함되지 않은 세그먼트를 버리는 것이 유용할 수 있습니다.
문자 수는 영어 알파벳과 같은 문자만 계산하지만, 발음 기호가 있는 더 복잡한 문자나 한자도 포함됩니다. 하나의 한자는 하나의 문자로 계산되며, 여러 문자를 나타내더라도 마찬가지입니다. 문자 기반 언어의 기본 값은 1이지만, 단어 기반 언어의 기본 값은 4(문자) 및 3(문자)입니다. 최소 값은 1이고 최대 값은 500입니다.
데이터에 짧은 세그먼트를 많이 유지하려면(예: 약어), 필터 값을 낮게 유지하십시오.
예:
문장 쌍 길이
이 필터는 사용자가 설정한 임계값보다 긴 모든 세그먼트를 제거합니다. 이 필터의 이유는 대부분의 NMT 시스템이 내부 임계값보다 긴 세그먼트에 대해 실제로 훈련하지 않기 때문입니다.
예를 들어, NextMT의 내부 임계값은 200 토큰으로, 이는 약 100 - 1,000 단어에 해당합니다. 짧은 문장에 대해 사용자 지정 엔진을 훈련하려면 이 값을 기본값보다 낮게 설정하십시오.
총 글자 수는 소스 및 대상 문장에서 모든 글자 - 문자, 공백 및 구두점을 포함합니다. 언어의 유형을 고려하십시오(예: 중국어 및 영어); 소스 언어가 CJK와 유사하지 않고 대상 언어가 CJK인 경우(또는 그 반대의 경우) 이 필터는 무시됩니다.
길이 비율
이 필터는 소스 세그먼트와 대상 세그먼트를 비교할 때 길이가 현저히 더 긴 세그먼트를 식별합니다. 일부 번역은 소스 언어에서 대상 언어로 번역할 때 길이가 증가하거나 감소합니다. 너무 길거나 너무 짧은 번역은 저품질 훈련 데이터를 나타낼 수 있습니다.
소스 언어가 CJK와 유사하지 않고 대상 언어가 (또는 그 반대의 경우) 이 필터는 무시됩니다.CJK
일부 언어는 다른 언어보다 더 장황하므로 200%는 좋은 기본값입니다. 대상 언어가 소스 언어와 유사하거나 더 많은 데이터를 필터링해야 하는 경우 값은 더 낮을 수 있습니다.
예시:
한 언어가 CJK인 경우 비율은 1입니다. 버려지지 않습니다:
{"source": "This is a sentence.", "target": "这是一个句子。", "비율": 1}
독일어 번역은 영어 소스와 비슷한 길이이며 버려지지 않습니다:
{"source": "This is a sentence.", "target": "Dies ist ein Satz.", "비율": 1.1}
독일어 번역은 영어 소스보다 훨씬 길며 버려질 것입니다:
{"source": "This is a sentence.", "target": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}
비번역 가능 항목
비번역 가능 항목은 소스 세그먼트와 대상 세그먼트가 동일한 세그먼트입니다. 모든 비번역 가능한 문장 쌍을 제외하며, 대상 텍스트가 소스 텍스트와 변경되지 않은 경우를 포함합니다.
중복
같은 소스 문장을 가진 세그먼트 그룹이 생성됩니다. 각 그룹에서 가장 좋은 세그먼트만 유지되므로, 세그먼트의 소스 문장이 고유한 경우 자동으로 유지됩니다. 그렇지 않으면, 가장 높은 유사성 점수를 가진 세그먼트가 유지됩니다.
근접 중복
근접 중복을 테스트할 때, (약간 더 깔끔한 버전의) 소스 문장이 정규화됩니다; 모든 비문자 문자는 (일부 예: “,?)!-
) 공백으로 대체되고 모든 문자는 소문자로 변환됩니다.
정규화된 소스 문장을 사용하여, 같은 정규화된 소스 문장을 가진 세그먼트 그룹이 생성됩니다. 각 그룹에서 가장 좋은 세그먼트만 유지되므로, 세그먼트의 정규화된 소스 문장이 고유하고 자동으로 유지됩니다. 그렇지 않으면, 가장 높은 유사성 점수를 가진 세그먼트가 유지됩니다.
언어 식별
AI 엔진이 문장을 기반으로 소스 및 대상 언어를 식별하는 데 사용됩니다. 세그먼트는 엔진이 (소스/대상) 언어를 인식하는 경우에만 제거되며 (예를 들어, 짧은 문장은 종종 언어를 결정하기에 충분하지 않습니다) 언어가 예상과 다를 경우에만 제거됩니다.
QPS
QPS 필터는 데이터셋에서 가장 낮은 품질의 문장 쌍을 제거할 수 있게 하여, 결과적으로 AI 모델이 사용 가능한 최고 품질의 데이터로 훈련되도록 합니다. 일반적으로, 훈련 데이터의 품질이 높을수록 맞춤형 모델의 성능이 더 좋습니다.
QPS 필터는 두 가지 방법으로 구성할 수 있습니다:
-
가장 낮은 QPS 점수를 가진 문장 쌍의 지정된 비율을 제거합니다. 권장 비율은 10%입니다.
-
점수 임계값을 선택합니다. 고급 설정을 사용하여 조정 가능한 QPS 임계값 이하의 문장 쌍을 제거합니다. 권장 시작점은 50입니다.
이 두 가지 옵션은 사용자의 품질 목표에 맞춰 자동화된 데이터셋 큐레이션을 제공합니다.