필터 청소

컨텐츠는 영어 텍스트를 Phrase Language AI를 이용해 기계 번역한 것입니다.

MT 엔진 훈련의 가장 중요한 측면은 단순한 양이 아니라 데이터 품질입니다. 데이터 청소는 만연한 문제이며 수동 청소는 힘든 작업입니다. 깨끗한 데이터는 더 빠른 훈련과 더 높은 품질의 모델로 이어집니다.

사용자 지정 AI는 AI 기반 및 규칙 기반 청소 필터의 도움으로 번역 메모리를 데이터 세트로 조정합니다. 기본 설정은 새로운 사용자에게 적합해야 합니다.

사용 가능한 필터 세트에는 규칙 기반 필터와 ML 기반 필터가 모두 포함됩니다:

규칙 기반

사람이 쉽게 이해할 수 있는 명확하게 정의된 규칙으로 작동하는 필터입니다. 이 필터 범주에는 날짜 범위, 최소 글자 수, 문장 쌍 길이, 길이 비율, 비번역 항목, 중복, 근접 중복이 포함됩니다.
ML 기반

고정된 규칙 집합을 단순히 따르기보다는 텍스트 자체의 내용을 분석하여 결정을 내리는 필터입니다. 이 필터 범주에는 소스와 대상의 불일치 및 언어 식별가 포함됩니다.

모든 필터는 세그먼트의 정리된 버전에서 평가됩니다. 그 중 여러 개의 공백은 하나로 줄어들고 Phrase 태그는 제거됩니다.

날짜 범위

설정된 날짜 외부의 세그먼트를 제외합니다. 끝 날짜와 시작 날짜는 세그먼트의 마지막 수정 날짜와 함께 포함됩니다.

소스와 대상의 불일치

이 필터는 세그먼트가 의미와 의미적 유사성 측면에서 얼마나 잘 일치하는지를 결정하며, 최악의 평가를 받은 항목을 제거합니다. 문장 쌍 정렬은 LASER 메트릭을 사용하여 측정됩니다.

AI 엔진은 소스와 대상 텍스트가 같은 의미인지 또는 얼마나 같은지를 확인하는 데 사용됩니다. 권장 설정은 10%의 최악의 세그먼트를 버리고 90%의 최상의 세그먼트를 유지합니다.

고급 설정은 정렬을 변경하거나 0과 1 사이의 숫자를 사용하여 원시 유사성 점수를 기반으로 하는 필터가 될 수 있습니다(1은 완전 정렬을 의미). 각 언어 쌍은 점수의 분포가 다르기 때문에 원시 유사성 점수를 사용할 때 주의가 필요하며, 한 언어 쌍에 대해 좋은 점수로 간주되는 것이 다른 언어 쌍에 대해 불만족스러운 점수가 될 수 있습니다.

일반적으로 0.5 이하의 세그먼트는 그리 좋지 않으며, 1에 가까운 세그먼트는 두 언어에서 동일한 세그먼트입니다.

예시:

{"source": "Super.", "target": "Super.", "similarity": 1.05}

{"source": "Hello", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

최소 글자 및 문자 수

글자 수는 모든 문자를 포함합니다. 여기에는 모든 문자, 공백, 구두점 및 기호가 포함됩니다. 훈련 목적으로, 문자가 포함되지 않은 세그먼트를 버리는 것이 유용할 수 있습니다.

문자 수는 영어 알파벳의 문자뿐만 아니라 발음 기호가 있는 더 복잡한 문자나 한자도 포함하여 문자만 계산합니다. 하나의 한자는 하나의 문자로 계산되며, 여러 문자를 나타내더라도 마찬가지입니다. 문자 기반 언어의 기본 값은 1이지만, 단어 기반 언어의 기본 값은 4(문자) 및 3(문자)입니다. 최소 값은 1이고 최대 값은 500입니다.

데이터에 짧은 세그먼트를 많이 유지하는 경우(예: 약어), 필터 값을 낮게 유지하십시오.

예:

문자열 "안녕하세요, 세계!" 1 2 3"는 19개의 문자와 10개의 문자를 가지고 있습니다.

문장 쌍 길이

이 필터는 사용자가 설정한 임계값보다 긴 모든 세그먼트를 제거합니다. 이 필터의 이유는 대부분의 NMT 시스템이 내부 임계값보다 긴 세그먼트에 대해 실제로 훈련하지 않기 때문입니다.

예를 들어, NextMT의 내부 임계값은 200 토큰으로, 이는 약 100 - 1,000 단어에 해당합니다. 짧은 문장에 대해 사용자 지정 엔진을 훈련하려면 이 값을 기본값보다 낮게 설정하십시오.

총 글자 수는 소스 문장과 대상 문장에서 모든 문자 - 글자, 공백 및 구두점을 포함합니다. 언어의 유형을 고려하십시오 (예: 중국어와 영어); 소스 언어가 CJK와 유사하지 않고 대상 언어가 CJK인 경우 (또는 그 반대의 경우), 이 필터는 무시됩니다.

길이 비율

이 필터는 소스 세그먼트와 대상 세그먼트를 비교할 때 길이가 현저히 높은 세그먼트를 식별합니다. 일부 번역은 소스 언어에서 대상 언어로 번역할 때 길이가 증가하거나 감소합니다. 너무 길거나 너무 짧은 번역은 저품질 훈련 데이터를 나타낼 수 있습니다.

소스 언어가 CJK와 유사하지 않고 대상 언어가 (또는 그 반대의 경우), 이 필터는 무시됩니다.CJK

일부 언어는 다른 언어보다 더 장황하므로 200%는 좋은 기본값입니다. 대상 언어가 소스 언어와 유사하거나 더 많은 데이터를 필터링해야 하는 경우, 값은 더 낮을 수 있습니다.

예시:

한 언어는 CJK이며 비율은 1입니다. 버려지지 않을 것입니다:

{"source": "이것은 문장입니다.", "target": "这是一个句子。", "ratio": 1}

독일어 번역은 영어 소스와 비슷한 길이를 가지며 버려지지 않을 것입니다:

{"source": "이것은 문장입니다.", "target": "Dies ist ein Satz.", "ratio": 1.1}

독일어 번역은 영어 소스보다 훨씬 길며 버려질 것입니다:

{"source": "이것은 문장입니다.", "target": "이것은 불필요한 추가 내용이 포함된 문장입니다.", "ratio": 3.1}

번역하지 않을 부분

번역하지 않을 부분은 소스와 대상 세그먼트가 동일한 세그먼트입니다. 대상 텍스트가 소스 텍스트와 변경되지 않은 모든 번역하지 않을 문장 쌍을 제외합니다.

중복

같은 소스 문장을 가진 세그먼트 그룹이 생성됩니다. 각 그룹에서 가장 좋은 세그먼트만 유지되므로 세그먼트의 소스 문장이 고유한 경우 자동으로 유지됩니다. 그렇지 않으면, 유사도 점수가 가장 높은 세그먼트가 유지됩니다.

근접 중복

근접 중복을 테스트할 때, (약간 더 깔끔한 버전의) 소스 문장이 정규화됩니다; 모든 비문자 문자는 (일부 예: “,?)!-) 공백으로 대체되고 모든 문자는 소문자로 변환됩니다.

정규화된 소스 문장을 사용하여 동일한 정규화된 소스 문장을 가진 세그먼트 그룹이 생성됩니다. 각 그룹에서 가장 좋은 세그먼트만 유지되므로 세그먼트의 정규화된 소스 문장이 고유하고 자동으로 유지됩니다. 그렇지 않으면, 유사도 점수가 가장 높은 세그먼트가 유지됩니다.

언어 식별

AI 엔진이 문장을 기반으로 소스 및 대상 언어를 식별하는 데 사용됩니다. 세그먼트는 엔진이 (소스/대상) 언어를 인식하는 경우에만 제거되며 (예를 들어, 짧은 문장은 종종 엔진이 언어를 결정하기에 충분하지 않습니다) 언어가 예상과 다를 때 제거됩니다.

QPS

QPS 필터는 데이터 세트에서 가장 낮은 품질의 문장 쌍을 제거하여 결과 AI 모델이 사용 가능한 최고 품질의 데이터로 훈련되도록 합니다. 일반적으로 훈련 데이터의 품질이 높을수록 맞춤형 모델의 성능이 향상됩니다.

QPS 필터는 두 가지 방법으로 구성할 수 있습니다:

가장 낮은 QPS 점수를 가진 문장 쌍의 지정된 비율을 제거합니다. 권장 비율은 10%입니다.
점수 임계값 선택하기. 조정 가능한 QPS 임계값 이하의 문장 쌍을 제거하기 위해 고급 설정을 사용하십시오. 추천 시작점은 50입니다.

이 두 가지 옵션은 사용자의 품질 목표에 맞춰 자동화된 데이터셋 선별을 제공합니다.