Custom AI

Cleaning Filters

컨텐츠는 영어 텍스트를 Phrase Language AI를 이용해 기계 번역한 것입니다.

MT 엔진 학습에 있어 가장 중요한 요소는 분량에만 비해 데이터 품질입니다. 데이터 클리닝은 오래 펼쳐지는 문제이며 수동 클리닝은 복잡한 작업입니다. 정리된 데이터는 더 빠른 학습과 더 높은 품질 모델을 제공합니다.

Phrase Custom AI 사용하면 AI 기반 규칙 기반 클리닝 필터를 도움말 번역 메모리를 데이터세트로 조정할 수 있습니다. 새 사용자에게 적합한 기본 설정 제공됩니다.

사용 가능한 필터 세트에는 규칙 기반 필터와 ML 기반 필터가 모두 포함됩니다.

  • 규칙 기반

    인간에게 쉽게 이해할 수 있는 명확하게 정의된 규칙으로 작동하는 필터입니다. 이 필터 범주는 일 범위, 최소 글자 수, 단어 쌍 길이, 길이 비율, 번역하지 않을 부분, 복제, 약복제를 포함합니다.

  • ML 기반

    고정 규칙 세트를 따지기보다는 의사 결단을 내리기 위해 텍스트의 컨텐츠 분석 필터입니다. 이 필터 범주는 잘못된 소스 및 대상언어 식별을 포함합니다.

모든 필터는 세그먼트의 정리된 버전에서 평가합니다. 예를 들어, 여러 공백을 하나로 줄이고 Phrase tags가 제거됩니다.

날짜 범위

종료 및 시작 날짜 모두 계정된 세그먼트의 마지막 수정 날짜에 포함됩니다.

잘못 정렬된 소스 및 대상

이 필터 사용하면 사용자가 세그먼트의 의미와 의미적 유사성을 측면에서 얼마나 잘 일치 항목 확인할 수 있습니다. 가장 낮은 등급을 제거합니다. 문장 쌍 정렬은 LASER 지표를 사용하여 측정됩니다.

AI 엔진 소스 텍스트와 대상 텍스트가 같은 것을 의미하는지 또는 동일한 내용의 양을 확인하는 데 사용됩니다. 권장 설정은 최상의 90%를 유지하면서 가장 낮은 10%의 세그먼트를 제거합니다.

고급 설정 정렬을 변경할 수 있습니다. 0에서 1 사이의 숫자를 사용하는 원시 유사성 점수 따라 필터 사용할 수 있습니다(완료 정렬을 의미하는 1). 각 언어 쌍의 점수 분할이 다를수 있고 하나의 언어 쌍에 대해 좋은 점수로 간주되는 점수가 다른 언어 쌍에 대해 불만족스러운 점수가 되면 주의하십시오.

일반적으로 0.5 이하의 세그먼트는 아주 좋지 않으며 1 이하 또는 가까운 세그먼트는 두 언어에서 동일한 세그먼트입니다.

예:

{"source": "Super.", "target": "Super.", "similarity": 1.05}

{"source": "Hello", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

최소 글자 및 문자 수

글자 수에는 모든 글자가 포함됩니다. 모든 문자, 공백, 구두점 및 기호 포함 학습을 위해 문자가 포함되지 않는 세그먼트를 취소 것이 유용할 수 있습니다.

문자 수는 영어 알파벳과 같이 문자만 계산되지만 문자표 또는 중국 글자가 더 복잡한 글자들도 포함됩니다. 하나 이상의 글자 나타내는 경우에도 중국 글자 하나의 문자로 간주됩니다. 글자 기반 언어의 기본값은 1이지만, 단어 기반 언어의 기본값은 4(글자) 및 3(글자)입니다. 최소값은 1이며 최대값은 500입니다.

데이터에 짧은 세그먼트를 많이 유지하는 경우(예: 약어) 필터 값을 낮추십시오.

예:

문자열 "Hello, World! 1 2 3인치에는 19자와 10글자가 있습니다.

문장 쌍 길이

이 필터 사용자가 설정한 임계값보다 긴 모든 세그먼트를 제거합니다. 이 필터 사용하는 이유는 대부분의 NMT 시스템이 내부 임계값보다 긴 세그먼트를 실제로 학습하지 않기 때문입니다. 

예를 들어, NextMT의 내부 임계값은 200 토큰으로, 약 100 - 1,000단어와 같습니다. 사용자 사용자 지정 엔진 짧은 문장에 대해 학습시키려면 이 값을 기본값보다 낮게 설정합니다.

총 글자 수에는 소스 및 대상 문장의 모든 글자(글자, 공백 및 구두점)가 포함됩니다. 언어 유형을 고려하십시오(예를 들어 중국어 및 영어). 소스 언어가 CJK와 유사하지 않으며 대상 언어가 CJK인 경우(또는 그 반대의 경우) 이 필터가 무시됩니다.

길이 비율

이 필터 소스 세그먼트 대상 세그먼트 비교할 때 길이가 상당히 높은 세그먼트를 식별합니다. 소스 대상 언어 번역할 때 일부 번역의 길이가 길어지거나 짧아집니다. 너무 짧거나 긴 번역은 학습 데이터의 품질이 낮다는 것을 의미할 수 있습니다.

소스 언어가 CJK와 유사하지 않으며 대상 언어가 (또는 그 반대의 경우)이 필터 무시됩니다.CJK

어떤 언어는 다른 언어보다 Verbose 더 높으므로 200%는 기본값이 좋습니다. 대상 언어 소스 언어 유사하거나 데이터를 더 많이 필터링해야 하는 경우 값이 낮을 수 있습니다.

예:

하나의 언어 CJK입니다. 비율은 1입니다. 삭제되지 않음:

{"source": "이것은 문장입니다.", "대상": "이것은 한 단어입니다.", "ratio": 1}

독일어 번역의 길이는 영어 소스 동등하며 삭제되지 않습니다.

{"source": "이것은 문장입니다.", "대상": "Dies ist ein Satz.", "ratio": 1.1}

독일어 번역이 영어 소스 훨씬 깁니다. 따라서 삭제됩니다.

{"source": "이것은 문장입니다.", "대상": "This is a Satz with additional unnötigen Füllungen.", "ratio": 3.1}

번역하지 않을 부분

번역하지 않을 부분은 소스 세그먼트와 대상 세그먼트가 동일한 세그먼트입니다. 대상 텍스트가 소스 텍스트에서 변경되지 않은 채로 남아 있는 번역하지 않을 부분의 모든 문장 쌍을 제외합니다.

중복

소스 문장이 동일한 세그먼트 그룹이 생성됩니다. 각 그룹에서 가장 좋은 세그먼트 유지되므로 세그먼트 소스 문장이 고유하면 자동으로 유지됩니다. 그렇지 않으면 가장 높은 유사성 점수 가진 세그먼트 유지됩니다.

거의 중복

거의 중복된 글자들을 테스트할 때 소스 문장이 (약간 더 깨끗한 버전) 표준화되며, 문자가 아닌 모든 문자(예: “,?)!-)는 공백으로 대체되며 모든 문자가 소문자로 렌더링됩니다.

표준화된 소스 문장 사용하여 동일한 표준화된 소스 문장이 있는 세그먼트 그룹이 생성됩니다. 각 그룹에서 최상의 세그먼트 유지되므로 세그먼트 표준화된 소스 문장이 고유하고 자동으로 유지됩니다. 그렇지 않으면 가장 높은 유사성 점수 가진 세그먼트 유지됩니다.

언어 식별

AI 엔진 문장에 따라 소스 언어와 대상 언어 식별하는 데 사용됩니다. 세그먼트 엔진 언어대상인식하는 경우에만 제거됩니다(예를 들어, 엔진 언어 결정할 때 짧은 문장은 종종 충분하지 않습니다). 언어 예상보다 다릅니다.

QPS

QPS 필터를 사용하면 데이터세트에서 가장 품질이 낮은 문장 pai rs를 제거하여 결과물인 AI 모델이 사용 가능한 최고 품질의 데이터를 통해 학습되도록 합니다. 일반적으로 학습 데이터의 품질이 높을수록 사용자 정의 모델의 성능이 향상됩니다.

QPS 필터 다음과 같은 두 가지 방법으로 구성할 수 있습니다.

  1. 가장 낮은 QPS 점수가 있는 문장 쌍의 지정된 비율을 제거합니다. 권장값은 10%입니다.

  2. 점수 임계값을 선택합니다. 고급 설정 사용 조정 가능한 QPS 임계값 이하로 떨어지는 문장 쌍을 제거합니다. 시작점은 50입니다.

이 두 옵션을 사용자의 품질 목표에 맞게 자동 데이터세트 선별을 제공합니다.

도움이 되었습니까?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.