자동화 자산 큐레이션

컨텐츠는 영어 텍스트를 Phrase Language AI를 이용해 기계 번역한 것입니다.

번역 메모리를 큐레이션하는 것은 오랜 역사를 가진 만연한 문제이며, 수동 정리는 힘든 과정입니다. 정리된 번역 메모리는 언어학자에게 더 나은 참조를 제공하고, 기계 번역의 품질을 높이며, 이는 Phrase NextMT에 특히 관련이 있습니다. 이는 번역 메모리 및 용어집과 같은 언어 자산을 활용하는 고급 기능을 갖추고 있습니다.

AAC를 위한 데이터셋 생성

큐레이션된 TM을 TMS에서 사용하기 위한 데이터셋을 생성하려면 다음 단계를 따르십시오:

데이터셋 페이지에서 번역 메모리 정리를 클릭합니다.

데이터셋 세부정보 페이지가 열립니다.
데이터셋의 이름을 제공합니다.
언어 선택기는 다양한 옵션을 허용합니다:
1. 일반 언어 데이터셋을 생성하려면, 소스 및 대상 언어 선택기에서 동일한 소스 및 대상 언어를 선택하십시오.
2. 로케일 특정 데이터셋을 생성하려면, 첫 번째 드롭다운 목록에서 소스 및 대상 언어를 선택한 다음 두 번째 드롭다운 목록에서 소스 및 대상 로케일을 지정하십시오.
  
  더 많은 데이터 소스를 활용하기 위해 여러 대상 로케일(즉, 동일한 언어의 다양한 변형)을 추가할 수도 있습니다.
3. 여러 소스 및 대상 로케일로 데이터셋을 생성하려면, 첫 번째 드롭다운 목록에서 소스 및 대상 언어를 선택하고, 두 번째 드롭다운 목록에서 소스 및 대상 로케일을 지정한 후 + 더 많은 로케일 쌍 추가를 클릭하십시오.
입력 데이터 창이 나타납니다.
번역 메모리 추가를 클릭합니다.

번역 메모리 선택 페이지가 검색 기능 과 함께 열립니다.
데이터셋에 TM을 추가하려면, 아이콘을 클릭하십시오. TM이 선택됨 열에 추가됩니다.

최대 200개의 TM과 최대 800만 개의 세그먼트를 추가할 수 있습니다. 데이터셋은 이상적으로 최소 10,000개의 세그먼트를 포함해야 합니다.

TM 이름을 클릭하면 번역 메모리 페이지에서 선택 항목이 표시됩니다.

아이콘을 클릭하여 선택됨 열에서 TM을 제거합니다.
저장을 클릭합니다.

데이터셋 세부정보 페이지가 열립니다.
제시된 세부 정보를 검토하고 올바르면 계속을 클릭합니다.

정리 필터 페이지가 열립니다.
필요한 필터를 적용하고 생성을 클릭합니다.

데이터셋이 생성되어 데이터셋 페이지의 목록에 추가되며, 초기 상태는 정리 중이고 정리 TM의 상태는 생성된 대상 열에 표시됩니다.

AAC를 위한 정리 필터

구문 사용자 지정 AI는 AI 기반 및 규칙 기반 정리 필터의 도움으로 번역 메모리를 큐레이션할 수 있게 합니다. 기본 설정이 제공되며, 이는 신규 사용자에게 적합할 수 있습니다.

이 과정은 원본 TM 세그먼트 메타데이터와 TM 태그를 보존하여 사용자가 정리된 TM을 TMS에서 사용할 때 TM 활용도를 유지할 수 있게 합니다.

사용 가능한 필터 세트에는 규칙 기반 필터와 ML 기반 필터가 포함됩니다:

규칙 기반

사람이 쉽게 이해할 수 있는 명확하게 정의된 규칙으로 작동하는 필터입니다. 이 필터 범주에는 날짜 범위, 최소 문자 수, 문장 쌍 길이, 길이 비율, 비번역 가능 항목, 중복, 근접 중복이 포함됩니다.
ML 기반

고정된 규칙 집합을 단순히 따르기보다는 텍스트 자체의 내용을 분석하여 결정을 내리는 필터입니다. 이 필터 범주에는 소스와 대상의 불일치 및 언어 식별가 포함됩니다.

날짜 범위

설정된 날짜 외의 세그먼트를 제외합니다. 세그먼트의 마지막 수정 날짜와 함께 시작 및 종료 날짜가 포함됩니다.

소스와 대상이 일치하지 않음

이 필터는 의미와 의미적 유사성 측면에서 세그먼트가 얼마나 잘 일치하는지를 결정하며, 최악의 평가를 받은 것을 제거합니다. 문장 쌍 정렬은 LASER 메트릭을 사용하여 측정됩니다.

AI 엔진은 소스와 대상 텍스트가 같은 의미인지 또는 얼마나 같은지를 확인하는 데 사용됩니다. 권장 설정은 10%의 최악의 세그먼트를 버리고 90%의 최상의 세그먼트를 유지합니다.

고급 설정은 정렬을 변경하거나 0과 1 사이의 숫자를 사용하여 원시 유사성 점수를 기반으로 하는 필터가 될 수 있습니다(1은 완전 정렬을 의미). 각 언어 쌍은 점수의 분포가 다르므로 원시 유사성 점수를 사용할 때 주의가 필요하며, 한 언어 쌍에 대해 좋은 점수로 간주되는 것이 다른 언어 쌍에 대해 불만족스러운 점수가 될 수 있습니다.

일반적으로 0.5 이하의 세그먼트는 그리 좋지 않으며, 1에 가까운 세그먼트는 두 언어에서 동일한 세그먼트입니다.

예시:

문자열 "안녕하세요, 세계!" 1 2 3"는 19개의 글자와 10개의 문자를 포함합니다.

최소 글자 및 문자 수

글자 수는 모든 문자를 포함합니다. 여기에는 모든 문자, 공백, 구두점 및 기호가 포함됩니다. 훈련 목적으로, 문자가 포함되지 않은 세그먼트를 버리는 것이 유용할 수 있습니다.

문자 수는 영어 알파벳과 같은 문자만 계산하지만, 발음 기호가 있는 더 복잡한 문자나 한자도 포함됩니다. 하나의 한자는 하나의 문자로 계산되며, 여러 문자를 나타내더라도 마찬가지입니다. 문자 기반 언어의 기본 값은 1이지만, 단어 기반 언어의 기본 값은 4(문자) 및 3(문자)입니다. 최소 값은 1이고 최대 값은 500입니다.

짧은 세그먼트를 데이터에 많이 보관하는 경우(예: 약어), 필터 값을 낮게 유지하십시오.

예:

문자열 "안녕하세요, 세계!" 1 2 3"는 19개의 글자와 10개의 문자를 포함합니다.

문장 쌍 길이

이 필터는 사용자가 설정한 임계값보다 긴 모든 세그먼트를 제거합니다.

총 글자 수는 소스 및 대상 문장에서 모든 문자 - 글자, 공백 및 구두점 - 를 포함합니다. 언어의 유형을 고려하십시오(예: 중국어 및 영어); 소스 언어가 CJK와 유사하지 않고 대상 언어가 CJK(또는 그 반대)인 경우 이 필터는 무시됩니다.

길이 비율

이 필터는 소스 세그먼트와 대상 세그먼트를 비교할 때 길이가 현저히 더 긴 세그먼트를 식별합니다. 일부 번역은 소스 언어에서 대상 언어로 번역할 때 길이가 증가하거나 감소합니다. 너무 길거나 너무 짧은 번역은 저품질 세그먼트를 나타낼 수 있습니다.

소스 언어가 CJK와 유사하지 않고 대상 언어가 (또는 그 반대)인 경우 이 필터는 무시됩니다.CJK

일부 언어는 다른 언어보다 더 장황하므로 200%는 좋은 기본값입니다. 대상 언어가 소스 언어와 유사하거나 더 많은 데이터를 필터링해야 하는 경우 값은 낮출 수 있습니다.

예시:

한 언어는 CJK이며 비율은 1입니다. 버려지지 않습니다:

{"source": "이것은 문장입니다.", "target": "这是一个句子。", "ratio": 1}

독일어 번역은 영어 소스와 비슷한 길이이며 버려지지 않습니다:

{"source": "이것은 문장입니다.", "target": "Dies ist ein Satz.", "ratio": 1.1}

독일어 번역은 영어 소스보다 훨씬 길며 버려질 것입니다:

{"source": "이것은 문장입니다.", "target": "이것은 불필요한 추가 내용이 포함된 문장입니다.", "ratio": 3.1}

번역하지 않을 부분

번역하지 않을 부분은 소스와 대상 세그먼트가 동일한 세그먼트입니다. 대상 텍스트가 소스 텍스트와 변경되지 않은 모든 번역하지 않을 문장 쌍을 제외합니다.

중복

같은 소스 문장을 가진 세그먼트 그룹이 생성됩니다. 각 그룹에서 가장 좋은 세그먼트만 유지되므로 세그먼트의 소스 문장이 고유한 경우 자동으로 유지됩니다. 그렇지 않으면, 유사도 점수가 가장 높은 세그먼트가 유지됩니다.

근접 중복

근접 중복을 테스트할 때, (약간 더 깔끔한 버전의) 소스 문장이 정규화됩니다; 모든 비문자 문자는 (예: “,?)!-) 공백으로 대체되고 모든 문자는 소문자로 변환됩니다.

정규화된 소스 문장을 사용하여 동일한 정규화된 소스 문장을 가진 세그먼트 그룹이 생성됩니다. 각 그룹에서 가장 좋은 세그먼트만 유지되므로 세그먼트의 정규화된 소스 문장이 고유하고 자동으로 유지됩니다. 그렇지 않으면, 유사도 점수가 가장 높은 세그먼트가 유지됩니다.

언어 식별

AI 엔진이 문장을 기반으로 소스 및 대상 언어를 식별하는 데 사용됩니다. 세그먼트는 엔진이 (소스/대상) 언어를 인식하는 경우에만 제거되며 (예를 들어, 짧은 문장은 종종 엔진이 언어를 결정하기에 충분하지 않습니다) 언어가 예상과 다를 때 제거됩니다.

QPS

QPS 필터는 번역 메모리에서 가장 낮은 품질의 문장 쌍을 제거하여 결과 세그먼트가 가장 높은 품질이 되도록 합니다.

QPS 필터는 두 가지 방법으로 구성할 수 있습니다:

가장 낮은 QPS 점수를 가진 문장 쌍의 지정된 비율을 제거합니다. 권장 비율은 10%입니다.
점수 임계값을 선택합니다. 고급 설정을 사용하여 조정 가능한 QPS 임계값 이하의 문장 쌍을 제거합니다. 권장 시작점은 50입니다.

이 두 가지 옵션은 사용자의 품질 목표에 맞춰 자동 번역 메모리 큐레이션을 제공합니다.

TMS에서 큐레이션된 TM 사용하기

번역 메모리 정리 과정은 몇 시간이 걸릴 수 있으며, 큐레이션된 TM을 사용하기 전에 완료되어야 합니다.

TMS에서 큐레이션된 TM을 사용하려면 다음 단계를 따르세요:

을 클릭하고 다운로드 를 선택합니다.

다운로드 창이 열립니다.
다운로드 (.tmx)을 선택합니다.

이 작업은 몇 분만에 완료되는 데이터셋 내보내기 프로세스를 시작합니다. 결과적으로 생성된 .TMX 형식의 큐레이션된 TM은 최대 1Gb 크기의 새로운 큐레이션된 TM으로 TMS에 업로드될 수 있습니다.

같은 TM에 대해 두 개 이상의 정리 프로세스가 수행된 경우, 정리 기록 탭에서 다른 버전을 접근할 수 있습니다.