Custom AI

데이터셋 생성

컨텐츠는 영어 텍스트를 Phrase Language AI를 이용해 기계 번역한 것입니다.

번역 메모리 선택 가이드라인

구문 사용자 지정 AI는 특정 용어와 스타일을 준수하는 사용자 지정 기계 번역(MT) 모델을 생성하기 위해 번역 메모리(TM)를 활용하여 이러한 콘텐츠 유형의 번역 품질을 향상시키고(따라서 사후 편집 시간을 단축) 일반 기계 번역과 비교할 수 있습니다.

사용된 번역 메모리가 맞춤화 프로세스의 효과성에 영향을 미칠 수 있는 가장 중요한 요소입니다. 이들은 이 목적을 위해 어떤 데이터를 사용할지 결정하는 데 도움이 될 수 있는 일반적인 가이드라인입니다:

  • 단일 도메인:

    데이터셋이 단일 스타일과 용어를 다루는 콘텐츠에 집중하는 것이 가장 좋습니다. 데이터셋에 여러 도메인의 혼합이 포함되어 있다면(예: 웹사이트의 법률 용어와 제품 설명 모두) 모델이 원하는 스타일이 무엇인지 학습하는 데 실패할 수 있습니다.

  • 고유 콘텐츠 유형:

    사용자 지정 MT 모델은 인터넷에서 수집된 방대한 양의 공개 데이터로 훈련된 일반 모델 위에 구축됩니다. 번역 메모리에 일반 모델을 구축하는 데 사용된 일반 데이터와 매우 유사한 데이터가 포함되어 있다면, 맞춤화 프로세스에서 얻을 수 있는 것이 많지 않을 것입니다.

  • 데이터 품질:

    모델은 번역 메모리의 모든 문장 쌍이 생성해야 할 출력의 예라고 가정할 것입니다. 번역 메모리는 좋은 품질이어야 하며, 이상적으로는 전문 인간 번역에서 생성되어야 합니다. 데이터 정리 파이프라인은 데이터셋의 가장 해로운 부분을 필터링하는 데 도움이 될 수 있습니다.

  • 예상 볼륨:

    RoI 측면에서 맞춤화가 효과적이려면, 데이터셋은 MT 품질이 더 큰 영향을 미칠 데이터의 대부분을 대표해야 합니다. 예를 들어, MT 출력의 일부가 인간 번역가에 의해 사후 편집될 경우, RoI를 극대화하기 위해 데이터는 사후 편집될 콘텐츠를 대표해야 합니다.

자동화된 자산 큐레이션을 위한 데이터셋 생성은 약간 다른 프로세스를 가집니다.

사용자 지정 MT 엔진 훈련을 위한 데이터셋을 생성하려면 다음 단계를 따르십시오:

  1. 데이터셋 페이지에서 사용자 지정 MT 엔진 훈련을 클릭합니다.

    데이터셋 세부정보 페이지가 열립니다.

  2. 데이터셋의 이름을 제공하십시오.

  3. 언어 선택기는 다양한 옵션을 허용합니다:

    1. 일반 언어 데이터셋을 생성하려면, 소스 및 대상 언어 선택기에서 동일한 소스 및 대상 언어를 선택하십시오.

    2. 로캘 특정 데이터셋을 생성하려면, 첫 번째 드롭다운 목록에서 소스 및 대상 언어를 선택한 다음 두 번째 드롭다운 목록에서 소스 및 대상 로캘을 지정하십시오.

      더 많은 데이터 소스를 활용하기 위해 여러 대상 로캘(즉, 동일한 언어의 다양한 변형)을 추가할 수도 있습니다.

    3. 여러 소스 및 대상 로캘로 데이터셋을 생성하려면, 첫 번째 드롭다운 목록에서 소스 및 대상 언어를 선택하고, 두 번째 드롭다운 목록에서 소스 및 대상 로캘을 지정한 후 + 더 많은 로캘 쌍 추가을 클릭하십시오.

    입력 데이터 창이 나타납니다.

  4. 번역 메모리 추가을 클릭하십시오.

    번역 메모리 선택 페이지가 검색 기능 Search과 함께 열립니다.

  5. 데이터셋에 TM을 추가하려면, Add TM 아이콘을 클릭하십시오. TM이 선택됨 열에 추가됩니다.

    최대 200개의 TM과 최대 800만 개의 세그먼트를 추가할 수 있습니다. 데이터셋은 이상적으로 최소 10,000개의 세그먼트를 포함해야 합니다.

    TM 이름을 클릭하면 번역 메모리 페이지에서 선택이 표시됩니다.

    Remove TM 아이콘을 클릭하여 선택됨 열에서 TM을 제거하십시오.

  6. 저장을 클릭하십시오.

    데이터셋 세부정보 페이지가 열립니다.

  7. 제시된 세부정보를 검토하고, 올바르면 계속을 클릭하십시오.

    필터 정리 페이지가 열립니다.

  8. 필요한 필터를 적용하고 생성을 클릭하십시오.

    데이터셋이 생성되어 데이터셋 페이지의 목록에 추가되며, 초기 상태는 정리 중이고 생성된 항목 열의 상태는 훈련 MT입니다.

도움이 되었습니까?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.