Создать набор данных

Контент автоматически переведен с английского языка с помощью Phrase Language AI.

Рекомендации по выбору память переводов

Phrase Пользовательский искусственный интеллект (ИИ) использует память переводов (ТМ) для того, чтобы Создать пользовательский машинный перевод (МТ) модели, которые придерживаются определенной терминологии и стиля, что приводит к улучшению качества перевода (и, следовательно, сокращению времени на постредактирование) для этих контент типов по сравнению с общим машинный перевод.

Наиболее важным фактором, который может повлиять на эффективность процесса настройки, является используемая память переводов. Это общие рекомендации, которые могут помочь определить, какие данные использовать для этой цели:

Единая отрасль:

Лучше всего, если набор данных ориентирован на контент, охватывающий единый стиль и терминологию. Если набор данных содержит смесь отрасль (например, юридические термины веб-сайта и описания продуктов), система может не научиться тому, какой стиль является желаемым.
Уникальный контент тип:

Пользовательский машинный перевод (МТ) система строится на основе общих систем, обученных на огромных объемах общедоступных данных, собранных из интернета. Если память переводов содержит данные, которые очень похожи на общие данные, используемые для создания общих систем, то процесс настройки не принесет большой пользы.
Качество данных:

Система будет исходить из того, что каждая пара предложений в память переводов является примером результат, который она должна будет выдавать. Память переводов должна быть высокого качества, в идеале созданной на основе профессиональных переводов, выполненных человеком. Конвейер очистки данных может помочь фильтровать наиболее вредные части набора данных.
Ожидаемый объем:

Чтобы настройка была эффективной с точки зрения окупаемости инвестиций (RoI), набор данных должен быть репрезентативным для основной массы данных, где качество машинный перевод (МТ) окажет наибольшее влияние. Например, если часть результат машинный перевод (МТ) подлежит постредактирование переводчиками, то для максимизации окупаемости инвестиций (RoI) данные должны быть репрезентативными для контент, который будет подвергаться постредактирование.

Создание набора данных для автоматизированного курирования активов имеет немного другой процесс.

Чтобы Создать набор данных для обучения Пользовательский машинный перевод (МТ) система, выполните следующие действия:

На странице Datasets нажмите Train a custom MT engine.

Откроется страница Dataset details.
Укажите имя для набора данных.
Селекторы язык позволяют выбрать различные варианты:
1. Чтобы Создать набор данных для общего язык, Выбрать одинаковые оригинал и перевод язык в селекторах оригинал и перевод язык и языковой стандарт.
2. Чтобы Создать набор данных для конкретного языковой стандарт, Выбрать оригинал и перевод язык из первого список, затем укажите оригинал и перевод языковой стандарт из второго список.
  
  Также можно добавить несколько перевод языковой стандарт (т.е. различные варианты одного и того же язык), чтобы использовать больше источников данных.
3. Чтобы Создать набор данных с несколькими оригинал и перевод языковой стандарт, Выбрать оригинал и перевод язык из первого список, укажите оригинал и перевод языковой стандарт из второго список (можно добавить различные варианты одного и того же перевод язык) и нажмите + Add more locale pairs.
Появится окно Input data.
Нажмите Add translation memories.

Откроется страница Choose translation memories с функцией поиска .
Чтобы добавить память переводов (TM) в набор данных, нажмите значок . Память переводов (TM) будет добавлена в столбец Selected.

Можно добавить несколько единиц память переводов (TM), максимум до 200 единиц и максимум 8 миллионов сегментов. Набор данных в идеале должен содержать не менее 10 000 сегментов.

При нажатии на имя память переводов (TM) выбор отобразится на translation memory page.

Нажмите значок , чтобы удалить память переводов (TM) из столбца Selected.
Нажмите «Сохранить».

Откроется страница Dataset details.
Проверьте представленные данные и, если они верны, нажмите Continue.

Откроется страница Cleaning filters.
Примените необходимые фильтры и нажмите Create.

Набор данных создается и добавляется в список на странице Datasets с начальным статус Cleaning и статус Training MT в столбце Created for.