Custom AI

Create a Dataset

Контент автоматически переведен с английского языка с помощью Phrase Language AI.

Рекомендации по выбору памяти переводов

Phrase Custom AI использует память переводов ((TMS)) для создать пользовательский моделей машинный перевод (машинный перевод (МТ)), соответствующих определенной терминологии и стилю, что приводит к улучшению качества перевода (и, таким образом, сокращению времени постредактирование) для этих типов контент по сравнению с обычным машинный перевод.

Важнейшим фактором, способным повлиять на эффективность процесса настройки, является использование памяти переводов. Вот общие рекомендации, которые могут стать Справкой при определении того, какие данные использовать для этой цели:

  • Отрасль:

    Лучше всего, если набор данных будет ориентирован на контент, охватывающий единый стиль и терминологию. Если набор данных содержит смесь отраслей (например, юридические термины веб-сайта и описания продуктов), то данная модель может не узнать, какой стиль является желательным.

  • Уникальный тип контента:

    Пользовательская модель машинного перевода (МТ) опирается на типовые модели, обученные на огромном количестве общедоступных данных, собранных из Интернета. Если память переводов содержит данные, в значительной степени сходные с общими данными, используемыми для построения типовых моделей, то процесс настройки не принесет большой пользы.

  • Качество данных:

    Модель будет исходить из того, что каждая пара предложений в памяти переводов является примером ожидаемого от нее результата. Память переводов должна быть качественной, в идеале она должна быть создана на основе Professional human translations. Конвейер очистки данных может оказать Справку, фильтруя наиболее вредные части набора данных.

  • Ожидаемый объем:

    Для того чтобы кастомизация оказывала влияние на результат с точки зрения рентабельности, набор данных должен отражать основную массу данных, в которых качество машинного перевода (МТ) будет оказывать большее влияние. Например, если часть результатов машинного перевода (МТ) должна быть отредактирована людьми-переводчиками, то для максимального увеличения объема РОИ данные должны быть репрезентативными для контента, который будет отредактирован.

Чтобы создать набор данных для обучения пользовательской системы машинного перевода (МТ), выполните следующие действия:

  1. На странице Наборов данных нажмите «Обучить пользовательскую систему машинного перевода (МТ)».

    Открывается страница сведения о наборе данных.

  2. Укажите имя набора данных.

  3. Выбор языка позволяет использовать различные варианты:

    1. Чтобы создать общий набор данных языка, выберите одинаковые языки оригинала и перевода в селекторах языков оригинала и перевода и языковых стандартов.

    2. Чтобы создать набор данных для каждого языкового стандарта, выберите языки оригинала и перевода в первом раскрывающемся списке и укажите языки оригинала и перевода во втором раскрывающемся списке.

      Также можно добавить несколько языковых стандартов перевода для максимального использования большего числа источников данных.

    3. Чтобы создать набор данных с несколькими языками оригинала и перевода, выберите языки оригинала и перевода из первого раскрывающегося списка, укажите языки оригинала и перевода из второго раскрывающегося списка (можно добавить несколько языковых стандартов) и нажмите « + Добавить больше языковых стандартов ».

    Появится окно входных данных.

  4. Нажмите Добавить памяти переводов.

    Открывается страница «Выбрать базы памяти переводов» с search.jpg функции поиска.

  5. Чтобы добавить в набор данных память переводов (TM), нажмите значок AddTM.jpg. В столбец «Выбрано» добавлена память переводов (TM).

    Максимальное количество таких сегментов - 200 - может быть добавлено несколько TMS, а набор данных в идеале должен содержать не менее 10 000 сегментов.

    При нажатии на название памяти переводов (TM) выбор будет отображаться на странице памяти переводов.

    Нажмите на значок RemoveTM.jpg, чтобы удалить память переводов (TM) из Выбранного столбца.

  6. Нажмите «Сохранить».

    Открывается страница сведения о наборе данных.

  7. Проверьте представленные сведения и, если все правильно, нажмите Продолжить.

    Открывается страница фильтров очистки.

  8. Примените необходимые фильтры и нажмите «Создать».

    Набор данных создается и добавляется в список на странице «Наборы данных» с исходным статусом «Очистки» и статусом «Учебного машинного перевода (МТ)» в столбце «Создано для».

Была ли эта статья полезной?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.