Custom AI

Создать набор данных

Контент автоматически переведен с английского языка с помощью Phrase Language AI.

Руководство по выбору памяти переводов

Фраза Пользовательский ИИ использует память переводов (ТМ) для создания пользовательских моделей машинного перевода (МТ), которые соответствуют определенной терминологии и стилю, что приводит к улучшению качества перевода (и, следовательно, сокращению времени постредактирования) для этих типов контента по сравнению с общим машинным переводом.

Самым важным фактором, который может повлиять на эффективность процесса настройки, является используемая память переводов. Это общие рекомендации, которые могут помочь определить, какие данные использовать для этой цели:

  • Единая отрасль:

    Лучше, если набор данных сосредоточен на контенте, охватывающем единственный стиль и терминологию. Если набор данных содержит смесь отраслей (например, как юридические термины сайта, так и описания продуктов), модель может не научиться тому, каким должен быть желаемый стиль.

  • Уникальный тип контента:

    Пользовательская модель МТ строится на основе общих моделей, обученных на огромных объемах общедоступных данных, собранных из интернета. Если память переводов содержит данные, которые довольно похожи на общие данные, использованные для построения общих моделей, от процесса настройки не будет много пользы.

  • Качество данных:

    Модель будет предполагать, что каждая пара предложений в памяти переводов является примером результата, который от нее ожидается. Память переводов должна быть хорошего качества, желательно созданной на основе профессиональных человеческих переводов. Процесс очистки данных может помочь отфильтровать самые вредные части набора данных.

  • Ожидаемый объем:

    Чтобы настройка была значимой с точки зрения рентабельности инвестиций (RoI), набор данных должен быть представительным для основной массы данных, где качество МТ будет иметь большее влияние. Например, если часть вывода МТ будет постредактирована человеческими переводчиками, чтобы максимизировать RoI, данные должны быть представительными для контента, который будет постредактирован.

Создание набора данных для автоматизированной кураторской обработки активов имеет немного другой процесс.

Чтобы создать набор данных для обучения пользовательской системы МТ, выполните следующие шаги:

  1. На странице Наборы данных нажмите Обучить пользовательскую систему машинного перевода.

    Открывается страница Детали набора данных.

  2. Укажите имя для набора данных.

  3. Выбор языков позволяет различные варианты:

    1. Чтобы создать общий языковой набор, выберите одни и те же языки оригинала и перевода в селекторах языков оригинала и перевода и языкового стандарта.

    2. Чтобы создать набор, специфичный для языкового стандарта, выберите языки оригинала и перевода из первого выпадающего списка, затем укажите языковые стандарты оригинала и перевода из второго выпадающего списка.

      Также можно добавить несколько языковых стандартов перевода (т.е. различные варианты одного и того же языка), чтобы использовать больше источников данных.

    3. Чтобы создать набор с несколькими языковыми стандартами оригинала и перевода, выберите языки оригинала и перевода из первого выпадающего списка, укажите языковые стандарты оригинала и перевода из второго выпадающего списка (можно добавить различные варианты одного и того же языка перевода) и нажмите + Добавить больше пар языковых стандартов.

    Появляется окно Входные данные.

  4. Нажмите Добавить памяти переводов.

    Открывается страница Выбор памяти переводов с функцией поиска Search.

  5. Чтобы добавить память переводов в набор данных, нажмите на значок Add TM. Память переводов добавляется в колонку Выбранные.

    Можно добавить несколько памяти переводов, максимум 200 и максимум 8 миллионов сегментов. Идеально, чтобы набор данных содержал как минимум 10,000 сегментов.

    Нажатие на имя памяти переводов отобразит выбор на странице памяти переводов.

    Нажмите на значок Remove TM, чтобы удалить память переводов из колонки Выбранные.

  6. Нажмите Сохранить.

    Открывается страница Детали набора данных.

  7. Просмотрите представленные детали, и если они верны, нажмите Продолжить.

    Открывается страница Очистка фильтров.

  8. Примените необходимые фильтры и нажмите Создать.

    Набор данных создан и добавлен в список на странице Наборы данных с начальным статусом Очистка и статусом Обучение МТ в колонке Создано для.

Была ли эта статья полезной?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.