Руководство по выбору памяти переводов
Фраза Пользовательский ИИ использует память переводов (ТМ) для создания пользовательских моделей машинного перевода (МТ), которые соответствуют определенной терминологии и стилю, что приводит к улучшению качества перевода (и, следовательно, сокращению времени постредактирования) для этих типов контента по сравнению с общим машинным переводом.
Самым важным фактором, который может повлиять на эффективность процесса настройки, является используемая память переводов. Это общие рекомендации, которые могут помочь определить, какие данные использовать для этой цели:
-
Единая отрасль:
Лучше, если набор данных сосредоточен на контенте, охватывающем единственный стиль и терминологию. Если набор данных содержит смесь отраслей (например, как юридические термины сайта, так и описания продуктов), модель может не научиться тому, каким должен быть желаемый стиль.
-
Уникальный тип контента:
Пользовательская модель МТ строится на основе общих моделей, обученных на огромных объемах общедоступных данных, собранных из интернета. Если память переводов содержит данные, которые довольно похожи на общие данные, использованные для построения общих моделей, от процесса настройки не будет много пользы.
-
Качество данных:
Модель будет предполагать, что каждая пара предложений в памяти переводов является примером результата, который от нее ожидается. Память переводов должна быть хорошего качества, желательно созданной на основе профессиональных человеческих переводов. Процесс очистки данных может помочь отфильтровать самые вредные части набора данных.
-
Ожидаемый объем:
Чтобы настройка была значимой с точки зрения рентабельности инвестиций (RoI), набор данных должен быть представительным для основной массы данных, где качество МТ будет иметь большее влияние. Например, если часть вывода МТ будет постредактирована человеческими переводчиками, чтобы максимизировать RoI, данные должны быть представительными для контента, который будет постредактирован.
Создание набора данных для автоматизированной кураторской обработки активов имеет немного другой процесс.
Чтобы создать набор данных для обучения пользовательской системы МТ, выполните следующие шаги:
-
На странице нажмите Обучить пользовательскую систему машинного перевода.
Открывается страница .
-
Укажите имя для набора данных.
-
Выбор языков позволяет различные варианты:
-
Чтобы создать общий языковой набор, выберите одни и те же языки оригинала и перевода в селекторах языков оригинала и перевода и языкового стандарта.
-
Чтобы создать набор, специфичный для языкового стандарта, выберите языки оригинала и перевода из первого выпадающего списка, затем укажите языковые стандарты оригинала и перевода из второго выпадающего списка.
Также можно добавить несколько языковых стандартов перевода (т.е. различные варианты одного и того же языка), чтобы использовать больше источников данных.
-
Чтобы создать набор с несколькими языковыми стандартами оригинала и перевода, выберите языки оригинала и перевода из первого выпадающего списка, укажите языковые стандарты оригинала и перевода из второго выпадающего списка (можно добавить различные варианты одного и того же языка перевода) и нажмите + Добавить больше пар языковых стандартов.
Появляется окно .
-
-
Нажмите Добавить памяти переводов.
Открывается страница с функцией поиска
.
-
Чтобы добавить память переводов в набор данных, нажмите на значок
. Память переводов добавляется в колонку .
Можно добавить несколько памяти переводов, максимум 200 и максимум 8 миллионов сегментов. Идеально, чтобы набор данных содержал как минимум 10,000 сегментов.
Нажатие на имя памяти переводов отобразит выбор на странице памяти переводов.
Нажмите на значок
, чтобы удалить память переводов из колонки .
-
Нажмите Сохранить.
Открывается страница .
-
Просмотрите представленные детали, и если они верны, нажмите Продолжить.
Открывается страница .
-
Примените необходимые фильтры и нажмите Создать.
Набор данных создан и добавлен в список на странице с начальным статусом и статусом в колонке .