Рекомендации по выбору памяти переводов
Phrase Custom AI использует память переводов ((TMS)) для создать пользовательский моделей машинный перевод (машинный перевод (МТ)), соответствующих определенной терминологии и стилю, что приводит к улучшению качества перевода (и, таким образом, сокращению времени постредактирование) для этих типов контент по сравнению с обычным машинный перевод.
Важнейшим фактором, способным повлиять на эффективность процесса настройки, является использование памяти переводов. Вот общие рекомендации, которые могут стать Справкой при определении того, какие данные использовать для этой цели:
-
Отрасль:
Лучше всего, если набор данных будет ориентирован на контент, охватывающий единый стиль и терминологию. Если набор данных содержит смесь отраслей (например, юридические термины веб-сайта и описания продуктов), то данная модель может не узнать, какой стиль является желательным.
-
Уникальный тип контента:
Пользовательская модель машинного перевода (МТ) опирается на типовые модели, обученные на огромном количестве общедоступных данных, собранных из Интернета. Если память переводов содержит данные, в значительной степени сходные с общими данными, используемыми для построения типовых моделей, то процесс настройки не принесет большой пользы.
-
Качество данных:
Модель будет исходить из того, что каждая пара предложений в памяти переводов является примером ожидаемого от нее результата. Память переводов должна быть качественной, в идеале она должна быть создана на основе Professional human translations. Конвейер очистки данных может оказать Справку, фильтруя наиболее вредные части набора данных.
-
Ожидаемый объем:
Для того чтобы кастомизация оказывала влияние на результат с точки зрения рентабельности, набор данных должен отражать основную массу данных, в которых качество машинного перевода (МТ) будет оказывать большее влияние. Например, если часть результатов машинного перевода (МТ) должна быть отредактирована людьми-переводчиками, то для максимального увеличения объема РОИ данные должны быть репрезентативными для контента, который будет отредактирован.
Чтобы создать набор данных для обучения пользовательской системы машинного перевода (МТ), выполните следующие действия:
-
На странице Обучить пользовательскую систему машинного перевода (МТ)».
нажмите «Открывается страница
. -
Укажите имя набора данных.
-
Выбор языка позволяет использовать различные варианты:
-
Чтобы создать общий набор данных языка, выберите одинаковые языки оригинала и перевода в селекторах языков оригинала и перевода и языковых стандартов.
-
Чтобы создать набор данных для каждого языкового стандарта, выберите языки оригинала и перевода в первом раскрывающемся списке и укажите языки оригинала и перевода во втором раскрывающемся списке.
Также можно добавить несколько языковых стандартов перевода для максимального использования большего числа источников данных.
-
Чтобы создать набор данных с несколькими языками оригинала и перевода, выберите языки оригинала и перевода из первого раскрывающегося списка, укажите языки оригинала и перевода из второго раскрывающегося списка (можно добавить несколько языковых стандартов) и нажмите « + Добавить больше языковых стандартов ».
Появится окно
. -
-
Нажмите Добавить памяти переводов.
Открывается страница «
» с функции поиска. -
Чтобы добавить в набор данных память переводов (TM), нажмите значок . В столбец «
добавлена память переводов (TM).Максимальное количество таких сегментов - 200 - может быть добавлено несколько TMS, а набор данных в идеале должен содержать не менее 10 000 сегментов.
При нажатии на название памяти переводов (TM) выбор будет отображаться на странице памяти переводов.
Нажмите на значок , чтобы удалить память переводов (TM) из
столбца. -
Нажмите «Сохранить».
Открывается страница
. -
Проверьте представленные сведения и, если все правильно, нажмите Продолжить.
Открывается страница
. -
Примените необходимые фильтры и нажмите «Создать».
Набор данных создается и добавляется в список на странице «
» с исходным статусом « и статусом « (МТ)» в столбце « ».