Курирование баз памяти переводов – это давняя повсеместная проблема, а ручная очистка – это трудоемкий процесс. Чистая память переводов повышает качество справочных материалов для лингвистов и качества машинного перевода. Это особенно актуально для Prase NextMT, учитывая его расширенные возможности для использования ресурсов языка, таких как память переводов и глоссарии.
Чтобы создать набор данных для использования в TMS памяти переводов (TM), выполните следующие действия:
-
На странице Наборов данных нажмите «Очистить память переводов».
Открывается страница
. -
Укажите имя набора данных.
-
Выбор языка позволяет использовать различные варианты:
-
Чтобы создать общий набор данных языка, выберите одинаковые языки оригинала и перевода в селекторах языков оригинала и перевода и языковых стандартов.
-
Чтобы создать набор данных для каждого языкового стандарта, выберите языки оригинала и перевода в первом раскрывающемся списке и укажите языки оригинала и перевода во втором раскрывающемся списке.
Также можно добавить несколько языковых стандартов перевода для максимального использования большего числа источников данных.
-
Чтобы создать набор данных с несколькими языками оригинала и перевода, выберите языки оригинала и перевода из первого раскрывающегося списка, укажите языки оригинала и перевода из второго раскрывающегося списка (можно добавить несколько языковых стандартов) и нажмите « + Добавить больше языковых стандартов ».
Появится окно
. -
-
Нажмите Добавить памяти переводов.
Открывается страница «
» с функции поиска. -
Чтобы добавить в набор данных память переводов (TM), нажмите значок . В столбец «
добавлена память переводов (TM).Можно добавить несколько TMS максимум к 200 TMS и максимум к 20 миллионам сегментов.
При нажатии на название памяти переводов (TM) выбор будет отображаться на странице памяти переводов.
Нажмите на значок , чтобы удалить память переводов (TM) из
столбца. -
Нажмите «Сохранить».
Открывается страница
. -
Проверьте представленные сведения и, если все правильно, нажмите Продолжить.
Открывается страница
. -
Примените необходимые фильтры и нажмите «Создать».
Набор данных создается и добавляется в список на странице «
» с исходным статусом « » и статусом « (TM)» в столбце « ».
Phrase Custom AI позволяет курировать базы памяти переводов с Справкой на фильтры очистки искусственного интеллекта (ИИ) и на основе правил. Предусмотрены настройки по умолчанию, которые могут подойти новым пользователям.
Этот процесс сохраняет исходные метаданные памяти переводов (TM) и теги памяти переводов (TM), что позволяет пользователям сохранять память переводов (TM) при использовании очищенных TM в TMS.
Доступный набор фильтров включает как фильтры на основе правил, так и фильтры на основе МО:
-
На базе правил
Фильтры, работающие с четко определенными правилами, легко понятными человеку. Эта фильтрующая категория включает
, , , , , , . -
На основе МО
Фильтры, которые анализируют контент самого текста для принятия решения, а не просто следуют фиксированному набору правил. Эта фильтрующая категория включает
, а также .
Диапазон дат
И дата окончания, и дата начала включаются в учетную запись с датой последнего изменения сегмента.
Несоответствие оригинала и перевода
Этот фильтрующий позволяет пользователям определить, насколько сегменты совпадения по смыслу и смысловому сходству, удаляя худшую оценку . Выравнивание пар предложений измеряется с помощью метрики LASER.
Используется система искусственного интеллекта (ИИ), которая проверяет, что оригинал и текст перевода значат одно и то же или то же. Рекомендуемый параметр отбрасывает 10% худших сегментов, оставляя 90% наилучших сегментов.
Расширенные настройки позволяют изменять выравнивание или могут быть фильтрованы на основе оценки исходного сходства, используя число от 0 до 1 (1 значение Завершенного выравнивания). Рекомендуется быть осторожным, если при использовании исходной оценки сходства, так как каждая языковая пара имеет разное распределение оценок и то, что считается хорошей оценкой для одной языковой пары, может быть неудовлетворительной оценкой для другой.
Обычно сегменты ниже 0,5 не очень хороши, а близкие к ним сегменты или сегменты выше 1 — это сегменты, одинаковые на обоих языках.
Примеры:
Длина пары предложений
Этот фильтровать удаляет все сегменты, длина которых превышает пороговое значение, установленное пользователями.
Общее количество символов включает все символы (буквы, пробелы и пунктуация) как из оригинала, так и из предложений перевода. Учитывайте тип языка (например, китайский и английский). Если язык оригинала не похож на CJK, а язык перевода — CJK (или наоборот), этот фильтр будет проигнорирован.
Соотношение длины
Этот фильтрующий определяет сегменты, длина которых значительно выше при сравнении сегмента оригинала и сегмента перевода. Некоторые переводы увеличиваются или уменьшаются в объеме при переводе с оригинала на язык перевода. Слишком длинные или слишком короткие переводы могут указывать на низкое качество сегментов.
Если язык оригинала не похож на CJK и язык перевода (или наоборот), этот фильтрующий будет пропущен. CJK
Некоторые языки более Verbose, чем другие, поэтому 200% - хороший вариант по умолчанию. Если язык перевода похож на язык оригинала или необходимо отфильтровать больше данных, значение может быть ниже.
Примеры:
Одним языком является CJK - соотношение равно 1. Он не будет сброшен:
{"Исходник": «Это предложение.», «Перевод»: «这是一个句子。", "соотношение": 1}
Немецкий перевод сопоставим по объему с английским оригиналом и не будет сброшен:
{"Исходник": «Это предложение.», «Перевод»: «Dies ist ein Satz.», «соотношение»: 1.1}
Немецкий перевод намного длиннее английского оригинала и будет отклонен:
{"Исходник": «Это предложение.», «Перевод»: «Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.», «соотношение»: 3.1}
Непереводимые элементы
Непереводимые элементы — это сегменты, в которых оригинал и перевод совпадают. Исключает из оригинала все непереводимые пары предложений, в которых текст перевода остается неизменным.
Дубли
Создаются группы сегментов, у которых предложение оригинала одинаково. От каждой группы оставляется только лучший сегмент, поэтому в случае уникальности предложения оригинала сегмента оно автоматически сохраняется. В остальном. сегмент с наивысшей оценкой сходства сохраняется.
Почти дубликаты
При проверке на наличие почти всех дубликатов (несколько более чистая версия) исходного предложения нормализуется. Все символы, не связанные с буквами (некоторые примеры: “,?)!-
) заменяются каталогом, а все буквы передаются в нижнем регистре.
Используя предложение нормированного оригинала, создаются группы сегментов, в которых предложение нормированного оригинала совпадает. От каждой группы оставляется только лучший сегмент, чтобы нормированное исходное предложение сегмента было уникальным и сохранялось автоматически. В остальном. сегмент с наивысшей оценкой сходства сохраняется.
Идентификация языка
Для идентификации языка оригинала и перевода на основе предложений используется система искусственного интеллекта (ИИ). сегмент удаляется только в том случае, если система распознает (оригинал/перевод) язык (например, для определения язык система часто недостаточно коротких предложений) и язык отличается от ожидаемого.
QPS
Фильтрующий Оценку качества (QPS) позволяет удалить пары предложений самого низкого качества в памяти переводов для обеспечения высочайшего качества итоговых сегментов.
Настройка фильтрующей Оценки качества (QPS) может быть выполнена двумя способами:
-
Исключение определенного процента пар предложений с самой низкой Оценкой качества (QPS). Рекомендация составляет 10%.
-
Выбор порога оценки. Используйте расширенные настройки, чтобы исключить падение пар предложений ниже регулируемого порога Оценки качества (QPS). Рекомендуемая исходная точка - 50.
Эти два варианта обеспечивают автоматическое курирование памяти переводов в соответствии с целями пользователей в области качества.
Прежде чем использовать память переводов (TM), необходимо Завершить процесс очистки памяти переводов, который может занять несколько часов.
Чтобы использовать память переводов (TM) в TMS, выполните следующие действия:
Это запустит процесс экспортировать набор данных, который займет всего несколько минут. Полученная память переводов (TM) в формате .TMX может быть загружена в TMS в виде новой памяти переводов (TM) размером до 1 Гб.
Если на одной и той же памяти переводов (TM) было выполнено два или более процесса очистки, на вкладке «
» можно получить доступ к разным версиям.