Custom AI

Automated Asset Curation

Контент автоматически переведен с английского языка с помощью Phrase Language AI.

Курирование баз памяти переводов – это давняя повсеместная проблема, а ручная очистка – это трудоемкий процесс. Чистая память переводов повышает качество справочных материалов для лингвистов и качества машинного перевода. Это особенно актуально для Prase NextMT, учитывая его расширенные возможности для использования ресурсов языка, таких как память переводов и глоссарии.

Создать набор данных для AAC

Чтобы создать набор данных для использования в TMS памяти переводов (TM), выполните следующие действия:

  1. На странице Наборов данных нажмите «Очистить память переводов».

    Открывается страница сведения о наборе данных.

  2. Укажите имя набора данных.

  3. Выбор языка позволяет использовать различные варианты:

    1. Чтобы создать общий набор данных языка, выберите одинаковые языки оригинала и перевода в селекторах языков оригинала и перевода и языковых стандартов.

    2. Чтобы создать набор данных для каждого языкового стандарта, выберите языки оригинала и перевода в первом раскрывающемся списке и укажите языки оригинала и перевода во втором раскрывающемся списке.

      Также можно добавить несколько языковых стандартов перевода для максимального использования большего числа источников данных.

    3. Чтобы создать набор данных с несколькими языками оригинала и перевода, выберите языки оригинала и перевода из первого раскрывающегося списка, укажите языки оригинала и перевода из второго раскрывающегося списка (можно добавить несколько языковых стандартов) и нажмите « + Добавить больше языковых стандартов ».

    Появится окно входных данных.

  4. Нажмите Добавить памяти переводов.

    Открывается страница «Выбрать базы памяти переводов» с search.jpg функции поиска.

  5. Чтобы добавить в набор данных память переводов (TM), нажмите значок AddTM.jpg. В столбец «Выбрано» добавлена память переводов (TM).

    Можно добавить несколько TMS максимум к 200 TMS и максимум к 20 миллионам сегментов.

    При нажатии на название памяти переводов (TM) выбор будет отображаться на странице памяти переводов.

    Нажмите на значок RemoveTM.jpg, чтобы удалить память переводов (TM) из Выбранного столбца.

  6. Нажмите «Сохранить».

    Открывается страница сведения о наборе данных.

  7. Проверьте представленные сведения и, если все правильно, нажмите Продолжить.

    Открывается страница фильтров очистки.

  8. Примените необходимые фильтры и нажмите «Создать».

    Набор данных создается и добавляется в список на странице «Наборы данных» с исходным статусом «Очистка» и статусом «Очистка памяти переводов (TM)» в столбце «Создано для».

Фильтры очистки для AAC

Phrase Custom AI позволяет курировать базы памяти переводов с Справкой на фильтры очистки искусственного интеллекта (ИИ) и на основе правил. Предусмотрены настройки по умолчанию, которые могут подойти новым пользователям.

Этот процесс сохраняет исходные метаданные памяти переводов (TM) и теги памяти переводов (TM), что позволяет пользователям сохранять память переводов (TM) при использовании очищенных TM в TMS.

Доступный набор фильтров включает как фильтры на основе правил, так и фильтры на основе МО:

  • На базе правил

    Фильтры, работающие с четко определенными правилами, легко понятными человеку. Эта фильтрующая категория включает диапазон дат, минимальное количество символов, длину пары предложений, соотношение длины, непереводимые элементы, дубликаты, почти дубликаты.

  • На основе МО

    Фильтры, которые анализируют контент самого текста для принятия решения, а не просто следуют фиксированному набору правил. Эта фильтрующая категория включает несогласованный оригинал и перевод, а также идентификацию языка.

Диапазон дат

И дата окончания, и дата начала включаются в учетную запись с датой последнего изменения сегмента.

Несоответствие оригинала и перевода

Этот фильтрующий позволяет пользователям определить, насколько сегменты совпадения по смыслу и смысловому сходству, удаляя худшую оценку . Выравнивание пар предложений измеряется с помощью метрики LASER.

Используется система искусственного интеллекта (ИИ), которая проверяет, что оригинал и текст перевода значат одно и то же или то же. Рекомендуемый параметр отбрасывает 10% худших сегментов, оставляя 90% наилучших сегментов.

Расширенные настройки позволяют изменять выравнивание или могут быть фильтрованы на основе оценки исходного сходства, используя число от 0 до 1 (1 значение Завершенного выравнивания). Рекомендуется быть осторожным, если при использовании исходной оценки сходства, так как каждая языковая пара имеет разное распределение оценок и то, что считается хорошей оценкой для одной языковой пары, может быть неудовлетворительной оценкой для другой.

Обычно сегменты ниже 0,5 не очень хороши, а близкие к ним сегменты или сегменты выше 1 — это сегменты, одинаковые на обоих языках.

Примеры:

Строка "Привет, мир! 1 2 3" содержит 19 символов и 10 букв.

Длина пары предложений

Этот фильтровать удаляет все сегменты, длина которых превышает пороговое значение, установленное пользователями.

Общее количество символов включает все символы (буквы, пробелы и пунктуация) как из оригинала, так и из предложений перевода. Учитывайте тип языка (например, китайский и английский). Если язык оригинала не похож на CJK, а язык перевода — CJK (или наоборот), этот фильтр будет проигнорирован.

Соотношение длины

Этот фильтрующий определяет сегменты, длина которых значительно выше при сравнении сегмента оригинала и сегмента перевода. Некоторые переводы увеличиваются или уменьшаются в объеме при переводе с оригинала на язык перевода. Слишком длинные или слишком короткие переводы могут указывать на низкое качество сегментов.

Если язык оригинала не похож на CJK и язык перевода (или наоборот), этот фильтрующий будет пропущен. CJK

Некоторые языки более Verbose, чем другие, поэтому 200% - хороший вариант по умолчанию. Если язык перевода похож на язык оригинала или необходимо отфильтровать больше данных, значение может быть ниже.

Примеры:

Одним языком является CJK - соотношение равно 1. Он не будет сброшен:

{"Исходник": «Это предложение.», «Перевод»: «这是一个句子。", "соотношение": 1}

Немецкий перевод сопоставим по объему с английским оригиналом и не будет сброшен:

{"Исходник": «Это предложение.», «Перевод»: «Dies ist ein Satz.», «соотношение»: 1.1}

Немецкий перевод намного длиннее английского оригинала и будет отклонен:

{"Исходник": «Это предложение.», «Перевод»: «Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.», «соотношение»: 3.1}

Непереводимые элементы

Непереводимые элементы — это сегменты, в которых оригинал и перевод совпадают. Исключает из оригинала все непереводимые пары предложений, в которых текст перевода остается неизменным.

Дубли

Создаются группы сегментов, у которых предложение оригинала одинаково. От каждой группы оставляется только лучший сегмент, поэтому в случае уникальности предложения оригинала сегмента оно автоматически сохраняется. В остальном. сегмент с наивысшей оценкой сходства сохраняется.

Почти дубликаты

При проверке на наличие почти всех дубликатов (несколько более чистая версия) исходного предложения нормализуется. Все символы, не связанные с буквами (некоторые примеры: “,?)!-) заменяются каталогом, а все буквы передаются в нижнем регистре.

Используя предложение нормированного оригинала, создаются группы сегментов, в которых предложение нормированного оригинала совпадает. От каждой группы оставляется только лучший сегмент, чтобы нормированное исходное предложение сегмента было уникальным и сохранялось автоматически. В остальном. сегмент с наивысшей оценкой сходства сохраняется.

Идентификация языка

Для идентификации языка оригинала и перевода на основе предложений используется система искусственного интеллекта (ИИ). сегмент удаляется только в том случае, если система распознает (оригинал/перевод) язык (например, для определения язык система часто недостаточно коротких предложений) и язык отличается от ожидаемого.

QPS

Фильтрующий Оценку качества (QPS) позволяет удалить пары предложений самого низкого качества в памяти переводов для обеспечения высочайшего качества итоговых сегментов.

Настройка фильтрующей Оценки качества (QPS) может быть выполнена двумя способами:

  1. Исключение определенного процента пар предложений с самой низкой Оценкой качества (QPS). Рекомендация составляет 10%.

  2. Выбор порога оценки. Используйте расширенные настройки, чтобы исключить падение пар предложений ниже регулируемого порога Оценки качества (QPS). Рекомендуемая исходная точка - 50.

Эти два варианта обеспечивают автоматическое курирование памяти переводов в соответствии с целями пользователей в области качества.

Использование курированных TMS в TMS

Прежде чем использовать память переводов (TM), необходимо Завершить процесс очистки памяти переводов, который может занять несколько часов.

Чтобы использовать память переводов (TM) в TMS, выполните следующие действия:

  1. Нажмите на more.jpeg и выберите скачать download.jpg.

    Открывается окно Скачать.

  2. Выберите Скачать (.tmx).

Это запустит процесс экспортировать набор данных, который займет всего несколько минут. Полученная память переводов (TM) в формате .TMX может быть загружена в TMS в виде новой памяти переводов (TM) размером до 1 Гб.

Если на одной и той же памяти переводов (TM) было выполнено два или более процесса очистки, на вкладке «История очистки» можно получить доступ к разным версиям.

Была ли эта статья полезной?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.