Custom AI

Automated Asset Curation

Контент автоматически переведен с английского языка с помощью Phrase Language AI.

Кураторство памяти переводов является давней и распространенной проблемой, а ручная очистка — трудоемким процессом. Чистые памяти переводов приводят к лучшим ссылкам для лингвистов и более качественному машинному переводу, что особенно актуально для Phrase NextMT, учитывая его продвинутые возможности использования языковых ресурсов, таких как памяти переводов и глоссарии.

Создать набор данных для AAC

Чтобы создать набор данных для использования кураторской TM в TMS, выполните следующие шаги:

  1. На странице Наборы данных нажмите Очистить память переводов.

    Открывается страница Детали набора данных.

  2. Укажите имя для набора данных.

  3. Выбор языков позволяет различные варианты:

    1. Чтобы создать общий языковой набор данных, выберите одни и те же языки источника и целевого языка в селекторах языка источника и целевого языка и языкового стандарта.

    2. Чтобы создать набор данных, специфичный для языкового стандарта, выберите языки источника и целевого языка из первого выпадающего списка, затем укажите языковые стандарты источника и целевого языка из второго выпадающего списка.

      Также можно добавить несколько целевых языковых стандартов для использования большего количества источников данных.

    3. Чтобы создать набор данных с несколькими языковыми стандартами источника и целевого языка, выберите языки источника и целевого языка из первого выпадающего списка, укажите языковые стандарты источника и целевого языка из второго выпадающего списка (можно добавить несколько целевых языковых стандартов) и нажмите + Добавить больше пар языковых стандартов.

    Окно Входные данные появляется.

  4. Нажмите Добавить памяти переводов.

    Открывается страница Выбор памяти переводов с функцией поиска Search.

  5. Чтобы добавить TM в набор данных, нажмите на значок Add TM. TM добавляется в колонку Выбранные.

    Можно добавить несколько TM, максимум 200 TM и максимум 8 миллионов сегментов. Набор данных должен содержать как минимум 10 000 сегментов.

    Нажатие на имя TM отобразит выбор на странице памяти переводов.

    Нажмите на значок Remove TM, чтобы удалить память переводов (TM) из колонки Выбранные.

  6. Нажмите «Сохранить».

    Открывается страница Детали набора данных.

  7. Просмотрите представленные детали и, если они верны, нажмите Продолжить.

    Открывается страница Очистка фильтров.

  8. Примените необходимые фильтры и нажмите Создать.

    Набор данных создан и добавлен в список на странице Наборы данных с начальным статусом Очистка и статусом Очистка TM в колонке Создано для.

Очистка фильтров для AAC

Phrase Custom AI позволяет курировать памяти переводов с помощью фильтров очистки на основе ИИ и правил. Предоставлены настройки по умолчанию, которые могут подойти новым пользователям.

Этот процесс сохраняет оригинальные метаданные сегмента TM и теги TM, что позволяет пользователям сохранять преимущества TM при использовании очищенных TM в TMS.

Набор доступных фильтров включает как фильтры на основе правил, так и фильтры на основе машинного обучения:

  • На основе правил

    Фильтры, которые работают с четко определенными правилами, которые легко понимаются людьми. Эта категория фильтров включает Диапазон дат, Минимальное количество символов, Длина пары предложений, Соотношение длины, Непереводимые, Дубликаты, Почти дубликаты.

  • На основе машинного обучения

    Фильтры, которые анализируют содержание текста, чтобы принять решение, а не просто следуют фиксированному набору правил. Эта категория фильтров включает Несоответствующий оригинал и перевод и Идентификация языка.

Диапазон дат

Включены как дата начала, так и дата окончания с учетом даты последнего изменения сегмента.

Несоответствующий оригинал и перевод

Этот фильтр позволяет пользователям определить, насколько хорошо сегменты совпадают по смыслу и семантическому сходству, удаляя наихудшие. Выравнивание пар предложений измеряется с использованием метрики LASER.

Используется ИИ-движок для проверки того, что исходный и целевой текст означают одно и то же или насколько они схожи. Рекомендуемая настройка сбрасывает 10% худших сегментов, сохраняя 90% лучших сегментов.

Расширенные настройки позволяют изменять выравнивание или могут быть фильтром на основе сырого показателя схожести с использованием числа от 0 до 1 (1 означает полное выравнивание). Осторожность рекомендуется при использовании сырого показателя схожести, так как каждая языковая пара имеет различное распределение оценок, и то, что считается хорошей оценкой для одной языковой пары, может быть неудовлетворительной оценкой для другой.

Как правило, сегменты ниже 0.5 не очень хороши, а сегменты, близкие к 1 или превышающие 1, являются сегментами, которые одинаковы на обоих языках.

Примеры:

Строка "Привет, мир!" 1 2 3" содержит 19 символов и 10 букв.

Минимальное количество символов и букв

Количество символов включает все символы. Это включает все буквы, пробелы и знаки препинания и символы. Для учебных целей может быть полезно сбрасывать сегменты, которые не содержат никаких букв.

Количество букв учитывает только буквы, такие как в английском алфавите, но также более сложные символы с диакритиками или китайские символы. Один китайский символ считается одной буквой, даже если он представляет более одного символа. Для языков, основанных на символах, значения по умолчанию равны 1, но для языков, основанных на словах, значения по умолчанию равны 4 (символы) и 3 (буквы). Минимальное значение равно 1, а максимальное значение равно 500.

Если в данных сохраняется много коротких сегментов (например, аббревиатур), держите значения фильтра низкими.

Пример:

Строка "Привет, мир!" 1 2 3" содержит 19 символов и 10 букв.

Длина пар предложений

Этот фильтр удаляет все сегменты, которые длиннее порогового значения, установленного пользователями.

Общее количество символов включает все символы - буквы, пробелы и знаки препинания - как из исходного, так и из целевого предложений. Учитывайте тип языка (например, китайский и английский); если исходный язык не является языком CJK, а целевой язык является CJK (или наоборот), этот фильтр будет проигнорирован.

Соотношение длины

Этот фильтр определяет сегменты, где длина значительно выше при сравнении исходного сегмента и целевого сегмента. Некоторые переводы увеличиваются или уменьшаются в длине при переводе с одного языка на другой. Слишком длинные или слишком короткие переводы могут указывать на низкое качество сегментов.

Если исходный язык не является языком CJK, а целевой язык является (или наоборот), этот фильтр будет проигнорирован.CJK

Некоторые языки более многословны, чем другие, поэтому 200% - это хорошее значение по умолчанию. Если целевой язык похож на исходный язык или необходимо отфильтровать больше данных, значение может быть ниже.

Примеры:

Один язык - CJK - соотношение 1. Он не будет отклонен:

{"source": "Это предложение.", "target": "这是一个句子。", "ratio": 1}

Немецкий перевод сопоставим по длине с английским исходным и не будет отклонен:

{"source": "Это предложение.", "target": "Dies ist ein Satz.", "ratio": 1.1}

Немецкий перевод значительно длиннее английского исходного и будет отклонен:

{"source": "Это предложение.", "target": "Dies ist ein Satz mit zusätzlichen unnужными заполнителями.", "ratio": 3.1}

Непереводимые

Непереводимые сегменты — это сегменты, где исходные и целевые сегменты совпадают. Исключает все непереводимые пары предложений, где целевой текст остается неизменным по сравнению с исходным текстом.

Дубликаты

Создаются группы сегментов, которые имеют одно и то же исходное предложение. Из каждой группы сохраняется только лучший сегмент, поэтому если исходное предложение сегмента уникально, оно автоматически сохраняется. В противном случае сохраняется сегмент с наивысшим баллом схожести.

Почти дубликаты

При тестировании на почти дубликаты (немного более чистая версия) исходного предложения нормализуется; все не буквенные символы (некоторые примеры: “,?)!-) заменяются на пробел, а все буквы приводятся к нижнему регистру.

Используя нормализованное исходное предложение, создаются группы сегментов, которые имеют одно и то же нормализованное исходное предложение. Из каждой группы сохраняется только лучший сегмент, поэтому нормализованное исходное предложение сегмента уникально и автоматически сохраняется. В противном случае сохраняется сегмент с наивысшим баллом схожести.

Идентификация языка

Используется система ИИ для определения исходного и целевого языка на основе предложений. Сегмент удаляется только в том случае, если система распознает (исходный/целевой) язык (например, короткие предложения часто недостаточны для определения языка) и язык отличается от ожидаемого.

QPS

Фильтр QPS позволяет удалить пары предложений с самым низким качеством в памяти переводов, чтобы гарантировать, что полученные сегменты имеют наивысшее качество.

Фильтр QPS можно настроить двумя способами:

  1. Удаление указанного процента пар предложений с самыми низкими баллами QPS. Рекомендуется 10%.

  2. Выбор порога оценки. Используйте расширенные настройки, чтобы исключить пары предложений, которые находятся ниже настраиваемого порога QPS. Рекомендуемая отправная точка - 50.

Эти два варианта обеспечивают автоматизированную кураторскую память переводов для соответствия целям качества пользователей.

Использование кураторских ТМ в ТМС

Процесс очистки памяти переводов, который может занять несколько часов, должен быть завершен, прежде чем кураторская ТМ может быть использована.

Чтобы использовать кураторскую ТМ в ТМС, выполните следующие шаги:

  1. Нажмите Open More Menu и выберите скачать Download.

    Открывается окно загрузки.

  2. Выберите Скачать (.tmx).

Это запустит процесс экспорта набора данных, который займет всего несколько минут. Полученная кураторская ТМ в формате .TMX может быть затем загружена в ТМС как новая кураторская ТМ размером до 1 Гб.

Если на одной и той же ТМ было выполнено два или более процессов очистки, разные версии могут быть доступны во вкладке История очистки.

Была ли эта статья полезной?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.