Фильтры очистки

Контент автоматически переведен с английского языка с помощью Phrase Language AI.

Самым важным аспектом обучения движков МТ является не только объем, но и качество данных. Очистка данных — это повсеместная проблема, а ручная очистка трудоемка. Чистые данные ведут к более быстрому обучению и более качественным моделям.

Phrase Custom ИИ адаптирует память переводов в наборы данных с помощью фильтров очистки на основе ИИ и правил. Предоставленные настройки по умолчанию должны подойти новым пользователям.

Набор доступных фильтров включает как фильтры на основе правил, так и фильтры на основе машинного обучения:

На основе правил

Фильтры, которые работают с четко определенными правилами, легко понятными для людей. Эта категория фильтров включает Диапазон дат, Минимальное количество символов, Длина пары предложений, Соотношение длины, Непереводимые элементы, Дубликаты, Почти дубликаты.
На основе машинного обучения

Фильтры, которые анализируют контент самого текста для принятия решения, а не просто следуют фиксированному набору правил. Эта категория фильтров включает Несоответствие оригинала и перевода и Идентификация языка.

Все фильтры выполняют оценку на очищенных версиях сегментов; помимо прочего, множественные пробелы сокращаются до одного, а теги Phrase удаляются.

Диапазон дат

Исключает сегменты вне установленных дат. Дата начала и окончания включены вместе с датой последнего изменения сегмента.

Несоответствие оригинала и перевода

Этот фильтр определяет, насколько хорошо сегменты совпадают по значению и семантическому сходству, удаляя наименее подходящие. Выравнивание пары предложений измеряется с использованием метрики LASER.

Система искусственный интеллект (ИИ) используется для проверки того, означают ли оригинал и перевод одно и то же, или насколько они совпадают. Рекомендуемые настройки позволяют Сбросить 10% худших сегментов, сохраняя при этом 90% лучших сегментов.

Дополнительные настройки позволяют изменять выравнивание или могут служить фильтровать на основе необработанной оценка сходства с использованием числа от 0 до 1 (1 означает Завершить выравнивание). Рекомендуется соблюдать осторожность при использовании необработанной оценка сходства, так как каждая языковая пара имеет разное распределение оценка, и то, что считается хорошей оценка для одной языковой пары, может быть неудовлетворительной оценка для другой.

Как правило, сегменты ниже 0,5 не очень хороши, а сегменты, близкие к 1 или превышающие его, — это сегменты, которые одинаковы в обоих языках.

Примеры:

{\"source\": \"Super.\", \"target\": \"Super.\", \"similarity\": 1.05}

{\"source\": \"Hello\", \"target\": \"http://wwww.sdsadsa.com\", \"similarity\": 0.3}

Минимальное количество символ и букв

Количество символ<1> включает все символ. Это включает все буквы, пробелы, знаки препинания и символ. Для целей обучения может быть полезно Сбросить сегменты, которые не содержат никаких букв.

Количество букв<1> подсчитывает только буквы, такие как в английском алфавите, а также более сложные символ с диакритическими знаками или китайские символ. Один китайский символ считается как одна буква, даже если он представляет более одного символ. Для языков, основанных на символ, значения по умолчанию равны 1, но для языков, основанных на словах, значения по умолчанию равны 4 (символ) и 3 (буквы). Минимальное значение — 1, а максимальное значение — 500.

Если в данных сохраняется много коротких сегментов (например, аббревиатур), держите значения фильтровать низкими.

Пример:

Строка \"Hello, World!" 1 2 3\" содержит 19 символ и 10 букв.

Длина пары предложений

Этот фильтр удаляет все сегменты, которые длиннее порогового значения, установленного пользователями. Причина использования этого фильтра заключается в том, что большинство систем NMT фактически не обучаются на сегментах, которые длиннее их внутреннего порога.

Например, внутренний порог NextMT составляет 200 токенов, что равно примерно 100–1000 слов. Чтобы обучить Пользовательский система на более коротких предложениях, установите это значение ниже значения по умолчанию.

Общее количество символ включает все символ — буквы, пробелы и знаки препинания — как из оригинал, так и из перевод предложений. Примите во внимание тип язык (например, китайский и английский); если оригинал язык не похож на CJK, а перевод язык — CJK (или наоборот), этот фильтр будет проигнорирован.

Соотношение длины

Этот фильтр определяет сегменты, где длина значительно выше при сравнении оригинал сегмент и перевод сегмент. Длина некоторых переводов увеличивается или уменьшается при переводе с оригинал на перевод язык. Слишком длинные или слишком короткие переводы могут указывать на низкое качество обучающих данных.

Если оригинал язык не похож на CJK, а перевод язык — наоборот (или наоборот), этот фильтр будет проигнорирован.CJK

Некоторые языки более многословны, чем другие, поэтому 200% — это хорошее значение по умолчанию. Если перевод язык похож на оригинал язык или требуется отфильтровать больше данных, значение может быть ниже.

Примеры:

Один язык — CJK, соотношение равно 1. Он не будет отброшен:

{"оригинал": "This is a sentence.", "перевод": "这是一个句子。", "соотношение": 1}

Немецкий перевод сопоставим по длине с английским оригинал и не будет отброшен:

{"оригинал": "This is a sentence.", "перевод": "Dies ist ein Satz.", "соотношение": 1.1}

Немецкий перевод намного длиннее английского оригинал и будет отброшен:

{"оригинал": "This is a sentence.", "перевод": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}

Непереводимые элементы

Непереводимые элементы — это сегмент, где оригинал и перевод сегмент совпадают. Исключает все пары предложений, которые являются непереводимыми элементами, где текст перевод остается неизменным по сравнению с текстом оригинал.

Дубликаты

Создаются группы сегмент, которые имеют одинаковый оригинал предложение. Из каждой группы сохраняется только лучший сегмент, поэтому если оригинал предложение сегмент уникально, оно автоматически сохраняется. В противном случае сохраняется сегмент с самой высокой оценка сходства.

Почти дубликаты

При проверке на почти дубликаты (слегка очищенная версия) оригинал сегмента нормализуется; все небуквенные символы (некоторые примеры: “,?)!-) заменяются на каталог, а все буквы приводятся к нижнему регистру.

Используя нормализованный оригинал сегмента, создаются группы сегментов, имеющие одинаковый нормализованный оригинал сегмента. Из каждой группы сохраняется только лучший сегмент, поэтому нормализованный оригинал сегмента является уникальным и автоматически сохраняется. В противном случае сохраняется сегмент с самой высокой оценка сходства.

Идентификация язык

Система искусственный интеллект (ИИ) используется для идентификации язык оригинал и язык перевод на основе предложений. Сегмент удаляется только в том случае, если система распознает язык (оригинал/перевод) (например, более коротких предложений часто недостаточно для того, чтобы система определила язык) и язык отличается от ожидаемого.

ОЦЕНКА КАЧЕСТВА (QPS)

Фильтр Оценка качества (QPS) удаляет пары предложений с самым низким качеством из набора данных, чтобы гарантировать, что результирующие модели искусственный интеллект (ИИ) обучаются на самых качественных доступных данных. Как правило, чем выше качество обучающих данных, тем лучше работает настроенная модель.

Фильтр Оценка качества (QPS) можно настроить двумя способами:

Удаление указанного процента пар предложений с самыми низкими оценка Оценка качества (QPS). Рекомендация составляет 10%.
Выбор порога оценки. Используйте расширенные настройки, чтобы исключить пары предложений, которые не достигают настраиваемого порога Оценка качества (QPS). Рекомендуемая начальная точка — 50.

Эти две опции обеспечивают автоматизированную обработку набора данных в соответствии с целями пользователей по качеству.