Custom AI

Фильтры очистки

Контент автоматически переведен с английского языка с помощью Phrase Language AI.

Наиболее важные аспекты обучения МТ-движков заключаются не только в объеме, но и в качестве данных. Очистка данных является повсеместной проблемой, а ручная очистка трудоемка. Чистые данные приводят к более быстрому обучению и более качественным моделям.

Пользовательский ИИ адаптирует памяти переводов в наборы данных с помощью фильтров очистки на основе ИИ и правил. Предоставлены настройки по умолчанию, которые должны быть подходящими для новых пользователей.

Набор доступных фильтров включает как фильтры на основе правил, так и фильтры на основе машинного обучения:

  • На основе правил

    Фильтры, которые работают с четко определенными правилами, которые легко понимаемы людьми. Эта категория фильтров включает Диапазон дат, Минимальное количество символов, Длина пары предложений, Соотношение длины, Непереводимые, Дубликаты, Почти дубликаты.

  • На основе машинного обучения

    Фильтры, которые анализируют содержание текста, чтобы принять решение, а не просто следуют фиксированному набору правил. Эта категория фильтров включает Несоответствующий оригинал и перевод и Идентификация языка.

Все фильтры оцениваются на очищенных версиях сегментов; среди прочего, множественные пробелы сокращаются до одного, а теги теги удаляются.

Диапазон дат

Исключает сегменты вне установленных дат. Конечные и начальные даты включены вместе с датой последнего изменения сегмента.

Несоответствующий оригинал и перевод

Этот фильтр определяет, насколько хорошо сегменты совпадают по смыслу и семантическому сходству, удаляя наименее оцененные. Выравнивание пар предложений измеряется с использованием метрики LASER.

Искусственный интеллект (ИИ) используется для проверки того, что оригинал и перевод означают одно и то же или насколько они схожи. Рекомендуемая настройка сбрасывает 10% худших сегментов, сохраняя 90% лучших сегментов.

Расширенные настройки позволяют изменять выравнивание или могут быть фильтром на основе сырой оценки сходства, используя число от 0 до 1 (1 означает полное выравнивание). Осторожность рекомендуется, если используется сырая оценка сходства, так как каждая языковая пара имеет различное распределение оценок, и то, что считается хорошей оценкой для одной языковой пары, может быть неудовлетворительной оценкой для другой.

Как правило, сегменты ниже 0.5 не очень хороши, а сегменты, близкие к 1 или превышающие 1, являются сегментами, которые одинаковы на обоих языках.

Примеры:

{"source": "Супер.", "target": "Супер.", "similarity": 1.05}

{"source": "Hello", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

Минимальное количество символов и букв

Количество символов включает все символы. Это включает все буквы, пробелы и знаки препинания и символы. Для учебных целей может быть полезно сбрасывать сегменты, которые не содержат никаких букв.

Количество букв учитывает только буквы, такие как в английском алфавите, но также более сложные символы с диакритиками или китайские символы. Один китайский символ считается одной буквой, даже если он представляет более одного символа. Для языков, основанных на символах, значения по умолчанию равны 1, но для языков, основанных на словах, значения по умолчанию равны 4 (символы) и 3 (буквы). Минимальное значение равно 1, а максимальное значение равно 500.

Если в данных сохраняется много коротких сегментов (например, аббревиатур), держите значения фильтра низкими.

Пример:

Строка "Привет, мир! 1 2 3" содержит 19 символов и 10 букв.

Длина пары предложений

Этот фильтр удаляет все сегменты, которые длиннее порогового значения, установленного пользователями. Причина этого фильтра заключается в том, что большинство систем НМТ не будут обучаться на сегментах, которые длиннее их внутреннего порога. 

Например, внутренний порог NextMT составляет 200 токенов, что примерно равно 100 - 1,000 словам. Чтобы обучить пользовательскую систему на более коротких предложениях, установите это значение ниже стандартного.

Общее количество символов включает все символы - буквы, пробелы и знаки препинания - как из исходных, так и из целевых предложений. Учитывайте тип языка (например, китайский и английский); если исходный язык не похож на CJK, а целевой язык является CJK (или наоборот), этот фильтр будет проигнорирован.

Соотношение длины

Этот фильтр определяет сегменты, где длина значительно выше при сравнении исходного сегмента и целевого сегмента. Некоторые переводы увеличиваются или уменьшаются в длине при переводе с исходного на целевой язык. Слишком длинные или слишком короткие переводы могут указывать на низкое качество обучающих данных.

Если исходный язык не похож на CJK, а целевой язык является (или наоборот), этот фильтр будет проигнорирован.CJK

Некоторые языки более многословны, чем другие, поэтому 200% является хорошим стандартом. Если целевой язык похож на исходный язык или необходимо отфильтровать больше данных, значение может быть ниже.

Примеры:

Один язык - CJK - соотношение 1. Он не будет отклонен:

{"source": "Это предложение.", "target": "这是一个句子。", "ratio": 1}

Немецкий перевод сопоставим по длине с английским исходником и не будет отклонен:

{"source": "Это предложение.", "target": "Dies ist ein Satz.", "ratio": 1.1}

Немецкий перевод значительно длиннее, чем английский оригинал и будет отброшен:

{"source": "Это предложение.", "target": "Это предложение с дополнительными ненужными заполнителями.", "ratio": 3.1}

Непереводимые элементы

Непереводимые элементы — это сегменты, где оригинал и перевод совпадают. Исключает все непереводимые пары предложений, где целевой текст остается неизменным по сравнению с оригиналом.

Дубликаты

Создаются группы сегментов, которые имеют одно и то же исходное предложение. Из каждой группы сохраняется только лучший сегмент, поэтому если исходное предложение сегмента уникально, оно автоматически сохраняется. В противном случае сохраняется сегмент с наивысшим баллом схожести.

Почти дубликаты

При проверке на почти дубликаты (немного более чистая версия) исходного предложения нормализуется; все не буквенные символы (некоторые примеры: “,?)!-) заменяются пробелом, а все буквы приводятся к нижнему регистру.

Используя нормализованное исходное предложение, создаются группы сегментов, которые имеют одно и то же нормализованное исходное предложение. Из каждой группы сохраняется только лучший сегмент, поэтому нормализованное исходное предложение сегмента уникально и автоматически сохраняется. В противном случае сохраняется сегмент с наивысшим баллом схожести.

Идентификация языка

Используется система ИИ для определения исходного и целевого языка на основе предложений. Сегмент удаляется только в том случае, если система распознает (исходный/целевой) язык (например, короткие предложения часто недостаточны для определения языка) и язык отличается от ожидаемого.

QPS

Фильтр QPS удаляет пары предложений низкого качества в наборе данных, чтобы гарантировать, что полученные модели ИИ обучаются на самых качественных доступных данных. Как правило, чем выше качество обучающих данных, тем лучше работает настраиваемая модель.

Фильтр QPS можно настроить двумя способами:

  1. Удаление указанного процента пар предложений с наименьшими оценками QPS. Рекомендуется 10%.

  2. Выбор порога оценки. Используйте расширенные настройки, чтобы исключить пары предложений, которые находятся ниже настраиваемого порога QPS. Рекомендуемая отправная точка — 50.

Эти два варианта обеспечивают автоматизированную кураторскую работу с набором данных для соответствия целям качества пользователей.

Была ли эта статья полезной?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.