Custom AI

Фильтры очистки

Контент автоматически переведен с английского языка с помощью Phrase Language AI.

Phrase Custom AI позволяет адаптировать базы памяти переводов в наборы данных с помощью фильтров очистки на базе искусственного интеллекта и правил. Предусмотрены настройки по умолчанию, которые могут подойти для новых пользователей.

Все фильтры оценивают по очищенным версиям сегментов. Например, несколько пробелов сокращаются до одного, а теги Phrase удаляются.

Диапазон дат

Дата окончания и начала сегмента учитывается с датой последнего изменения сегмента.

Несоответствие исходника и перевода

Этот фильтр позволяет пользователям определять, насколько сегменты совпадают по смыслу и семантическому сходству, удаляя худшую оценку . Соответствие пары предложений измеряется с помощью ЛАЗЕРНОЙ метрики.

Система искусственного интеллекта используется для проверки того, что исходный текст и текст перевода означают одно и то же или во многом одно и то же. Рекомендуемый параметр отбрасывает 10% худших сегментов, оставляя 90% лучших сегментов.

Расширенные настройки позволяют изменять выравнивание или могут быть фильтром на основе неотредактированного сходства с использованием числа от 0 до 1 (1 означает полное выравнивание). Рекомендуется быть осторожным, если при использовании неотредактированного сходства, так как каждая языковая пара имеет разное распределение оценок и то, что считается хорошим для одной языковой пары, может оказаться неудовлетворительным для другой.

Минимальное количество символов

Количество символов включает все символы. Это включает все буквы, пробелы, пунктуацию и символы.

Буквы включают только буквы, например в английском алфавите, но и более сложные символы с диакритикой или китайскими символами. Один китайский символ считается за одну букву, даже если он обозначает несколько символов.

Длина пары предложений

Общее количество символов включает все символы — буквы, а также пробелы, пунктуацию — как из исходного, так и из целевых предложений. Обязательно примите во внимание тип языка (например, китайский и английский). Если исходный язык не похож на CJK и язык перевода - CJK (или наоборот), этот фильтр будет пропущен.

Соотношение длины

Этот фильтр определяет сегменты, длина которых значительно выше при сравнении исходного сегмента с целевым сегментом. Длина некоторых переводов увеличивается или уменьшается при переводе с исходного языка на язык перевода. Слишком долгий или слишком короткий перевод может указывать на низкое качество данных обучения.

Если исходный язык не является CJK-подобным алфавитом и языком перевода является CJK (или наоборот), этот фильтр будет пропущен.

Непереводимые элементы

Исключите из исходника все непереводимые пары предложений, в которых текст перевода остается неизменным.

Дубли

Создаются группы сегментов, у которых исходное предложение одинаково. От каждой группы сохраняется только лучший сегмент. Если исходное предложение сегмента уникально, оно автоматически сохраняется. В противном случае. сегмент с наивысшим показателем сходства сохраняется.

Почти дубликаты

При тестировании на почти дубликаты нормализуется (чуть более чистый вариант) исходное предложение; все небуквенные символы (некоторые примеры: ",?)!-) заменяются пробелом, а все буквы передаются в нижнем регистре.

С помощью стандартизированного исходного предложения создаются группы сегментов с одинаковым нормализованным исходным предложением. От каждой группы сохраняется только лучший сегмент, так что приведенное исходное предложение сегмента является уникальным и сохраняется автоматически. В противном случае. сегмент с наивысшим показателем сходства сохраняется.

Идентификация языка

Система искусственного интеллекта используется для определения исходного языка и языка перевода на основе предложений. Сегмент удаляется, только если система распознает (исходный/целевой) язык (например, коротких предложений часто недостаточно для определения языка системой) и язык отличается от ожидаемого.

Была ли эта статья полезной?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.