Если говорить об обучении систем машинного перевода (МТ), то важнейшим компонентом является не только объем, но и качество данных. Очистка данных – это давняя и повсеместная проблема, а ручная очистка – трудоемкий процесс. Чистые данные ведут к ускорению обучения и повышению качества моделей.
Phrase Custom AI позволяет адаптировать памяти переводов в наборы данных с Справкой на фильтры очистки искусственного интеллекта (ИИ) и на основе правил. Предусмотрены настройки по умолчанию, которые могут подойти новым пользователям.
Доступный набор фильтров включает как фильтры на основе правил, так и фильтры на основе МО:
-
На базе правил
Фильтры, работающие с четко определенными правилами, легко понятными человеку. Эта фильтрующая категория включает
, , , , , , . -
На основе МО
Фильтры, которые анализируют контент самого текста для принятия решения, а не просто следуют фиксированному набору правил. Эта фильтрующая категория включает
, а также .
Все фильтры оценивают по очищенным версиям сегментов. Например, несколько пробелов сокращаются до одного и удаляются Phrase tags.
Диапазон дат
И дата окончания, и дата начала включаются в учетную запись с датой последнего изменения сегмента.
Несоответствие оригинала и перевода
Этот фильтрующий позволяет пользователям определить, насколько сегменты совпадения по смыслу и смысловому сходству, удаляя худшую оценку . Выравнивание пар предложений измеряется с помощью метрики LASER.
Используется система искусственного интеллекта (ИИ), которая проверяет, что оригинал и текст перевода значат одно и то же или то же. Рекомендуемый параметр отбрасывает 10% худших сегментов, оставляя 90% наилучших сегментов.
Расширенные настройки позволяют изменять выравнивание или могут быть фильтрованы на основе оценки исходного сходства, используя число от 0 до 1 (1 значение Завершенного выравнивания). Рекомендуется быть осторожным, если при использовании исходной оценки сходства, так как каждая языковая пара имеет разное распределение оценок и то, что считается хорошей оценкой для одной языковой пары, может быть неудовлетворительной оценкой для другой.
Обычно сегменты ниже 0,5 не очень хороши, а близкие к ним сегменты или сегменты выше 1 — это сегменты, одинаковые на обоих языках.
Примеры:
{"Исходник": «Супер.», «Перевод»: «Сверх.», «сходство»: 1.05}
{"Исходник": "Здравствуйте", "перевод": "http://wwww.sdsadsa.com", "сходство": 0.3}
Минимальное количество символов и букв
Количество символов включает все символы. Это включает все буквы, пробелы, а также пунктуацию и символы. В учебных целях может оказаться полезным сбросить сегменты, не содержащие никаких букв.
Буквы включают только буквы, например в английском алфавите, но и более сложные символы с диакритикой или китайскими символами. Один китайский символ считается за одну букву, даже если он обозначает несколько символов. Для языков на основе символов значения по умолчанию равны 1, а для языков на основе слов значения по умолчанию равны 4 (символы) и 3 (буквы). Минимальное значение равно 1, максимальное — 500.
Если в данных много коротких сегментов (например, аббревиатуры), держите фильтрующие значения на низком уровне.
Пример:
Длина пары предложений
Этот фильтровать удаляет все сегменты, длина которых превышает пороговое значение, установленное пользователями. Причина такого фильтрующего заключается в том, что большинство систем NMT фактически не будут обучаться на сегментах, длина которых превышает их внутренний порог.
Например, внутренний порог NextMT составляет 200 токенов, что составляет примерно 100−1 000 слов. Чтобы обучить пользовательскую систему на коротких предложениях, задайте это значение ниже значения по умолчанию.
Общее количество символов включает все символы (буквы, пробелы и пунктуация) как из оригинала, так и из предложений перевода. Учитывайте тип языка (например, китайский и английский). Если язык оригинала не похож на CJK, а язык перевода — CJK (или наоборот), этот фильтр будет проигнорирован.
Соотношение длины
Этот фильтрующий определяет сегменты, длина которых значительно выше при сравнении сегмента оригинала и сегмента перевода. Некоторые переводы увеличиваются или уменьшаются в объеме при переводе с оригинала на язык перевода. Слишком долгие или слишком короткие переводы могут указывать на низкое качество данных обучения.
Если язык оригинала не похож на CJK и язык перевода (или наоборот), этот фильтрующий будет пропущен. CJK
Некоторые языки более Verbose, чем другие, поэтому 200% - хороший вариант по умолчанию. Если язык перевода похож на язык оригинала или необходимо отфильтровать больше данных, значение может быть ниже.
Примеры:
Одним языком является CJK - соотношение равно 1. Он не будет сброшен:
{"Исходник": «Это предложение.», «Перевод»: «这是一个句子。", "соотношение": 1}
Немецкий перевод сопоставим по объему с английским оригиналом и не будет сброшен:
{"Исходник": «Это предложение.», «Перевод»: «Dies ist ein Satz.», «соотношение»: 1.1}
Немецкий перевод намного длиннее английского оригинала и будет отклонен:
{"Исходник": «Это предложение.», «Перевод»: «Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.», «соотношение»: 3.1}
Непереводимые элементы
Непереводимые элементы — это сегменты, в которых оригинал и перевод совпадают. Исключает из оригинала все непереводимые пары предложений, в которых текст перевода остается неизменным.
Дубли
Создаются группы сегментов, у которых предложение оригинала одинаково. От каждой группы оставляется только лучший сегмент, поэтому в случае уникальности предложения оригинала сегмента оно автоматически сохраняется. В остальном. сегмент с наивысшей оценкой сходства сохраняется.
Почти дубликаты
При проверке на наличие почти всех дубликатов (несколько более чистая версия) исходного предложения нормализуется. Все символы, не связанные с буквами (некоторые примеры: “,?)!-
) заменяются каталогом, а все буквы передаются в нижнем регистре.
Используя предложение нормированного оригинала, создаются группы сегментов, в которых предложение нормированного оригинала совпадает. От каждой группы оставляется только лучший сегмент, чтобы нормированное исходное предложение сегмента было уникальным и сохранялось автоматически. В остальном. сегмент с наивысшей оценкой сходства сохраняется.
Идентификация языка
Для идентификации языка оригинала и перевода на основе предложений используется система искусственного интеллекта (ИИ). сегмент удаляется только в том случае, если система распознает (оригинал/перевод) язык (например, для определения язык система часто недостаточно коротких предложений) и язык отличается от ожидаемого.
QPS
Фильтрующий Оценки качества (QPS) позволяет удалить в наборе данных предложение искусственного интеллекта (ИИ) самого низкого качества, обеспечив при этом обучение полученных моделей искусственного интеллекта на основе имеющихся данных самого высокого качества. Как правило, чем выше качество данных обучения, тем лучше работает адаптированная модель.
Настройка фильтрующей Оценки качества (QPS) может быть выполнена двумя способами:
-
Исключение определенного процента пар предложений с самой низкой Оценкой качества (QPS). Рекомендация составляет 10%.
-
Выбор порога оценки. Используйте расширенные настройки, чтобы исключить падение пар предложений ниже регулируемого порога Оценки качества (QPS). Рекомендуемая исходная точка - 50.
Эти два варианта обеспечивают автоматическое управление набором данных в соответствии с целями пользователей в области качества.