Zurücksetzen der Filter

Inhalte werden von Phrase Language AI maschinell aus dem Englischen übersetzt.

Die wichtigsten Aspekte beim Training von MT-Engines sind nicht nur das Volumen, sondern auch die Datenqualität. Das Bereinigen von Daten ist ein allgegenwärtiges Problem und die manuelle Bereinigung ist mühsam. Saubere Daten führen zu schnellerem Training und Modellen mit höherer Qualität.

Phrase Custom KI passt Translation Memories mithilfe von KI-gestützten und regelbasierten Filter-Filtern an Datensätze an. Die bereitgestellten Standardeinstellungen sollten für neue Benutzer geeignet sein.

Die verfügbaren Filter umfassen sowohl regelbasierte Filter als auch ML-basierte Filter:

Regelbasiert

Filter, die mit klar definierten Regeln arbeiten, die für Menschen leicht verständlich sind. Diese Filterkategorie umfasst Datumsbereich, Minimale Zeichenanzahl, Satzpaarlänge, Längenverhältnis, Nicht übersetzbare Elemente, Duplikate, Fast-Duplikate.
ML-basiert

Filter, die den Content des Textes selbst analysieren, um eine Entscheidung zu treffen, anstatt einfach einer festen Menge von Regeln zu folgen. Diese Filterkategorie umfasst Fehlausgerichtete Ausgangssprache und Zielsprache und Spracherkennung.

Alle Filter werten bereinigte Versionen der Segmente aus; unter anderem werden mehrere Leerzeichen auf eines reduziert und Phrase Tags entfernt.

Datumsbereich

Schließt Segmente außerhalb der festgelegten Daten aus. Das End- und Startdatum sowie das Datum der letzten Änderung eines Segments werden einbezogen.

Fehlausgerichtete Ausgangssprache und Zielsprache

Dieser Filter bestimmt, wie gut die Segmente hinsichtlich Bedeutung und semantischer Ähnlichkeit übereinstimmen, und entfernt die am schlechtesten bewerteten. Die Satzpaarausrichtung wird mithilfe der LASER-Metrik gemessen.

Eine KI-Engine wird verwendet, um zu prüfen, ob der Ausgangssprache- und Zielsprache-Text dasselbe bedeuten oder wie sehr sie übereinstimmen. Die empfohlene Einstellungen verwirft die 10 % schlechtesten Segmente, während die 90 % besten Segmente beibehalten werden.

Erweiterte Einstellungen ermöglichen das Ändern der Ausrichtung oder können ein filtern basierend auf der rohen Ähnlichkeits-Kennzahl unter Verwendung einer Zahl zwischen 0 und 1 sein (1 bedeutet vollständiges Abschließen der Ausrichtung). Vorsicht ist geboten, wenn die rohe Ähnlichkeits-Kennzahl verwendet wird, da jedes Sprachpaar eine andere Verteilung von Kennzahlen aufweist und was für ein Sprachpaar als gute Kennzahl gilt, für ein anderes eine unbefriedigende Kennzahl sein kann.

Typischerweise sind Segmente unter 0,5 nicht sehr gut und Segmente nahe oder über 1 sind Segmente, die in beiden Sprachen gleich sind.

Beispiele:

{"source": "Super.", "target": "Super.", "similarity": 1.05}

{"source": "Hello", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

Mindestanzahl an Zeichen und Buchstaben

Zeichenanzahl beinhaltet alle Zeichen. Dies beinhaltet alle Buchstaben, Leerzeichen sowie Satzzeichen und Symbole. Für Trainingszwecke kann es nützlich sein, Segmente zu Verwerfen, die keine Buchstaben enthalten.

Buchstabenanzahl zählt nur Buchstaben, wie sie im englischen Alphabet vorkommen, aber auch komplexere Zeichen mit diakritischen Zeichen oder chinesische Zeichen. Ein chinesisches Zeichen wird als ein Buchstabe gezählt, auch wenn es mehr als ein Zeichen darstellt. Für zeichenbasierte Sprachen sind die Standardwerte 1, für wortbasierte Sprachen sind die Standardwerte 4 (Zeichen) und 3 (Buchstaben). Der Mindestwert ist 1 und der Höchstwert ist 500.

Wenn Sie viele kurze Segmente in den Daten behalten (zum Beispiel Akronyme), halten Sie die Werte für das filtern niedrig.

Beispiel:

Die Zeichenfolge \"Hello, World!" 1 2 3\" hat 19 Zeichen und 10 Buchstaben.

Satzpaarlänge

Dieses filtern entfernt alle Segmente, die länger sind als der von Benutzern festgelegte Schwellenwert. Der Grund für dieses filtern ist, dass die meisten NMT-Systeme tatsächlich nicht mit Segmenten trainieren, die länger sind als ihr interner Schwellenwert.

Zum Beispiel liegt der interne Schwellenwert von NextMT bei 200 Token, was ungefähr 100 - 1.000 Wörtern entspricht. Um eine Individuell Engine auf kürzeren Sätzen zu trainieren, setzen Sie diesen Wert niedriger als den Standardwert.

Die gesamte Zeichenanzahl umfasst alle Zeichen - Buchstaben, Leerzeichen und Satzzeichen - sowohl aus dem Ausgangssprache-Satz als auch aus dem Zielsprache-Satz. Berücksichtigen Sie die Art der Sprache (zum Beispiel Chinesisch und Englisch); wenn die Ausgangssprache nicht CJK-ähnlich ist und die Zielsprache CJK ist (oder umgekehrt), wird dieser filtern ignoriert.

Längenverhältnis

Dieser filtern identifiziert Segment, bei denen die Länge beim Vergleich des Ausgangssprache-Segment und des Zielsprache-Segment deutlich höher ist. Einige Übersetzungen nehmen bei der Übersetzung von einer Ausgangssprache in eine Zielsprache an Länge zu oder ab. Zu lange oder zu kurze Übersetzungen können auf minderwertige Trainingsdaten hinweisen.

Wenn die Ausgangssprache nicht CJK-ähnlich ist und die Zielsprache (oder umgekehrt) ist, wird dieser filtern ignoriert.CJK

Einige Sprachen sind wortreicher als andere, daher sind 200 % ein guter Standardwert. Wenn die Zielsprache der Ausgangssprache ähnelt oder mehr Daten herausgefiltert werden müssen, kann der Wert niedriger sein.

Beispiele:

Eine Sprache ist CJK - das Verhältnis ist 1. Es wird nicht verworfen:

{"source": "This is a sentence.", "target": "这是一个句子。", "ratio": 1}

Die deutsche Übersetzung ist von vergleichbarer Länge wie die englische Ausgangssprache und wird nicht verworfen:

{"source": "This is a sentence.", "target": "Dies ist ein Satz.", "ratio": 1.1}

Die deutsche Übersetzung ist wesentlich länger als die englische Ausgangssprache und wird verworfen:

{"source": "This is a sentence.", "target": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}

Nicht übersetzbare Elemente

Nicht übersetzbare Elemente sind Segment, bei denen das Ausgangssprache-Segment und das Zielsprache-Segment identisch sind. Schließt alle nicht übersetzbares Element-Satzpaare aus, bei denen der Zielsprache-Text gegenüber dem Ausgangssprache-Text unverändert bleibt.

Duplikate

Es werden Gruppen von Segmenten erstellt, die denselben Ausgangssprache-Satz haben. Aus jeder Gruppe wird nur das beste Segment beibehalten; wenn das Ausgangssprache-Satz eines Segments also eindeutig ist, wird es automatisch beibehalten. Andernfalls wird das Segment mit der höchsten Ähnlichkeits-Kennzahl beibehalten.

Fast-Duplikate

Beim Testen auf Fast-Duplikate wird die (etwas bereinigte Version einer) Ausgangssprache-Satz normalisiert; alle Nicht-Buchstaben-Zeichen (einige Beispiele: “,?)!-) werden durch ein Leerzeichen ersetzt und alle Buchstaben werden kleingeschrieben.

Unter Verwendung der normalisierten Ausgangssprache-Satz werden Gruppen von Segmenten erstellt, die denselben normalisierten Ausgangssprache-Satz haben. Aus jeder Gruppe wird nur das beste Segment beibehalten, sodass das normalisierte Ausgangssprache-Satz eines Segments eindeutig ist und automatisch beibehalten wird. Andernfalls wird das Segment mit der höchsten Ähnlichkeits-Kennzahl beibehalten.

Sprache-Identifizierung

Eine KI-Engine wird verwendet, um die Ausgangssprache und Zielsprache basierend auf den Sätzen zu identifizieren. Ein Segment wird nur entfernt, wenn die Engine eine (Ausgangssprache/Zielsprache)-Sprache erkennt (kürzere Sätze reichen für die Engine beispielsweise oft nicht aus, um eine Sprache zu bestimmen) und die Sprache von der erwarteten Sprache abweicht.

QPS

Der QPS-filter entfernt die Satzpaare mit der niedrigsten Qualität aus dem Datensatz, um sicherzustellen, dass die resultierenden KI-Modelle mit den hochwertigsten verfügbaren Daten trainiert werden. Im Allgemeinen gilt: Je höher die Qualität der Trainingsdaten, desto besser ist die Leistung des angepassten Modells.

Der QPS-filter kann auf zwei Arten konfiguriert werden:

Entfernen eines festgelegten Prozentsatzes von Satzpaaren mit den niedrigsten QPS-Kennzahl. Die Empfehlung liegt bei 10 %.
Auswahl einer Kennzahl-Schwelle. Verwenden Sie die erweiterten Einstellungen, um Satzpaare zu eliminieren, die unter einen anpassbaren QPS-Schwellenwert fallen. Der empfohlene Startwert ist 50.

Diese beiden Optionen bieten eine automatisierte Datensatzkuration, um sie an die Qualitätsziele der Benutzer anzupassen.