Custom AI

Filter zurücksetzen

Inhalte werden von Phrase Language AI maschinell aus dem Englischen übersetzt.

Die wichtigsten Aspekte des Trainings von MT-Engines sind nicht nur das Volumen, sondern auch die Datenqualität. Die Bereinigung von Daten ist ein weit verbreitetes Problem, und die manuelle Bereinigung ist mühsam. Saubere Daten führen zu schnellerem Training und qualitativ hochwertigeren Modellen.

Die benutzerdefinierte KI von Phrase passt Übersetzungsspeicher in Datensätze mit Hilfe von KI-gestützten und regelbasierten Reinigungsfiltern an. Die Standard-Einstellungen sind so gestaltet, dass sie für neue Benutzer geeignet sind.

Das Set von verfügbaren Filtern umfasst sowohl regelbasierte Filter als auch ML-basierte Filter:

  • Regelbasierte

    Filter, die mit klar definierten Regeln arbeiten, die für Menschen leicht verständlich sind. Diese Filterkategorie umfasst Datumsbereich, Minimale Zeichenanzahl, Satzpaarlänge, Längenverhältnis, Nicht übersetzbare, Duplikate, Ähnlichkeitsduplikate.

  • ML-basiert

    Filter, die den Inhalt des Textes selbst analysieren, um eine Entscheidung zu treffen, anstatt einfach einer festen Regelmenge zu folgen. Diese Filterkategorie umfasst Fehlzuordnungen von Quelle und Ziel und Spracherkennung.

Alle Filter bewerten auf bereinigten Versionen der Segmente; unter anderem werden mehrere Leerzeichen auf eines reduziert und Phrase Tags werden entfernt.

Datumsbereich

Schließt Segmente außerhalb der festgelegten Daten aus. Die End- und Startdaten sind zusammen mit dem Datum der letzten Änderung eines Segments enthalten.

Fehlzuordnungen von Quelle und Ziel

Dieser Filter bestimmt, wie gut die Segmente in Bezug auf Bedeutung und semantische Ähnlichkeit übereinstimmen, und entfernt die am schlechtesten bewerteten. Die Ausrichtung der Satzpaare wird mit der LASER-Metrik gemessen.

Eine KI-Engine wird verwendet, um zu überprüfen, ob der Ausgangs- und der Zieltext dasselbe bedeuten oder wie viel dasselbe bedeutet. Die empfohlene Einstellung verwirft die 10 % schlechtesten Segmente und behält die 90 % besten Segmente bei.

Erweiterte Einstellungen ermöglichen das Ändern der Ausrichtung oder können ein Filter basierend auf dem Rohähnlichkeitswert sein, wobei eine Zahl zwischen 0 und 1 verwendet wird (1 bedeutet vollständige Übereinstimmung). Vorsicht ist geboten, wenn der Rohähnlichkeitswert verwendet wird, da jedes Sprachpaar eine andere Verteilung von Werten hat und was für ein Sprachpaar als guter Wert gilt, für ein anderes ein unbefriedigender Wert sein kann.

Typischerweise sind Segmente unter 0,5 nicht sehr gut, und Segmente, die nahe oder über 1 liegen, sind Segmente, die in beiden Sprachen gleich sind.

Beispiele:

{"source": "Super.", "target": "Super.", "similarity": 1.05}

{"source": "Hallo", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

Minimale Zeichen- und Buchstabenzahl

Buchstabenzahl umfasst alle Zeichen. Dies umfasst alle Buchstaben, Leerzeichen sowie Satzzeichen und Symbole. Zu Trainingszwecken kann es nützlich sein, Segmente zu verwerfen, die keine Buchstaben enthalten.

Buchstabenzahl zählt nur Buchstaben, wie im englischen Alphabet, aber auch komplexere Zeichen mit diakritischen Zeichen oder chinesische Zeichen. Ein chinesisches Zeichen wird als ein Buchstabe gezählt, auch wenn es mehr als ein Zeichen darstellt. Für zeichenbasierte Sprachen sind die Standardwerte 1, für wortbasierte Sprachen sind die Standardwerte 4 (Zeichen) und 3 (Buchstaben). Der Mindestwert beträgt 1 und der Höchstwert beträgt 500.

Wenn viele kurze Segmente in den Daten (zum Beispiel Akronyme) beibehalten werden, sollten die Filterwerte niedrig gehalten werden.

Beispiel:

Die Zeichenfolge "Hallo, Welt! 1 2 3" hat 19 Zeichen und 10 Buchstaben.

Satzpaarlänge

Dieser Filter entfernt alle Segmente, die länger sind als der von den Benutzern festgelegte Schwellenwert. Der Grund für diesen Filter ist, dass die meisten NMT-Systeme nicht tatsächlich mit Segmenten trainieren, die länger sind als ihr interner Schwellenwert. 

Zum Beispiel beträgt der interne Schwellenwert von NextMT 200 Tokens, was ungefähr 100 - 1.000 Wörtern entspricht. Um eine individuelle Engine auf kürzeren Sätzen zu trainieren, setzen Sie diesen Wert niedriger als den Standardwert.

Die gesamte Zeichenanzahl umfasst alle Zeichen - Buchstaben, Leerzeichen und Interpunktion - sowohl aus den Quell- als auch aus den Ziel-Sätzen. Berücksichtigen Sie die Art der Sprache (zum Beispiel Chinesisch und Englisch); wenn die Ausgangssprache nicht CJK-ähnlich ist und die Zielsprache CJK ist (oder umgekehrt), wird dieser Filter ignoriert.

Längenverhältnis

Dieser Filter identifiziert Segmente, bei denen die Länge im Vergleich zwischen dem Quellsegment und dem Zielsegment signifikant höher ist. Einige Übersetzungen nehmen an Länge zu oder ab, wenn sie von einer Quellsprache in eine Zielsprache übersetzt werden. Zu lange oder zu kurze Übersetzungen können auf qualitativ minderwertige Trainingsdaten hinweisen.

Wenn die Ausgangssprache nicht CJK-ähnlich ist und die Zielsprache (oder umgekehrt), wird dieser Filter ignoriert.CJK

Einige Sprachen sind wortreicher als andere, daher ist 200% ein guter Standardwert. Wenn die Zielsprache der Ausgangssprache ähnlich ist oder mehr Daten herausgefiltert werden müssen, kann der Wert niedriger sein.

Beispiele:

Eine Sprache ist CJK - das Verhältnis beträgt 1. Es wird nicht verworfen:

{"source": "Dies ist ein Satz.", "target": "这是一个句子。", "ratio": 1}

Die deutsche Übersetzung hat eine vergleichbare Länge wie die englische Quelle und wird nicht verworfen:

{"source": "Dies ist ein Satz.", "target": "Dies ist ein Satz.", "ratio": 1.1}

Die deutsche Übersetzung ist viel länger als der englische Ausgangstext und wird verworfen:

{"source": "Das ist ein Satz.", "target": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}

Nicht übersetzbare Elemente

Nicht übersetzbare Elemente sind Segmente, bei denen der Ausgangs- und der Zieltext identisch sind. Schließt alle nicht übersetzbaren Satzpaare aus, bei denen der Zieltext unverändert vom Ausgangstext bleibt.

Duplikate

Gruppen von Segmenten werden erstellt, die denselben Ausgangssatz haben. Aus jeder Gruppe wird nur das beste Segment beibehalten, sodass ein Segment mit einem einzigartigen Ausgangssatz automatisch beibehalten wird. Andernfalls wird das Segment mit der höchsten Ähnlichkeitsbewertung beibehalten.

Nahe-Duplikate

Bei der Prüfung auf nahe Duplikate wird ein (etwas sauberer) Ausgangssatz normalisiert; alle Nicht-Buchstaben-Zeichen (einige Beispiele: “,?)!-) werden durch ein Leerzeichen ersetzt und alle Buchstaben werden in Kleinbuchstaben umgewandelt.

Mit dem normalisierten Ausgangssatz werden Gruppen von Segmenten erstellt, die denselben normalisierten Ausgangssatz haben. Aus jeder Gruppe wird nur das beste Segment beibehalten, sodass der normalisierte Ausgangssatz eines Segments einzigartig ist und automatisch beibehalten wird. Andernfalls wird das Segment mit der höchsten Ähnlichkeitsbewertung beibehalten.

Spracherkennung

Eine KI-Engine wird verwendet, um die Ausgangs- und Zielsprache basierend auf den Sätzen zu identifizieren. Ein Segment wird nur entfernt, wenn die Engine eine (Ausgangs/Ziel) Sprache erkennt (als Beispiel, kürzere Sätze sind oft nicht ausreichend, damit die Engine eine Sprache bestimmen kann) und die Sprache anders ist als erwartet.

QPS

Der QPS Filter entfernt die niedrigsten Qualitäts-Satzpaare im Datensatz, um sicherzustellen, dass die resultierenden KI-Modelle auf den hochwertigsten verfügbaren Daten trainiert werden. Im Allgemeinen gilt: Je höher die Qualität der Trainingsdaten, desto besser funktioniert das angepasste Modell.

Der QPS-Filter kann auf zwei Arten konfiguriert werden:

  1. Entfernen eines bestimmten Prozentsatzes von Satzpaaren mit den niedrigsten QPS-Kennzahlen. Die Empfehlung liegt bei 10 %.

  2. Auswahl eines Punkteschwellenwerts. Verwenden Sie die erweiterten Einstellungen, um Satzpaare zu eliminieren, die unter einem anpassbaren QPS-Schwellenwert liegen. Der empfohlene Ausgangspunkt liegt bei 50.

Diese beiden Optionen bieten eine automatisierte Datenkurierung, um mit den Qualitätszielen der Benutzer übereinzustimmen.

War dieser Beitrag hilfreich?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.