Automatisierte Asset-Kuration

Inhalte werden von Phrase Language AI maschinell aus dem Englischen übersetzt.

Das Kuratieren von Translation Memorys ist ein langjähriges, allgegenwärtiges Problem und die manuelle Bereinigung ist ein mühsamer Prozess. Saubere Translation Memorys führen zu besseren Referenzen für Linguisten und einer qualitativ hochwertigeren maschinelle Übersetzung, was besonders für Phrase NextMT relevant ist, angesichts der fortschrittlichen Funktionen zur Nutzung von Sprachressourcen wie Translation Memorys und Glossaren.

Erstellen eines Datasets für AAC

Um ein Dataset zum Zweck der Verwendung eines kuratierten TM in TMS zu Erstellen, folgen Sie diesen Schritten:

Klicken Sie auf der Datasets Seite auf Clean a translation memory.

Die Dataset details Seite öffnet sich.
Geben Sie einen Namen für das Dataset an.
Die Sprachauswahl ermöglicht verschiedene Optionen:
1. Um ein allgemeines Sprach-Dataset zu Erstellen, wählen Sie dieselbe Ausgangssprache und Zielsprache in der Ausgangssprache und Zielsprache und Sprache Auswahl aus.
2. Um ein sprachspezifisches Dataset zu Erstellen, wählen Sie die Ausgangssprache und Zielsprache aus der ersten Dropdown-Liste aus und geben Sie dann die Ausgangssprache und Zielsprache aus der zweiten Dropdown-Liste an.
  
  Mehrere Zielsprachen (d. h. verschiedene Varianten derselben Sprache) können ebenfalls hinzufügen werden, um mehr Datenquellen zu nutzen.
3. Um ein Dataset mit mehreren Ausgangs- und Zielsprachen zu Erstellen, wählen Sie die Ausgangssprache und Zielsprache aus der ersten Dropdown-Liste aus, geben Sie die Ausgangssprache und Zielsprache aus der zweiten Dropdown-Liste an (verschiedene Varianten derselben Zielsprache können hinzufügen werden) und klicken Sie auf + Add more locale pairs.
Das Input data Fenster erscheint.
Klicken Sie auf Add translation memories.

Die Choose translation memories Seite öffnet sich mit einer Suchfunktion .
Um ein TM zum Dataset zu hinzufügen, klicken Sie auf das Symbol. Das TM wird zur Selected Spalte hinzufügen.

Mehrere TMs können bis zu einem Maximum von 200 TMs und maximal 8 Millionen Segmenten hinzufügen werden. Ein Dataset sollte idealerweise mindestens 10.000 Segmente enthalten.

Ein Klicken auf den TM-Namen zeigt die Auswahl auf der translation memory page an.

Klicken Sie auf das Symbol , um das TM aus der Spalte Selected zu entfernen.
Klicke auf Speichern.

Die Dataset details Seite öffnet sich.
Überprüfen Sie die dargestellten Details und klicken Sie bei Richtigkeit auf weiter.

Die Seite Cleaning filters öffnet sich.
Wenden Sie die erforderlichen Filter an und klicken Sie auf erstellen.

Der Datensatz wird erstellt und der Liste auf der Seite Datasets mit dem anfänglichen Status Cleaning und dem Status Cleaning TM in der Spalte Created for hinzugefügt.

Cleaning Filters for AAC

Phrase Custom KI ermöglicht das Kuratieren von Translation Memories mit Hilfe von KI-gestützten und regelbasierten Filtern. Es werden Standard-Einstellungen bereitgestellt, die für neue Benutzer geeignet sein können.

Dieser Prozess bewahrt die ursprünglichen TM segment metadata und TM tags, was es Benutzern ermöglicht, den TM-Nutzen beizubehalten, wenn die bereinigten TMs in TMS verwendet werden.

Die verfügbaren Filter umfassen sowohl regelbasierte Filter als auch KI-basierte Filter:

Regelbasiert

Filter, die mit klar definierten Regeln arbeiten, die für Menschen leicht verständlich sind. Diese Filterkategorie umfasst Date range, Minimum character count, Sentence pair length, Length ratio, Non-translatables, Duplicates, Near-duplicates.
KI-basiert

Filter, die den Content des Textes selbst analysieren, um eine Entscheidung zu treffen, anstatt einfach einem festen Regelsatz zu folgen. Diese Filterkategorie umfasst Misaligned source and target und Language identification.

Date range

Schließt Segmente außerhalb der festgelegten Daten aus. Die End- und Startdaten werden zusammen mit dem Datum der letzten Änderung eines Segments einbezogen.

Misaligned source and target

Dieser Filter bestimmt, wie gut die Segmente in Bezug auf Bedeutung und semantische Ähnlichkeit ein Match ergeben, und entfernt die am schlechtesten bewerteten. Die Satzpaar-Ausrichtung wird mithilfe der LASER-Metrik gemessen.

Eine KI-Engine wird verwendet, um zu überprüfen, ob der Ausgangssprache- und Zielsprache-Text dasselbe bedeuten oder wie sehr sie dasselbe bedeuten. Die empfohlene Einstellung verwirft die 10% schlechtesten Segmente, während die 90% besten Segmente beibehalten werden.

Erweiterte Einstellungen ermöglichen das Ändern der Ausrichtung oder können ein Filter basierend auf der rohen Ähnlichkeits-Kennzahl unter Verwendung einer Zahl zwischen 0 und 1 sein (wobei 1 für vollständiges Abschließen der Ausrichtung steht). Vorsicht ist geboten, wenn die rohe Ähnlichkeitskennzahl verwendet wird, da jedes Sprachpaar eine unterschiedliche Verteilung von Kennzahlen aufweist und was für ein Sprachpaar als gute Kennzahl gilt, für ein anderes eine unbefriedigende Kennzahl sein kann.

Typischerweise sind Segmente unter 0,5 nicht sehr gut und Segmente nahe oder über 1 sind Segmente, die in beiden Sprachen gleich sind.

Beispiele:

Die Zeichenfolge "Hello, World!" 1 2 3\" hat 19 Zeichen und 10 Buchstaben.

Mindestanzahl an Zeichen und Buchstaben

Zeichenanzahl beinhaltet alle Zeichen. Dies umfasst alle Buchstaben, Leerzeichen sowie Satz- und Sonderzeichen. Zu Schulungszwecken kann es nützlich sein, Segmente zu verwerfen, die keine Buchstaben enthalten.

Die Buchstabenanzahl zählt nur Buchstaben wie im englischen Alphabet, aber auch komplexere Zeichen mit diakritischen Zeichen oder chinesische Schriftzeichen. Ein chinesisches Zeichen wird als ein Buchstabe gezählt, auch wenn es mehr als ein Zeichen darstellt. Für zeichenbasierte Sprachen sind die Standardwerte 1, für wortbasierte Sprachen sind die Standardwerte jedoch 4 (Zeichen) und 3 (Buchstaben). Der Mindestwert beträgt 1 und der Höchstwert beträgt 500.

Wenn Sie viele kurze Segmente in Daten behalten (zum Beispiel Akronyme), halten Sie die Filterwerte niedrig.

Beispiel:

Die Zeichenfolge "Hello, World!" 1 2 3\" hat 19 Zeichen und 10 Buchstaben.

Satzpaarlänge

Dieser Filter entfernt alle Segmente, die länger als der vom Benutzer festgelegte Schwellenwert sind.

Die Gesamtzahl der Zeichen umfasst alle Zeichen – Buchstaben, Leerzeichen und Satzzeichen – sowohl aus der Ausgangssprache als auch aus der Zielsprache. Berücksichtigen Sie die Art der Sprache (zum Beispiel Chinesisch und Englisch); wenn die Ausgangssprache nicht CJK-ähnlich ist und die Zielsprache CJK ist (oder umgekehrt), wird dieser Filter ignoriert.

Längenverhältnis

Dieser Filter identifiziert Segmente, bei denen die Länge beim Vergleich des Ausgangssprache-Segments mit dem Zielsprache-Segment signifikant höher ist. Einige Übersetzungen nehmen bei der Übersetzung von einer Ausgangssprache in eine Zielsprache an Länge zu oder ab. Zu lange oder zu kurze Übersetzungen können auf Segmente mit geringer Qualität hinweisen.

Wenn die Ausgangssprache nicht CJK-ähnlich ist und die Zielsprache es ist (oder umgekehrt), wird dieser Filter ignoriert.CJK

Einige Sprachen sind wortreicher als andere, daher sind 200 % ein guter Standardwert. Wenn die Zielsprache der Ausgangssprache ähnelt oder mehr Daten herausgefiltert werden müssen, kann der Wert niedriger sein.

Beispiele:

Eine Sprache ist CJK – das Verhältnis ist 1. Es wird nicht verworfen:

{"source": "This is a sentence.", "target": "这是一个句子。", "ratio": 1}

Die deutsche Übersetzung ist von vergleichbarer Länge wie die englische Ausgangssprache und wird nicht verworfen:

{"source": "This is a sentence.", "target": "Dies ist ein Satz.", "ratio": 1.1}

Die deutsche Übersetzung ist wesentlich länger als die englische Ausgangssprache und wird verworfen:

{"source": "This is a sentence.", "target": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}

Nicht übersetzbare Elemente

Nicht übersetzbare Elemente sind Segmente, bei denen das Ausgangssprache-Segment und das Zielsprache-Segment identisch sind. Schließt alle nicht übersetzbaren Satzpaare aus, bei denen der Zielsprache-Text gegenüber dem Ausgangssprache-Text unverändert bleibt.

Duplikate

Es werden Gruppen von Segmenten erstellt, die denselben Ausgangssprache-Satz haben. Aus jeder Gruppe wird nur das beste Segment behalten; wenn also der Ausgangssprache-Satz eines Segments eindeutig ist, wird es automatisch behalten. Andernfalls wird das Segment mit der höchsten Ähnlichkeits-Kennzahl behalten.

Nahezu-Duplikate

Beim Testen auf Nahezu-Duplikate wird die (etwas bereinigte Version einer) Ausgangssprache normalisiert; alle Nicht-Buchstaben-Zeichen (einige Beispiele: “,?)!-) werden durch ein Leerzeichen ersetzt und alle Buchstaben werden kleingeschrieben.

Unter Verwendung des normalisierten Ausgangssprache-Satzes werden Gruppen von Segmenten erstellt, die denselben normalisierten Ausgangssprache-Satz haben. Aus jeder Gruppe wird nur das beste Segment behalten, sodass der normalisierte Ausgangssprache-Satz eines Segments eindeutig ist und automatisch behalten wird. Andernfalls wird das Segment mit der höchsten Ähnlichkeits-Kennzahl behalten.

Sprache-Identifizierung

Eine KI-Engine wird verwendet, um die Ausgangssprache und Zielsprache basierend auf den Sätzen zu identifizieren. Ein Segment wird nur entfernt, wenn die Engine eine (Ausgangs-/Zielsprache) erkennt (kürzere Sätze reichen für die Engine beispielsweise oft nicht aus, um eine Sprache zu bestimmen) und die Sprache von der erwarteten Sprache abweicht.

QPS

Der QPS-filter ermöglicht es, die Satzpaare mit der niedrigsten Qualität im Translation Memory zu entfernen, um sicherzustellen, dass die resultierenden Segmente von höchster Qualität sind.

Der QPS-filter kann auf zwei Arten konfiguriert werden:

Entfernen eines festgelegten Prozentsatzes von Satzpaaren mit den niedrigsten QPS-Kennzahlen. Die Empfehlung liegt bei 10 %.
Auswählen einer Kennzahl-Schwelle. Verwenden Sie die erweiterten Einstellungen, um Satzpaare zu entfernen, die unter eine anpassbare QPS-Schwelle fallen. Der empfohlene Startwert ist 50.

Diese beiden Optionen bieten eine automatisierte Translation Memory-Kuration, um sie an die Qualitätsziele der Benutzer anzupassen.

Verwenden von kuratierten Translation Memorys in TMS

Der Bereinigungsprozess für Translation Memory, der mehrere Stunden dauern kann, muss Abschließen sein, bevor eine kuratierte TM verwendet werden kann.

Um eine kuratierte TM in TMS zu verwenden, befolgen Sie diese Schritte:

Klicken Sie auf und wählen Sie Herunterladen aus.

Das Fenster Herunterladen öffnet sich.
Wählen Sie Herunterladen (.tmx) aus.

Dies löst einen Datensatz-exportieren-Prozess aus, der nur wenige Minuten dauern wird. Die resultierende kuratierte TM im .TMX Format kann dann als neue, kuratierte TM mit einer Größe von bis zu 1 Gb in TMS hochgeladen werden.

Wenn zwei oder mehr Bereinigungsprozesse für dieselbe TM durchgeführt wurden, kann im Tab Cleaning history auf verschiedene Versionen zugegriffen werden.