Custom AI

Automatisierte Asset-Kuration

Inhalte werden von Phrase Language AI maschinell aus dem Englischen übersetzt.

Die Pflege von Übersetzungsspeichern ist ein langanhaltendes, weit verbreitetes Problem, und die manuelle Bereinigung ist ein mühsamer Prozess. Saubere Übersetzungsspeicher führen zu besseren Referenzen für Linguisten und höherer Qualität der maschinellen Übersetzung, was besonders relevant für Phrase NextMT ist, angesichts seiner fortschrittlichen Fähigkeiten zur Nutzung von Sprachressourcen wie Übersetzungsspeichern und Glossaren.

Erstellen Sie einen Datensatz für AAC

Um einen Datensatz für die Verwendung eines kuratierten TM in TMS zu erstellen, befolgen Sie diese Schritte:

  1. Auf der Datensätze-Seite klicken Sie auf Übersetzungsspeicher bereinigen.

    Die Details zum Datensatz-Seite öffnet sich.

  2. Geben Sie einen Namen für den Datensatz an.

  3. Die Sprachwähler bieten verschiedene Optionen:

    1. Um einen allgemeinen Sprachdatensatz zu erstellen, wählen Sie dieselben Quell- und Zielsprache in den Quell- und Zielsprachen- und Gebietsschemaswählern aus.

    2. Um einen lokal spezifischen Datensatz zu erstellen, wählen Sie die Quell- und Zielsprache aus der ersten Dropdown-Liste aus und geben Sie dann die Quell- und Zielgebiete aus der zweiten Dropdown-Liste an.

      Es können auch mehrere Zielgebiete (d.h. verschiedene Varianten derselben Sprache) hinzugefügt werden, um mehr Datenquellen zu nutzen.

    3. Um einen Datensatz mit mehreren Quell- und Zielgebieten zu erstellen, wählen Sie die Quell- und Zielsprache aus der ersten Dropdown-Liste aus, geben Sie die Quell- und Zielgebiete aus der zweiten Dropdown-Liste an (verschiedene Varianten derselben Zielsprache können hinzugefügt werden) und klicken Sie auf + Weitere Gebietspaare hinzufügen.

    Das Eingabedaten-Fenster erscheint.

  4. Klicken Sie auf Übersetzungsspeicher hinzufügen.

    Die Wählen Sie Übersetzungsspeicher-Seite öffnet sich mit einer Suchfunktion Search.

  5. Um ein TM zum Datensatz hinzuzufügen, klicken Sie auf das Add TM-Symbol. Das TM wird in die Ausgewählt-Spalte hinzugefügt.

    Es können mehrere TMs bis zu maximal 200 TMs und maximal 8 Millionen Segmente hinzugefügt werden. Ein Datensatz sollte idealerweise mindestens 10.000 Segmente enthalten.

    Ein Klick auf den TM-Namen zeigt die Auswahl auf der Übersetzungsspeicher-Seite<1>} an.

    Klicken Sie auf das Remove TM-Symbol, um den TM aus der Ausgewählt-Spalte zu entfernen.

  6. Klicken Sie Speichern.

    Die Details zum Datensatz-Seite öffnet sich.

  7. Überprüfen Sie die angezeigten Details und klicken Sie, wenn alles korrekt ist, auf Weiter.

    Die Reinigungsfilter-Seite öffnet sich.

  8. Wenden Sie die erforderlichen Filter an und klicken Sie auf Erstellen.

    Der Datensatz wird erstellt und der Liste auf der Datensätze-Seite mit dem anfänglichen Status Reinigung und dem Status Reinigung TM in der Erstellt für-Spalte hinzugefügt.

Reinigungsfilter für AAC

Phrase Benutzerdefinierte KI ermöglicht die Kuratierung von Übersetzungsspeichern mit Hilfe von KI-gestützten und regelbasierten Reinigungsfiltern. Standard-Einstellungen werden bereitgestellt, die für neue Benutzer geeignet sein können.

Dieser Prozess bewahrt die ursprünglichen TM-Segment-Metadaten und TM-Tags, was es den Benutzern ermöglicht, die TM-Nutzung beim Einsatz der gereinigten TMs in TMS aufrechtzuerhalten.

Die verfügbaren Filter umfassen sowohl regelbasierte Filter als auch ML-basierte Filter:

  • Regelbasierte

    Filter, die mit klar definierten Regeln arbeiten, die für Menschen leicht verständlich sind. Diese Filterkategorie umfasst Datumsbereich, Minimale Zeichenanzahl, Satzpaarlänge, Längenverhältnis, Nicht übersetzbare, Duplikate, Nahe-Duplikate.

  • ML-basiert

    Filter, die den Inhalt des Textes selbst analysieren, um eine Entscheidung zu treffen, anstatt einfach einer festen Regelmenge zu folgen. Diese Filterkategorie umfasst Fehlzuordnungen von Quelle und Ziel und Spracherkennung.

Datumsbereich

Schließt Segmente außerhalb der festgelegten Daten aus. Die End- und Startdaten sind zusammen mit dem Datum der letzten Änderung eines Segments enthalten.

Nicht ausgerichtete Quelle und Ziel

Dieser Filter bestimmt, wie gut die Segmente in Bezug auf Bedeutung und semantische Ähnlichkeit übereinstimmen, indem die am schlechtesten bewerteten entfernt werden. Die Ausrichtung der Satzpaare wird mit der LASER Kennzahl gemessen.

Eine KI-Engine wird verwendet, um zu überprüfen, ob der Quell- und Zieltext dasselbe bedeutet oder wie viel von demselben. Die empfohlene Einstellung verwirft die 10 % der schlechtesten Segmente und behält die 90 % der besten Segmente bei.

Erweiterte Einstellungen ermöglichen es, die Ausrichtung zu ändern oder können ein Filter basierend auf dem Rohähnlichkeitswert sein, wobei eine Zahl zwischen 0 und 1 verwendet wird (1 bedeutet vollständige Ausrichtung). Vorsicht ist geboten, wenn der Rohähnlichkeitswert verwendet wird, da jedes Sprachpaar eine andere Verteilung von Werten hat und was für ein Sprachpaar als guter Wert gilt, für ein anderes ein unbefriedigender Wert sein kann.

Typischerweise sind Segmente unter 0,5 nicht sehr gut, und Segmente, die nahe oder über 1 liegen, sind Segmente, die in beiden Sprachen gleich sind.

Beispiele:

Die Zeichenfolge "Hallo, Welt! 1 2 3" hat 19 Zeichen und 10 Buchstaben.

Minimale Zeichen- und Buchstabenzahl

Buchstabenzahl umfasst alle Zeichen. Dies umfasst alle Buchstaben, Leerzeichen sowie Satzzeichen und Symbole. Zu Trainingszwecken kann es nützlich sein, Segmente zu verwerfen, die keine Buchstaben enthalten.

Buchstabenzahl zählt nur Buchstaben, wie im englischen Alphabet, aber auch komplexere Zeichen mit diakritischen Zeichen oder chinesische Zeichen. Ein chinesisches Zeichen wird als ein Buchstabe gezählt, auch wenn es mehr als ein Zeichen darstellt. Für zeichenbasierte Sprachen sind die Standardwerte 1, für wortbasierte Sprachen sind die Standardwerte 4 (Zeichen) und 3 (Buchstaben). Der Mindestwert beträgt 1 und der Höchstwert beträgt 500.

Wenn viele kurze Segmente in den Daten (zum Beispiel Abkürzungen) gespeichert werden, sollten die Filterwerte niedrig gehalten werden.

Beispiel:

Die Zeichenfolge "Hallo, Welt! 1 2 3" hat 19 Zeichen und 10 Buchstaben.

Satzpaarlänge

Dieser Filter entfernt alle Segmente, die länger sind als der von den Benutzern festgelegte Schwellenwert.

Die gesamte Zeichenanzahl umfasst alle Zeichen - Buchstaben, Leerzeichen und Satzzeichen - aus sowohl den Quell- als auch den Ziel-Sätzen. Berücksichtigen Sie die Art der Sprache (zum Beispiel Chinesisch und Englisch); wenn die Ausgangssprache nicht CJK-ähnlich ist und die Zielsprache CJK ist (oder umgekehrt), wird dieser Filter ignoriert.

Längenverhältnis

Dieser Filter identifiziert Segmente, bei denen die Länge im Vergleich zum Quellsegment und dem Zielsegment signifikant höher ist. Einige Übersetzungen nehmen an Länge zu oder ab, wenn sie von einer Quellsprache in eine Zielsprache übersetzt werden. Zu lange oder zu kurze Übersetzungen können auf Segmente von geringer Qualität hinweisen.

Wenn die Ausgangssprache nicht CJK-ähnlich ist und die Zielsprache (oder umgekehrt), wird dieser Filter ignoriert.CJK

Einige Sprachen sind wortreicher als andere, daher sind 200 % ein guter Standardwert. Wenn die Zielsprache der Ausgangssprache ähnlich ist oder mehr Daten herausgefiltert werden müssen, kann der Wert niedriger sein.

Beispiele:

Eine Sprache ist CJK - das Verhältnis beträgt 1. Es wird nicht verworfen:

{"source": "Das ist ein Satz.", "target": "This is a sentence.", "ratio": 1}", "ratio": 1}

Die deutsche Übersetzung hat eine vergleichbare Länge wie die englische Quelle und wird nicht verworfen:

{"source": "Das ist ein Satz.", "target": "Dies ist ein Satz.", "ratio": 1.1}

Die deutsche Übersetzung ist viel länger als die englische Quelle und wird verworfen:

{"source": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "target": "Dies ist ein Satz.", "ratio": 3.1}

Nicht übersetzbare Elemente

Nicht übersetzbare Elemente sind Segmente, bei denen die Ausgangs- und Zielsätze identisch sind. Schließt alle nicht übersetzbaren Satzpaare aus, bei denen der Zieltext unverändert vom Ausgangstext bleibt.

Duplikate

Gruppen von Segmenten werden erstellt, die denselben Ausgangssatz haben. Aus jeder Gruppe wird nur das beste Segment beibehalten, sodass ein einzigartiger Ausgangssatz automatisch beibehalten wird. Andernfalls wird das Segment mit dem höchsten Ähnlichkeitswert beibehalten.

Nahe-Duplikate

Bei der Prüfung auf nahe Duplikate wird ein (etwas sauberer) Ausgangssatz normalisiert; alle Nicht-Buchstaben-Zeichen (einige Beispiele: “,?)!-) werden durch ein Leerzeichen ersetzt und alle Buchstaben werden in Kleinbuchstaben umgewandelt.

Mit dem normalisierten Ausgangssatz werden Gruppen von Segmenten erstellt, die denselben normalisierten Ausgangssatz haben. Aus jeder Gruppe wird nur das beste Segment beibehalten, sodass der normalisierte Ausgangssatz eines Segments einzigartig ist und automatisch beibehalten wird. Andernfalls wird das Segment mit dem höchsten Ähnlichkeitswert beibehalten.

Spracherkennung

Eine KI-Engine wird verwendet, um die Ausgangs- und Zielsprache basierend auf den Sätzen zu identifizieren. Ein Segment wird nur entfernt, wenn die Engine eine (Ausgangs-/Zielsprache) erkennt (zum Beispiel sind kürzere Sätze oft nicht ausreichend, damit die Engine eine Sprache bestimmen kann) und die Sprache von der erwarteten abweicht.

QPS

Der QPS Filter ermöglicht es, die niedrigsten Qualitäts-Satzpaare im Translation Memory zu entfernen, um sicherzustellen, dass die resultierenden Segmente von höchster Qualität sind.

Der QPS-Filter kann auf zwei Arten konfiguriert werden:

  1. Entfernen eines bestimmten Prozentsatzes von Satzpaaren mit den niedrigsten QPS-Werten. Die Empfehlung liegt bei 10 %.

  2. Auswählen eines Schwellenwerts für die Kennzahl. Verwenden Sie die erweiterten Einstellungen, um Satzpaare zu eliminieren, die unter einem anpassbaren QPS-Schwellenwert liegen. Der empfohlene Ausgangspunkt liegt bei 50.

Diese beiden Optionen bieten eine automatisierte Pflege der Übersetzungsspeicher, um mit den Qualitätszielen der Benutzer übereinzustimmen.

Verwendung von kuratierten TMs in TMS

Der Reinigungsprozess des Übersetzungsspeichers, der mehrere Stunden in Anspruch nehmen kann, muss abgeschlossen sein, bevor ein kuratierter TM verwendet werden kann.

Um einen kuratierten TM in TMS zu verwenden, befolgen Sie diese Schritte:

  1. Klicken Sie auf Open More Menu und wählen Sie herunterladen Download.

    Das Fenster "Herunterladen" öffnet sich.

  2. Wählen Sie Herunterladen (.tmx).

Dies löst einen Exportprozess für Datensätze aus, der nur wenige Minuten in Anspruch nehmen wird. Der resultierende kuratierte TM im .TMX-Format kann dann hochgeladen werden, um als neuer, kuratierter TM bis zu 1 Gb groß in TMS verwendet zu werden.

Wenn zwei oder mehr Reinigungsprozesse auf demselben TM durchgeführt wurden, können verschiedene Versionen im Reinigungshistorie Tab aufgerufen werden.

War dieser Beitrag hilfreich?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.