Richtlinien für die Auswahl von Translation Memorys
Phrase Custom AI nutzt Translation Memorys (TMS), um benutzerdefinierte maschinelle Übersetzungen (MT) zu erstellen, die einer bestimmten Terminologie und einem bestimmten Stil entsprechen, was zu einer verbesserten Übersetzungsqualität (und damit verkürzten Post-Editing Zeiten) für diese Inhalte führt, im Vergleich zu generischen maschinellen Übersetzungen.
Der wichtigste Faktor, der die Effektivität des Anpassungsprozesses beeinflussen kann, sind die verwendeten Translation Memorys. Dies sind allgemeine Richtlinien, die Hilfe bei der Bestimmung der für diesen Zweck zu verwendenden Daten leisten können:
-
Einzelne Domain:
Am besten ist es, wenn sich der Datensatz auf Inhalte konzentriert, die einen Stil und eine Terminologie abdecken. Enthält der Datensatz eine Mischung aus Fachbereichen (zum Beispiel die rechtlichen Begriffe einer Website und die Produktbeschreibungen), kann das Modell nicht lernen, was der gewünschte Stil ist.
-
Eindeutiger Inhalt:
Das benutzerdefinierte MT Modell basiert auf generischen Modellen, die auf einer Vielzahl öffentlicher Daten aus dem Internet trainiert werden. Wenn das Translation Memory Daten enthält, die den generischen Daten, die für die Erstellung der generischen Modelle verwendet werden, sehr ähnlich sind, wird der Anpassungsprozess nicht viel bringen.
-
Datenqualität:
Das Modell geht davon aus, dass jedes Satzpaar im Translation Memory ein Beispiel für den Output ist, den es voraussichtlich erzeugen wird. Das Translation Memory muss von guter Qualität sein, idealerweise aus Professional menschlichen Übersetzungen. Die Datenbereinigungspipeline kann dabei Hilfe, die schädlichsten Teile des Datensatzes filtern.
-
Erwartetes Volumen:
Damit die Anpassung sich positiv auf den ROI auswirkt, muss der Datensatz repräsentativ für den Großteil der Daten sein, bei denen sich die Qualität der MT stärker auswirken wird. Wenn beispielsweise ein Teil des MT Outputs von menschlichen Übersetzern nachbearbeitet werden soll, müssen die Daten zur Maximierung des RoI repräsentativ für den Inhalt sein, der nachbearbeitet werden soll.
Das Erstellen eines Datensatzes für die automatisierte Asset-Kuration erfolgt etwas anders.
Um einen Datensatz für das Training einer benutzerdefinierten MT Engine zu erstellen, folge diesen Schritten:
-
Klicke auf der Seite Eine benutzerdefinierte MT Engine trainieren.
aufDie Seite
wird geöffnet. -
Gib einen Namen für den Datensatz an.
-
Die Sprachen erlauben verschiedene Optionen:
-
Um einen allgemeinen Sprach Datensatz zu erstellen, wähle dieselben Ausgangssprachen und Zielsprachen in den Sprachen und Sprachen aus.
-
Um einen sprach-spezifischen Datensatz zu erstellen, wähle die Ausgangssprache und Zielsprache aus der ersten Dropdown Liste und gib dann die Ausgangssprache und Zielsprache aus der zweiten Dropdown Liste an.
Es können auch mehrere Zielsprachen hinzugefügt werden, um mehr Datenquellen zu nutzen.
-
Um einen Datensatz mit mehreren Ausgangssprachen und Zielsprachen zu erstellen, wähle Ausgangssprache und Zielsprache aus der ersten Dropdown-Liste aus, gib Ausgangssprache und Zielsprache aus der zweiten Dropdown-Liste an (mehrere Zielsprachen können hinzugefügt werden) und klicke auf + Weitere Sprachen hinzufügen.
Das Fenster
erscheint. -
-
Klicke auf Translation Memorys hinzufügen.
Die Seite
wird mit einemfür Suchfunktionen geöffnet.
-
Um ein TM zum Datensatz hinzuzufügen, klicke auf das
-Symbol. Das TM wird der Spalte hinzugefügt.
Zu maximal 200 TMS und maximal 8 Millionen Segmenten können mehrere TMS hinzugefügt werden. Idealerweise sollte ein Datensatz mindestens 10.000 Segmente enthalten.
Durch Anklicken des Namens des TM wird die Auswahl auf der Translation Memory Seite angezeigt.
Klicke auf das
-Symbol, um das TM aus der Spalte zu entfernen.
-
Klicke auf Speichern.
Die Seite
wird geöffnet. -
Überprüfen Sie die dargestellten Details, und klicken Sie, wenn korrekt, weiter.
Die Seite
wird geöffnet. -
Wende die erforderlichen Filter an und klicke auf Erstellen.
Der Datensatz wird erstellt und der Liste auf der Seite
mit dem ursprünglichen Status und dem Status in der Spalte hinzugefügt.