Einen Datensatz erstellen

Inhalte werden von Phrase Language AI maschinell aus dem Englischen übersetzt.

Richtlinien zur Auswahl von Translation Memory

Phrase Individuell KI nutzt Translation Memorys (TMs), um Individuell maschinelle Übersetzung (MT)-Modelle zu Erstellen, die spezifische Terminologie und Stil einhalten, was zu einer verbesserten Übersetzungsqualität (und damit zu reduzierten Post-Editing-Zeiten) für diese Content-Typen im Vergleich zu generischer maschineller Übersetzung führt.

Der wichtigste Faktor, der die Effektivität des Anpassungsprozesses beeinflussen kann, sind die verwendeten Translation Memorys. Dies sind allgemeine Richtlinien, die dabei helfen können, zu bestimmen, welche Daten für diesen Zweck zu verwenden sind:

Einzelner Fachbereich:

Es ist am besten, wenn sich der Datensatz auf Content konzentriert, der einen einzelnen Stil und eine einzelne Terminologie abdeckt. Wenn der Datensatz eine Mischung aus Fachbereichen enthält (z. B. sowohl die rechtlichen Begriffe einer Website als auch die Produktbeschreibungen), kann das Modell möglicherweise nicht lernen, was der gewünschte Stil ist.
Einzigartiger Content-Typ:

Das Individuell MT-Modell baut auf generischen Modellen auf, die mit riesigen Mengen öffentlicher Daten aus dem Internet trainiert wurden. Wenn das Translation Memory Daten enthält, die den generischen Daten, die zum Erstellen der generischen Modelle verwendet wurden, sehr ähnlich sind, wird der Anpassungsprozess keinen großen Gewinn bringen.
Datenqualität:

Das Modell geht davon aus, dass jedes Satzpaar im Translation Memory ein Beispiel für den Output ist, den es voraussichtlich produzieren soll. Das Translation Memory muss von guter Qualität sein, idealerweise erstellt aus professionellen menschlichen Übersetzungen. Die Datenbereinigungs-Pipeline kann helfen, die schädlichsten Teile des Datensatzes zu filtern.
Erwartetes Volumen:

Damit die Anpassung im Hinblick auf den ROI wirkungsvoll ist, muss der Datensatz repräsentativ für den Großteil der Daten sein, bei denen die MT-Qualität einen größeren Einfluss hat. Wenn beispielsweise ein Teil des MT-Output von menschlichen Übersetzern im Post-Editing bearbeitet werden soll, müssen die Daten zur Maximierung des ROI repräsentativ für den Content sein, der im Post-Editing bearbeitet wird.

Das Erstellen eines Datensatzes für automatisierte Asset-Kuration folgt einem etwas anderen Prozess.

Um einen Datensatz zum Zweck des Trainings einer Individuell MT-Engine zu Erstellen, befolgen Sie diese Schritte:

Klicken Sie auf der Seite Datasets auf Train a Individuell MT Engine.

Die Seite Dataset details öffnet sich.
Geben Sie einen Namen für den Datensatz an.
Die Sprache-Auswahlelemente ermöglichen verschiedene Optionen:
1. Um einen allgemeinen Sprache-Datensatz zu Erstellen, Auswählen Sie dieselbe Ausgangssprache und Zielsprache in den Ausgangssprache- und Zielsprache- sowie Sprache-Auswahlelementen.
2. Um einen Sprache-spezifischen Datensatz zu Erstellen, Auswählen Sie die Ausgangssprache und Zielsprache aus der ersten Liste und geben Sie dann die Ausgangssprache und Zielsprache aus der zweiten Liste an.
  
  Mehrere Zielsprache (d. h. verschiedene Varianten derselben Sprache), um mehr Datenquellen zu nutzen, können ebenfalls hinzufügen werden.
3. Um einen Datensatz mit mehreren Ausgangssprache und Zielsprache zu Erstellen, Auswählen Sie die Ausgangssprache und Zielsprache aus der ersten Liste, geben Sie die Ausgangssprache und Zielsprache aus der zweiten Liste an (verschiedene Varianten derselben Zielsprache können hinzufügen werden) und klicken Sie auf + Add mehr Sprache Paare.
Das Fenster Input data erscheint.
Klicken Sie auf Add Translation Memory hinzufügen.

Die Seite Choose Translation Memory auswählen öffnet sich mit einer Suchfunktion .
Um ein TM zum Datensatz hinzuzufügen, klicken Sie auf das Symbol . Das TM wird zur Spalte Selected hinzugefügt.

Es können mehrere TMs bis zu einem Maximum von 200 TMs und maximal 8 Millionen Segmenten hinzugefügt werden. Ein Datensatz sollte idealerweise mindestens 10.000 Segmente enthalten.

Durch Klicken auf den TM-Namen wird die Auswahl auf der Translation Memory Seite angezeigt.

Klicken Sie auf das Symbol , um das TM aus der Spalte Selected zu entfernen.
Klicke auf Speichern.

Die Seite Dataset details öffnet sich.
Überprüfen Sie die angezeigten Details und klicken Sie bei Richtigkeit auf weiter.

Die Seite Cleaning filters öffnet sich.
Wenden Sie die erforderlichen Filter an und klicken Sie auf erstellen.

Der Datensatz wird erstellt und der Liste auf der Seite Datasets mit dem anfänglichen Status Cleaning und dem Status Training MT in der Spalte Created for hinzugefügt.