Erstellen Sie einen Datensatz

Inhalte werden von Phrase Language AI maschinell aus dem Englischen übersetzt.

Richtlinien zur Auswahl von Übersetzungsspeichern

Die benutzerdefinierte KI von Phrase nutzt Übersetzungsspeicher (TMs), um benutzerdefinierte maschinelle Übersetzungsmodelle (MT) zu erstellen, die spezifische Terminologie und Stil einhalten, was zu einer verbesserten Übersetzungsqualität (und damit zu reduzierten Post-Editing-Zeiten) für diese Inhaltsarten im Vergleich zu generischen maschinellen Übersetzungen führt.

Der wichtigste Faktor, der die Effektivität des Anpassungsprozesses beeinflussen kann, sind die verwendeten Übersetzungsspeicher. Dies sind allgemeine Richtlinien, die helfen können, welche Daten für diesen Zweck verwendet werden sollten:

Einzelner Fachbereich:

Es ist am besten, wenn der Datensatz sich auf Inhalte konzentriert, die einen einzigen Stil und eine einzige Terminologie abdecken. Wenn der Datensatz eine Mischung aus Fachbereichen enthält (z. B. sowohl die rechtlichen Begriffe einer Website als auch die Produktbeschreibungen), kann das Modell versagen, den gewünschten Stil zu lernen.
Einzigartiger Inhaltstyp:

Das benutzerdefinierte MT-Modell baut auf generischen Modellen auf, die auf großen Mengen öffentlicher Daten basieren, die aus dem Internet gesammelt wurden. Wenn der Übersetzungsspeicher Daten enthält, die den generischen Daten, die zum Aufbau der generischen Modelle verwendet wurden, sehr ähnlich sind, wird es nicht viel aus dem Anpassungsprozess zu gewinnen geben.
Datenqualität:

Das Modell wird annehmen, dass jedes Satzpaar im Übersetzungsspeicher ein Beispiel für die Ausgabe ist, die es produzieren soll. Der Übersetzungsspeicher muss von guter Qualität sein, idealerweise aus professionellen menschlichen Übersetzungen erstellt. Die Datenbereinigungspipeline kann helfen, die schädlichsten Teile des Datensatzes herauszufiltern.
Erwartetes Volumen:

Damit die Anpassung in Bezug auf den ROI wirkungsvoll ist, muss der Datensatz repräsentativ für den Großteil der Daten sein, bei denen die MT-Qualität einen größeren Einfluss haben wird. Wenn beispielsweise ein Teil der MT-Ausgabe von menschlichen Übersetzern nachbearbeitet werden soll, muss der Datensatz repräsentativ für die Inhalte sein, die nachbearbeitet werden.

Einen Datensatz für automatisierte Asset-Kuration zu erstellen, hat einen etwas anderen Prozess.

Um einen Datensatz zum Zweck des Trainings einer benutzerdefinierten MT-Engine zu erstellen, befolgen Sie diese Schritte:

Gehe von der Datensätze Seite aus auf Trainiere eine individuelle MT-Engine.

Die Details zum Datensatz Seite öffnet sich.
Gib einen Namen für den Datensatz ein.
Die Sprachwähler bieten verschiedene Optionen:
1. Um einen allgemeinen Sprachdatensatz zu erstellen, wähle dieselben Quell- und Zielsprache in den Quell- und Zielsprachen- und Gebietsschema-Wählern aus.
2. Um einen gebietspezifischen Datensatz zu erstellen, wähle die Quell- und Zielsprache aus der ersten Dropdown-Liste und gib die Quell- und Zielgebiete aus der zweiten Dropdown-Liste an.
  
  Es können auch mehrere Zielgebiete (d.h. verschiedene Varianten derselben Sprache) hinzugefügt werden, um mehr Datenquellen zu nutzen.
3. Um einen Datensatz mit mehreren Quell- und Zielgebieten zu erstellen, wähle die Quell- und Zielsprache aus der ersten Dropdown-Liste, gib die Quell- und Zielgebiete aus der zweiten Dropdown-Liste an (verschiedene Varianten derselben Zielsprache können hinzugefügt werden) und klicke auf + Weitere Gebietspaare hinzufügen.
Das Eingabedaten Fenster erscheint.
Klicke auf Übersetzungsspeicher hinzufügen.

Die Wähle Übersetzungsspeicher Seite öffnet sich mit einer Suchfunktion .
Um einen TM zum Datensatz hinzuzufügen, klicke auf das Symbol. Der TM wird zur Ausgewählt Spalte hinzugefügt.

Es können mehrere TMs bis zu maximal 200 TMs und maximal 8 Millionen Segmente hinzugefügt werden. Ein Datensatz sollte idealerweise mindestens 10.000 Segmente enthalten.

Ein Klick auf den TM-Namen zeigt die Auswahl auf der Übersetzungsspeicher-Seite an.

Klicke auf das Symbol, um den TM aus der Ausgewählt Spalte zu entfernen.
Klicke auf Speichern.

Die Details zum Datensatz Seite öffnet sich.
Überprüfe die angegebenen Details und wenn sie korrekt sind, klicke auf Weiter.

Die Filter bereinigen Seite öffnet sich.
Wenden Sie die erforderlichen Filter an und klicken Sie erstellen.

Der Datensatz wird erstellt und der Liste auf der Datasets Seite mit dem anfänglichen Status Reinigung und dem Status von Training MT in der Spalte Erstellt für hinzugefügt.