Segmentation Rules (TMS)

Inhalte werden von Phrase Language AI maschinell aus dem Englischen übersetzt.

Segmentierung

Die Segmentierung ist das Aufteilen von Quelltexten in kleinere Teile. Dies verbessert das Abrufen von zuvor übersetztem Text aus einem Translation Memory. Segmente werden im Editor präsentiert und können gefiltert werden. Wenn ein Projekt Workflow-Schritte hat, werden Änderungen in Segmenten im Bereich für Übersetzungsänderungen angezeigt.

Standard-Segmentierungsregeln entsprechen den Besonderheiten jeder unterstützten Sprache und können angepasst werden.

Jobs, die mit schlechter Segmentierung importiert werden, wie schlecht formatierte Dokumentdateien oder die Anwendung unangemessener Segmentierungsanpassungen, können die TM-Match-Werte beeinflussen. Es wird empfohlen, etwas Zeit mit der Überprüfung und Vorbereitung der Quelldatei vor der Importierung zu verbringen; ein häufiges Problem ist die falsche Verwendung von Zeilenumbrüchen im Vergleich zu Absatzumbrüchen.

Beispiel:

Gute Segmentierung:

Translation Memorys mit mehrsprachigen Zielsprache werden unterstützt und können bidirektional verwendet werden.

Match-Wert von 100%.

Schlechte Segmentierung

Translation Memorys mit mehrsprachigen Zielsprache werden unterstützt.

Match-Wert von 100%.
und können bidirektional verwendet werden.

Match-Wert von 63%.

Segmentierungsregeln anpassen

Angepasste Segmentierungsregeln können auf Jobs und Projektvorlagen angewendet werden. Wenn ein Projekt eine angepasste Segmentierungsregel erfordert, muss eine Vorlage für dieses Projekt erstellt werden. Wenn sie als primär festgelegt sind, werden angepasste Segmentierungsregeln auf alle neuen Jobs angewendet, die für diese Ausgangssprache importiert werden.

Es gibt zwei Arten von Segmentierungsregeln:

Abkürzungen zur .XLSX-Datei
Regulärer Ausdruck von .SRX-Dateien

Um angepasste Regeln zu verwenden, laden Sie die Standardregeln herunter, ändern Sie sie, laden Sie die geänderte Datei hoch und wenden Sie sie dann auf die angegebenen Jobs an.

Vorsicht

Beim Hinzufügen von benutzerdefinierten Segmentierungsregeln für eine raumlose CJK-Quellsprache (während eine Zielsprache Leerzeichen als Worttrennzeichen verwendet) stellen Sie sicher, dass führende oder nachfolgende Leerzeichen zu den Zielsegmenten hinzugefügt werden, die durch die benutzerdefinierte Regel aufgeteilt werden; dies trennt Wörter in der Übersetzung. Während dies automatisch in Segmenten geschieht, die durch die Standard-Segmentierungsregeln gebildet werden, werden in manuell aufgeteilten Segmenten oder solchen, die durch zusätzliche benutzerdefinierte Segmentierungsregeln gebildet werden, keine Leerzeichen hinzugefügt.

Standard-Segmentierungsregeln herunterladen

Um die Standard-Segmentierungsregeln herunterzuladen, befolgen Sie diese Schritte:

Gehen Sie auf die Seite Einstellungen , scrollen Sie nach unten zum Abschnitt Projekteinstellungen und klicken Sie auf Segmentierung.

Die Segmentierung Seite öffnet sich.
Wählen Sie die Sprache aus, die angepasst werden soll, und klicken Sie auf Export XLSX/SRX.

Das Export XLSX/SRX Fenster öffnet sich.
Format auswählen:
- XLSX bietet eine Abkürzungsliste.
- SRX bietet Regeln für reguläre Ausdrücke.
Wählen Sie eine Sprache aus der Dropdown-Liste aus.
Klicken Sie auf Herunterladen.

Die Datei wird auf Ihr System heruntergeladen.

Um eine zuvor hochgeladene Segmentierungsregel herunterzuladen, die Sie zuvor hochgeladen haben, befolgen Sie diese Schritte:

Gehen Sie auf die Seite Einstellungen , scrollen Sie nach unten zum Abschnitt Projekteinstellungen und klicken Sie auf Segmentierung.

Die Segmentierung Seite öffnet sich.
Klicken Sie auf das Einstellungen-Symbol auf der rechten Seite und wählen Sie Spalten anpassen:
Aktivieren Sie die Dateiname-Spalte
Klicken Sie auf einen Dateinamen, um eine zuvor gespeicherte Regel herunterzuladen.

Abkürzungen in einer .XLSX-Datei bearbeiten

Abkürzungen können für einzelne Sprachen angegeben werden, nach denen keine neuen Segmente erstellt werden sollten.

Um Abkürzungen zu bearbeiten, befolgen Sie diese Schritte:

Öffnen Sie die heruntergeladene .XLSX-Datei in einem Editor.
Ändern Sie den Inhalt mit der folgenden Formatierung:

Die XLSX-Datei muss zwei Spalten ohne Überschriften haben.
- Spalte 1: Abkürzung, die angegeben werden soll
- Spalte 2: Spezifikation des Segmentierungsverhaltens
  - ABBR_UPPER_NUM
    
    Ein neues Segment wird nicht erstellt, wenn die Abkürzung von Leerzeichen gefolgt wird und dann von einer Zahl, einem Symbol (Mathematik, Währungssymbole, Dingbats usw.) oder einem Wort mit dem ersten Buchstaben in Großbuchstaben.
  - ABBR_NUM
    
    Ein neues Segment wird nicht erstellt, wenn die Abkürzung von Leerzeichen gefolgt wird und dann von einer Zahl.
Speichern Sie die bearbeitete .XLSX-Datei.

Bearbeiten Sie reguläre Ausdrücke in einer .SRX-Datei

Das Bearbeiten von .SRX-Dateien ist ein komplexer Prozess, der nur für Benutzer geeignet ist, die Erfahrung im Umgang mit regulären Ausdrücken haben.

Es gibt mehrere Regeln, die in einer SRX-Datei geändert werden können:

Importieren Sie Text aus einer XLSX-Datei ohne Segmentierung; eine Zelle entspricht einem Segment.
Importieren Sie Text mit einem Zeilenumbruch, um ein Segment in zwei zu teilen.
Verwenden Sie einen Doppelpunkt (oder ein anderes Zeichen) als Segmenttrennzeichen.
Verboten ist die Verwendung eines Semikolons (oder eines anderen Zeichens) als Segmenttrennzeichen.
Entfernen Sie eine Abkürzung aus der Liste (der Text wird segmentiert).

Diese Regeln sind zeichenbasiert; nur ein einzelnes Zeichen kann als Segmenttrennzeichen verwendet werden. Gruppen von Zeichen (zum Beispiel: <p>) können nicht als Segmenttrennzeichen verwendet werden.

Um eine SRX-Datei zu bearbeiten, befolgen Sie diese Schritte:

Öffnen Sie die Datei in einem Texteditor wie Notepad ++.
Bearbeiten Sie mit regulären Ausdrücken oder entfernen Sie die innere Segmentierung vollständig.

Beispiel:
- <rule break="no">
  
  Die Liste der Regeln, bei denen das Segment nicht unterbrochen wird. d.h. eine Liste von Abkürzungen
- <rule> <beforebreak>
  
  Ein regulärer Ausdruck für ein Zeichen vor einem Bruch (zum Beispiel am Ende eines Satzes ". ? ! :"). Wenn Sie beispielsweise keinen Segmenttext nach einem Doppelpunkt möchten, löschen Sie einfach : aus jedem <regel><beforebreak> Code.
- <rule> <afterbreak>
  
  Ein regulärer Ausdruck für ein Zeichen nach einem Zeilenumbruch (zum Beispiel am Anfang eines neuen Satzes; ein Leerzeichen und ein Großbuchstabe).
Speichern Sie die modifizierte SRX-Datei.

Neue Segmentierungsregeln hochladen

Um modifizierte oder neue Segmentierungsregeln hochzuladen, befolgen Sie diese Schritte:

Gehe auf der Seite Einstellungen nach unten zum Abschnitt Projekteinstellungen und klicke auf Segmentierung.

Die Segmentierung Seite öffnet sich.
Klicke auf Neu.

Die Seite Benutzerdefinierte XLSX- oder SRX-Segmentierungsdatei hochladen öffnet sich.
Wählen Sie eine Sprache aus der Dropdown-Liste aus.
Geben Sie einen Namen für die Regel an.
Klicken Sie auf Datei auswählen.

Ein Fenster zur Dateiauswahl öffnet sich.
Wählen Sie die modifizierte Regeldatei zum Hochladen aus.
Überprüfen Sie Primär, wenn die benutzerdefinierten Segmentierungsregeln die primären Segmentierungsregeln für die ausgewählte Sprache sein sollen.
Klicke auf Erstellen.

Die Seite Segmentierung öffnet sich und die Regel wurde zur Liste hinzugefügt.

Benutzerdefinierte Segmentierungsregeln beim Job-Import verwenden

Um benutzerdefinierte Regeln beim Job-Import zu verwenden oder die Zielsegmentlänge zu konfigurieren, befolgen Sie diese Schritte:

Klicken Sie in Schritt 8 von einen Job erstellen auf Segmentierung und Segmentlänge in den Dateiimport-Einstellungen.

Die Dropdown-Liste Segmentierung und Segmentlänge öffnet sich.
Wählen Sie die modifizierten Regeln aus der Dropdown-Liste Quellsegmentierungsregeln aus.
Optional können Sie eine Begrenzung für die Zielsegmentlänge basierend auf den Projektanforderungen konfigurieren (z. B. Untertitelübersetzung):
- Wählen Sie Max. Zielsegmentlänge in % des Quelltextes und geben Sie den gewünschten Prozentsatz ein, um die Segmentlänge basierend auf dem Quellsegment zu begrenzen.
- Wählen Sie Max. Zielsegmentlänge in Zeichen aus und geben Sie die Zeichenanzahl ein, um die Segmentlänge nach Anzahl der Zeichen zu begrenzen.
Klicke auf Erstellen.

Der Job wird erstellt und der Liste unter Verwendung der angegebenen Segmentierungsregeln hinzugefügt.

Beispiel zur Änderung der Segmentierung (1 Zelle 1 Segment)

Entfernen Sie alle inner Segmentierungsregeln aus einer SRX-Datei und lassen Sie nur die grundlegende Segmentierung des gesamten Absatzes, Elements oder der Zelle, die angewendet wird, übrig. Diese Segmentierungsregel kann auf jeden Dateityp angewendet werden (MS Word, XML, HTML, Excel usw.).

Beispiel:

	A	B
1	Peter! Warten!
2	Hallo.
3

Dieses XLSX-Beispiel, das mit der Standardsegmentierung importiert wurde, wird 3 Segmente haben: Peter!, Warten! und Hallo.

Wenn alle inneren Segmentierungen entfernt werden und nur die grundlegende Segmentierung basierend auf der Zelle übrig bleibt, gibt es nur zwei Segmente: Peter! Warten! und Hallo.

Bearbeiten Sie die SRX-Datei, um alle Standardsegmentierungsregeln zu entfernen, d. h. den Code zwischen  und </languagerule>.