Der reguläre Ausdruck (abgekürzt als RegEx oder Regexp) ist eine Zeichenfolge, die ein Suchmuster bildet, hauptsächlich zur Verwendung beim Musterabgleich mit Zeichenketten oder beim Zeichenkettenabgleich. Die Funktionalität ist ähnlich wie bei Finden und Ersetzen Operationen, jedoch mit mehr Komplexität und Spezifität, oder als Methode zum Ausschluss definierter Inhalte. Sieh dir den Wikipedia Eintrag für eine detaillierte Beschreibung von Regexp und eine Tabelle der verwendeten Zeichen an.
Um mehrere Regexps gleichzeitig zu verwenden, füge ein Pipeline-Zeichen |
zwischen ihnen ein.
Regexps können in den Filter-, Such- und Ersetzungsfeldern im CAT Desktop-Editor, in den Quell- und Zielfeldern der Suche nach Inhaltsfunktion, für die Funktion in Dateiimporteinstellungen und zur Anpassung von Segmentierungsregeln verwendet werden.
Tipp
AI-Chatbots können sehr effektiv beim Generieren und Überprüfen von Regexp sein.
Tools wie Regex101 verwenden, um Regexp mit verschiedenen Eingängen zu testen.
Wichtig
Phrase unterstützt Java regexp, wird jedoch komplexe reguläre Ausdrücke ablehnen, um das System vor Überlastung zu schützen. Komplexe Regexps sind solche mit Quantifizierern (außer possessiven) in Gruppen, die andere Quantifizierer (außer possessiven) enthalten.
Beispiele für die Umwandlung von Text in Tags beim Importieren von Dateien und die Verwendung von Regexp im Editor für Such- und Ersetzungsfunktionen:
Beispiel |
Beschreibung |
---|---|
<[^>]+> |
repräsentiert <html_tag> |
\{[^\}]+\} |
repräsentiert {variable}, |
\[[^\]]+\] |
repräsentiert [variable], |
\[\[.+?\]\] |
repräsentiert [[aa[11]bb]]. |
\$[^\$]+\$ |
repräsentiert $operator_Name1$. |
\d+ |
repräsentiert Zahlen. Auch, [0-9]+ |
[A-Za-z0-9] |
repräsentiert jedes alphanumerische Zeichen. |
.+\@.+\..+ |
E-Mail-Adresse name@domain.com |
\d{4}[-]\d{2}[-]\d{2} |
das Datum 2018-08-01 |
\s$ |
ein Leerzeichen am Ende des Segments |
^\s |
ein Leerzeichen am Anfang des Segments |
\s\s |
ein doppeltes Leerzeichen |
^\d |
eine Ziffer am Anfang des Segments |
\w+\s\s\w+ |
ein doppeltes Leerzeichen zwischen Wörtern |
\s\n |
ein Zeilenumbruch, dem ein Leerzeichen vorangeht |
\S\n |
ein Zeilenumbruch, dem ein Nicht-Leerzeichen vorangeht |
<[^>]+>|\$[^=]+= |
konvertiert PHP-Variablen und HTML-Code ($svariable['name'] =) |
^\s*\'[^:]+: |
konvertiert Javascript-Feldschlüssel mit hinzugefügten Leerzeichen am Anfang der Zeile ('key' :) |
\{\{[^\}]+\}\}|\'[^']+\' |
übersetzt nicht {{text here}} '{{text here}} Inhalt und konvertiert es in Tags |
\{\{[^\}]+\}\} |
repräsentiert Text zwischen {} Klammern |
\([^\)]+\) |
repräsentiert Text zwischen () Klammern |
\^[^\^]+\^ |
repräsentiert Text zwischen ^ Zeichen |
\@[^\@]+\@ |
repräsentiert Text zwischen @ Zeichen |
\^[^\^\?]+\? |
repräsentiert Text zwischen ^ und ? Zeichen |
\'[^']+\' |
repräsentiert Text zwischen ' ' Apostrophen |
\"[^"]+\" |
repräsentiert Text zwischen Anführungszeichen „“ |
\%[^\%]+\% |
repräsentiert Text zwischen % Symbolen |
\$\{[^}]*\} |
repräsentiert Text zwischen ${ und }, z.B. ${variable} |
$[a-zA-Z0-9\-_]+ |
repräsentiert eine Zeichenfolge, die mit $ beginnt, z.B. $appName |
(?<=\: ").*(?=") |
repräsentiert Text in doppelten Anführungszeichen nach Doppelpunkt und Leerzeichen, z. B. |
(?<=\: ').*(?=') |
repräsentiert Text in einfachen Anführungszeichen nach einem Doppelpunkt und Leerzeichen, z. B. |
(?<=\=).*(?=) |
repräsentiert Text nach einem Gleichheitszeichen und ohne Leerzeichen, z.B. Key = Wert |
(.*)= |
repräsentiert Text vor einem Gleichheitszeichen |
[^=]*$ |
repräsentiert Text nach einem Gleichheitszeichen |
\/\/\S* |
repräsentiert Hyperlinks. Auch https:\/\/\S* |
</?mrk[^>]*> |
repräsentiert HTML/XML offene und geschlossene |
\b[\p{Lu}]+\b |
repräsentiert ganze Wörter in Großbuchstaben |
Notiz
Da TXT-Dateien in TMS Zeile für Zeile verarbeitet werden, können bestimmte reguläre Ausdrücke, die Jobs in anderen Umgebungen nutzen, möglicherweise nicht wie erwartet funktionieren.
Beispiele für reguläre Ausdrücke beim Importieren eines bestimmten Textes:
-
## Fehlermeldung ##1## Die Zahl muss größer als 0 sein. ##Z##
Um Text zwischen ##1## und ##Z## zu importieren, benutze Regexp:
(?<=##1## ).*(?= ##Z##)
-
Fehlermeldung ("Die Zahl muss größer als 0 sein.")
Um Text zwischen (" und ") zu importieren, benutze Regexp:
(?<=\(").*(?="\))
-
'fehlermeldung' = 'Die Zahl muss größer als 0 sein.'
Um Text nach dem = Zeichen und zwischen ' und ' zu importieren, benutze Regexp:
(?<=\= ').*(?=')
-
fehlermeldung = "dies ist zu übersetzen"
Um Text nach dem = Zeichen und zwischen 'und' zu importieren, benutze Regexp:
(?<=\= ").*(?=")
-
msgstr ("Die Zahl muss größer als 0 sein.")
Um msgstr-Strings in monolingualen PO-Dateien mit einem TXT-Filter zu importieren, benutze Regexp:
(?<=msgstr ").*(?=")
-
# Hinweis: Dies ist ein Hinweis
Um Zeilen auszuschließen, die mit # beginnen, benutze Regexp:
(^[^#].*)
-
Werte '126', 'DCeT', 'Text (en)'
Um nur Text in Anführungszeichen und mit (en), wie Text (en) zu importieren, benutze Regexp:
(?<=')[^']*\(en\)(?=')
Beispiel für JSON-Struktur:
{ "liste": { "id": "1", "wert": "Text 1 zur Übersetzung." }, "text": { "id": "2", "value": "Text 2 zur Übersetzung." }, "menu": { "id": "3", "value": "Text 3 zur Übersetzung." },"array": ["blau","grün"],"arrays": [{ "color": "blau", "title": "BLAU" }, { "color": "grün", "title": "GRÜN" } ]}
-
um jeden Wert unabhängig von der Ebene zu importieren, verwende:
(^|.*/)value
-
um nur einen Wert aus einer Liste zu importieren, verwende:
list/value
-
um einen Wert aus einer Liste und/oder einem Menü zu importieren, verwende den | (ODER) Operator:
list/value|menu/value
-
um nur die erste Instanz eines Wertes aus einem Menü zu importieren, verwende:
menu\[1\]/value
-
um den Inhalt eines JSON-Arrays nach einem bestimmten Schlüssel zu importieren, verwende:
(^|.*/)array\[.*\]
-
um den Inhalt eines spezifischen Arrays von Objekten zu importieren, verwende:
(^|.*/)arrays\[.*\].*
YAML-Dateibeispiel:
title: A text: übersetze A categories: title: B text: übersetze B categories: title: C text: übersetze C categories: content: title: D text: übersetze D
regexp zum Importieren:
-
nur 'übersetze A' :
text
-
nur 'übersetze C':
categories\[2\]/text
-
nur 'übersetze D':
categories\[\d+\]/content[\1\]/text
-
alle Texte:
text|categories\[\d+\]/text|categories\[\d+\]/content[\d+\]/text
Okapi, Java und Unicode werden für Segmentierungsregeln in .SRX-Dateien verwendet.
Die Verwendung von Regex in .SRX-Dateien ist komplex, und es wird empfohlen, grundlegende Kenntnisse im Umgang mit regulären Ausdrücken zu haben, bevor man damit arbeitet.
Nobreak-Regeln (Abkürzungen usw.) und Break-Regeln (Satzende mit einem Punkt usw.) befinden sich in .SRX-Dateien.
Beispiel |
Beschreibung |
---|---|
[\p{C}] |
Unsichtbares Steuerzeichen. |
[\p{Z}] |
Leerzeichen |
[\p{Lu}] |
Ein Großbuchstabe, der eine Kleinbuchstabenvariante hat. |
[\p{N}] |
Jede Art von numerischem Zeichen. |
\Q ... \E |
Anfang und Ende eines Zitats - (\QUngef.\E). Dies wird für Abkürzungen verwendet. |
\t |
Tabulator |
\n |
Neue Zeile |
\u2029 |
Absatztrenner |
\u200B |
Nullbreiten-Leerzeichen |
\u3002 |
Ideografischer Punkt |
\ufe52 |
Kleiner Punkt |
\uff0e |
Vollbreiter Punkt |
\uff61 |
Halbbreiter ideografischer Punkt |
\ufe56 |
Kleines Fragezeichen |
\uff1f |
Vollbreites Fragezeichen |
\u203c |
Doppeltes Ausrufezeichen |
\u2048 |
Frage Ausrufezeichen |
\u2762 |
Schweres Ausrufezeichen-Ornament |
\u2763 |
Schweres Herz-Ausrufezeichen-Ornament |
\ufe57 |
Kleines Ausrufezeichen |
\uff01 |
Vollbreites Ausrufezeichen |
`[\u0080-\uFFFF]+` |
Zeichen aus dem Unicode-Bereich \u0080 bis \uFFFF |
`[\u00a8\u00b9\u00c4]+` |
Eines oder mehrere der angegebenen Unicode-Zeichen in den eckigen Klammern, z. B. \u00a8 + \u00b9 + \u00c4 |
QA-Prüfung |
RegEx – Quelle |
RegEx – Zielsprache |
---|---|---|
Zusätzliche Zahlen im Ziel |
|
|
Tag-Reihenfolge (ungepaart, für Segmente mit 3 Tags). Passe das Regexp an die erforderliche Anzahl von Tags an. |
|
|
Tag-Reihenfolge (gepaart, für Segmente mit 3 Tags). Passe das Regexp an die erforderliche Anzahl von Tags an. |
|
|
Leerzeichen vor Tags |
|
|
Leerzeichen nach Tags |
|
|
Kein Leerzeichen vor Tags |
|
|
Nicht-Leerzeichen nach gepaarten Tags |
|
|
Fehlende eckige Klammern |
|
|
Fehlende runde Klammern |
|
|