La segmentation est le découpage des textes sources en parties plus petites. Cela améliore la récupération des textes précédemment traduits à partir d'une mémoire de traduction. Les segments sont présentés dans l'éditeur et peuvent être filtrés. Si un projet a des étapes de flux de travaux, les changements dans les segments sont présentés dans le volet des changements de traduction.
Les règles de segmentation par défaut correspondent aux spécificités de chaque langue prise en charge et peuvent être personnalisées.
Les travaux importés avec une mauvaise segmentation, comme des fichiers de documents mal formatés ou l'application d'une personnalisation de segmentation inappropriée, peuvent affecter les valeurs de correspondance de MT. Il est recommandé de passer un certain temps à examiner et à préparer le fichier source avant l'importation ; un problème courant est l'utilisation incorrecte des sauts de ligne par rapport aux sauts de paragraphe.
Exemple :
Bonne segmentation :
-
Les mémoires de traduction avec des langues cibles multilingues sont prises en charge et peuvent être utilisées dans les deux sens.
Valeur de correspondance de 100 %.
Mauvaise segmentation
-
Les mémoires de traduction avec des langues cibles multilingues sont prises en charge.
Valeur de correspondance de 100 %.
-
et peuvent être utilisées dans les deux sens.
Valeur de correspondance de 63 %.
Des règles de segmentation personnalisées peuvent être appliquées aux travaux et aux modèles de projet. Si un projet nécessite une règle de segmentation personnalisée, un modèle devra être créé pour ce projet. Lorsqu'elles sont définies comme principales, les règles de segmentation personnalisées sont appliquées à tous les nouveaux travaux importés pour cette langue source.
Il existe deux types de règles de segmentation :
-
Abréviations vers le fichier .XLSX
-
Expression régulière des fichiers .SRX
Pour utiliser des règles personnalisées, téléchargez les règles par défaut, modifiez-les, chargez le fichier modifié puis appliquez-les aux travaux spécifiés.
Caution
Lors de l'ajout de règles de segmentation personnalisées pour une langue source CJK sans espaces (alors qu'une langue cible utilisera des espaces comme délimiteur de mots), assurez-vous que des espaces de début ou de fin sont ajoutés aux segments cibles divisés par la règle personnalisée ; cela délimite les mots dans la traduction. Bien que cela se produise automatiquement dans les segments formés par les règles de segmentation par défaut, aucun espace n'est ajouté dans les segments divisés manuellement ou ceux formés par des règles de segmentation personnalisées supplémentaires.
Pour télécharger les règles de segmentation par défaut, suivez ces étapes :
-
Depuis la page des paramètres
, faites défiler vers le bas jusqu'à la section et cliquez sur Segmentation.
La page
s'ouvre. -
Sélectionnez la langue à personnaliser et cliquez sur Exporter XLSX/SRX.
La fenêtre
s'ouvre. -
Sélectionnez le format :
-
XLSX fournit une liste d'abréviations.
-
SRX fournit des règles d'expression régulière.
-
-
Sélectionnez une langue dans la liste déroulante.
-
Cliquez sur Télécharger.
Le fichier est téléchargé sur votre système.
Pour télécharger une règle de segmentation précédemment chargée que vous avez téléchargée précédemment, suivez ces étapes :
-
Depuis la page des paramètres
, faites défiler vers le bas jusqu'à la section et cliquez sur Segmentation.
La page
s'ouvre. -
Cliquez sur l'icône Paramètres à droite et choisissez Personnaliser les colonnes :
-
Activez la colonne Nom de fichier
-
Cliquez sur un nom de fichier pour télécharger une règle pré-enregistrée.
Les abréviations peuvent être spécifiées pour des langues individuelles après quoi de nouveaux segments ne devraient pas être créés.
Pour modifier les abréviations, suivez ces étapes :
-
Ouvrez le fichier .XLSX téléchargé dans un éditeur.
-
Modifiez le contenu avec le formatage suivant :
Le fichier XLSX doit avoir deux colonnes sans en-têtes.
-
Colonne 1 : Abréviation à spécifier
-
Colonne 2 : Spécification du comportement de segmentation
-
ABBR_UPPER_NUM
Un nouveau segment ne sera créé si l'abréviation est suivie d'un espace et ensuite d'un nombre, d'un symbole (mathématiques, signes monétaires, dingbats, etc.) ou d'un mot dont la première lettre est en majuscule.
-
ABBR_NUM
Un nouveau segment ne sera créé si l'abréviation est suivie d'un espace et ensuite d'un nombre.
-
-
-
Enregistrez le fichier .XLSX modifié.
Modifier les fichiers .SRX est un processus complexe adapté uniquement aux utilisateurs expérimentés dans l'utilisation de expressions régulières
Il existe plusieurs règles qui peuvent être modifiées dans un fichier SRX :
-
Importer du texte à partir d'un fichier XLSX sans segmentation ; une cellule équivaut à un segment.
-
Importer du texte avec une nouvelle ligne afin de diviser un segment en deux.
-
Utiliser un deux-points (ou tout autre caractère) comme séparateur de segment.
-
Interdire l'utilisation d'un point-virgule (ou tout autre caractère) comme séparateur de segment.
-
Retirer une abréviation de la liste (le texte sera segmenté).
Ces règles sont basées sur des caractères; un seul caractère peut être utilisé comme séparateur de segment. Des groupes de caractères (par exemple : <p>) ne peuvent pas être utilisés comme séparateur de segment.
Pour modifier un fichier SRX, suivez ces étapes :
-
Ouvrez le fichier dans un éditeur de texte tel que Notepad ++.
-
Modifier en utilisant des expressions régulières ou retirer complètement la segmentation interne.
Exemple :
-
<règle break="no">
La liste des règles, où le segment ne sera pas rompu. C'est-à-dire une liste d'abréviations
-
<rule> <beforebreak>
Une expression régulière pour un caractère avant une rupture (par exemple, à la fin d'une phrase ". ? ! :"). Si vous, par exemple, ne voulez pas segmenter le texte après un deux-points, supprimez simplement
:
de chaque<règle><avant rupture>
code. -
<rule> <afterbreak>
Une expression régulière pour un caractère après une rupture (par exemple, au début d'une nouvelle phrase ; un espace et une lettre majuscule).
-
-
Enregistrer le fichier SRX modifié.
Pour charger des règles de segmentation modifiées ou nouvelles, suivez ces étapes :
-
Depuis la page des paramètres
, faites défiler vers le bas jusqu'à la section et cliquez sur Segmentation.
La page
s'ouvre. -
Cliquez sur Nouveau.
La page
s'ouvre. -
Sélectionnez une
dans la liste déroulante. -
Fournissez un
pour la règle. -
Cliquez sur Choisir un fichier.
Une fenêtre de sélection de fichier s'ouvre.
-
Sélectionnez le fichier de règles modifiées à charger.
-
Cochez
si les règles de segmentation personnalisées seront les règles de segmentation principales pour la langue sélectionnée. -
Cliquez sur Créer.
La page
s'ouvre et la règle a été ajoutée à la liste.
Pour utiliser des règles personnalisées lors d'une importation de tâche ou configurer la longueur des segments cibles, suivez ces étapes :
-
À l'étape 8 de la création d'une tâche, cliquez sur Segmentation et longueur des segments dans les .
Les options
s'ouvrent dans un menu déroulant. -
Sélectionnez les règles modifiées dans la liste déroulante
. -
Optionnellement, configurez une limite pour la longueur des segments cibles en fonction des exigences du projet (par exemple, traduction de sous-titres) :
-
Sélectionnez
et entrez le pourcentage préféré pour limiter la longueur des segments en fonction du segment source. -
Sélectionnez
et entrez le nombre de caractères pour limiter la longueur des segments par le nombre de caractères.
-
-
Cliquez sur Créer.
Le travail est créé et ajouté à la liste en utilisant les règles de segmentation spécifiées.
Retirez toutes les règles de segmentation intérieur d'un fichier SRX en ne laissant que la segmentation de base du paragraphe, élément ou cellule entière appliquée. Cette règle de segmentation peut être appliquée à tous les types de fichiers (MS Word, XML, HTML, Excel, etc.).
Exemple :
Cet exemple XLSX importé avec une segmentation par défaut aura 3 segments : Peter !, Attendez !, et Bonjour.
Si toute la segmentation intérieure est retirée, ne laissant que la segmentation de base basée sur la cellule, alors il n'y a que deux segments : Peter ! Attendez ! et Bonjour.
Modifiez le fichier SRX pour retirer toutes les règles de segmentation par défaut, c'est-à-dire le code entre <!-- règles de rupture -->
et </languagerule>
.
Exemple :
Le cascade peut empêcher cet exemple de fonctionner. Dans ce cas, ouvrez le fichier SRX modifié dans Notepad++, trouvez les deux attributs de l'élément en-tête
et changez les deux en non
.