Créer un ensemble de données

Le contenu est traduit de l’anglais par Phrase Language AI.

Directives de sélection de mémoire de traduction

L'IA personnalisée Phrase utilise des mémoires de traduction (MT) pour créer des modèles de traduction automatique (TA) personnalisés qui respectent une terminologie et un style spécifiques, ce qui améliore la qualité de la traduction (et donc réduit les temps de post-édition) pour ces types de contenu par rapport à la traduction automatique générique.

Le facteur le plus important qui peut influencer l'efficacité du processus de personnalisation est les mémoires de traduction utilisées. Ce sont des directives générales qui peuvent aider à déterminer quelles données utiliser à cette fin :

Domaine unique :

Il est préférable que l'ensemble de données se concentre sur un contenu couvrant un style et une terminologie uniques. Si l'ensemble de données contient un mélange de domaines (par exemple, à la fois les termes juridiques d'un site web et les descriptions de produits), le modèle peut échouer à apprendre quel est le style souhaité.
Type de contenu unique :

Le modèle de TA personnalisé s'appuie sur des modèles génériques entraînés sur de vastes quantités de données publiques collectées sur Internet. Si la mémoire de traduction contient des données qui sont assez similaires aux données génériques utilisées pour construire les modèles génériques, il n'y aura pas grand-chose à gagner du processus de personnalisation.
Qualité des données :

Le modèle supposera que chaque paire de phrases dans la mémoire de traduction est un exemple de la sortie qu'il sera censé produire. La mémoire de traduction doit être de bonne qualité, idéalement créée à partir de traductions humaines professionnelles. Le pipeline de nettoyage des données peut aider à filtrer les parties les plus nuisibles de l'ensemble de données.
Volume attendu :

Pour que la personnalisation ait un impact en termes de retour sur investissement (RoI), l'ensemble de données doit être représentatif de la majorité des données où la qualité de la TA aura plus d'impact. Par exemple, si une partie de la sortie de la TA doit être post-éditée par des traducteurs humains, pour maximiser le RoI, les données doivent être représentatives du contenu qui sera post-édité.

Créer un ensemble de données pour la curation automatisée d'actifs a un processus légèrement différent.

Pour créer un ensemble de données dans le but de former un moteur de TA personnalisé, suivez ces étapes :

Depuis la page Jeux de données, cliquez sur Entraîner un moteur MT personnalisé.

La page Détails du jeu de données s'ouvre.
Fournissez un nom pour le jeu de données.
Les sélecteurs de langue permettent diverses options :
1. Pour créer un jeu de données linguistique général, sélectionnez les mêmes langues source et cible dans les sélecteurs de langue source et cible et les paramètres linguistiques.
2. Pour créer un jeu de données spécifique à un paramètre linguistique, sélectionnez les langues source et cible dans la première liste déroulante, puis spécifiez les paramètres linguistiques source et cible dans la deuxième liste déroulante.
  
  Plusieurs paramètres linguistiques cibles (c'est-à-dire différentes variantes de la même langue) pour exploiter davantage de sources de données peuvent également être ajoutés.
3. Pour créer un jeu de données avec plusieurs paramètres linguistiques source et cible, sélectionnez les langues source et cible dans la première liste déroulante, spécifiez les paramètres linguistiques source et cible dans la deuxième liste déroulante (différentes variantes de la même langue cible peuvent être ajoutées) et cliquez sur + Ajouter d'autres paires de paramètres linguistiques.
La fenêtre Données d'entrée apparaît.
Cliquez sur Ajouter des mémoires de traduction.

La page Choisir des mémoires de traduction s'ouvre avec une fonctionnalité de recherche .
Pour ajouter une mémoire de traduction au jeu de données, cliquez sur l'icône . La mémoire de traduction est ajoutée à la colonne Sélectionné.

Plusieurs mémoires de traduction peuvent être ajoutées jusqu'à un maximum de 200 mémoires de traduction et un maximum de 8 millions de segments. Un jeu de données devrait idéalement contenir au moins 10 000 segments.

Cliquer sur le nom de la mémoire de traduction présentera la sélection sur la page de mémoire de traduction.

Cliquez sur l'icône pour retirer la mémoire de traduction de la colonne Sélectionné.
Cliquez sur Enregistrer.

La page Détails du jeu de données s'ouvre.
Vérifiez les détails tels que présentés et si correct, cliquez sur Continuer.

La page Filtres de nettoyage s'ouvre.
Appliquez les filtres requis et cliquez sur Créer.

Le jeu de données est créé et ajouté à la liste sur la page Jeux de données avec le statut initial de Nettoyage et le statut de Formation TA dans la colonne Créé pour.