Custom AI

Create a Dataset

Le contenu est traduit de l’anglais par Phrase Language AI.

Directives de sélection de la mémoire de traduction

Phrase Custom AI tire parti des mémoires de traduction (TMS) pour créer des modèles traduction automatique (TA) personnalisés qui adhèrent à une terminologie et à un style spécifiques, conduisant à une qualité de traduction améliorée (et donc à une réduction des temps post-édition) pour ces types de contenu lorsqu'on les compare à la traduction automatique générique.

Le facteur le plus important qui peut influencer l'efficacité du processus de personnalisation est les mémoires de traduction utilisées. Voici des lignes directrices générales qui peuvent Aide à déterminer les données à utiliser à cette fin :

  • Domaine unique :

    Il est préférable que le jeu de données se concentre sur un contenu couvrant un style et une terminologie uniques. Si le jeu de données contient un mélange de domaines (par exemple, les termes juridiques d'un site Web et les descriptions de produits), le modèle peut ne pas apprendre quel est le style souhaité.

  • Unique content type:

    Le modèle TA personnalisé s'appuie sur des modèles génériques formés à partir de grandes quantités de données publiques collectées sur internet. Si la mémoire de traduction contient des données assez similaires aux données génériques utilisées pour créer les modèles génériques, il n'y aura pas grand-chose à gagner du processus de personnalisation.

  • Qualité des données :

    Le modèle supposera que chaque paire de phrases de la mémoire de traduction est un exemple de la sortie qu'elle sera censée produire. La mémoire de traduction doit être de bonne qualité, idéalement créée à partir de traductions humaines Professional. Le pipeline de nettoyage des données peut Aide à filtrer les parties les plus nocives du jeu de données.

  • Volume prévu :

    Pour que la personnalisation soit impactante en termes de retour sur investissement, le jeu de données doit être représentatif de l'essentiel des données pour lesquelles la qualité TA aura plus d'impact. Par exemple, si une partie de la sortie TA doit être post-éditée par des traducteurs humains, pour maximiser le retour sur investissement, les données doivent être représentatives du contenu qui sera post-édité.

La création d’un jeu de données pour la curation automatisée des ressources a un processus légèrement différent.

Pour créer un jeu de données dans le but de former un moteur TA personnalisé, procédez comme suit:

  1. Dans la page des jeux de données, cliquez sur Former un moteur TA personnalisé.

    La page Détails du jeu de données s'ouvre.

  2. Donnez un nom au jeu de données.

  3. Les sélecteurs de langues permettent diverses options :

    1. Pour créer un jeu de données langue général, sélectionnez les mêmes langues source et cible dans les sélecteurs langue source et langue cible et paramètres régionaux.

    2. Pour créer un jeu de données spécifique aux paramètres régionaux, sélectionnez les langues source et cible dans la première liste déroulante puis spécifiez les paramètres régionaux source et cible dans la deuxième liste déroulante.

      Plusieurs paramètres régionaux cibles pour exploiter davantage de sources de données peuvent également être ajoutés.

    3. Pour créer un jeu de données avec plusieurs paramètres régionaux source et cible, sélectionnez les langues source et cible dans la première liste déroulante, spécifiez les paramètres régionaux source et cible dans la deuxième liste déroulante (plusieurs paramètres régionaux cibles peuvent être ajoutés) et cliquez sur + Ajouter d’autres paramètres régionaux.

    La fenêtre Données de saisie apparaît.

  4. Ajouter mémoires de traduction

    La page Choisir mémoires de traduction s'ouvre sur une search.jpg de fonctionnalité de recherche.

  5. Pour ajouter une MT au jeu de données, cliquez sur l'icône AddTM.jpg . La MT est ajoutée à la colonne Sélectionnée.

    Plusieurs TMS peuvent être ajoutées à un maximum de 200 TMS et un maximum de 20 millions de segments. Un jeu de données doit idéalement contenir au moins 10 000 segments.

    En cliquant sur le nom de la MT, la sélection apparaîtra sur la page mémoire de traduction.

    Cliquez sur l'icône RemoveTM.jpg pour retirer la MT de la colonne Sélectionnée.

  6. Cliquez sur Enregistrer.

    La page Détails du jeu de données s'ouvre.

  7. Examinez les détails présentés et, s ' ils sont exacts, cliquez sur Continuer.

    La page des filtres de nettoyage s'ouvre.

  8. Appliquez les filtres requis et cliquez sur Créer .

    Le jeu de données est créé et ajouté à la liste de la page des jeux de données avec le statut initial de Nettoyage et le statut de Formation TA dans la colonne Créé pour.

Cet article vous a-t-il été utile ?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.