La traduction révolutionnée par les neurones artificiels. Rencontre avec SYSTRAN

Temps de lecture estimé : 10 minute(s)

*Attention, ce contenu a été publié il y a 2 années. Il n'est peut-être plus d'actualité.*

Créé en 1968 par le Dr Peter Toma, linguiste hongrois, SYSTRAN a contribué de manière significative à l’histoire des solutions de traduction, depuis les plateformes « mainframe » fournies à l’US Air Force, l’Union européenne ou encore la NASA, jusqu’aux premiers portails Internet – Babelfish, Google, Yahoo! – qui tous utilisaient la technologie SYSTRAN. Cette société qui bat aujourd’hui pavillon coréen réalise la plus grande partie de sa R&D à Paris. C’est là qu’a vu le jour un nouveau moteur de traduction inédit, basé sur les neurones artificiels, qui exploite les capacités de traitement inédites offertes par les serveurs GPU. Interview.

En décembre dernier, Systran a présenté les coulisses techniques de son moteur de traduction basé sur des neurones artificiels aux développeurs d'OVH, dans le cadre d'une conférence interne. Crédit photo : Elycia Husse.
En décembre dernier, Systran a présenté les coulisses techniques de son moteur de traduction basé sur des neurones artificiels aux développeurs d’OVH, dans le cadre d’une conférence interne. Crédit photo : OVH.

Qui est SYSTRAN ?

Rachetée en 2014 par CSLi, une société sud-coréenne rebaptisée SYSTRAN International, l’entreprise a son siège à Séoul, et dispose de 2 bureaux régionaux – à Paris et San Diego. La R&D est en majeure partie faite à Paris. Le groupe SYSTRAN compte aujourd’hui 200 employés répartis sur les 3 sites, avec environ 100 ingénieurs R&D et spécialistes linguistes.
Les solutions de traduction automatique de SYSTRAN permettent aux entreprises d’améliorer leur communication multilingue ainsi que leur productivité dans de nombreux secteurs.
Les principaux cas d’usage concernent la collaboration interne, la gestion et l’interprétation de Big Data, l’eDiscovery (recherche de preuves dans des documents stockés électroniquement dans le cadres de procédures légales) , la gestion de contenu, le support client et le e-commerce. Avec plus de 140 paires de langues, SYSTRAN fait figure de référence en matière de technologie de traduction pour les multinationales, les organisations de défense et de sécurité, ainsi que les agences de traduction. Les logiciels SYSTRAN sont rapidement et aisément personnalisables pour un domaine spécifique, c’est-à-dire dans un contexte terminologique particulier : le monde de l’ingénierie, du juridique, de l’industrie, de l’IT, etc.

Concrètement, en quoi consistent vos solutions ?

Les solutions SYSTRAN offrent aux professionnels des outils de communication multilingues performants et sécurisés, adaptés à leurs besoins et à leur environnement de travail.
Notre produit phare, SYSTRAN Enterprise Server (SES), donne accès partout, à toute heure, à la puissance de nos moteurs de traduction via une interface web, qui permet aussi l’administration de la plateforme. Le serveur peut être hébergé par nos soins dans le Cloud (notamment chez OVH), ou bien situé dans l’environnement IT du client. Dans les deux cas, la sécurité, l’intégrité des données, le respect de la propriété intellectuelle et des données personnelles sont des éléments-clés. Nombreux sont nos clients grands comptes qui recourent à SYSTRAN pour éviter que des données confidentielles soient livrées, via leurs employés, aux acteurs gratuits du Web, sans aucune garantie quant à l’utilisation qui pourrait en être faite.
Il peut arriver que le besoin du client aille au-delà du périmètre de notre produit : pour cette raison, nous proposons une API, ouvrant la voie à des solutions élaborées, intégrant la technologie SYSTRAN (ex. intégration avec un outil CRM).
Notre API est aussi accessible en mode SaaS, une approche qui rencontre un certain succès auprès des acteurs dont la volumétrie du besoin est variable ou peu prédictible.
Dans certains cas, le travail d’intégration a déjà été fait par nos soins ou par le partenaire concerné : nous proposons alors des plug-ins prêts à l’emploi (par exemple sous forme d’add-on pour la solution d’e-Discovery de Kcura).
Certains clients désirent développer un outil complet autour du moteur SYSTRAN : dans ce cas, nos kits de développement (SDK) sont tout indiqués.
Enfin, une version desktop est également disponible, pour les utilisateurs isolés ou les entreprises de petite taille.
Nos services professionnels, quant à eux, sont conçus pour accompagner nos clients dans l’adoption et l’intégration de nos produits. Ils comprennent la formation, la conduite du changement, l’assistance à l’installation, mais aussi la personnalisation de l’environnement, de la terminologie, des langues supportées, etc.
En conclusion, notre portfolio de produits et services se veut le plus large et complet possible pour accompagner nos clients dans la réussite de leur développement international. À titre d’exemple, un projet classique chez nous est déployé sur tous les continents, avec une quarantaine de paires de langues pour 80.000 utilisateurs voire plus.

Qui sont vos clients ?

Le marché de SYSTRAN est par nature global et multisectoriel. Aussi, notre clientèle compte-t-elle à la fois des PME et des grands comptes, privés et publics, dont voici quelques exemples : Adobe, PSA, Ford, Claas, Boehringer Ingelheim, Lombard Odier, Société Générale, Petit Futé, Symantec, Hewlett Packard Enterprise, Cisco, PwC, Xerox Litigation Services…
Sur le marché des solutions de traduction, les offres se ressemblent et les technologies utilisées sont assez similaires.

Qu’est-ce qui différencie Systran de ses concurrents, payants ou gratuits ?

Nos points forts concernent aussi bien les produits que les services. Côté produits, un investissement significatif est fait en R&D, afin de toujours garder une longueur d’avance. C’est ainsi que nous sommes les premiers à avoir mis sur le marché un produit commercial embarquant la technologie de traduction neuronale – Pure Neural™ Machine Translation (PNMT™). Nous mettons également beaucoup l’accent sur le contrôle qualité, avec une équipe dédiée.
Notre capacité à personnaliser les outils, notamment avec de nouvelles paires de langues, mais aussi par la spécialisation des terminologies, rend nos produits bien plus attractifs que des solutions « généralistes », forcément éloignées du métier du client.
Par ailleurs, la sécurité est l’une de nos obsessions : les serveurs hébergeant SES sont soit situés dans des datacenters parfaitement sécurisés, soit utilisés offline. Dans ce sens des partenaires tels qu’OVH répondent à ce cahier des charges exigeant et sécuritaire.
Enfin, notre faculté à accompagner nos clients par des services professionnels, incluant de la personnalisation, nous distingue des acteurs ne proposant que des produits sur étagère.

À propos de votre moteur de traduction neuronal justement, comment fonctionne-t-il ?

Notre moteur PNMT™ est, d’un point de vue technologique, totalement différent des précédentes générations de machines de traduction. Fondé sur du « Deep Neural Network » (apprentissage profond), il ne fait appel à aucune représentation de connaissance linguistique ; ceci constitue une énorme différence avec l’approche à base de règles (RBMT), qui repose sur une base de données de règles linguistiques (des dictionnaires par exemple), ou la méthode statistique (SMT), reposant sur une base de données de fragments de phrases alignées. Comme dans un cerveau humain, la connaissance linguistique est codée dans les connexions entre les neurones artificiels – et ces connexions sont apprises et ajustées automatiquement au cours de la phase d’apprentissage du système (tout comme lorsqu’un humain apprend une langue). En fait, le moteur PNMT™ acquiert des connaissances à partir de diverses sources de données, que les précédentes technologies n’étaient pas capables d’exploiter automatiquement, comme la sémantique, le style, le genre, la notion de positif/négatif…

Quels nouveaux usages votre moteur de traduction neuronal rend-il possibles ?

Pour la première fois, nous disposons d’une technologie capable de comprendre les phrases dans leur contexte et de les traduire avec une qualité supérieure à celle de la plupart des non-natifs de la langue. Notre perception est que, cette technologie deviendra un assistant indispensable pour quiconque voyage, communique dans des langues étrangères (e-mails, chat, rédaction de papiers scientifiques…)  Nous étudions également des applications sous-jacentes comme par exemple des assistants permettant l’apprentissage de langues ou encore des Chatbots multilingues..
À terme, le sujet ne sera plus de traduire mais bien de communiquer dans différentes langues et langages sans perdre les nuances et les particularités qui en font leur richesse et leur singularité.
Vous pouvez vous même tester la qualité d’une traduction neuronale générique en utilisant notre serveur de démonstration : https://demo-pnmt.systran.net/

En évoquant le machine learning, on dit souvent que la qualité des données soumises aux algorithmes pour permettre l’apprentissage est aussi importante que la qualité des algorithmes eux-mêmes. De quoi sont constitués les corpus de textes qui alimentent les neurones artificiels de votre moteur de traduction ?

Il s’agit essentiellement de corpus libres et open source, fournis soit par des institutions comme les Nations Unies, l’Union européenne, la Banque Centrale européenne, le Parlement canadien, l’Office des brevets… soit par des communautés comme OpenSubtitles ou bien d’autres encore. Nous générons aussi notre propre corpus pour des domaines spécifiques et pouvons également en acquérir auprès d’agences spécialisées. Par ailleurs, nos clients ont bien sûr la possibilité d’utiliser leurs propres mémoires de traduction pour spécialiser leurs traductions.

Quelle infrastructure avez-vous mise en place chez OVH pour héberger ce moteur de traduction neuronal ?

L’infrastructure se compose de 2 « front-ends » et de plusieurs « compute nodes » (nœuds de traduction). Les « front-ends » utilisent le serveur infrastructure EG-64-S :64Gb RAM, CPU E5-1650v2, disque SoftRaid 2×4 To et les « compute nodes » se composent d’un mix entre serveur CPU : Infrastructure HG (Intel  2x Xeon E5-2640v3, 16c/32t – 2,6 GHz/3,4 GHz, 256 Gb de RAM, 2×4 To HD) et serveur GPU : GPU-4X-1080 : 128G 2xE5-2630v3 240 Go SSD 4xGTX 1080

Quelle est la valeur ajoutée des serveurs GPU pour votre métier, comparativement à l’utilisation des serveurs équipés de CPU ?

Les serveurs GPU offrent des temps de traduction plus courts. La vitesse de traduction GPU est actuellement 3 fois plus rapide que des cores CPU. Le facteur limitant de la technologie GPU est la RAM GPU (chaque modèle utilise 2 Gb de RAM GPU en moyenne) et sa puissance de calcul (8,9 TFlops). Les serveurs GPU permettent aussi de créer des modèles de traduction. Ces modèles ont des tailles beaucoup plus compactes et produisent une meilleure qualité de traduction.

Comment voyez-vous l’avenir de votre métier ? La traduction instantanée d’une conversation orale relève-t-elle encore de la science-fiction ?

Nous avons à cœur d’apporter au marché des solutions spécialisées reposant sur notre expertise dans le domaine des langages. Ceci va au-delà de la « simple » faculté de produire de la traduction automatique et générique.
D’un point de vue business, cela signifie que pour toute entreprise globale, le traitement des langues fera partie intégrante de ses process, et que des francophones, anglophones, sinophones… pourront communiquer, de façon fluide et transparente, dans leur propre langue. Aujourd’hui, les solutions qui existent sont généralement mises en œuvre en fin de process. Par exemple, lorsqu’on reçoit un courriel dans une langue étrangère, un RFP de Chine, etc…, on s’aperçoit que l’on a besoin de traduction, mais que la solution n’est pas intégrée au cœur du process : à la création du document, ou durant une conférence téléphonique, ou encore lorsqu’on doit commenter un document dans une autre langue, etc…
Les perspectives ouvertes par l’intelligence artificielle et les algorithmes que nous avons industrialisés sont infinies. Bientôt nous pourrons utiliser ces mêmes réseaux neuronaux pour faciliter l’apprentissage d’une langue étrangère et produire du contenu directement multilingue. Il sera également possible de parler dans notre langue maternelle et d’être compris par notre interlocuteur étranger, grâce un « objet connecté » placé dans l’oreille… Loin d’être de la science-fiction, ce scénario est une perspective réelle… à très court terme. L’intelligence artificielle n’a pas fini de nous surprendre et d’enrichir notre pratique professionnelle.  Nous n’en sommes qu’au début….

 

Copywriter at OVH.