Alimenté par l’intelligence artificielle, il est capable de traduire en temps réel le hokkien, une langue largement utilisée au sein de la diaspora chinoise, en anglais et inversement.
Meta avance sur son projet de traducteur vocal universel (Universal Speech Translator). Annoncé en février, il vise à permettre la traduction en temps réel de toutes les langues, y compris celles étant principalement parlées, en développant de nouvelles méthodes basées sur l’intelligence artificielle (IA). Mercredi, l’entreprise a dévoilé un système de traduction vocale alimenté par l’IA et dédié au hokkien, une langue parlée par des millions de personnes au sein de la diaspora chinoise et qui est surtout orale.
« Près de la moitié des quelques 7 000 langues vivantes dans le monde sont principalement orales et n’ont pas de forme écrite standard ou largement utilisée. Il est donc impossible de créer un outil de traduction automatique pour ces langues à l’aide des techniques classiques, qui nécessitent une grande quantité de texte écrit pour l’entraînement du modèle d’IA », explique Meta dans un communiqué.
Résoudre le problème du manque de données
C’est pour cette raison que la société s’est concentrée sur la traduction de parole à parole. « Notre technologie permet aux locuteur.trices du hokkien de tenir une conversation avec des anglophones », affirme Meta. Pour y parvenir, le groupe californien a utilisé la méthode de traduction parole-unité afin de convertir des entrées de paroles en une séquence d’unités acoustiques. Ces dernières ont servi à générer des ondes qui ont été associées au mandarin, une langue similaire au hokkien selon la firme. « Nous avons utilisé le mandarin comme langue intermédiaire pour créer des traductions semi-supervisées et humaines, en traduisant d’abord de l’anglais (ou du hokkien) vers le mandarin, puis du mandarin vers le hokkien (ou l’anglais) », indique Meta.
La société précise que son modèle de traduction est en cours d’amélioration, le système étant uniquement capable de traduire une seule phrase à la fois. Estimant que les techniques employées peuvent être étendues à d’autres langues, écrites comme orales, elle rend public SpeechMatrix, « un vaste corpus de traductions parole-parole rassemblées grâce à [sa] technique d’analyse de données LASER ». Les chercheurs vont ainsi pouvoir utiliser son travail pour créer leurs propres systèmes de traduction de parole en parole.