État des lieux des méthodes existantes pour la transcription en direct de l’audio en texte

La vidéo ci-dessous compare la transcription en direct par sténotypie (à gauche) et la transcription en direct par vélotypie (à droite).

L’objectif de cet article est de dresser un rapide panorama des méthodes existantes pour transcrire l’audio en texte en temps réel et de comparer leurs avantages et inconvénients.

Chaîne YouTube The Typist

Transcription en direct par sténotypie

La sténotypie utilise un clavier phonétique, c’est-à-dire que chaque touche du clavier représente un son.

La sténotypie permet une frappe à la vitesse de la parole et de transcrire fidèlement l’intégralité du contenu des phrases d’un interlocuteur.

Les sténotypistes de conférences arrivent à taper plus de 200 mots par minute, alors que la vitesse de la parole varie souvent entre 150 et 200 mots par minute. Cette technologie est donc tout à fait adéquate pour la transcription en direct de la parole.

Toutefois, pour certains enchaînements peu communs de sons, par exemple lorsqu’un acronyme ou un nom propre est prononcé par l’interlocuteur à transcrire, des erreurs orthographiques peuvent subsister dans le texte affiché à l’écran. Il est donc préférable qu’un second sténotypiste intervienne en correction. Cette correction va être tout à fait possible en direct, car globalement peu d’éléments restent à corriger.

Comparaison de la transcription en direct par sténotypie avec la transcription officielle en différé du discours.

Transcription en direct par vélotypie

La vélotypie utilise un clavier syllabique (des accords de touches créent des syllabes).

La vélotypie n’arrive à produire un texte qu’aux alentours de 150 mots par minute et si l’interlocuteur parle vite, le vélotypiste est obligé de légèrement synthétiser les propos pour que la transcription suive le direct.

Toutefois, si la synthétisation est bien faite, les phrases restent tout à fait compréhensibles et sont aussi plus faciles à lire en entier. L’utilisation de la vélotypie permet d’afficher une bonne qualité de langue et de ponctuation.

Le vélotypiste peut aussi rentrer à l’avance – par l’intermédiaire de macros enregistrées précédemment et activées à l’aide d’une combinaison de touches – des noms propres ou acronymes qui risquent d’être souvent cités. En effet, un clavier syllabique de ce type rend difficile la frappe lettre après lettre telle qu’on la connait lorsque l’on utilise un clavier azerty classique. Avec l’ajout manuel de macros, le vélotypiste peut saisir plus rapidement certains mots en temps voulu, mais cela demande un travail préparatif.

Comparaison de la transcription en direct par vélotypie avec la transcription officielle en différé du discours.

Et avec la reconnaissance vocale ?

 

Une vidéo de démonstration pratique avec deux méthodes différentes utilisant la reconnaissance vocale : 

  • La transcription automatique en temps réel avec reconnaissance automatique de la parole (avec Google Docs).

Transcription en direct par un transcripteur vocal

Contrairement aux deux méthodes manuelles décrites précédemment et où c’est l’humain en tapant sur son clavier qui décide des combinaisons de touches pour former les mots – technique qui devient imparable avec l’entrainement et la facilité des professionnels à contextualiser – la technique du respeaking (où un transcripteur vocal répète en direct dans un micro ce qu’il lui passe dans les oreilles) se base sur des algorithmes de reconnaissance vocale et il est dur d’atteindre le même niveau de précision.

En effet, ce n’est pas l’humain en dernier lieu qui va décider du texte qui s’affiche à l’écran, mais ce texte résulte d’algorithmes. C’est-à-dire que même si le transcripteur vocal contextualise bien ce qu’il dicte, les algorithmes ne seront pas à même de saisir toutes les nuances de sens et le texte final pourra conserver d’importantes coquilles ou contresens.

Un correcteur peut aussi intervenir en simultané pour corriger les erreurs de reconnaissance vocale de la dictée du transcripteur vocal, mais les secondes perdues par rapport au temps réel rendent peu opérante cette transcription en direct.

C’est le cas par exemple lorsque cette technologie est utilisée pour des personnes malentendantes en sous-titrage TV et que l’affichage est très en retard. Certaines personnes malentendantes disent d’ailleurs préférer une transcription affichée avec quelques coquilles qu’une transcription de meilleure qualité, mais affichée trop en retard et qui ne leur sert alors plus à rien pour comprendre les paroles de l’interlocuteur sous-titré.

Au niveau technique pour le transcripteur vocal, celui-ci améliore la lisibilité des phrases qu’il dicte en ajoutant la ponctuation par l’intermédiaire de commandes vocales. Il peut également enrichir le vocabulaire reconnu par le logiciel en ajoutant des mots au dictionnaire de celui-ci.

Comparaison de la transcription en direct par transcripteur vocal avec la transcription officielle en différé du discours.

Transcription automatique en direct

Une autre technique de transcription en direct consiste à se baser uniquement sur une transcription automatique qui s’affichera en temps réel avec le discours prononcé. Aucun humain n’intervient ici : seuls des algorithmes de reconnaissance automatique de la parole travaillent.

Comme pour la méthode de transcription avec un transcripteur vocal, cette méthode a aussi le désavantage de faire apparaître à l’écran nombre de coquilles, erreurs de grammaire et contresens. De plus, aucune ponctuation n’est insérée.

Toutefois, les mots apparaissent à l’écran à l’instant où ils sont prononcés et cela est très pratique pour suivre l’intervention au plus près. On peut aussi remarquer que des corrections peuvent s’appliquer dans la phrase au fur et à mesure de son avancée, car les algorithmes recontextualisent la phrase en fonction de son contenu.

Comparaison de la transcription automatique en direct avec la transcription officielle en différé du discours.

Transcription en direct de la parole : quatre méthodes

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *