Cet article a pour but d’expliquer sous forme de tutoriel comment utiliser 6 logiciels de transcription automatique différents. Il sera ensuite fait un comparatif de la qualité des textes produits par ces différentes solutions.

Introduction
De gros éditeurs de logiciels (Microsoft et Adobe) ont récemment intégré des solutions de transcription automatique de l’audio en texte dans leurs logiciels phares (Microsoft Word et Adobe Premiere Pro) et il est intéressant de voir si leur utilisation peut accélérer le travail de transcription manuelle au clavier. L’idéal est de récupérer des textes déjà ponctués et avec peu d’éléments restant à corriger.
Microsoft Word et Adobe Premiere Pro sont accessibles sous forme d’abonnement annuel à une suite logicielle (Microsoft 365 et Adobe Creative Cloud) et la transcription automatique intégrée à ces deux logiciels est très simple d’accès, ergonomique et efficace.
Pour récupérer une transcription automatique de manière gratuite à partir d’outils Google (Google Recorder, Google Docs et YouTube), l’usage est un petit peu détourné des fonctions de base des outils et les manipulations restent plus compliquées et contraignantes. Le temps de manipulation pour obtenir les textes sera donc plus élevé. Cela est surtout vrai lorsque le fichier à transcrire n’est pas reconnu pour un traitement en local sur la machine utilisée ou sur un serveur. Il faut alors écouter l’enregistrement en entier et attendre qu’il se transcrive simultanément à sa lecture. C’est le cas pour Google Docs et Google Recorder, mais les quatre autres outils étudiés permettent un traitement direct de l’enregistrement.
Enfin, ce comparatif étudiera la solution d’un acteur historique, Dragon Naturally Speaking, à voir si l’ergonomie du logiciel et la qualité de texte sont restées à niveau avec l’arrivée sur le marché des leaders de l’édition logicielle.
Tutoriel pour 6 logiciels de transcription automatique
1. Transcription automatique avec Adobe Premiere Pro
Depuis sa version 15.4 lancée en juillet 2021, Adobe Premiere Pro intègre une fonction de transcription automatique. Cela permet d’aider au sous-titrage des vidéos et de naviguer plus facilement au sein d’entre elles à l’aide du texte.
Au début de l’arrivée de cette fonctionnalité, le calcul de la transcription automatique se faisait d’abord sur un serveur Adobe, mais il s’effectue maintenant hors connexion en local sur la machine (depuis la version 22.2 sortie en février 2022).
Le temps de calcul de la transcription automatique est assez rapide. Pour un ordinateur récent, le calcul va s’effectuer entre cinq et dix fois plus rapidement que le temps de l’enregistrement envoyé pour transcription.
Tutoriel






2. Transcription automatique avec Microsoft Word
Depuis quelques mois, la transcription automatique est disponible sur la version web de Word (avec un abonnement Microsoft 365).
La taille du fichier envoyé pour transcription est limitée à 200 mo et le temps maximal des enregistrements à transcrire est limité à 5 heures par mois.
Tutoriel


3. Transcription automatique avec Google Recorder
L’application mobile Google Recorder, « Enregistreur » en français, est uniquement disponible sur les téléphones Android Google Pixel. Elle permet de transcrire automatiquement à partir du micro du téléphone ou d’un micro externe raccordé au téléphone.
L’astuce utilisée ici est de lire un enregistrement à transcrire depuis un PC puis d’envoyer celui-ci via un micro sans-fil reconnu comme micro externe par le téléphone.
Tutoriel


4. Transcription automatique avec Google Docs
L’application web Google Docs permet la saisie vocale par dictée depuis son microphone.
Pour transcrire un enregistrement déjà effectué, une astuce consiste à régler le périphérique d’enregistrement comme tout ce qui passe par la carte son « mixage stéréo » puis de lancer la lecture de l’enregistrement à transcrire.
Il y a toutefois une limitation importante, car la saisie vocale se désactive toutes les 30 secondes et il faut recliquer sur l’icône du micro pour la réactiver.
Tutoriel




5. Transcription automatique avec YouTube
La majorité des vidéos uploadées sur YouTube disposent d’une transcription automatique. Certaines vidéos, avec un enregistrement de mauvaise qualité, de moins de 5 minutes ou de plus de 90 minutes, peuvent aléatoirement ne pas être transcrites. Le temps de traitement par YouTube pour l’apparition de la transcription automatique est aussi très aléatoire, car il peut aller de quelques minutes à plusieurs jours.
Ce tutoriel explique comment récupérer ces sous-titres afin de les utiliser comme une transcription éditable. Si besoin, il est expliqué en détail comment transformer un fichier audio en fichier vidéo dans cet article.
Tutoriel



6. Transcription automatique avec Dragon Naturally Speaking
Dragon Naturally Speaking, présent sur le marché de la reconnaissance vocale depuis 1977, est ici testé dans sa version 15, sortie en 2016.
La transcription automatique est possible à partir d’un enregistrement, mais il faut relier cet enregistrement à un profil de voix. Il ne s’agit pas d’une technologie de transcription automatique possible pour n’importe quel enregistrement quel que soit le locuteur, alors que cela est possible pour les autres solutions testées dans cet article. Le temps de calcul pour la transcription automatique des enregistrements est aussi assez long, souvent aussi long que la durée de l’enregistrement, là où les autres solutions sont plus rapides. De plus, il est à noter que l’installation du logiciel ainsi que sa configuration ne sont pas des plus faciles.
Tutoriel



Transcription de la vidéo
Cela est assez récent qu’Adobe Premiere Pro ait intégré une fonction de transcription automatique. J’ai le logiciel ouvert, je vais chercher un média à importer, je le glisse dans cette fenêtre. Ensuite, je fais un clic droit dessus, « nouvelle séquence à partir de l’élément ». J’ai mon fichier audio qui apparaît, je peux le lire et on a bien notre audio qui module. Ensuite, je vais dans « fenêtre », « texte », « transcrire la séquence ». Je choisis la langue, le français, « transcrire » et pendant une ou deux minutes, le rendu s’effectue en local sur la machine. La transcription vient d’apparaître. Si je relance la lecture du fichier audio, les deux sont synchronisés et on a bien une transcription automatique. Pour l’exporter en fichier texte éditable, « exporter vers un fichier texte », « enregistrer ». Maintenant, si on va chercher notre fichier texte, je peux l’ouvrir avec Word et il est éditable.
La transcription automatique avec Microsoft Word est une fonctionnalité qui a été ajoutée assez récemment à ce logiciel. Cela n’est pas encore disponible pour la version bureau du logiciel, mais uniquement sur la version en ligne avec un abonnement Microsoft 365. Je vais passer au navigateur avec Word ouvert et je vous explique tout de suite comment faire. L’onglet « dictée » sert à dicter avec son microphone. On veut nous le faire à partir d’un enregistrement déjà effectué et j’ai choisi l’onglet « transcrire ». « Charger un fichier audio », je prends mon extrait d’une émission radio, « ouvrir » et cela lance le processus de transcription. Le texte vient d’apparaître et est bien en rapport avec l’audio et on peut ajouter ce texte au document pour maintenant l’éditer.
Un autre outil pour la transcription automatique est l’utilisation de l’application mobile Google Recorder. J’ai fait un petit montage pour lire un fichier audio depuis l’ordinateur qui va sortir sur la carte son et la sortie casque de la carte son est raccordée à un émetteur sans fil et le récepteur sans fil de ce côté est reconnu comme micro USB par le téléphone. Cela va permettre de lire un son sur l’ordinateur et qu’il soit reconnu par l’application mobile. Je vais chercher mon enregistrement, mon émission de radio. Je la lance depuis le PC et tout de suite, elle est reconnue par l’application mobile. Dans l’onglet « transcription », le texte est transcrit automatiquement en direct et aussi avec de la ponctuation. Ensuite, la transcription est directement récupérable pour une édition ultérieure.
On va maintenant voir la transcription automatique avec Google Docs, un outil gratuit proposé par Google. Je suis sur le navigateur Chrome et pour activer la saisie vocale, « outils », « saisie vocale ». Si je clique sur l’icône, cela sera mon microphone qui sera utilisé pour faire une dictée. Nous ce que l’on veut, c’est une transcription automatique. On va aller faire un petit réglage au niveau du périphérique d’enregistrement, cela peut être écrit « stéréo mix » et alors, tout ce qui passera par la carte son de l’ordinateur sera reconnu comme microphone.
Nous allons voir la transcription automatique avec YouTube. La plupart des vidéos uploadées sur YouTube sont sous-titrées automatiquement et on va voir comment récupérer ces sous-titres pour les éditer sous forme de texte. J’ouvre une vidéo YouTube qui a été transcrite automatiquement. Je vais au niveau des trois petits points, « afficher la transcription » et je viens copier l’intégralité du texte. Je colle dans Word et pour avoir un texte sans tous les retours à la ligne je vais dans « édition », « remplacer », « plus », « spécial », « marque de paragraphe » remplacé par un espace simple. Ensuite « remplacer tout » et j’ai mon texte éditable.
Pour une transcription automatique avec le logiciel Dragon Naturally Speaking, il faut aller chercher un enregistrement. « Outils », « transcrire un enregistrement ». Je prends mon enregistrement et bouton « transcrire ». Le traitement prend quelques minutes et, lorsque le texte est prêt,« ouvrir dans Word » et j’ai bien mon texte éditable.
Logiciel transcription automatique : comparatif des textes obtenus
Comparatif des temps de correction
Classement | Logiciel | Temps échantillon | Temps de relecture | Facteur sur temps d’enregistrement | Coût |
Témoin | Saisie au clavier | 00:02:00 | 00:06:59 | x3,5 | Tarifs |
1 | Premiere Pro | 00:02:00 | 00:03:46 | x1,9 | 23,99 €/mois |
2 | YouTube | 00:02:00 | 00:04:26 | x2,3 | Gratuit |
3 | Word | 00:02:00 | 00:05:21 | x2,7 | 7 €/mois |
4 | Dragon | 00:02:00 | 00:05:42 | x2,9 | 699 € |
5 | Google Recorder | 00:02:00 | 00:05:39 | x3,8(x2,8+1 temps d’écoute) | Gratuit |
6 | Google Docs | 00:02:00 | 00:06:50 | x4,4(x3,4+1 temps d’écoute) | Gratuit |
Capture vidéo d’écran des corrections
Sommaire : 00:00 – Témoin, saisie au clavier ; 07:02 – Relecture Premiere Pro ; 10:49 – Relecture Word ; 16:11 – Relecture Google Recorder ; 21:52 – Relecture Google Docs ; 28:44 – Relecture YouTube ; 33:13 – Relecture Dragon
Émission de radio utilisée comme échantillon : lien
Quel a été le meilleur logiciel de transcription automatique ?
1er - Adobe Premiere Pro

Comparatif par rapport à la saisie manuelle au clavier : 69 révisions
Insertions : 33
Suppressions : 30
Mise en forme : 6
Temps de relecture : 00:03:46
Solution gagnante du comparatif, le temps de relecture du texte est inférieur à deux fois le temps de l’enregistrement (x1,9).
La transcription automatique est très précise et une ponctuation est déjà insérée.
Le coût mensuel de l’abonnement au logiciel reste raisonnable : 23,99€/mois
Le nombre d’heures transcrites chaque mois et la taille des fichiers traités ne sont pas limités.
2ème – YouTube

Comparatif par rapport à la saisie manuelle au clavier : 122 révisions
Insertions : 69
Suppressions : 46
Mise en forme : 7
Temps de relecture : 00:04:26
YouTube se classe comme le second outil le plus efficace de ce comparatif. Le temps de relecture de cette transcription automatique a été de 2,3 fois le temps de l’enregistrement.
La transcription est assez précise, même si la ponctuation n’est pas insérée.
Toutefois, cette solution est tributaire de la plateforme YouTube et vous n’avez aucune garantie que votre vidéo soit automatiquement transcrite et vous ne savez pas non plus dans quel délai celle-ci sera transcrite.
3ème – Word

Comparatif par rapport à la saisie manuelle au clavier : 133 révisions
Insertions : 54
Suppressions : 63
Mise en forme : 16
Temps de relecture : 00:05:21
Word se classe comme le troisième outil le plus efficace de ce comparatif. Le temps de relecture a été de 2,7 fois le temps de l’enregistrement.
La transcription est assez précise et la ponctuation est insérée. Toutefois, on sent que la précision et la grammaire sont un peu moins bonnes que pour les deux solutions gagnantes.
Le coût de cette solution est raisonnable (7€/mois), mais le temps des enregistrements transcrits est au maximum de 5 heures par mois et la taille des fichiers envoyés est limitée à 200 mo.
4ème – Dragon

Comparatif par rapport à la saisie manuelle au clavier : 110 révisions
Insertions : 55
Suppressions : 49
Mise en forme : 6
Temps de relecture : 00:05:39
Dragon Naturally Speaking se classe comme le quatrième meilleur logiciel de transcription automatique de ce comparatif. Le temps de relecture a été de 2,9 fois le temps de l’enregistrement. À noter que le logiciel est long à paramétrer avant de pouvoir lancer une transcription automatique (création d’un profil de voix) et que le calcul de la transcription automatique est plus long que pour les autres solutions.
5ème – Google Recorder

Comparatif par rapport à la saisie manuelle au clavier : 120 révisions
Insertions : 63
Suppressions : 51
Mise en forme : 6
Temps de relecture : 00:05:42
La transcription automatique en utilisant l’application Google Recorder est à peu près du même niveau que celle de Word et Dragon, mais il y a malheureusement une grosse perte de temps car il faut lire l’enregistrement en entier avant d’obtenir sa transcription. En considérant ce temps supplémentaire, le temps de traitement avec la relecture est légèrement supérieur au temps nécessaire à la transcription en saisie manuelle au clavier.
6ème – Google Docs

Comparatif par rapport à la saisie manuelle au clavier : 106 révisions
Insertions : 59
Suppressions : 40
Mise en forme : 7
Temps de relecture : 00:06:50
Le temps de relecture de la transcription automatique Google Docs a été très longue du fait de l’arrêt de la transcription automatique toutes les 30 secondes (qu’il a fallu relancer manuellement avec à chaque fois la perte d’un morceau de phrase). Le temps de relecture a été presque identique au temps d’une simple saisie au clavier et il y a au final une grosse perte de temps par rapport à une saisie manuelle au clavier, car il faut en plus écouter tout l’enregistrement pour le faire transcrire par Google Docs.
Application en ligne de transcription automatique
En dehors des logiciels physiques des grands éditeurs à installer pour obtenir une transcription automatique, de nombreuses applications en ligne existent pour convertir des fichiers audio ou vidéo en texte. La plateforme de Speechmatics, proposant des textes de très haute qualité pour le français, est ajoutée ci-dessous au comparatif des six autres solutions. Vous pouvez aussi consulter ce comparatif sur quatre outils de dictée vocale.
Speechmatics

Comparatif par rapport à la saisie manuelle au clavier : 80 révisions
Insertions : 36
Suppressions : 37
Mise en forme : 7
Temps de relecture : 00:03:16
La précision du texte obtenu est ici supérieure à la solution gagnante du comparatif. Le temps de relecture manuelle a été de seulement 1,6 fois le temps de l’enregistrement.
La transcription automatique et gratuite de Speechmatics est limitée à 4 heures d’enregistrement par mois au total, ensuite la plateforme devient payante (environ 2$ par heure d’enregistrement supplémentaire).
Saisie manuelle au clavier
La saisie manuelle au clavier par un transcripteur professionnel produira les textes les plus précis et les plus fiables. En effet, la ponctuation sera plus naturelle, il ne restera que peu de coquilles et il y aura un lissage des défauts d’oralité afin d’accroitre la lisibilité. De plus, la transcription automatique reste uniquement efficace sur des enregistrements de bonne qualité. N’hésitez pas à consulter nos tarifs pour toute demande de devis sur des enregistrements où la transcription automatique ne serait pas efficace, par exemple pour un enregistrement dictaphone avec du bruit de fond ou une discussion de groupe où il est plus difficile d’identifier les interlocuteurs.
Bonjour,
merci pour ces infos.
Vous indiquez comme critère d’évaluation la durée de relecture, mais vous n’indiquez pas la durée de transcription.
OpenAI Whisper ne fait pas partie des solutions évaluées. c’est une bibliothèque python libre et opensource qui permet de faire de la transcription d’enregistrements en temps réel (avec un bon GPU).