Introduction

Cet article vise à comparer deux solutions de transcription automatique pour la transcription d’un entretien : Speechmatics et Whisper.

Dans le cadre de divers tests comparatifs réalisés sur ce blog, la solution de transcription automatique proposée par Speechmatics s’est régulièrement distinguée comme l’une des meilleures, notamment grâce à son faible taux d’erreurs. Ce faible taux facilite et accélère la correction manuelle par rapport à d’autres solutions de transcription automatique.

Selon cet article, Speechmatics, avec son modèle Ursa 2 (sorti fin 2024) atteint un taux d’erreurs de mots inférieur à 5 % pour le français. Au global et pour toutes les langues, le modèle mesurerait 42,4 % d’erreurs en moins par rapport à la transcription automatique Whisper.

Parallèlement à cela, la transcription automatique d’OpenAI, via l’outil open source Whisper, s’est largement popularisée en 2024 dans les universités et est de plus en plus utilisée pour transcrire des entretiens de recherche en sciences humaines et sociales.

Pour obtenir une transcription, en local, à partir du modèle Whisper, vous pouvez utiliser le logiciel open source gratuit noScribe (Mac ou PC) ou l’application payante Whisper Transcription (Mac uniquement).

Le but de ce comparatif est de mesurer l’efficacité du modèle de transcription automatique open source de Whisper par rapport au modèle propriétaire de Speechmatics. Ce benchmark se fera par le biais d’un test pratique.

illustration article transcription

Transcription automatique entretien, évolution des technologies

Cela ne fait que quelques années que la transcription automatique est réellement performante pour transcrire des entretiens. Avant cela, la transcription automatique n’était vraiment efficace que pour des enregistrements de très bonne qualité, réalisés avec un microphone individuel pour chaque interlocuteur et enregistrés au niveau d’une table de mixage.

Désormais, les nouveaux modèles de transcription automatique parviennent à performer malgré des voix plus éloignées et du bruit de fond, ce qui élargit leurs possibilités d’utilisation.

Un entretien semi-directif est aussi plus difficile à transcrire pour des modèles de transcription automatique que par exemple un discours préparé à l’avance et lu lors d’une conférence. Le contenu d’un entretien exploratoire ou semi-directif est plus spontané, improvisé et a un flot de parole plus rapide.

Au niveau des techniques utilisées pour l’entrainement de ces modèles de transcription automatique, il semblerait que ces modèles soient entrainés sur des centaines milliers d’heures d’enregistrements annotés manuellement dans plusieurs dizaines de langues.

Speechmatics indique aussi dans cet article que pour l’élaboration de leur modèle Ursa 2, ils ont constaté que même avec des centaines de milliers d’heures d’enregistrements annotés, leur modèle de transcription automatique n’arrivait pas à couvrir toutes les langes, accents et dialectes.

Le modèle a donc été dans un premier temps entrainé par lui-même sur une grande quantité d’enregistrements de toutes les langues non annotés et une fois cette étape réalisée le modèle a été encore plus performant lorsqu’il a été entrainé de manière dirigée sur des enregistrements annotés d’une seule langue spécifique.

En quelque sorte, le modèle a d’abord identifié par lui-même des structures communes entre toutes les langues et a ensuite été beaucoup plus rapide et performant dans l’apprentissage quand on lui a donné des informations formelles pour une langue en particulier.

transcription entretien

Méthodologie du test

Le test pratique pour la mesure de différence de performance entre Speechmatics et Whisper est réalisé dans le cadre de la transcription audio en texte de trois échantillons d’entretiens qualitatifs en français d’une durée de dix minutes chacun.

La transcription recherchée n’est pas une version verbatim (avec hésitations et répétitions), mais une transcription légèrement lissée, facilitant la lecture.

Deux critères sont mesurés :

  • Le temps nécessaire à la correction avec réécoute intégrale.
  • Le nombre de révisions apportées (insertions et suppressions).

Le temps de calcul pour la sortie du texte de chaque transcription automatique n’a pas été mesuré précisément. Il est de l’ordre de 10 % du temps de l’enregistrement pour Speechmatics (calcul par un serveur). Il est par contre beaucoup plus long, jusqu’à 50 % du temps de l’enregistrement, pour un calcul en local avec Whisper (rendu effectué avec Whisper Transcription avec le modèle Large v3 sur un Mac m1 pro). Pour se rapprocher d’un temps de rendu d’environ 10 % du temps de l’enregistrement, il faut utiliser le modèle « Large v3 Turbo » de Whisper, qui est beaucoup plus rapide mais qui diminue un peu la précision du texte.

Échantillon 1 (10 minutes d’enregistrement)

 SpeechmaticsWhisper
Temps de correction avec réécoute00:14:10 (850 secondes)0:12:44 (764 secondes) (-10 %)
Nombre de révisions252 révisions Insertions : 131 Suppressions : 121167 révisions (-34 %) Insertions : 95 Suppressions : 72
Détail de la correctionFichier pdfFichier pdf
Source de l’enregistrementLien  

Échantillon 2 (10 minutes d’enregistrement)

 SpeechmaticsWhisper
Temps de correction avec réécoute0:13:30 (810 secondes)0:13:17 (797 secondes) (-1,6 %)
Nombre de révisions250 révisions Insertions : 123 Suppressions : 127178 révisions (-29 %) Insertions : 77 Suppressions : 101
Détail de la correctionFichier pdfFichier pdf
Source de l’enregistrementLien  

Échantillon 3 (10 minutes d’enregistrement)

 SpeechmaticsWhisper
Temps de correction avec réécoute0:12:56 (776 secondes)0:12:23 (743 secondes) (-4,2%)
Nombre de révisions233 révisions Insertions : 123 Suppressions : 110163 révisions (-30 %) Insertions : 72 Suppressions : 91
Détail de la correctionFichier pdfFichier pdf
Source de l’enregistrementLien  

illustration transcription automatique

Transcription automatique entretien : ressenti à la correction

Speechmatics :

  • Les hésitations et répétitions sont systématiquement transcrites, nécessitant leur suppression manuelle pour fluidifier le texte et le rendre plus lisible, ce qui allonge un peu le temps de correction.
  • Le modèle semble avoir quelques problèmes de casse et rajoute des majuscules pour les mots composés reliés par des tirets.
  • Il y a quelques contresens et problèmes de grammaire, mais la transcription automatique reste précise.
  • La ponctuation semble assez naturelle et n’est pas trop dure à corriger.

Whisper :

  • La transcription est pré-lissée, ce qui élimine une partie des répétitions et réduit le temps de correction.
  • Il n’y a pas trop de contresens ni de problèmes de grammaire et de ponctuation, mais les erreurs peuvent être assez fantaisistes et nécessitent alors une vigilance accrue.
  • Une ou deux fois dans chaque échantillon, la transcription automatique semble halluciner et rajoute un bout de phrase qui n’est pas du tout prononcé.  

Moyenne des trois échantillons

 SpeechmaticsWhisper
Temps de correction avec réécoute812 secondes768 secondes (-5,4%)  
Nombre de révisions245 révisions  169 révisions (-31%)  
transcription automatique entretien comparaison

Conclusion

Pour ce test (sur trois échantillons d’entretiens de dix minutes chacun), la transcription automatique Whisper a toujours été plus rapide à corriger (5,4% plus rapide en moyenne) et a toujours demandé moins de révisions (-31% en moyenne). Pour le français et dans le cadre de la transcription d’un entretien qualitatif, c’est donc la transcription automatique de Whisper qui est la plus performante.

Les chiffres globaux annoncés par Speechmatics du taux d’erreur de mots le plus faible du marché et d’environ 42,4 % d’erreurs en moins par rapport à Whisper ne semblent donc pas se vérifier dans le cadre précis de ce test. Il faut toutefois rappeler que ces chiffres seraient susceptibles de varier fortement avec d’autres langues et pour d’autres types d’enregistrements (réunion, podcast, conférence…).

Whisper est donc une solution de transcription automatique particulièrement performante pour la transcription automatique d’entretiens de recherche. En outre, il s’agit d’un outil gratuit, ce qui lui confère un avantage supplémentaire.

Il faut toutefois rester vigilant à ne pas se fier à la transcription automatique de Whisper seule sans correction, car il semble que Whisper peut inventer des mots ou bouts de phrase qui n’ont pas du tout été prononcés, ce qui peut s’avérer très problématique pour l’analyse du contenu de l’entretien. Il est donc toujours conseillé de corriger la transcription de Whisper au travers d’une réécoute intégrale.

Nhésitez pas à consulter nos tarifs ou nous contacter pour discuter de la transcription de vos entretiens et découvrir comment nous pouvons vous accompagner.

Transcription automatique d’un entretien de recherche, comparatif entre deux solutions de transcription automatique : Speechmatics et Whisper
Taggé sur :    

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *