30 octobre 2024

Speech To Text : quelles applications pour les questionnaires ?


Data & techno Voir toutes nos actualités

Vous utilisez déjà peut-être le Speech To Text au quotidien, par exemple quand vous dictez un message à l’oral à votre téléphone. Comment cette technologie peut-elle être utilisée pour dynamiser vos enquêtes et faciliter leur analyse ?

Le Speech to Text : comment ça marche ?

Le speech to text consiste à capturer le flux audio d’une réponse et à le retranscrire en texte, permettant une analyse rapide et efficace des données. C’est une technologie qui passionne les chercheurs depuis les années 50 mais qui a énormément évolué ces dernières années.

Jusque dans les années 2000, il existait des systèmes de commandes vocale, principalement utilisés pour de la dictée. Ils étaient basés sur des logiciels installés sur des ordinateurs, et nécessitaient un long entraînement pour comprendre correctement la voix de chaque utilisateur.

Avec l’avènement des réseaux neuronaux et du cloud computing, des technologies comme celles développées par Google, Microsoft, et OpenAI ont permis d’énormes avancées. Les modèles neuronaux comme les Réseaux de Neurones Récurrents (RNN) et plus récemment les Transformers (utilisés par des API comme OpenAI ou Google Cloud) ont significativement amélioré la précision et la fluidité des transcriptions. Ces modèles sont capables de comprendre le contexte, les accents et les variations linguistiques avec une bien meilleure précision.

Ces systèmes sont désormais accessibles via des API cloud, où l’utilisateur peut envoyer un flux audio qui est traité sur des serveurs distants pour produire une transcription quasi-instantanée. Les solutions cloud permettent également de traiter des volumes massifs de données vocales en temps réel, sans nécessiter de grandes capacités de traitement sur l’appareil local.

À lire aussi : Interview : Intelligence Artificielle & Traitement du Langage dans les études

Speech to text et questionnaires : quels sont les cas d’usage ?

La démocratisation des API capables de transformer un flux audio en texte écrit ouvre des perspectives prometteuses pour la collecte de données via des questionnaires.

En effet, partout où l’on demandait auparavant au répondant ou à l’enquêteur de saisir une réponse sous forme de verbatim écrit, on peut dorénavant se contenter d’enregistrer la réponse au format audio !

Pour chaque réponse, un fichier audio est généré et transcrit automatiquement. Pour les personnes en charge de l’analyse des données, le processus est complètement transparent : elles recevront les réponses au format texte, exactement comme pour les réponses aux questions ouvertes utilisées traditionnellement. Et pour aller plus loin dans l’automatisation, le traitement automatique du langage naturel (NLP) reste bien entendu possible.

Chez Gide, nous travaillons sur deux principaux cas d’usage, détaillés ci-dessous.

1 – Répondre à une question ouverte via un “vocal”

La transcription audio est un bon moyen de booster l’engagement et la qualité de la réponse aux questions ouvertes. Au lieu de demander à l’utilisateur de rédiger sa réponse, il suffit d’ajouter un bouton pour lui proposer d’envoyer un “vocal”.

vocal questionnaire

Cette solution a plusieurs avantages :

  • Récolter des réponses plus riches et spontanées

Pour la plupart des répondants, il est beaucoup plus facile de se raconter et de détailler son point de vue à l’oral qu’à l’écrit.

En effet, écrire un commentaire argumenté demande du temps et des efforts. À l’oral, les répondants vont plus facilement donner des détails, raconter des histoires. Les données collectées seront plus riches : idéal lorsque l’on cherche à collecter des données qualitatives. Par exemple, pour une célèbre marque de joaillerie de luxe, nous avons mis en ligne un questionnaire audio dans lequel on demandait à de futures mariées de nous raconter leur parcours d’acheteuse en quête de leur bague de fiançailles.

  • Toucher une cible jeune

Aujourd’hui, les 15-30 ans sont habitués à utiliser le “vocal” au quotidien dans leurs échanges : il a même remplacé le SMS. C’est donc un outil à intégrer à vos enquêtes si vous ciblez cette catégorie d’âge.

  • Proposer un canal de collecte plus inclusif

Si le “vocal” est plébiscité par les jeunes, il est également adapté pour d’autres cibles, notamment celles ayant des difficultés d’écriture (enfants, personnes atteintes de handicap, …) ou de lecture (personnes âgées, malvoyantes, …). Proposer le message audio comme alternative à l’écrit est donc un bon moyen de rendre vos questionnaires plus inclusifs.

À lire aussi : Handicap, illettrisme : 4 exemples de questionnaires accessibles et inclusifs

2 – Faciliter l’analyse des enquêtes multilingues

Lorsqu’une enquête cible un public allophone (parlant une langue étrangère), l’analyse des réponses aux questions ouvertes est souvent problématique.

Chez Gide, nous avons à plusieurs reprises mis en place un système de capture audio dans le cadre d’enquêtes ciblant des publics multilingues (lire cet article pour plus de détails). La transcription automatique, couplée à une traduction automatisée, résout le problème d’analyse des données collectées par ces questionnaires.

questionnaire capmi langues orientales

Et le “Text to Speech” ?

Si les modèles IA permettent de transcrire l’audio en texte, l’inverse est également vrai ! Et les performances de ces outils ne font que s’améliorer. C’est une vraie opportunité pour faciliter le doublage audio des questionnaires.

Jusqu’ici, lorsque l’on voulait mettre en place un questionnaire avec doublage audio des questions (pour les personnes non francophones ou ayant des difficultés de lecture), on pouvait utiliser deux méthodes :

  • Enregistrer les doublages en faisant appel, par exemple, à des acteurs, ce qui représente des délais et des coûts importants ;
  • Utiliser des outils traditionnels de synthèse vocale, qui supportaient mal certaines langues étrangères et présentaient des limites.

Les nouveaux modèles d’IA ont complètement révolutionné ces méthodes. À présent, chez Gide, nous utilisons l’API Speech Studio de Microsoft Azure, qui supporte parfaitement toutes les langues.

 

Le sujet vous intéresse ? Ces technologies innovantes, désormais accessibles à tous, sont autant de pistes pour améliorer vos questionnaires. N’hésitez pas à nous contacter pour que nous vous aidions à les intégrer à vos prochains projets !