Common Voice : un projet collaboratif pour une meilleure reconnaissance vocale
Où en est-on aujourd’hui dans le secteur de la reconnaissance vocale ? En quoi consiste le projet collaboratif Common Voice et comment y contribuer ? C’est ce que nous avons tenté de savoir, le 28 juin dernier, en recevant au Bureau Ouvert, Sylvestre Ledru et Alexandre Lissy de Mozilla, qui travaillent sur ce projet open source.
Reconnaissance vocale : où en est-on aujourd’hui ?
La reconnaissance vocale est une technique informatique permettant de capter la parole humaine pour la transcrire sous forme d’un texte exploitable par une machine. Jusqu’à peu, le traitement de la voix était quelque chose de très complexe. Le développement depuis quelques années des assistants numériques témoigne de notre appropriation de cette nouvelle technologie.
On en retrouve dans nos smartphones, dans les enceintes connectées comme Alexa ou Google Home. Elle est souvent utilisée dans des contextes où la voix est plus efficace pour communiquer.
En 2016, 20% des recherches sur le Web, principalement sur smartphone, était initiée en parlant au smartphone. En 2020, pas loin de 60% des recherches, seront faites grâce aux assistants numériques.
Aujourd’hui, l’écosystème vocal est entre les mains de 4-5 acteurs, dominé par les géants du Web d’aujourd’hui. Ainsi, l’accès à ce marché est très difficile pour les petits acteurs. L’américain Mozzila, a décidé de se lancer sur ce marché, en se basant sur sa large communauté pour tirer son épingle du jeu en proposant de faire évoluer l’écosystème vocal.
« Common Voice » : un projet collaboratif pour produire des données vocales libres
En réponse à cette concurrence accrue, Mozilla a lancé le projet : « Common Voice ». Son but : aider à apprendre aux machines comment les humains parlent vraiment. Pour élaborer de tels systèmes vocaux, les développeurs ont besoin de vastes échantillons de données vocales, à savoir un texte dit oralement et sa transcription écrite exacte. Mozilla propose donc à chacun de collaborer au projet et, contrairement à ses concurrents, rend public l’ensemble des données collectées.
Le projet s’est fixé deux objectifs. D’une part, casser les barrières de la voix en collectant des données vocales variées prenant en compte les biais de langues, accents, âge, genre, et qualités sonores. D’autre part, atteindre une collecte massive et complète de données ouvertes pour l’apprentissage d’une machine. Aujourd’hui, peu de jeux de données sont publiquement accessibles, seuls certains marchés en sont bien pourvus mais le ticket d’accès est élevé avec en plus diverses complexités légales.
Le saviez-vous ? La plateforme Common Voice utilise les débats de l’Assemblée nationale, qui sont sous licence libre et disponibles en open data.
Comment contribuer ?
- En lisant des phrases que vous propose le site dans la langue de votre choix. Il s’agira de les lires une à une en s’enregistrant, ce qui fournira des données supplémentaires au projet.
- En écoutant des phrases enregistrées par d’autres utilisateurs, et en les validant ou non comme donnée exploitable pour le projet.
- En enrichissant la base avec des jeux de données sous licence libre.
Quelques chiffres sur Common Voice
- 30 langues actives (Anglais, Allemand, Kabyle, Français, Catalan, Breton, Basque, etc.)
- 10 000 heures d’enregistrements nécessaires pour finaliser l’anglais / 5 000 pour le français
- 2 100 heures validées en juin 2019, deux ans après le lancement du projet
- 110 000 contributeurs individuels de 112 pays ont enregistré et/ou validé
- Jeux de données téléchargés des centaines de fois tous les mois
Mozilla et sa communauté
« Notre mission est de s’assurer qu’Internet demeure une ressource publique ouverte et accessible à tous. Un internet qui défend le bien commun, où les individus sont en sécurité et indépendants », commença Sylvestre Ledru pour expliquer quelle est la vision d’Internet que veut porter Mozilla.
Mozilla, c’est une aventure qui a débuté en 1994 par Netscape, qui une fois rachetée par AOL, l’ancêtre de Mozilla en 1998, disparaissait 5 ans plus tard. En 2003, la fondation Mozilla a but non lucratif est lancée, gérant la communauté Mozilla qui développe et publie les produits de l’entreprise en libre d’accès (open source). Les logiciels phares sont, entre autres, le navigateur web Firefox pour ordinateurs et mobiles, le logiciel de courrier Thunderbird, l’OS Firefox Mobile et le gestionnaire de bugs.
Aujourd’hui, Firefox a plus de 500 millions d’utilisateurs et est le seul navigateur majeur, utilisable à la fois sur les ordinateurs et les téléphones, et développé par une fondation à but non lucratif.
Mozilla est engagé pour la préservation de la neutralité du Web. Ainsi, la fondation poursuit actuellement en justice la Federal Communications Commission de Washington après qu’ait été décidé la fin de la neutralité du Web aux Etats-unis.
Selon Alexandre et Sylvestre, « Mozilla ne serait rien sans sa communauté ». Pour illustrer l’importance de la communauté et de sa mobilisation, ils nous ont évoqué le cas de la Kabylie, région d’Algérie disposant de sa propre langue et d’une culture locale forte. Sur le projet Common Voice, il y a une implication très forte de cette communauté avec près de 95 heures déjà collectées pour environ 300 contributeurs actifs. Cette mobilisation importante ne sera que bénéfique pour cette langue et ne doit pas se limiter à cette dernière. En effet, si une langue n’a pas sa reconnaissance vocale dans le futur, elle sera amenée à dépérir dans quelques années.