Le point sur les techniques de reconnaissance vocale avec Olivier Vénéri, ingénieur chez Voxler

Posted on janvier 18, 2011

0



J’ai le plaisir de vous présenter aujourd’hui un ami de longue date, Olivier Vénéri, avec lesquel j’ai fait mes classes au sein du DESS jeux vidéo et médias interactifs option design sonore du CNAM (devenu depuis ENJMIN). Olivier s’est très tôt passionné pour l’informatique musicale : en maitrise, sous la direction de Marc Battier, il a écrit un mémoire ayant pour thème la notion de « station de travail musical », de la 4X de l’IRCAM à nos jours. Il a poursuivi son travail en thèse sur les middlewares audio (tels Wwise ou FMOD), c’est à dire les outils logiciels de création, de gestion et d’intégration audio pour les créateurs vidéo-ludiques . Il travaille aujourd’hui chez Voxler, société créée par des transfuges de l’IRCAM et consacrée aux techniques de reconnaissance vocale dans leurs utilisations digitales. Olivier, de par son cursus atypique, peut s’enthousiasmer pour des sujets aussi divers que les litanies à la vierge noire de Poulenc, l’héritage en diamant (en programmation, rien à voir avec Liliane B.) ou un solo de guitare de Zack Wylde. Il nous parle aujourd’hui des technologies qu’il contribue à façonner au sein de Voxler. Les designers sonores peuvent être confrontés tôt ou tard aux techniques de reconnaissance vocale dont il est question. Olivier nous en livre quelques clés.

Quelles sont les grandes étapes de ton parcours ?

J’ai commencé mes études supérieurs par des études de musicologies à l’université, ainsi qu’un cursus au conservatoire où j’ai étudié la guitare classique. Je me suis ensuite rapproché progressivement de l’informatique que je pratiquais en autodidacte jusque là. Pour cela j’ai fait l’ENJMIN à Angoulême et le master MOCS au CNAM Paris qui m’ont permit de faire de l’informatique ma discipline majeure. J’ai conclu ce parcours par une thèse en informatique dont le sujet était les outils de création sonore pour le jeu vidéo. Ce travail de thèse m’a permis d’acquérir une solide connaissance en ce qui concerne la création de middleware pour le jeu vidéo, car j’ai eu la chance de participer au projet de middleware PlayAll, ce qui m’a permis de pouvoir intégrer une partie de mon travail de thèse dans un cadre industriel.

En quoi consiste ton travail actuel chez Voxler ? Quelle est la particularité de cette société ?

Je suis ingénieur R&D chez Voxler. Je m’occupe d’une part du portage des technologies de la société sur les plateformes de jeu actuelles (PS3, Xbox360, Wii) ainsi que de la création de jeux musicaux sur ces mêmes plateformes.

Que sait-on aujourd’hui faire en matière de reconnaissance vocale ?

On sait aujourd’hui extraire de la voix différents paramètres élémentaires tels que la hauteur, la qualité mais aussi des aspects plus haut niveau, liée à la phonétique, comme la présence de phonèmes, de plosives et même des indications sur la prosodie. A un niveau encore supérieur on sait aussi reconnaître des mots et des phrases.

Quelles sont les différents champs d’application de ces techniques ?

Les champs d’applications sont vraiment larges ; de l’industrie automobile jusqu’à l’armée en passant par la téléphonie mobile. Ici à Voxler nous utilisons essentiellement ces techniques dans un cadre vidéo-ludique.

Lesquelles de ces technologies sont déjà utilisées dans le jeu vidéo et comment ?

On utilise d’une part dans les jeux musicaux du style SingStar l’extraction de paramètres afin d’évaluer la prestation vocale du joueur. Et d’autre part la reconnaissance de mots pour contrôler vocalement des éléments d’interfaces ou des entités de jeux, par exemple le placement des unités dans un jeu de stratégie temps réel.

Quelle est selon toi la plus prometteuse et pourquoi ?

Je pense que les techniques liées à la reconnaissance de la voix parlée ont un fort potentiel car on se dirige de plus en plus vers des applications mettant en avant des modalités de communication plus naturelle.

Quelle place va être amenée à jouer la voix dans l’interaction avec un système, à l’heure où les interfaces des consoles se dématérialisent (ex : Kinekt, etc…) ?

Cette place va être essentielle car la voix est une modalité de communication que tout le monde maîtrise. Elle va nous permettre de pouvoir interagir avec les système de jeu de manière plus naturelle et plus spontanée je pense. Plutôt que de naviguer dans des menus à l’aide d’une manette de jeu, on peut maintenant envisager d’utiliser la voix pour réaliser cette tâche. Ceci pose toutefois de nouveaux challenges en terme de design et d’ergonomie d’interface utilisateur.

Peux tu nous citer des jeux qui ont réussi à intégrer certaines de ces technologies de façon convaincante et nous dire pourquoi ?

L’exemple que je peux te donner est « SingStar » dans lequel il est possible de sélectionner les chansons que l’on souhaite jouer en les appelant. Cette intégration bien réussie selon moi répond à un vrai besoin : il est enfin possible de sélectionner rapidement une chanson sans avoir à parcourir le catalogue avec la manette, ce qui peux être fastidieux vu le nombre de titres présents dans ces applications, en particulier  depuis l’apparition des contenus additionnelles téléchargeables.

Quelle est la question essentielle que j’ai oublié de te poser ;-) ?

Quelle est ta guitare préférée ?


Publicités
Posted in: Futur, Jeu Vidéo