Des millions de personnes utilisent quotidiennement des outils comme Siri et Alexa, basés sur l'intelligence artificielle (IA). Malgré leur usage répandu, la manière dont ces outils comprennent et traitent la parole reste largement cachée. Une équipe de chercheurs de l'Université Laval, de l'Université Concordia et de l'Institut québécois d'intelligence artificielle Mila ont conçu une approche basée sur l'IA pour reconstruire le processus de compréhension et de prise de décision de ces assistants vocaux.
L'approche, appelée L-MAC (Listenable Maps for Audio Classifiers), met en évidence les éléments cruciaux du son qui ont influencé le traitement de l'outil. «Essentiellement, on vise à savoir comment et pourquoi les classificateurs audio prennent leurs décisions», explique Cem Subakan, professeur à la Faculté des sciences et de génie de l'Université Laval.
Par exemple, si l'assistant vocal entend des bruits concomitants, comme un bébé qui pleure et un chien qui jappe, L-MAC sera en mesure d'identifier quel son a été retenu par le classificateur audio.
Grâce à l'outil développé émerge une meilleure compréhension des systèmes, ce qui se traduit par une plus grande transparence et, conséquemment, une plus grande confiance des utilisateurs. Cette approche d'explicabilité est de plus en plus nécessaire, notamment dans le domaine de la santé, où les décisions prises par l'IA peuvent avoir des répercussions réelles pour les individus.
«Il faut être en mesure de comprendre ce qui se passe dans la boîte noire. Notre approche démontre qu'il est possible d'expliquer, de manière fidèle, audible et transparente, les procédés effectués par le classificateur audio», explique Cem Subakan, également chercheur membre de Mila et de l'Institut intelligence et données.
Les chercheurs ont présenté leur outil à l'occasion de la 41e International Conference on Machine Learning à Vienne, en Autriche. L’équipe de recherche a aussi mis en ligne plusieurs exemples d’usage.