Les êtres humains sont généralement doués pour isoler une seule voix dans une foule, mais les ordinateurs ? Pas tant que ça… Demandez par exemple à n’importe qui d’essayer de parler à un haut-parleur intelligent lors d’une fête à la maison.
Toutefois, Google a trouvé une solution étonnamment simple. Ses chercheurs ont mis au point une fonctionnalité basée sur le système du deep learning, qui est capable d’identifier une voix, malgré un brouhaha, rien qu’en observant les mouvements de la bouche d’une personne.
L’équipe a ainsi formé un modèle de réseau neuronal pour reconnaître les gens qui sont en train de parler, puis a créé des « extraits » virtuels (avec bruit de fond) pour enseigner à l’intelligence artificielle comment isoler ces nombreuses voix en des pistes audio distinctes. De ce fait, chaque personne se retrouve avec une piste qui lui est individuellement associé.
Les résultats, comme vous pouvez le voir ci-dessous, sont bluffants. Cela reste efficace, même quand la personne cache partiellement son visage avec sa main ou son microphone.
Google explore actuellement les possibilités d’utiliser cette fonctionnalité pour ses produits Il est potentiellement idéal pour les services de chat vidéo comme Hangouts ou Duo, afin d’isoler les voix lors d’une conversation dans une salle bondée ou un lieu public. Elle permet également d’améliorer la qualité audio des enregistrements, ainsi que les sous-titrages automatiques des vidéos YouTube, souvent perturbées par des bruits de fond.
Il y a toutefois un problème : la protection de la vie privée. Un tel système pourrait, un jour, être utilisé pour écouter une voix dans une foule, en pleine rue et on pourrait ainsi capter des conversations à caractère confidentiel. Rassurez-vous, il ne devrait pas être trop difficile pour Google de limiter la séparation des voix seulement aux personnes qui ont clairement donné leur consentement.