Le Data61 de CSIRO développe une technique de détection de la voix pour empêcher les attaques d'usurpation de la voix
Le Data61 de CSIRO (Commonwealth Scientific and Industrial Research Organisation), en collaboration avec Samsung Research et l'Université de Sungkyunkwan en Corée du Sud, ont développé une solution pour protéger les consommateurs contre les attaques d'usurpation de la voix.
La détection de la vivacité de la voix (Void) a été conçue pour être intégrée dans un smartphone ou un logiciel d'assistance vocale pour identifier la différence entre une voix humaine en direct et une voix rejouée via un haut-parleur pour détecter lorsque des pirates tentent d'usurper un système.
Selon Data61, contrairement à d'autres techniques d'usurpation de la voix qui utilisent des modèles d'apprentissage en profondeur, Void s'appuie sur les informations des spectrogrammes, une représentation visuelle du spectre des fréquences pour détecter la «vivacité» d'une voix.
Muhammad Ejaz Ahmed, chercheur sur la cybersécurité Data61 au CSIRO, a expliqué comment les attaques d'usurpation sont de plus en plus courantes à mesure que les technologies vocales sont utilisées pour magasiner en ligne, passer des appels téléphoniques, envoyer des messages, contrôler des appareils électroménagers intelligents et accéder aux services bancaires.
"Bien que l'usurpation de la voix soit connue comme l'une des attaques les plus faciles à effectuer car elle implique simplement un enregistrement de la voix de la victime, elle est incroyablement difficile à détecter car la voix enregistrée a des caractéristiques similaires à la voix live de la victime", a-t-il déclaré.
"Void est une technologie révolutionnaire qui permet une détection plus efficace et plus précise, ce qui permet d'éviter que les commandes vocales des utilisateurs soient utilisées à mauvais escient."
Dans le cadre du développement de Void, la technique a été testée à l'aide d'ensembles de données dépersonnalisés de Samsung et de défis de vérification automatique de l'enceinte et de contre-mesures, que Data61 espérait avoir atteint une précision de 99% et 94% pour chaque ensemble de données, et était capable de détecter des attaques huit fois plus rapide que les méthodes d'apprentissage en profondeur.
Les résultats des tests ont été publiés dans un document de recherche intitulé Void: A fast and light voice viveness detection system, qui sera présenté lors d'une conférence sur la sécurité en Août 2020.
La Rédaction Africa CyberSecurity Mag