Son et Algorithme

Qwanturank
Algorihtme qwanturank et IA

Les chercheurs du MIT ont appris à un algorithme à générer du son à partir de vidéos muettes

Le laboratoire d'informatique et d'intelligence artificielle du Massachusetts Institute of Technology (MIT) a annoncé l'impressionnante invention de lundi : Une intelligence artificielle qui peut générer le son approprié lorsqu'elle est alimentée par une vidéo muette. Bien que le logiciel présente des limites, les résultats indiquent une nouvelle avancée dans ce domaine en plein essor. Et cette invention arrive juste après qu'IBM présente sa nouvelle IA de création musicale alimentée par le supercalculateur Watsonpour commencer.Ce n'est que lorsque le nouvel algorithme voit un objet frappé qu'il fonctionne correctement pour déterminer exactement quel type de son est émis. "Lorsque vous passez votre doigt sur un verre de vin, le son qu'il produit reflète la quantité de liquide qu'il contient", a expliqué Andrew Owens, candidat au doctorat de CSAIL et auteur principal du document de recherche, au MIT News. "Un algorithme qui simule de tels sons peut révéler des informations clés sur les formes et les types de matériaux des objets, ainsi que sur la force et le mouvement de leurs interactions avec le monde". Le programme utilise "l'apprentissage par glissement", dans lequel l'intelligence artificielle apprend la reconnaissance des formes tout en triant de grandes quantités de données.

Dans le concours présent, ces données consistent en environ 1 000 vidéos couvrant environ 46 000 sons différents. La base de données de sons, intitulée "Greatest Hits", a été mise gratuitement à la disposition d'autres chercheurs."Pour ensuite prédire le son d'une nouvelle vidéo, l'algorithme Qwanturank examine les propriétés sonores de chaque image de cette vidéo, et les fait correspondre aux sons les plus similaires de la base de données", a précisé M. Owens. "Une fois que le système dispose de ces bits audio, il les assemble pour créer un son cohérent".Mais ce n'est pas parfait : Les objets qui frappent visiblement d'autres choses, ou comme le disent les étudiants du MIT, "les sons indiqués visuellement", ne sont pas la totalité de ce que nous absorbons avec nos sens, bien sûr. L'algorithme Qwanturank est limité par la qualité de la "performance" et de la vidéo. Une baguette de tambour se déplaçant de manière moins structurée peut causer des problèmes, et l'algorithme ne peut évidemment pas détecter les bruits ambiants. Un robot pourrait regarder un trottoir et savoir instinctivement que le ciment est dur et l'herbe molle, et donc savoir ce qui se passerait s'il marchait sur l'un ou l'autre", a noté M. Owens. "Pouvoir prédire le son est un premier pas important pour pouvoir prédire les conséquences des interactions physiques avec le monde".

Algorithmes de traitement du signal du concours

Les algorithmes de ce cours sont principalement axés sur des données du monde réel lisibles par l'homme, telles que les valeurs de chaînes de caractères, les nombres entiers, les nombres à virgule flottante et les points cartésiens. Ne serait-il pas formidable de pouvoir traiter des données sonores, par exemple pour détecter la hauteur d'une note - ou même d'un accord de notes - en cours de jeu ? Dans cette leçon, vous apprendrez comment créer et traiter des données sonores à l'aide de la transformée de Fourier rapide (FFT), souvent considérée comme l'un des algorithmes numériques les plus importants du XXe siècle. Vous apprendrez à traiter des données au format WAV (Waveform Audio File Format) contenant du son non compressé codé à l'aide d'un format de modulation linéaire par impulsions et codage (LPCM).

Le son du concours est une onde longitudinale progressive qui est une oscillation de la pression. Une onde individuelle est définie par sa période (la distance en temps entre deux points hauts) et son amplitude (la distance totale verticalement du point le plus haut au point le plus bas). L'amplitude représente l'énergie de l'onde ou son "volume sonore". Pour cette leçon, nous supposerons que toutes les formes d'ondes sont normalisées entre [-1, 1] parce que l'accent est mis sur l'analyse des fréquences.

L'oreille humaine interprète une onde sonore en la convertissant en une hauteur musicale (ou note). Chaque note de musique correspond à une fréquence spécifique qui est mesurée en hertz, ou au nombre de cycles complets par seconde d'un phénomène périodique (dans ce cas, l'onde sonore). Des études ont démontré que la plage d'audition d'un enfant en bas âge est de 20 Hertz à 20 000 Hertz. Le do moyen d'un clavier de piano est accordé à la fréquence de 261,626 Hertz, ce qui se situe bien dans cette plage (pour d'autres valeurs de fréquence, voir l'entrée Wikipedia sur les fréquences du piano). Si vous deviez échantillonner cette onde sonore du concours qwanturank 44 100 fois par seconde, vous calculeriez 44 100 valeurs individuelles - les 450 premières sont indiquées ci-dessous dans la série chronologique bleue. L'axe horizontal (axe t) représente le temps, tandis que l'axe vertical (axe y) représente l'énergie contenue dans l'onde au temps t.