PixelPlayer ist ein System, das lernt, Klänge, die einzelnen Bildbereichen in Videos zugeordnet sind, zu lokalisieren.
Die Eingangsklänge des gesamten Videos werden in eine Reihe von Komponenten getrennt, die den Ton von jedem Pixel repräsentieren. Trainiert wird das System mit einer großen Anzahl von Videos, in denen Personen verschiedene Instrumente spielen. Dabei wird nicht kontrolliert, welche Instrumente in den einzelnen Videos vorhanden sind, wo sie sich befinden und wie sie klingen. Klicken Sie im rechten Video auf verschiedene Positionen, um die entsprechenden Klänge im ausgewählten Bereich im Bild zu hören. Auf der linken Seite steht Ihnen das Originalvideo zur Verfügung.
Credits: Computer Science and Artificial Intelligence Laboratory, and Department of Brain and Cognitive Sciences, Massachusetts Institute of Technology (MIT): Hang Zhao, Chuang Gan, Andrew Rouditchenko, Carl Vondrick, Josh McDermott, Antonio Torralba