Wie Musik-Apps wie Shazam und Soundhound sich hervorragend zum Identifizieren von Musik eignen

Seit seiner Gründung im Jahr 1999 wurde Shazam mehr als fünfzig Milliarden Mal verwendet, um Songs zu identifizieren, Soundhound-IDs, MusicIDs und andere Tonerkennungsanwendungen nicht mitgezählt.

Aus Benutzersicht ist das ganz einfach: App starten, Knopf drücken und den Song auf dem Handy anhören lassen. Nach einigen Sekunden sagt Ihnen die App auch bei Hintergrundgeräuschen und Verzerrungen, um welches Lied es sich handelt. Es funktioniert so schnell und so gut, dass es sich fast magisch anfühlt – aber wie bei den meisten magischen Dingen heutzutage wird es hauptsächlich von Algorithmen gesteuert.

Index

    Was ist die Idee hinter diesen Anwendungen?

    Wie Musikerkennungs-Apps wie Shazam und Soundhound sich hervorragend zur Identifizierung von Musik eignen.  Sie sind einfach zu bedienen, aber wie sie funktionieren, ist ein Rätsel.

    Shazam, Soundhound und andere Musikidentifikationsdienste funktionieren im Grunde auf die gleiche Weise – sie verfügen über eine große Datenbank mit Songinformationen, einen Algorithmus, der schnell Informationen aus Ihrem Song-Sample extrahieren kann, und eine App, mit der Sie mit diesen Dingen interagieren können. . Technisch benötigen Sie nicht einmal ein Smartphone.

    Shazam war ursprünglich auf alten Mobiltelefonen verwendbar, indem einfach ein Lied aufgenommen und an den Dienst gesendet wurde. Tatsächlich ist Soundhound noch ein paar Schritte gegangen, indem es Ihnen erlaubt, in seiner App zu singen oder zu summen, die einer von Benutzern eingereichten Datenbank anderer Sing- / Brumm-Aufnahmen entspricht.

    Wie arbeiten Sie?

    Wie Musikerkennungs-Apps wie Shazam und Soundhound sich hervorragend zur Identifizierung von Musik eignen.  Sie sind einfach zu bedienen, aber wie sie funktionieren, ist ein Rätsel.

    Vereinfacht sieht der Vorgang so aus:

    1. Die App-Datenbank enthält eine große Sammlung von Song-Fingerabdrücken oder kleinen Daten über die einzigartigen Klangmuster des Songs.
    2. Wenn ein Benutzer die Schaltfläche "Registrieren" drückt, hört die Anwendung Musik und erstellt einen Fingerabdruck basierend auf den wenigen Sekunden des Audios, die sie hört.
    3. Dieser Fingerabdruck wird mit der vorhandenen Fingerabdruckdatenbank verifiziert. Wenn Ihr 10-Sekunden-Fingerabdruck mit einem Teil eines Songs übereinstimmt, erhalten Sie das Ergebnis für den Song (hoffentlich richtig). Ist dies nicht der Fall, erhalten Sie eine Fehlermeldung.

    Wenn Sie nach einer Erklärung auf Oberflächenebene suchen, ist das alles, was Sie wissen müssen. Der wirklich coole Teil ist, wie Sie diesen Fingerabdruck bekommen.

    Fingerabdruck des Liedes

    Wie Musikidentifikations-Apps wie Shazam und Soundhound sich hervorragend zum Identifizieren von Musik eignen.  Sie sind einfach zu bedienen, aber wie sie funktionieren, ist ein Rätsel.

    Alles beginnt mit einem Spektrogramm, wie dem in der obigen Grafik, entnommen aus ein Dokument, geschrieben von einem der Gründer von Shazam, Avery Wang . Dies ist im Wesentlichen ein Diagramm mit der Zeit auf der x-Achse (horizontal), der Frequenz auf der y-Achse (vertikal) und der Amplitude, die durch verschiedene Farbintensitätsstufen dargestellt wird. Jede beliebige Folge von Geräuschen kann in ein Spektrogramm umgewandelt werden und einem beliebigen Punkt im Spektrogramm kann ein Satz von Koordinaten zugewiesen werden. So einfach ist das, Notizen können Zahlen sein.

    Wenn sie nur einige Geräusche zusammenbringen müssten, könnten sie damit aufhören. Wenn Sie jedoch eine Datenbank mit Millionen von Songs untersuchen möchten, enthält ein vollständiges Spektrogramm sowieso zu viele Datenpunkte, um sie sich anzusehen.

    Der große Fortschritt beim Erkennen von Musik war die Erkenntnis, dass Klänge mit wenigen Informationen identifiziert werden können: den Spitzen oder den lautesten Stellen. Das Entfernen der meisten energiearmen Teile eines Songs verringert nicht nur die Größe des Spektrogramms, sondern verringert auch die Wahrscheinlichkeit, dass Anwendungen starke, dumpfe Hintergrundgeräusche als Teil der Zielgeräusche erkennen. Stellen Sie sich eine Skyline einer Stadt vor: Die am besten erkennbaren Teile sind die oberen Teile der Gebäude, nicht die mittleren Stockwerke, und das ist es, was Sie aus der weitesten Entfernung sehen können.

    So wird jede Sekunde jedes Songs auf einige der intensivsten Datenpunkte reduziert; Alles an der Skyline der Stadt ist außer der Spitze entfernt. Aber es ist immer noch nicht effizient genug, um sofort durchsucht werden zu können, also ist der nächste Schritt Hash diese Folge von Peaks . Hashing nimmt einfach eine Reihe von Eingaben, führt sie durch einen Algorithmus aus und weist ihnen eine ganzzahlige Ausgabe zu. In diesem Fall wird der Hash erzeugt, indem zwei der Spitzen mit hoher Intensität genommen, die Zeit zwischen ihnen gemessen und ihre beiden Frequenzen addiert werden.

    Das Ergebnis ist eine Zahlenfolge, die sich leicht merken und durchsuchen lässt. Wenn ein Computer diesen Hash liest, erkennt er, dass er Frequenz und Zeitabstand darstellt. Sobald alle Peaks des Songs identifiziert und gehasht wurden, ist die Transformation abgeschlossen - der Song hat jetzt eine eindeutige 32-Bit-Nummer, die als ID in der Datenbank dient. Noch wichtiger ist, dass jede Sekunde des Songs durch die Zahlen repräsentiert wird.

    Wenn Ihr Telefon Musik hört, folgt es genau diesem Prozess: Es filtert alles außer den höchsten Punkten, reißt sie auseinander und erstellt einen Fingerabdruck für die wenigen Sekunden, die Sie aufgenommen haben. Sobald dies abgeschlossen ist, muss Ihr Telefon nur sehen, wo die übereinstimmenden Zahlenzeichenfolgen in der Datenbank erscheinen, damit es die erkannten Frequenzen und Zeiten mit dem richtigen Lied abgleichen und es in Sekunden an Sie zurückgeben kann.

    Musik und mehr

    Diese Technologie wurde am häufigsten für die Musikerkennung verwendet, aber Tonerkennungsanwendungen können auch mit Filmen, Werbespots, Fernsehsendungen, Vogelstimmen und mehr funktionieren. Shazam und Soundhound sind die bekanntesten, aber jetzt kannst du auch google fragen welches Lied gespielt wird und eine genaue Antwort erhalten.

    Und wenn Sie sich fragen: "Kennen diese Unternehmen die angeforderten Songs?" Die Antwort ist ja. ”Musikidentifikationsstatistiken haben konnte den Erfolg von Songs und Künstlern mit ziemlich hoher Genauigkeit vorhersagen und große Plattenfirmen wie Warner haben Apps wie Shazam gemietet, um vielversprechende Künstler zu finden. Wenn Sie also einen Künstler unterstützen möchten, können Sie Ihren Teil dazu beitragen und nach seinem Song suchen! Sie können ihnen beim Abheben helfen.

    Schreibe einen Kommentar

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

    Go up

    Diese Website verwendet Cookies, um Ihnen ein besseres Erlebnis beim Surfen auf der Website zu bieten. Lesen Sie mehr über Cookies