Ah? Auch Musik hat „Fingerabdrücke“! So realisieren Sie die Songerkennungsfunktion →

Ah? Auch Musik hat „Fingerabdrücke“! So realisieren Sie die Songerkennungsfunktion →

Diese Erfahrung hat wahrscheinlich jeder schon einmal gemacht.

Eine vertraute Melodie hören

Aber ich kann mich einfach nicht an den Namen des Liedes erinnern

Schalten Sie zu diesem Zeitpunkt die Songerkennungsfunktion ein

Nach einigen Sekunden

Das entsprechende Lied erscheint auf dem Bildschirm.

Wie funktioniert diese Funktion?

Wie kann man den Songtitel in so kurzer Zeit genau identifizieren?

Audio-Fingerabdrücke sind der Schlüssel zur Identifizierung von Songs

Der Schlüssel zum Identifizieren von Liedern durch Anhören liegt im Audio-Fingerprinting. So wie der Fingerabdruck eines Menschen einzigartig ist, hat auch jedes Lied seinen eigenen, einzigartigen Fingerabdruck. Der Audio-Fingerabdruck ist die digitale DNA des Audiosignals. Der Generierungsprozess lässt sich grob in folgende Schritte unterteilen:
Audiosignaldigitalisierung

Der erste Schritt bei der Musikerkennung besteht darin, dem Klang zu „zuhören“. Aber wie „hört“ die Maschine das Lied? Schall ist im Wesentlichen eine Schwingung. Nachdem das menschliche Ohr die Vibration empfangen hat, wandeln das Trommelfell und andere Gewebe diese in ein Signal um, das das Gehirn erkennen kann. Ähnlich verhält es sich mit einer Maschine, die Musik hört. Es wandelt die Schallschwingungen in elektrische Signale um und wandelt diese dann in digitale Signale um, die von Computern verarbeitet werden können.

Der Ton in der realen Welt ist ein analoges Signal, das kontinuierlich ist (wie eine Linie), während das von Computern verarbeitete Signal ein digitales Signal ist, das diskret ist (wie mehrere Punkte). Daher ist es notwendig, die kontinuierliche Tonwellenform durch Abtastung in ein diskretes digitales Signal umzuwandeln . Die Abtastrate bestimmt den Erfassungseffekt des Signals. Je höher die Abtastrate, desto dichter sind die Punkte und desto vollständiger bleibt der Originalklang erhalten .

Das digitalisierte Signal wird nach der Merkmalsextraktion dann zur Extraktion der Klangmerkmale an das Audioverarbeitungsmodul gesendet, einschließlich der Konvertierung vom Zeitbereich in den Frequenzbereich, insbesondere durch Fourier-Transformation (ein mathematischer Transformationsalgorithmus), um das kontinuierliche Audiosignal in Komponenten unterschiedlicher Frequenzen zu zerlegen.

Das Zeitbereichssignal ist die direkteste Form des Klangausdrucks (d. h. die Wellenform, die wir normalerweise in Aufnahmesoftware sehen), während das Frequenzbereichssignal die im Klang enthaltenen Frequenzkomponenten widerspiegeln kann. Nach der Frequenzbereichsanalyse kann das resultierende Spektrogramm die charakteristischen Informationen des Audios visualisieren. Das Spektrogramm zeichnet jede Sekunde die Frequenz und Amplitude des Liedes auf und zeigt uns intuitiv , welche Frequenzen wann im Signal auftreten und wie ihre Stärken zueinander stehen .

Generierung von Audio-Fingerabdrücken

Basierend auf den Merkmalen des Spektrumdiagramms können wir den Audio-Fingerabdruck erhalten. Der Ton wird im Allgemeinen in mehrere kleine Blöcke aufgeteilt und die signifikanten Frequenzspitzen im Ton werden extrahiert. Die Spitzenkombination jedes Fragments bildet den Audio-Fingerabdruck des gesamten Songs .

Normalerweise werden unterschiedliche Frequenzbereiche separat verarbeitet, um eine ausgewogene Analyse von Bässen, Mitten und Höhen zu gewährleisten und so Verwirrungen oder das Übersehen bestimmter musikalischer Elemente zu vermeiden.

Jeder Song wird in einen einzigartigen Audio-Fingerabdruck umgewandelt, sodass selbst verschiedene Versionen desselben Songs aufgrund von Unterschieden in Frequenz, Amplitude und Zeit unterschiedliche Fingerabdrücke erzeugen, um eine möglichst genaue spätere Übereinstimmung zu gewährleisten.

Wenn wir schließlich den „Fingerabdruck“ eines Songs haben, besteht der nächste Schritt darin, in der vorhandenen Songdatenbank einen passenden Fingerabdruck zu finden, um den spezifischen Song zu identifizieren. Die Songerkennungstechnologie wandelt jeden Audio-Fingerabdruck in einen Hashwert (eine Art Code) um, da der direkte Vergleich des Hashwerts viel schneller ist als der Vergleich des gesamten Audios. Die Software vergleicht den Fingerabdruck der Aufnahme des Benutzers mit dem Fingerabdruck-Hashwert in der Datenbank, um passende Songs zu finden.

Andere Verwendungsmöglichkeiten von Audio-Fingerabdrücken

Neben der Identifizierung von Songs kann die Audio-Fingerprint-Technologie auch in folgenden Bereichen eingesetzt werden:

1. Personalisierte Musikempfehlungen

Techniken zur Merkmalsextraktion und zum Abgleich bilden außerdem die Grundlage für personalisierte Musikempfehlungen. Das Empfehlungssystem untersucht die Vorlieben der Benutzer anhand von Musikmerkmalen wie Melodie, Rhythmus und Emotion. Dadurch wird nicht nur die Genauigkeit der Empfehlungen verbessert, sondern den Benutzern auch ermöglicht, mehr Musik zu entdecken, die ihrem Geschmack entspricht.

2. Erkennung und Schutz des Urheberrechts

Die Audio-Fingerprint-Technologie kann auch zur Erkennung und zum Schutz von Urheberrechten eingesetzt werden, etwa um festzustellen, ob in der Medienbibliothek Lieder mit gleichem Inhalt vorhanden sind, ob von Benutzern hochgeladene Videos und Audiodateien Urheberrechtsverletzungen darstellen oder ob ein Lied ohne Genehmigung verwendet wird.

3. Überwachung der Audiowiedergabe

Wenn Werbetreibende beispielsweise überwachen müssen, ob Fernseh- oder Radiowerbung pünktlich und in einer bestimmten Häufigkeit ausgestrahlt wird, kann der Radiosender diese Technologie zur Überwachung und Zählung verwenden.

<<:  Sie können nicht anders, als ständig zu essen? Kein Wunder, dass Sie Ihren Mund nicht unter Kontrolle haben! Vielleicht ist dieser Körperteil gebrochen.

>>:  „Xuanwu“ unterstützt Hebeis „Grassland Sky Road“

Artikel empfehlen

Überzeugende „Deep Fakes“, nur um Sie zum Lächeln zu bringen?

Leviathan Press: Persönlich glaube ich, dass Walt...

Wie bauen Teenager Muskeln auf?

Jugendliche müssen darauf achten, dass sie kein M...

Tiefseewarnung! Reden wir über unsere „Angst unter dem Meeresspiegel“

Der blaue Ozean schenkt Seelenfrieden und wir nen...

Drei Tipps, um den „Büro-Hintern“ loszuwerden

Schöne Brüste sind weit verbreitet, aber hübsche ...

So verbessern Sie die Wadenmuskulatur

Jeder Teil des menschlichen Körpers und seine Kra...

Ein Grund reicht aus, um Sie davon zu überzeugen, mehr Taro zu essen!

Wenn es um Taro geht, überkommt bei vielen Mensch...

Diese SMS ist sehr wichtig! Hast du es erhalten?

Es ist die Jahreszeit, in der man Wildpilze isst!...

Entwicklung und disruptive Innovation des 5G-Privatnetzwerkmarktes: Q1 2022

Teilnehmer nehmen Partnerschaften und Strategie e...