Shazamia on perustettu vuonna 1999 lähtien yli viisikymmentä miljardia kertaa kappaleiden tunnistamiseen, eikä edes lasketa Soundhoundin, MusicID: n ja muiden äänentunnistussovellusten tunnuksia.
Käyttäjän näkökulmasta se on yksinkertaista: Käynnistä sovellus, paina painiketta ja anna puhelimesi kuunnella kappaletta. Muutaman sekunnin kuluttua, vaikka taustamelu ja vääristymät, sovellus kertoo sinulle, mikä kappale on. Se toimii niin nopeasti ja niin hyvin, että se näyttää melkein taikuudelta – mutta kuten useimmissa maagisissa asioissa nykyäänkin, sitä ohjaavat enimmäkseen algoritmit.
Mikä on näiden sovellusten idea?
Shazam, Soundhound ja muut musiikin tunnistuspalvelut toimivat periaatteessa samalla tavalla: heillä on iso kappaletietokanta, algoritmi, joka voi nopeasti poimia tietoja kappaleesi näytteestä, ja sovellus, jonka avulla voit olla yhteydessä näihin asioihin. Teknisesti et tarvitse edes älypuhelinta.
Shazam oli alun perin käyttökelpoinen vanhanaikaisissa läppäpuhelimissa vain nauhoittamalla kappaleen ja lähettämällä sille tekstiviestin palveluun. Soundhound on itse asiassa mennyt muutama askel eteenpäin antamalla sinulle myös mahdollisuuden laulaa tai humista heidän sovelluksessaan, jonka he vastaavat käyttäjän lähettämään tietokantaan muista laulu- / humina-äänitteistä.
Kuinka ne toimivat?
Yksinkertaisesti sanottuna prosessi näyttää tältä:
- Sovelluksen tietokannassa on valtava kokoelma kappaleen ”sormenjälkiä” tai pieniä tietoja kappaleen ainutlaatuisista äänimalleista.
- Kun käyttäjä osuu ”Tallenna” -painikkeeseen, sovellus kuuntelee musiikkia ja luo sormenjäljen kuulemansa muutaman sekunnin äänen perusteella.
- Tätä sormenjälkeä verrataan olemassa olevien sormenjälkien tietokantaan. Jos kymmenen sekunnin sormenjälkesi vastaa osaa kappaleesta, saat (toivottavasti oikean) kappalesi tuloksen. Jos se ei ole, saat virheilmoituksen takaisin.
Jos etsit vain pintatason selitystä, se on kaikki mitä sinun tarvitsee tietää. Todella mielenkiintoinen osa on, kuinka saat tosiasiallisesti sormenjäljen.
Laulun sormenjäljet
Kaikki alkaa spektrogrammista, kuten yllä olevassa kaaviossa, otettu Shazamin perustajien, Avery Wangin kirjoittama paperi. Tämä on pohjimmiltaan kaavio, jossa on aika x-akselilla (vaakasuora), taajuus y-akselilla (pystysuora) ja amplitudi, jota edustavat eri värin voimakkuustasot. Mikä tahansa äänijärjestys voidaan siten muuntaa spektrogrammiksi, ja mille tahansa spektrogrammin pisteelle voidaan antaa joukko koordinaatteja. Aivan kuten, muistiinpanot voivat olla numeroita.
Jos sinun tarvitsi vain sovittaa muutama ääni toisiinsa, voit pysähtyä täällä. Jos kuitenkin haluat etsiä miljoonia kappaleita täynnä olevan tietokannan läpi, täydessä yksityiskohdassa olevalla spektrogrammilla on aivan liian monta datapistettä katsomaan läpi millä tahansa nopeudella.
Suuri läpimurto musiikin tunnistamisessa oli oivallus siitä, että äänet voidaan tunnistaa vain muutamalla datalla: huipuilla tai voimakkaimmilla osilla. Paitsi että suurin osa kappaleen energiatehokkaimmista osista päästä eroon, spektrogrammin koko pienenee, mutta se tekee sovelluksista vähemmän alttiita tunnistamaan tylsää, tasaista taustamelua osana kohdeääntä. Kuvittele kaupungin horisontti – tunnistettavimmat osat ovat rakennusten yläosat, ei keskikerrokset, ja se on mitä näet kauimpana.
Joten jokaisen kappaleen jokainen sekunti riisutaan vain muutamaan kaikkein voimakkaimmista datapisteistä; kaikki kaupungin siluetista poistetaan, paitsi sen yläosaa. Mutta se ei silti ole tarpeeksi tehokasta, jotta se olisi heti haettavissa, joten seuraava askel on ”Hajauttaa” tämän piikkisekvenssin. Hajautus yksinkertaisesti ottaa joukon syötteitä, suorittaa ne algoritmin läpi ja osoittaa heille kokonaislähdön. Tässä tapauksessa hajautus muodostetaan ottamalla kaksi korkean intensiteetin huippua, mittaamalla niiden välinen aika ja lisäämällä niiden kaksi taajuutta yhteen.
Tuloksena on numerosarja, helppo tallentaa ja hakea. Kun tietokone lukee tämän tiivisteen, se tunnistaa ne edustavan taajuutta ja aikaetäisyyttä. Kun kaikki kappaleen huiput on tunnistettu ja hajautettu, muutos on valmis: Kappaleella on nyt ainutlaatuinen 32-bittinen numero, joka toimii sen tunnuksena tietokannassa. Vielä tärkeämpää on, että jokainen kappaleen kappale edustaa numeroita.
Kun puhelimesi kuulee musiikkia, se käy läpi tämän tarkan prosessin: se suodattaa kaiken paitsi korkeimmat pisteet, hajauttaa ne ja luo sormenjäljen muutamalle sekunnille, jonka se on tallentanut. Kun tämä on valmis, puhelimesi tarvitsee vain nähdä, missä vastaavat numerosarjat näkyvät tietokannassa, jolloin se voi sovittaa havaitut taajuudet ja ajoituksen oikeaan kappaleeseen ja palauttaa sen sinulle sekunneissa.
Musiikki ja paljon muuta
Tätä tekniikkaa on käytetty eniten musiikin tunnistamiseen, mutta äänentunnistussovellukset voivat toimia myös elokuvien, mainosten, TV-ohjelmien, lintulaulujen ja muun kanssa. Shazam ja Soundhound ovat tunnetuimpia, mutta voit myös kysyä Googlelta mitä kappaletta soi ja saat tarkan vastauksen.
Ja jos mietit, seuraavatkö nämä yritykset, mistä kappaleista kysytään? vastaus on kyllä.” Musiikin tunnistustilastoilla on tosiasiallisesti pystynyt ennustamaan kappaleiden ja artistien menestyksen melko korkealla tarkkuudella, ja suuret levy-yhtiöt, kuten Warner, ovat sopineet Shazamin kaltaisista sovelluksista auttaakseen löytämään uusia ja tulevia artisteja. Joten, jos haluat tukea taiteilijaa, voit myös tehdä oman osasi ja etsiä heidän laulunsa! Voit vain auttaa heitä nousemaan.