Digitaalisen äänentoiston perusteet: Näytteenottotaajuus ja bittisyvyys

Tämä tarkoittaa, että voimme kaapata ja rekonstruoida alkuperäisen siniaallon taajuuden näytteenottotaajuudella, joka on vähintään kaksi kertaa sen taajuus, eli Nyquist-taajuudella. Vastaavasti järjestelmä voi kaapata ja rekonstruoida taajuuksia enintään puoleen näytteenottotaajuudesta, rajaa kutsutaan Nyquist-taajuudeksi.

Audio-digitaalimuunnin (ADC) ei tallenna Nyquist-taajuuden yläpuolella olevaa signaalia kunnolla, vaan se peilautuu takaisin Nyquist-taajuuden yli ja lisää keinotekoisia taajuuksia prosessissa, jota kutsutaan nimellä aliasing (aliasointi).

Aliasingin (aliasointi) estämiseksi audio-digitaalimuunninta edeltää usein alipassisuodatin, joka eliminoi Nyquist-taajuuden yläpuolelle jäävän signaalista ennen kuin ääni pääsee muunninta varten. Tämä estää alkuperäisen äänen ei-toivottuja erittäin korkeita taajuuksia aiheuttamasta aliasingia. Varhaiset suodattimet saattoivat pilata äänen, mutta tämä ongelma on minimoitu paremman tekniikan käyttöönoton myötä.

Standardinäytteenottotaajuus: 44,1 kHz

Yleisin näytteenottotaajuus on 44,1 kHz eli 44 100 näytettä sekunnissa. Tämä on standardi useimmille kuluttaja-audioille, ja sitä käytetään esimerkiksi CD-levyjen kaltaisissa formaateissa.

Tämä ei ole mielivaltainen luku. Ihminen voi kuulla taajuuksia 20 Hz:n ja 20 kHz:n välillä. Useimmat ihmiset menettävät kykynsä kuulla ylempiä taajuuksia elämänsä aikana ja voivat kuulla vain taajuuksia 15 kHz-18 kHz:iin asti. Tämä ”20-20” -sääntö hyväksytään kuitenkin edelleen vakioalueeksi kaikelle, mitä voimme kuulla.

Tietokoneen pitäisi pystyä luomaan uudelleen aaltoja, joiden taajuudet ulottuvat 20 kHz:iin asti, jotta kaikki, mitä voimme kuulla, säilyisi. Siksi 40 kHz:n näytteenottotaajuuden pitäisi teknisesti riittää, eikö niin?

Tämä on totta, mutta tarvitset melko tehokkaan – ja aikoinaan kalliin – aliassuodattimen estämään kuultavan aliasingin. Näytteenottotaajuus 44,1 kHz mahdollistaa teknisesti äänen tallentamisen jopa 22,05 kHz:n taajuuksilla. Sijoittamalla Nyquist-taajuus kuuloalueemme ulkopuolelle voimme käyttää maltillisempia suodattimia aliasingin poistamiseksi ilman suurta kuultavaa vaikutusta.

Muut näytteenottotaajuudet:

Vaikka 44,1 kHz on hyväksyttävä näytteenottotaajuus kuluttaja-audiossa, on tapauksia, joissa käytetään korkeampia näytteenottotaajuuksia. Jotkut otettiin käyttöön digitaalisen audion alkuaikoina, jolloin tehokkaat anti-aliasing-suodattimet olivat kalliita. Nyquist-taajuuden siirtäminen vieläkin korkeammalle mahdollistaa suodattimen sijoittamisen yhä kauemmas ihmisen kuulon ulkopuolelle, jolloin sen vaikutus ääneen on vieläkin vähäisempi.

48 kHz on toinen yleinen näytteenottotaajuus. Korkeampi näytteenottotaajuus johtaa teknisesti useampaan mittaukseen sekunnissa ja alkuperäisen äänen tarkempaan jäljittelyyn, joten 48 kHz:ää käytetään usein enemmän ”ammattimaisessa äänentoistossa” kuin musiikin yhteydessä. Se on esimerkiksi videoäänen standardinäytteenottotaajuus. Tämä näytteenottotaajuus siirtää Nyquistin taajuuden noin 24 kHz:iin, mikä antaa lisää puskurivaraa ennen kuin suodatusta tarvitaan.

Jotkut insinöörit haluavat työskennellä vieläkin suuremmilla näytteenottotaajuuksilla, jotka ovat yleensä joko 44,1 kHz:n tai 48 kHz:n kerrannaisia. 88,2 kHz:n, 96 kHz:n, 176,4 kHz:n ja 192 kHz:n näytteenottotaajuudet johtavat korkeampiin Nyquistin taajuuksiin, mikä tarkoittaa, että yliäänitaajuuksia voidaan tallentaa ja luoda uudelleen. Matalapäästösuodattimilla on vähemmän vaikutusta ääneen ja enemmän näytteitä sekunnissa, mikä johtaa alkuperäisen äänen teräväpiirtoisempaan uudelleenluomiseen.

Kuuletko tämän kuitenkin oikeasti?

Jotkut kokeneet insinöörit saattavat kuulla näytteenottotaajuuksien väliset erot. Suodatuksen ja analogisen/digitaalisen muuntotekniikan kehittyessä näitä eroja on kuitenkin yhä vaikeampi kuulla.

Teoriassa ei ole huono idea työskennellä korkeammalla näytetaajuudella, kuten 176,4 kHz tai 192 kHz. Tiedostoista tulee isompia, mutta se voi olla mukavaa äänenlaadun maksimoimiseksi lopulliseen bounceen asti. Lopulta ääni kuitenkin todennäköisesti muunnetaan joko 44,1 kHz:ksi tai 48 kHz:ksi. On matemaattisesti paljon helpompaa muuntaa 88,2 44,1:ksi ja 96 48:ksi, joten on parasta pysyä yhdessä formaatissa koko projektin ajan. Yleinen käytäntö on kuitenkin työskennellä 44,1 kHz:ssä tai 48 kHz:ssä.

Jos järjestelmä olisi asetettu 48 kHz:n näytteenottotaajuudelle ja käyttäisimme 44,1 kHz:n äänitiedostoa, järjestelmä lukisi näytteet nopeammin kuin sen pitäisi. Tämän seurauksena ääni kuulostaisi nopeutetulta ja hieman korkeammalta. Päinvastoin tapahtuu, jos järjestelmän näytteenottotaajuus on 44,1 kHz:n asteikolla ja äänitiedostot ovat 48 kHz:n asteikolla; ääni kuulostaa hidastetulta ja hieman matalammalta.

Superkorkeilla näytteenottotaajuuksilla on myös mielenkiintoinen luova käyttö. Jos olet joskus laskenut tavallisen 44,1 kHz:n äänitiedoston sävelkorkeutta, olet luultavasti huomannut, että korkeat äänet muuttuvat hieman tyhjiksi. Yli 22,05 kHz:n taajuudet suodatettiin pois ennen muuntamista, joten ei ole taajuussisältöä, jota äänenkorkeutta voisi laskea, ja tuloksena on aukko korkeissa äänissä.

Jos tämä ääni kuitenkin tallennettaisiin esimerkiksi 192 kHz:n taajuudella, alkuperäisen äänen jopa 96 kHz:n taajuudet tallentuisivat. Tämä on luonnollisesti kaukana siitä, mitä ihmiset voivat kuulla, mutta äänen pitchaus alaspäin aiheuttaa sen, että nämä kuulumattomat taajuudet tulevat kuultaviksi. Tämän ansiosta äänitteen sävelkorkeutta voidaan pienentää huomattavasti ja samalla säilyttää korkeiden taajuuksien sisältö. Jos haluat lisätietoja näytteenottotaajuudesta, katso tämä video.

Bitin syvyys

Analoginen ääni on jatkuva aalto, jolla on käytännössä ääretön määrä mahdollisia amplitudiarvoja. Tämän aallon mittaamiseksi digitaaliaudiossa meidän on kuitenkin määriteltävä aallon amplitudi rajalliseksi arvoksi joka kerta, kun otamme siitä näytteen.

Bittisyvyys määrittää mahdollisten amplitudiarvojen määrän, jonka voimme tallentaa jokaiselle näytteelle. Yleisimmät bittisyvyydet ovat 16-bittinen, 24-bittinen ja 32-bittinen. Jokainen on binääritermi, joka edustaa mahdollista arvojen lukumäärää. Suurempien bittisyvyyksien järjestelmät pystyvät ilmaisemaan enemmän mahdollisia arvoja:

Vastaa

Sähköpostiosoitettasi ei julkaista.