Dit betekent dat we de frequentie van de oorspronkelijke sinusgolf kunnen opvangen en reconstrueren met een sample rate van minstens tweemaal de frequentie, een rate die de Nyquist rate wordt genoemd. Omgekeerd kan een systeem frequenties tot de helft van de samplefrequentie vastleggen en reconstrueren, een limiet die de Nyquist-frequentie wordt genoemd.
Signaal boven de Nyquist-frequentie wordt door audio-naar-digitaal-omzetters (ADC’s) niet goed opgenomen, waardoor het over de Nyquist-frequentie wordt teruggekaatst en kunstmatige frequenties introduceert in een proces dat aliasing wordt genoemd.
Om aliasing te voorkomen, worden audio-naar-digitaal-omzetters vaak voorafgegaan door laagdoorlaatfilters die frequenties boven de Nyquist-frequentie elimineren voordat audio de omzetters bereikt. Zo wordt voorkomen dat ongewenste superhoge frequenties in de oorspronkelijke audio aliasing veroorzaken. Vroege filters konden de audio besmetten, maar dit probleem wordt geminimaliseerd naarmate betere technologie wordt geïntroduceerd.
Standaard sample rate: 44,1 kHz
De meest voorkomende sample rate die je tegenkomt is 44,1 kHz, oftewel 44.100 samples per seconde. Dit is de standaard voor de meeste consumentenaudio, gebruikt voor formaten als cd’s.
Dit is geen willekeurig getal. Mensen kunnen frequenties horen tussen 20 Hz en 20 kHz. De meeste mensen verliezen in de loop van hun leven hun vermogen om de hogere frequenties te horen en kunnen alleen nog frequenties tot 15 kHz-18 kHz horen. Deze “20-20” regel wordt echter nog steeds aanvaard als het standaardbereik voor alles wat we zouden kunnen horen.
De computer moet in staat zijn golven met frequenties tot 20 kHz na te bootsen om alles wat we kunnen horen te behouden. Daarom zou een sample rate van 40 kHz technisch gezien voldoende moeten zijn, toch?
Dit is waar, maar je hebt een behoorlijk krachtig – en ooit duur – laagdoorlaatfilter nodig om hoorbare aliasing te voorkomen. De bemonsteringsfrequentie van 44,1 kHz maakt het technisch mogelijk om geluid met frequenties tot 22,05 kHz op te nemen. Door de Nyquist-frequentie buiten ons gehoorbereik te plaatsen, kunnen we gematigdere filters gebruiken om aliasing te elimineren zonder veel hoorbaar effect.
Andere sample rates: 48 kHz, 88,2 kHz, 96 kHz, enz.
Weliswaar is 44,1 kHz een acceptabele sample rate voor consumentenaudio, maar er zijn gevallen waarin hogere sample rates worden gebruikt. Sommige zijn geïntroduceerd in de begindagen van digitale audio, toen krachtige anti-aliasing filters duur waren. Door de Nyquist-frequentie nog hoger te maken, kunnen we het filter steeds verder buiten het menselijk gehoor plaatsen, waardoor het geluid nog minder wordt beïnvloed.
48 kHz is een andere veelgebruikte bemonsteringsfrequentie. De hogere bemonsteringsfrequentie leidt technisch tot meer metingen per seconde en een nauwere recreatie van de originele audio, dus 48 kHz wordt vaak gebruikt in “professionele audio” contexten meer dan muziek contexten. Het is bijvoorbeeld de standaard samplefrequentie in audio voor video. Deze bemonsteringsfrequentie verplaatst de Nyquist frequentie naar ongeveer 24 kHz, wat meer bufferruimte geeft voordat filtering nodig is.
Sommige ingenieurs kiezen ervoor om met nog hogere bemonsteringsfrequenties te werken, die meestal veelvouden zijn van 44,1 kHz of 48 kHz. Sample rates van 88,2 kHz, 96 kHz, 176,4 kHz en 192 kHz resulteren in hogere Nyquist frequenties, wat betekent dat supersonische frequenties kunnen worden opgenomen en gerecreëerd. Laagdoorlaatfilters hebben minder invloed op het geluid en meer samples per seconde, wat resulteert in een meer high-definition recreatie van de originele audio.
Kan je dit echt horen?
Sommige ervaren ingenieurs kunnen misschien verschillen horen tussen sample rates. Maar naarmate de filter- en analoog/digitaal-conversietechnologieën verbeteren, wordt het moeilijker om deze verschillen te horen.
In theorie is het geen slecht idee om in een hogere sample-rate te werken, zoals 176,4 kHz of 192 kHz. De bestanden zullen groter zijn, maar het kan mooi zijn om de geluidskwaliteit te maximaliseren tot de uiteindelijke bounce. Uiteindelijk zal de audio echter waarschijnlijk worden geconverteerd naar 44,1 kHz of 48 kHz. Het is mathematisch veel eenvoudiger om 88.2 naar 44.1 en 96 naar 48 om te zetten, dus het is het beste om voor het hele project in één formaat te blijven. Het is echter gebruikelijk om in 44.1 kHz of 48 kHz te werken.
Als het systeem was ingesteld op een sample-rate van 48 kHz en we gebruikten een 44.1 kHz audiobestand, dan zou het systeem de samples sneller lezen dan het zou moeten. Als gevolg daarvan zou de audio versneld klinken en iets hoger klinken. Het omgekeerde gebeurt als de sample-rate van het systeem op de 44,1 kHz-schaal ligt en de audiobestanden op de 48 kHz-schaal; de audio klinkt dan langzamer en iets lager.
Superhoge sample-rates hebben ook een interessant creatief nut. Als je ooit de toonhoogte van een standaard 44,1 kHz audiobestand hebt verlaagd, heb je waarschijnlijk gemerkt dat de hoge tonen wat leeg worden. Frequenties boven 22,05 kHz zijn eruit gefilterd voor de conversie, dus er is geen frequentie-inhoud om te verlagen, wat resulteert in een gapend gat in de hoge tonen.
Als deze audio echter was opgenomen met 192 kHz, bijvoorbeeld, dan zouden frequenties tot 96 kHz in de oorspronkelijke audio worden opgenomen. Dit ligt uiteraard ver buiten wat mensen kunnen horen, maar door het geluid te verlagen worden deze onhoorbare frequenties hoorbaar. Het resultaat is dat je de toonhoogte van een opname sterk kunt verlagen terwijl de hoge frequenties behouden blijven. Voor meer informatie over sample rate, bekijk deze video eens.
Bit depth
Analoge audio is een continue golf, met een oneindig aantal mogelijke amplitude waarden. Maar om deze golf in digitale audio te meten, moeten we de amplitude van de golf elke keer dat we hem samplen als een eindige waarde definiëren.
De bitdiepte bepaalt het aantal mogelijke amplitudewaarden dat we voor elk sample kunnen opnemen. De meest voorkomende bitdieptes zijn 16-bit, 24-bit en 32-bit. Elk is een binaire term, die een aantal mogelijke waarden vertegenwoordigt. Systemen met een grotere bitdiepte kunnen meer mogelijke waarden uitdrukken: