Alt du trenger å vite om prøver og biter

Jeg begynte å komme inn i bitdybde og samplingsfrekvens i min siste mix / mastering tut, og selv om vi ikke nødvendigvis er digitale lydingeniører, er noen grunnleggende bakgrunnsinformasjon om nøyaktig bitdybde og samplingsfrekvens god informasjon for alle som er involvert i digital musikk. Det er noe du alltid jobber med, uansett om du vet det eller ikke, og det er flott bakgrunnsinformasjon om det er å forstå de grunnleggende byggeblokkene i digital lyd for personlig gevinst, eller bare for å kunne se smart hvis samtalen noen gang oppstå.


Raskt Overblikk

Så det første å forstå er at bitdybden og samplingsfrekvensen bare finnes i digital lyd. I digital lyd beskriver bitdybde amplitude (vertikal akse) og samplingshastighet beskriver frekvens (horisontal akse). Så når vi øker antall biter vi bruker, øker vi amplitudeoppløsningen til lyden vår og ved å øke antall prøver per sekund vi bruker, øker vi frekvensoppløsningen til lyden vår.

I et analogt system (og i naturen) er lyden kontinuerlig og jevn. I et digitalt system blir den glatte analoge bølgeformen bare tilnærmet av prøver og må festes til et begrenset antall amplitudeverdier. Når du sampler en lyd, deles lyden opp i små skiver (prøver), og disse prøvene festes deretter til en av de tilgjengelige amplitudenivåene. Prosessen med å fikse signalet til et amplitudenivå kalles kvantisering, og prosessen med å lage prøvesnittene blir selvsagt kalt prøveuttagning.

I diagrammet nedenfor kan du se en visualisering av dette der det er en organisk sinusbølge som spiller i ett sekund. Den starter på 0 sekunder og slutter med 1 sekund. De blå stengene representerer den digitale tilnærmingen til sinusbølgen hvor hver stang er en prøve og er blitt festet til en av de tilgjengelige amplitudenivåene. (Dette diagrammet er selvsagt langt grovere enn i virkeligheten.)

Dette ene sekundet av lyd ville ha 44,1K, 48K, osv. Prøver går fra venstre til høyre avhengig av utvalgsprosessen valgt under opptak og ville dekke -144 dB til 0 dB ved 24 bit (eller -96 dB til 0 dB ved 16 bit). Oppløsningen av det dynamiske området (antall mulige amplitudenivåer for prøven å hvile på) ville være 65.536 ved 16 bits og -get dette-16 777 216 hvis registrert ved 24 bit.

Så økende bitdybden øker tydeligvis vår amplitudeoppløsning og dynamisk rekkevidde. Det som ikke er så opplagt er hvor økningen i dynamisk rekkevidde oppstår. De tilsatte dBs legges til mykere del av lyden siden amplituden aldri kan gå over 0 dB. Dette gjør det mulig å høre mer delikate lyder (f.eks. En reverb-hale som ligger til -130 dB) for å bli hørt, noe som ellers kan være kuttet kort ved en 16 bit og -96 dB prøve.


Avrunding og avkorting

I digital lyd analyseres hver prosess, bearbeides, konverteres tilbake til lyd og skyves gjennom høyttalerne. Når en prøve blir behandlet (få endring, forvrengning, etc.) i DAW, sendes den gjennom en grunnleggende multiplikasjons- eller divisjonalgoritme, og tallet som representerer prøven, endres i samsvar og spytter ut. Enkelt hvis det ikke var for det faktum at vi ikke arbeider med enkle eller runde tall (en forsterkning på 1 dB krever multiplikasjon med 1,122018454), slik at selv en 8 eller 4-biters prøve kan enkelt utvides langt utover vår 24 biters prøveplass.

Siden vi bare har 24 biter, må disse lange tallene passe inn i det rommet. For å gjøre det, bruker DSP enten en avrunding eller trunking av minst signifikante bit (LSB - den siste biten i et digitalt ord - for eksempel det 16. tallet i en 16-biters prøve). Avrunding er ganske rett frem og fungerer som du kanskje forventer i grunnleggende aritmetikk. Trunkering slipper bare informasjonen etter LSB uten videre analyse.

Dette er åpenbart problematisk ved at begge prosessene innfører feil i ligningen, og disse feilene forminerer som prosess ved prosess akkumuleres gjennom signalkjeden. Den positive siden til dette er at LSB i et digitalt ord er den mykeste amplituden av det ordet, så i en 16-biters prøve er feilen på -96 dB og på -144 dB for en 24-biters prøve. Likevel hviler forskjellen mellom en DSP med en god arkitektur og en som høres forferdelig, i stor grad av hvordan DSP styrer disse lange ordene og sammensatte prosesser.


dither

Så, vi vet nå at DSP er nødvendigvis riddled med feil; at selv de brutto tilnærmingene de gjør av et naturlig forekommende fenomen, er seg selv riddled med feil. Disse feilene gjør ikke bare lydlyden mindre uberørt som ellers, men kan introdusere hørbare gjenstander derav.

For å motvirke disse artefakter, blir en type lav amplitude, matematisk beregnet støy (tilfeldig) kalt dither påført signalet. Denne tilfeldigheten bryter opp eventuelle periodiske feil i signalet som kan skape nye frekvenser eller andre gjenstander. Dither-støyen er svært lav amplitude og selv om den er litt hørbar på høye nivåer, skaper det fortsatt et sluttprodukt langt bedre enn uten.

En bølgeform som viser effekten av dither. Dither har blitt brukt på toppbølgeformen.

En ting å merke seg om dither er at støyen er akkumulativ. Når du legger til lyd til signalet, reduserer du i hovedsak signal / støyforholdet (forholdet mellom brukbart signal og støy). Hvis gjentatte ganger, fortsetter dette forholdet å redusere mens man tilføyer ytterligere randomisering til et signal som ikke lenger trenger det. Dette er grunnen til at dither alltid brukes som det siste trinnet i masteringsprosessen og bare brukes én gang.

Dither har en relativt fargerik historie:

En av de tidligste [applikasjonene] av dither kom i 2. verdenskrig. Flybombere brukte mekaniske datamaskiner til å utføre beregninger av navigasjon og bomber. Merkelig, disse datamaskinene (bokser fylt med hundrevis av tannhjul og tannhjul) utførte mer nøyaktig når de flyr ombord på flyet, og mindre godt på bakken. Ingeniører innså at vibrasjonen fra flyet reduserte feilen fra klebrig bevegelige deler. I stedet for å flytte i korte jerks flyttet de mer kontinuerlig. Små vibrerende motorer ble bygd inn i datamaskinene, og deres vibrasjon ble kalt dither fra middel engelsk verbet "didderen", som betyr "å skjelve". ... moderne ordbøker definerer dither som en svært nervøs, forvirret eller agitated tilstand. I små mengder, gjør dither vellykket et digitaliseringssystem litt mer analogt.

- Ken Pohlmann, prinsipper for digital lyd


Eksempelfrekvens

Ifølge teorien bør 44,1 K prøver per sekund være mer enn nok til å dekke alle frekvenser innenfor (og litt utenfor) det menneskelige høreområdet. Du har kanskje kommet over Nyquist-teorien før det står at for å unngå aliasing (en forvrengning) og for å nøyaktig gjenskape alle frekvensene under prøvetaking, må man prøve minst to ganger frekvensen av høyeste frekvensen i et gitt signal (denne setningen gjelder for media utenfor lyd, men vi kommer ikke inn på det her).

Det menneskelige øre kan antagelig høre opp til 20K (de fleste studier tyder på at det er mer enn 17K i beste fall) sykluser per sekund (Hz). Derfor bør en prøvefrekvens på 40K prøver per sekund være nok til å høre hver frekvens mulig. 44.1K er industristandard, ble gjort på denne måten av flere grunner, og til slutt valgt av oligarkiet kjent som Sony.

For å lage en lang historie kort (er), må digitale lydprøver nødvendigvis være over Nyquist-frekvensen, da prøvene også i praksis må være lavpassfiltrert under A / D- og D / A-konvertering for å unngå aliasing ved det aktuelle trinnet. Jo mildere hellingen til lavpassfilteret, desto lettere (les billigere) er det å lage. Således må et lydsignal med lavpassfilter som har en mild skråning som dekker 2 kHz, for eksempel, og starter ved 20 kHz for å slippe gjennom hele frekvensspektret, samples ved 44K prøver per sekund (20K (høyeste frekvens) + 2K (helling av LPF) x 2 (Nyquist Theorem) = 44K).

Til slutt ble 44.1K-standarden valgt etter en kamp mellom Sony og Philips (de begge hadde lignende endelige forslag) og ble valgt ut fra matematikken bak lydprøvefrekvens og videobåndsanatomi; slik at lyd og video kan ligge på samme videokassett i god troskap til prisforhold. Imidlertid er 48K nå standard for video relatert lyd. CD-lyd forblir på 44,1K.

Dette bildet viser prøvenivået for en "organisk" kick-trommelopptak i Logic. Du kan se hvordan lyden er samplet og kvantisert fra de skarpe rektangulære tilnærmingene til bølgeformen. Den originale trommelyden ville ikke ha hatt en slik forvrengning.


Kan du høre det?

Noen hevder at de kan høre en distinkt forskjell mellom en 44,1 k sample rate og for eksempel en 96 k sample rate. De fleste tilskriver denne forskjellen til den økte båndbredden som blir produsert (96K representerer frekvenser opptil 48 kHz). Selv om jeg også har lagt merke til subtile klarhetsendringer når oversampling, er det feil å tro at disse forskjellene er til stede på grunn av høyere frekvenser tilstede (eller i det minste er de ikke direkte relaterte).

Det har vist seg gjennom ulike tester at det faktisk er lavpasfiltrering som skaper hørbare forskjeller, og ved høyere samplingsfrekvenser faller disse LPF-artefaktene utenfor hørselsspektret. Ved å øke filterutskæringen fra 22 kHz til 48 kHz ved prøvetaking reduserer vi etterspørselen på filteret for å virke i lydområdet, og sørger dermed for at mer om ikke alle filterartefakter forblir i ultralydspektret.

Dette fjerner lydspekteret og gir illusjonen om at en høyere båndbredde / samplingsfrekvens skaper en mer uberørt lyd. Selv om en mer uberørt lyd er opprettet, er det en effekt av prøvefrekvensen som er høy nok til å motvirke gjenstander av et dårlig designet (dessverre et standard) lavpassfilter under A / D og D / A-konvertering.


Nok info?

Så dekker det om det. Jeg skjønner at dette kan ha vært mer av en leksjon enn en opplæring, men det er god informasjon å ha non-the-less. Å vite verktøyene du jobber med, er aldri en dårlig ting, og dette handler om så detaljert som du noensinne må kjenne motivet for noe praktisk formål som musikkprodusent. Mastering ingeniører og audiophiles må kanskje se andre steder imidlertid;)

Til neste gang.

-W