18. prosince 2010

Dithering

Pozn: obrázky k článku budou doplněny později

Podle anglicko-českého slovníku je význam slova dither 1. chvět se, 2. třást se, 3. kolísat, 4. váhat, 5. rozčileně přešlapovat. Ve zvukařském slovníku se ale slovo dithering používá v souvislosti s převodem digitálního signálu o vysokém rozlišení do nižšího, nejčastěji 16-tibitového CD formátu. Dithering je možné chápat obecně jako uložení zvukového souboru v nižším bitovém rozlišení, nebo, a to je náš případ, jako speciální algoritmus převodu s potlačením nežádoucích jevů.

Formát digitálních audiodat
I když formát a způsob záznamu zvuku digitální cestou byl v časopise již nesčetněkrát popsán, určitě neuškodí malé opakování (nějak to do těch hlav přece musíme nasypat).
Zvuk se šíří vlněním určité hmoty, třeba vzduchu. Toto vlnění lze určitým způsobem zaznamenat, popřípadě záznam uměle vyrobit. Na rozdíl od analogového záznamu zvuku na magnetický pás, kdy jsou data absolutně kontinuální, je digitální záznam určitým výběrem některých bodů na spojité křivce. K pochopení nám stačí tužka a milimetrový papír. Když si na něj od ruky nakreslíte nějakou křivku, lze o ní říct, že se skládá z nekonečného počtu bodů – je kontinuální.

Chceme-li takovou křivku zapsat do digitální podoby, lze to provést zapsáním souřadnic, kterými nakreslená křivka prochází. Říkáme tomu kvantování. Dokreslíme pouze počáteční čáry, od kterých se bude určovat vzdálenost. Hustota sítě je dána na vodorovné časové ose samplovací frekvencí – čím vyšší frekvence, tím hustší síť a lepší záznam vysokých kmitočtů. Používají se frekvence 44,1 kHz, 48 kHz, 88,2 kHz, 96 kHz a 192 kHz. Pro náš případ budeme uvažovat CD formát 44,1 kHz. Na svislé ose (amplituda) je hustota sítě dána počtem bitů, tj. počtem číslic binárního (dvojkového) čísla. Např. při použití osmibitového kvantování, kdy binární číslo může vypadat 01101101 (= 109 decimálně), bude maximální rozlišitelnost výchylky 256 hodnot. U 16-tibitového kvantování už bude mít síť hustotu 65536 hodnot a u 24 bitů je to 16777216 hodnot. Takto hustá síť je už solidním základem pro profesionální zpracování zvuku. Čím vyšší je bitová hloubka, tím lepší zaznamenaná dynamika audiosignálu.

Důvod převodu na nižší rozlišení

U A/D převodníků se v profesionálních studiích používá 24-bitový převod, ale při editaci signálu v počítači je z důvodů vyšší přesnosti, dynamiky a nižšího zkreslení signál zpracováván 32-bitově. Masteringové programy dokáží pracovat 64 bitově a některé dokonce 128 bitově (Prosoniq Dynasone)!
Jelikož výslednou hudbu budeme poslouchat na audiocédéčku ve formátu CD-DA (Compact Disc Digital Audio), které používá z komerčních důvodů 16-tibitovou hloubku, je nutno nějakým vhodným způsobem zredukovat počet bitů z 24 na 16. Pracovat od samého začátku v rozlišení 16 bitů by nebylo rozumné řešení, neboť bychom tím přišli o počáteční hodnotu dynamiky, potřebnou pro další kvalitní zpracování zvuku. Pokud by šlo jen o čistý záznam zvuku bez jakékoli další editace, je celý proces ditheringu zbytečný a byl by vhodnější přímý 16-tibitový záznam. Vše se tedy děje kvůli potřebě kvalitní editace zvuku – mixu a masteringu.

Analogie s obrazem
Možnosti ditheringu si nejprve ukážeme na podobnosti s obrazem, jelikož na fotografii je účinek na první pohled lépe vidět.
První černobílá fotografie má barevnou hloubku 8 bitů, to znamená, že obsahuje 256 odstínů šedi. Tuto fotografii budeme považovat za plnou barevnou hloubku (podobně, jako 24 bitů u zvuku).
{mosimage}

Představme si, že z nějakých důvodů potřebujeme zmenšit počet barev v obrázku (podobně jako zmenšení bitové hloubky na 16 bitů u CD), a to na 4 barvy, v našem případě 4 stupně šedi. Tyto čtyři barvy se dají vyjádřit 2-bitovým číslem. Po převodu z 8 na 2 bity bude obrázek vypadat takto:

{mosimage}

Je vidět, že fotografie ztratila mnoho informací. Velmi se snížila prostorová hloubka a identifikace předmětu na fotografii je téměř na hranici rozeznání. Na dalším obrázku již vidíme podstatné zlepšení, hrníček už je prostorový a leží na rovné ploše. Přitom jde o stejný počet barev, tj. 4.

{mosimage}

Tohoto zlepšení bylo dosaženo přimícháním šumu do obrázku před jeho převedením do 2 bitů. Obrázek má špatnou kvalitu, přesto je podstatně lepší, než obrázek bez šumu. Stačí jen trošku přivřít oči a obrázek je téměř shodný s jeho osmibitovým originálem
A to je právě podstata ditheringu i u zvuku. Snížením bitové hloubky dojde k jeho poškození. Toto poškození lze zmírnit právě přimícháním šumu o velmi nízké úrovni před převodem do nižšího rozlišení. Zvuk sice částečně ztratí svoji původní dynamiku, ale zachová si prostorové a frekvenční vlastnosti.

Pokusy s jednoduchým signálem


Následky převodu čtyřiadvacetibitového audiovzorku na 16 bitů je nejlépe vyzkoušet na jednoduchém signálu o nízké intenzitě. Tak „destrukci“ signálu nejen uvidíme, ale i dobře uslyšíme. V audioeditoru, jako je SoundForge nebo WaveLab, nejpre vygenerujeme 24-bitový vzorek o kmitočtu např. 1 kHz a úrovni kolem -60 dB (úroveň obálky 1%, celková úroveň 10%), samplovací frekvence 44,1 kHz. Na spektrálním analyzátoru uvidíte přesně tento čistý průběh:

{mosimage}

Nyní si můžete vyzkoušet, jak bude takový vzorek vypadat, uložíme-li ho do 16-tibitového formátu. Jednoduše zvolte v editoru funkci Uložit jako... a uložte jej pod jiným názvem a ve vlastnostech souboru zvolte MONO, 16 bitů, 44,1 kHz. Uložení bude okamžité, editor nebude vzorek nijak přepočítávat, odstraní pouze nejnižších 8 bitů z 24-bitové informace. Vzorek bude degradován a výsledkem bude harmonické zkreslení, kterému se odborně říká kvantizační chyba. Na analyzátoru je dobře vidět a jestliže si připravíte vhodné podmínky pro poslech, bude i dobře slyšet.

{mosimage}

Vhodnými poslechovými podmínkami je myšleno hlavně značné zesílení výstupu zvukové karty, která podporuje 24-bitové přehrávání, povolení téhož rozlišení pro přehrávání v editačním softwaru, kvalitní reproduktory nebo lépe sluchátka a vypnutí všech systémových zvuků ve Windows (nechcete přece ohluchnout při kliknutí myší …). Kvantizační chybu je možné uslyšet i na 16-tibitové zvukovce, ale nebude zde možné porovnání z čistým 24-bitovým vzorkem.
Ostré rozlámání spektra na vyšších kmitočtech je statické a je vnímáno spíše jako harmonické zkreslení, než jako nějaký přidaný šum. Toto statické zkreslení je možné eliminovat právě přidáním šumu o velmi nízké úrovni – jen o malinko vyšší, než je úroveň zkresleného signálu.

{mosimage}

Výsledkem je sice o něco vyšší hladina šumu, zato však daleko příjemnější pro ucho – spektrum už není statické a mění se v závislosti na náhodné složce šumu. Všimněte si také většího „rozvlnění“ spektra na nižších středních kmitočtech – něco za něco. Aby šum nebyl v nahrávce slyšet, bylo vymyšleno vytvarování křivky šumu do takové podoby, že je pro lidské ucho méně nápadný. Náš sluch je nejcitlivější v oblastech spektra kolem 2 až 5 kHz, proto je zde šum potlačen a přesunut do vyšších kmitočtů. Zároveň není nutné přimíchávat šum v nižších pásmech, neboť tam je spíše na závadu a způsobí zkreslení. Tomuto vytvarování šumového signálu se říká noise shaping a existuje několik různých tvarů, které mohou být označeny jakou TYPE 1, TYPE 2 , TYPE 3. Na obrázku už je vidět mnohem vyrovnanější křivka na nižších kmitočtech a přesun šumu z citlivého pásma 2 až 5 kHz do méně slyšitelných 16 až 18 kHz.

{mosimage}

Na dalším obrázku s noise shaping TYPE 2 je navíc snížení šumu v oblasti velké citlivosti sluchu na směrovou lokalizaci – asi 12 až 13 kHz, ovšem za cenu podstatného zvýšení v oblasti nad 18 kHz.

{mosimage}

Všechny tyto nevýhody a vedlejší nežádoucí účinky noise shapingu by měly být odstraněny v „revolučním“ algoritmu firmy Apogee, který je známý jako dithering UV22. Upřímně řečeno, subjektivně lepší se mi jevil obyčejný noise shaping TYPE 1 s hladším a příjemnějším šumem a malinko menším zkreslením v nižším pásmu.

{mosimage}

Už jen nepatrně malý rozdíl bude vidět a slyšet u podobného algoritmu UV22 HR, což je vylepšená a novější verze UV22.

Praktické použití v masteringovém softwaru


Téměř všechny editační a masteringové programy mají v sobě zabudován alespoň jednoduchý dithering s několika tvary šumu. Například v programu WaveLab je možnost aplikace interního ditheringu přímo při vypalování CD prostou aktivací tlačítky pod Master faderem. Na výběr jsou zde dvě šumové křivky a tři typy noise shapingu. Bitovou hloubku použijete nejčastěji 16 bitů. Ovládání je jednoduché a nejde o žádnou podřadnou náhradu profesionálních aplikací. Pracuje spolehlivě, šum je velmi příjemný, křivky noise shapingu jsou dobře natvarovány.

V softwaru od firmy Steinberg se dnes s jistotou setkáte se zmíněným UV22 ditheringem, původně od firmy Apogee (nebo s jeho novější a údajně vylepšenou variantou UV22 HR). Jeho okno vypadá ještě jednodušeji. Tlačítky je možno zvolit normální nebo sníženou hladinu šumu, užitečným nápadem je možnost vypnutí šumu v mezerách mezi skladbami tlačítkem Autoblack.

{mosimage}

Možnost ditheringu objevíte také v různých master plug-inech. Jako příklad vidíte okno programu iZotope OZONE, kde je navíc užitečný bit-meter pro kontrolu bitové hloubky, filter DC Offset pro filtraci stejnosměrného napětí a také vlastní noise shaping křivky MBIT+ s psychoakustickým maskováním šumu Psych5 a Psych9 . Jde o propracovaný algoritmus s mnoha možnostmi nastavení a velmi dobrým výsledným zvukem. Možnost vypínání šumu v mezerách se zde aktivuje v zaškrtávacím políčku Auto-blanking.

{mosimage}

Jako poslední příklad jsem vybral jednoduché okno Bounce s aktivací ditheringu v programu Emagic Logic. K dispozici jsou tři presety POW-r (Psychoacoustically Optimized Wordlenght Reduction). První je obyčejný dithering s minimalizací kvantizačního šumu, další dva jsou navíc s tvarováním a přesunem šumu do méně slyšitelných oblastí spektra. Jde opět o profesionální studiové algoritmy.

{mosimage}


Kdy provádět dithering

Obecně lze říci, že dithering je třeba provádět vždy při převodu vyššího bitového rozlišení do nižšího. Nejčastější případ je převod 24-bitového audiovzorku do 16-tibitového formátu CD. Častým omylem masteringových zvukařů je domněnka, že není třeba provádět dithering u 16-tibitových audiosignálů. Většina editačních programů je minimálně 32-bitová a při jakékoli aplikaci efektu, ale i při změně hlasitosti, fade-outu či mixu dvou nebo více „clipů“, je zvukový soubor převeden a zpracováván v 32 bitech až do jeho uložení. 16-tibitový soubor bude přehráván jako 16-tibitový pouze v případě, kdy nebude aplikován žádný efekt nebo fade-out a Master Fader bude mít nastavenu hlasitost 0,00 dB, případně bude vyřazen z funkce.
Pro zjištění, jestli provádět dithering nebo ne, slouží již zmíněný měřič bitové hloubky Bit Resolution.
Je také důležité vědět, že dithering má smysl provést jen jednou, a to na konci celého řetězce audio editace, a že po jeho aplikaci už není možná jakákoli změna hlasitosti.

Závěrem

Když si vše vyzkoušíte na nějaké rockové písničce, zjistíte, že aplikací ditheringu (ve smyslu přidání a tvarování šumu) se zvuk změní jen minimálně. Máte pravdu, dithering se stane důležitým zejména u hudby, ve které jsou velké dynamické rozdíly, a kvantizační chyba bude slyšet pouze v nejtišších částech hudby. U klasické hudby a mluveného slova bude již dithering nutností.
A jestliže máte pocit, že jste se z článku nedověděli jaké parametry ditheringu správně nastavit, je to tím, že veškeré nastavení je podřízeno sluchovému dojmu. Vybírejte z několika typů tvarů šumových křivek, až se vám výsledný zvuk bude zdát nejlepší. Přesto bych považoval za nejlepší řešení svěřit tuto operaci (a nejlépe celý mastering) zkušenému zvukaři.

Žádné komentáře:

Okomentovat