Garso failų MP3 suspaudimo principas

Kaip atsirado poreikis suspausti garsą

Devintojo dešimtmečio pabaigoje muzikos mėgėjai turėjo rimtą problemą – kompaktiniai diskai buvo puikūs, bet užėmė baisiai daug vietos skaitmeniniu pavidalu. Viena daina CD kokybėje reiškė maždaug 30-50 megabaitų. Tuometiniams kompiuteriams, kurių kietieji diskai talpino gal 500 megabaitų, tai buvo tikra katastrofa. O apie muzikos siuntimą internetu per modeminius ryšius net nebuvo ko svajoti.

Būtent tada Vokietijos Fraunhofer instituto mokslininkai pradėjo ieškoti būdo, kaip sumažinti garso failų dydį neprarandant per daug kokybės. Jie ėmėsi tyrinėti žmogaus klausos ypatumus ir suprato, kad čia slypi raktas į efektyvų suspaudimą. Mūsų ausys nėra tobulos – jos negirdi visų dažnių vienodai gerai, o kai kurie garsai tiesiog „paslepia” kitus. Kodėl gi neišmesti tos informacijos, kurios vis tiek negirdime?

Taip gimė MP3 formatas, oficialiai vadinamas MPEG-1 Audio Layer III. Pirmasis MP3 koduotojas buvo baigtas 1994 metais, o jau po kelių metų šis formatas pakeitė visą muzikos industriją. Žmonės staiga galėjo laikyti šimtus dainų savo kompiuteriuose ir net persiųsti jas internetu per priimtiną laiką.

Psichoakustika – paslaptis už suspaudimo

Visa MP3 magija remiasi psichoakustika – mokslu apie tai, kaip žmogus girdi ir suvokia garsus. Mūsų ausys ir smegenys nėra kaip mikrofonai, kurie registruoja visas garso bangas vienodai. Mes turime savų „silpnybių” ir ribotumų, kuriais ir pasinaudoja MP3 algoritmas.

Pirmiausia, žmogus girdi dažnių spektrą nuo maždaug 20 Hz iki 20 000 Hz, bet ne visus dažnius vienodai gerai. Geriausiai girdime vidutines dažnius (apie 2000-5000 Hz) – būtent čia yra žmogaus balso pagrindinis diapazonas. Labai žemus ir labai aukštus dažnius girdime prasčiau, todėl jiems reikia mažiau tikslaus kodavimo.

Dar įdomesnis dalykas – maskavimo efektas. Kai groja garsus garsas tam tikrame dažnyje, jis „užmaskuoja” tylesnį garsą panašiame dažnyje. Pavyzdžiui, jei groja garsi bosinė gitara, tylesnių žemų dažnių tiesiog negirdėsite. MP3 algoritmas tai žino ir tiesiog nekoduoja tų užmaskuotų garsų. Kam švaistyti bitus tam, ko niekas vis tiek negirdi?

Yra ir laiko maskavimas – kai staigus garsus garsas (pavyzdžiui, būgno smūgis) užmaskuoja tylesnį garsą prieš pat jį ir iš karto po jo. Šios milisekundės taip pat gali būti koduojamos mažesniu tikslumu.

Kaip veikia pats suspaudimo procesas

Kai MP3 koduotojas pradeda darbą su originaliu garso įrašu, jis pirmiausia suskaido signalą į mažus laiko segmentus – kadrus. Kiekvienas kadras analizuojamas atskirai, nes garso charakteristikos nuolat keičiasi. Tylios dainos fragmentui reikia vieno požiūrio, o triukšmingam gitaros solo – visai kito.

Toliau vyksta sudėtingas matematinis procesas, vadinamas modifikuota diskrečiąja kosinuso transformacija (MDCT). Skamba bauginančiai, bet iš esmės tai tik būdas padalinti garsą į atskirus dažnius. Įsivaizduokite, kad turite orkestro įrašą – šis procesas tarsi atskiria kiekvieno instrumento garsą pagal jo dažnį. Dabar turite ne vieną bendrą garso bangą, o daugybę atskirų dažnių komponentų.

Čia ir prasideda tikrasis suspaudimas. MP3 koduotojas naudoja psichoakustinį modelį, kuris apskaičiuoja, kurie dažniai yra svarbūs žmogaus ausiai, o kurie – ne. Svarbiems dažniams skiriama daugiau bitų (tikslesnė informacija), o mažiau svarbiems – mažiau arba visai nieko. Užmaskuoti garsai tiesiog išmetami.

Galiausiai visa ši informacija dar kartą suspaudžiama naudojant Huffman kodavimą – tai matematinis metodas, kuris dažnai pasikartojantiems duomenų šablonams priskiria trumpesnius kodus. Tai kaip stenografija – dažnai naudojamus žodžius rašome sutrumpintai.

Bitreitas ir kokybės kompromisas

Kai konvertuojate garso failą į MP3, svarbiausias pasirinkimas – bitreitas. Jis matuojamas kilobitais per sekundę (kbps) ir iš esmės nusako, kiek duomenų naudojama kiekvienai garso sekundei užkoduoti. Daugiau bitų – geresnė kokybė, bet didesnis failas.

Standartinis CD garso kokybė yra apie 1411 kbps (stereo, 16 bitų, 44.1 kHz). MP3 failai paprastai svyruoja nuo 128 iki 320 kbps. Tai reiškia, kad net aukščiausios kokybės MP3 (320 kbps) suspaudžia originalą maždaug 4.4 karto. O populiarus 128 kbps bitreitas duoda suspaudimą apie 11 kartų.

Ar girdite skirtumą? Tai priklauso nuo daugelio veiksnių. Su prastos kokybės ausinėmis ar triukšmingoje aplinkoje dauguma žmonių neskiria 128 kbps nuo originalo. Bet su gerais garsiakalbiais ir atidžiai klausantis, skirtumas tampa akivaizdus – ypač aukštuose dažniuose, kur MP3 suspaudimas labiausiai „nukentėjęs”.

320 kbps MP3 failai yra praktiškai neskiriami nuo originalo daugumai klausytojų, net su gera aparatūra. Todėl jei jums svarbi kokybė, bet vis tiek reikia sutaupyti vietos, tai geras kompromisas. 192-256 kbps diapazonas taip pat duoda labai priimtiną kokybę kasdieniam klausymui.

Kintamasis bitreitas – protingesnis požiūris

Ne visi garso fragmentai vienodai sudėtingi. Tylus klavyro solo galima puikiai užkoduoti su mažesniu bitritu, o triukšmingam roko kūriniui su daugybe instrumentų reikia daugiau bitų, kad išlaikytų kokybę. Būtent todėl atsirado kintamojo bitreito (VBR – Variable Bit Rate) kodavimas.

VBR režimu koduotojas dinamiškai keičia bitreitą priklausomai nuo garso sudėtingumo. Sudėtingiems fragmentams skiria daugiau bitų, paprastesniems – mažiau. Rezultatas – geresnis kokybės ir failo dydžio santykis nei su fiksuotu bitritu (CBR – Constant Bit Rate).

Pavyzdžiui, VBR failas su vidutiniškai 192 kbps gali skambėti geriau nei CBR 192 kbps failas, nes bitai paskirstyti protingiau. Vienintelis VBR trūkumas – kai kurie seni grotuvai turėjo problemų su tokiais failais, bet šiandien tai jau nebeaktualu.

Praktinis patarimas: jei koduojate MP3 failus sau, naudokite VBR režimą su aukštos kokybės nustatymu (dažnai žymimas kaip V0 ar V2). Gausite geriausią kokybės ir dydžio balansą.

MP3 trūkumai ir apribojimai

Nors MP3 revoliucionizavo muzikos klausymą, šis formatas nėra tobulas. Pirmiausia, tai nuostolingasis suspaudimas – kartą prarastą informaciją nebeatkursite. Jei konvertuojate MP3 į kitą formatą ar vėl į MP3 su kitais nustatymais, kokybė dar labiau pablogės. Tai kaip fotokopija iš fotokopijos – kiekviena karta prasčiau.

Aukšti dažniai kenčia labiausiai. MP3 algoritmas dažnai tiesiog nupjauna dažnius virš 16-18 kHz (priklausomai nuo bitreito), net jei jaunesnės ausys juos gali girdėti. Muzikos gamybos profesionalai tai pastebi iš karto – garsas tampa „tamsesnis”, trūksta oro ir erdvės.

Dar viena problema – pre-echo artefaktai. Prieš staigius, garsus garsus (kaip būgno smūgius) kartais girdimas keistas „cypsėjimas” ar iškraipymas. Tai atsitinka dėl to, kaip MP3 suskaido garsą į kadrus ir bando numatyti maskavimo efektus.

Šiuolaikiniai formatai kaip AAC, Opus ar Vorbis šias problemas sprendžia geriau. Jie naudoja pažangesnius algoritmus ir duoda geresnę kokybę tuo pačiu bitritu. Tačiau MP3 vis dar išlieka populiarus dėl universalaus suderinamumo – jį groja absoliučiai visi įrenginiai.

Praktinis MP3 naudojimas šiandien

Nors atsirado naujesni formatai, MP3 vis dar aktualus. Jei kuriate asmeninę muzikos biblioteką, rekomenduočiau 256-320 kbps VBR nustatymus. Tai užtikrins gerą kokybę ir sutaupys vietos palyginus su nekompresiju garsu.

Podkastams ir kalbos įrašams užtenka žymiai mažiau – 64-96 kbps mono režimu. Kalba neturi sudėtingos dažnių struktūros kaip muzika, todėl nereikia aukšto bitreito. Taip sutaupysite daug vietos ir duomenų perdavimo internetu.

Jei konvertuojate CD kolekciją, niekada netrinkite originalių failų ar diskų. MP3 tinka kasdieniam klausymui, bet jei ateityje norėsite geresnės kokybės ar kito formato, geriau turėti originalą. Kietieji diskai šiandien pigūs, todėl verta saugoti ir nekompresijas kopijas.

Svarbus patarimas: niekada nekonvertuokite MP3 į MP3. Jei reikia pakeisti bitreitą ar kitus nustatymus, visada grįžkite prie originalo. Kiekviena konversija kaupia artefaktus ir blogina kokybę.

Nuo revoliucijos iki kasdienybės

MP3 kelias nuo laboratorijos eksperimento iki pasaulinės standarto yra įspūdingas. Šis formatas ne tik pakeitė, kaip saugome ir klausomės muzikos, bet ir turėjo milžinišką poveikį visai muzikos industrijai. Neteisėtas muzikos dalijimasis per Napster ir kitas platformas privertė industriją persvarstyti verslo modelius, galiausiai atvedant prie Spotify ir Apple Music eros.

Technologiniu požiūriu MP3 puikiai iliustruoja, kaip išmanus matematikos ir žmogaus fiziologijos supratimo derinys gali sukurti praktišką sprendimą. Psichoakustiniai principai, kuriais remiasi MP3, naudojami ir daugelyje kitų šiuolaikinių garso kodekų. Pagrindinis principas išlieka tas pats – kam koduoti tai, ko vis tiek negirdime?

Šiandien MP3 jau nebėra naujausias ar efektyviausias formatas, bet jo paprastumas ir universalumas užtikrina, kad jis išliks aktualus dar daugelį metų. Kiekvienas išmanusis telefonas, automobilio grotuvas, kompiuteris ar televizorius be jokių problemų groja MP3 failus. Tai tas retasis atvejis, kai viena technologija tapo tikrai universalia.

Suprasdami, kaip veikia MP3 suspaudimas, galime geriau įvertinti kompromisą tarp kokybės ir patogumo, kurį darome kasdien. Ir galbūt kitą kartą, klausydamiesi mėgstamos dainos, pagalvosite apie tuos išmestus dažnius ir užmaskuotus garsus, kurių jūsų ausys vis tiek niekada nebūtų išgirdusios.

Поделиться: XFacebookPinterestLinkedin