Ce calitate a sunetului este mai bună: 320 sau 128. Cele mai comune concepții greșite despre sunetul digital. Cu cât rata de biți este mai mare, cu atât calitatea piesei este mai bună.

format MP3. Calitate. (In cuvinte simple)
mp3 este o reprezentare digitală a unui semnal analogic, care este discreditat (digitizat) la intervale regulate (cu o frecvență specificată în herți) și prezentat în formă binară (cu o precizie specificată - adâncime de biți).

Artist - Titlu.mp3
192 kbps 48 kHz 16 biți CBR stereo

1. Ce înseamnă 16kbps sau 320kbps sau 192kbps etc?
Numărul înseamnă câte date digitale au fost necesare pentru codificare.
kbps - „kilobyte pyo secundă”, adică kiloocteți pe secundă.
Biți pe secundă, bps (biți pe secundă în engleză, bps) - o unitate de bază de măsură a vitezei de transmitere a informațiilor.

*Cu cât această valoare este mai mare, cu atât calitatea și volumul (Mb) ale sunetului sunt mai mari.

* 1 octet = 8 biți
* 1 kilobit = 1024 biți = 128 octeți (B)
* 1 megabit = 1048576 biți = 131072 octeți = 128 KB

Începătorii confundă adesea kilobytes cu kilobiți, așteptând o viteză de 256 KB/s de la un canal de 256 Kb/s (pe un astfel de canal viteza va fi de 31,25 KB/s). Adică, pentru a descărca un megaoctet (1 MB) de informații pe un astfel de canal va dura 32.768 de secunde.

2.Ce înseamnă 44100 Hz sau 44 kHz?

Frecvența de eșantionare - frecvența de eșantionare la conversia unui semnal audio analogic într-unul digital. Exprimată în mostre pe secundă sau Hertzi, rata de eșantionare a timpului în format CD este de 44,1 kHz.

(În cuvinte simple - la ce frecvență este sunetul digitalizat)

*Plăcile de sunet acceptă frecvențe comune, la fel ca jucătorii.
Deși în editori puteți economisi de la 2000 Hz la 192.000 Hz Cu cât frecvența este mai mare, cu atât sunetul este mai mare (Mb).

3. Ce este 16 biți sau 24 de biți.
Valorile amplitudinii sunetului sunt reprezentate folosind diferite numere de biți (adâncime de biți); coloana sonoră, de regulă, este digitizat cu o adâncime de biți de 12 până la 24 de biți.
*Cu cât această valoare este mai bună, cu atât mai precis și clar se vor auzi instrumente diferite, dar cu sunet similar, și afectează foarte mult calitatea sunetului.
4. Ce este ABR, CBR, VBR
ABR înseamnă Average Bit Rate, adică rata medie de biți, care este un hibrid între VBR și CBR: rata de biți în kbit/s este setată de utilizator, iar programul o variază, ajustându-l constant la rata de biți dată.

*Cu cuvinte simple, atunci când salvați sunetul mp3 și selectați VBR 128kbps, aceasta va însemna că sunetul va fi codificat cu o rată de biți variabilă (dacă este necesar) care nu depășește 128kbps Cu tăcere va fi de aproximativ 16kbps.

CBR este o calitate constantă care nu depășește valoarea specificată, dar chiar și în tăcere va exista o valoare specificată.
aceste. codând CBR 320kbps 1 minut de sunet și 1 minut de tăcere, fișierele finale vor ocupa aceeași valoare Mb.

ABR - codificat cu o valoare specificată constantă (de exemplu 128 kbps), dar dacă este necesar, 128 kbps este întrerupt și se ia o valoare mai mare.
*În ceea ce privește calitatea, este mai bine să luați VBR cu o frecvență de 48Hz, apoi CBR, ABR, VBR 44.1Hz.
5. Mono. Stereo toata lumea pare sa stie.

Restul le scriu mai tarziu...

V-ați întrebat vreodată ce se pierde exact la comprimarea de la lossless la mp3 128 kbps sau 320 kbps?
Am verificat și rezultatul mi s-a părut interesant. În primul rând, vă sugerez să faceți un sondaj pentru a înțelege singur dacă auziți vreo diferență. Dacă nu ești sigur ce auzi sau ești sigur că nu auzi, atunci îți aduc în atenție o idee simplă și elegantă: trebuie să iei și să împingi cu fruntea două unde sonore, dintre care una va fi în antifază, respectiv, la mixarea a două piese, ceea ce se va auzi predominant este că nestins. Nu promit încă grafice interesante, dar puteți auzi singur pe sistemul dvs. ce sunete s-au pierdut în timpul compresiei de la flac la mp3 128\320 kbps, arhivă cu exemple la sfârșitul articolului.
Studiu
Trebuie să descărcați și să ascultați 12 piese a câte 30 de secunde fiecare. Apoi specificați pentru fiecare dintre cele 4 melodii una dintre cele 3 opțiuni (128 kbps, 320 kbps sau lossless).
Sondajul este anonim, dar puteți să specificați un hash unic și să mi-l spuneți sau, în ultimă instanță, să vă publicați aici părerea, dar asigurați-vă că folosiți un spoiler. Sondajul va dura până pe 25 februarie, după care voi publica cheia și statisticile.
Fișiere pe Yandex Disk, oglindă pe Dropbox (~80Mb).
Datele inițiale
The Black Keys - Everlasting Light (flac, 44100 Hz, 24-Bit, 1613 kbps), disponibil la Youtube.
Ludovico Einaudi - Drop (flac, 96000 Hz, 24-Bit, 2354 kbps), disponibil pe Yandex Music.
CC Coletti - Rock and Roll (flac, 192000 Hz, 24-Bit, 4845 kbps), disponibil la Youtube.
Annihilator - Ultra-motion (flac, 44100 Hz, 16-bit, 1022 kbps), disponibil la Youtube.
opțiuni de conversie mp3
44,1 kHz, stereo, 128 kbps sau 320 kbps
Descrierea experimentului
Fișierele sursă sunt tăiate în bucăți de câte 10 secunde fiecare, fiecare bucată este exportată în wav. După importarea pieselor rezultate, 2 secunde de tăcere și un al doilea semnal de ton sunt adăugate la începutul fiecăreia, apoi convertite în mp3. După importarea fișierelor mp3, se dovedește că, în raport cu originalul, fișierul rezultat a „mers înainte”. Acesta nu este un bug, este. Sincronizăm cu un anumit semnal de ton din original (am încercat mai multe valori pentru fiecare fișier mp3, pe care ulterior l-am rafinat la cel mai bun rezultat), scăpăm de semnalul de ton, tăcem și exportăm piesele rezultate în wav. Acum tot ce rămâne este să inversezi piesele pentru a obține vârfuri multidirecționale și să le amesteci cu originalul.
Rezultat
Nu voi descoperi America... Da, există o diferență. Da, mai ales când este comprimat la 128 kbps. Da, depinde de muzica. Da, chiar mai mult din calea audio.
Puteți trage propria concluzie și puteți auzi diferența descărcând fișierele pe

Dezmind miturile populare despre audio digital.

2017-10-01T15:27

2017-10-01T15:27

Software pentru audiofili

Nota: Pentru o mai bună înțelegere a textului de mai jos, vă recomand să vă familiarizați cu elementele de bază ale audio digital.

De asemenea, multe dintre punctele prezentate mai jos sunt acoperite în publicația mea „Încă o dată despre tristul adevăr: de unde vine de fapt sunetul bun?” .

Cu cât rata de biți este mai mare, cu atât calitatea piesei este mai bună.

Acesta nu este întotdeauna cazul. În primul rând, permiteți-mi să vă reamintesc ce este bitray T(bitrate, nu bitraid). Aceasta este de fapt rata de date în kilobiți pe secundă în timpul redării. Adică, dacă luăm dimensiunea unei piese în kilobiți și o împărțim la durata ei în secunde, obținem rata de biți a acesteia - așa-numita. Rata de biți bazată pe fișiere (FBR), de obicei nu este prea diferită de rata de biți a fluxului audio (motivul diferențelor este prezența metadatelor în pistă - etichete, imagini încorporate etc.).

Acum să luăm un exemplu: rata de biți a sunetului PCM necomprimat înregistrat pe un CD audio obișnuit este calculată după cum urmează: 2 (canale) × 16 (biți pe eșantion) × 44100 (mostre pe secundă) = 1411200 (bps) = 1411,2 kbps . Acum să luăm și să comprimăm piesa cu orice codec fără pierderi („fără pierderi” - „fără pierderi”, adică unul care nu duce la pierderea niciunei informații), de exemplu, codecul FLAC. Drept urmare, vom obține o rată de biți mai mică decât cea inițială, dar calitatea va rămâne neschimbată - iată prima dvs. respingere.

Mai este un lucru care merită adăugat aici. Rata de biți de ieșire cu compresie fără pierderi poate fi foarte diferită (dar, de regulă, este mai mică decât cea a audio necomprimat) - aceasta depinde de complexitatea semnalului comprimat sau, mai precis, de redundanța datelor. Astfel, semnalele mai simple vor fi comprimate mai bine (adică avem o dimensiune mai mică a fișierului pentru aceeași durată => rata de biți mai mică), iar cele mai complexe se vor comprima mai rău. Acesta este motivul pentru care muzica clasică fără pierderi are o rată de biți mai mică decât, să zicem, rock-ul. Dar trebuie subliniat că bitrate-ul de aici nu este în niciun caz un indicator al calității materialului audio.

Acum să vorbim despre compresia cu pierderi. În primul rând, trebuie să înțelegeți că există multe codificatoare și formate diferite și, chiar și în același format, calitatea de codificare a diferitelor codificatoare poate diferi (de exemplu, QuickTime AAC codifică mult mai bine decât FAAC învechit), ca să nu mai vorbim superioritatea formatelor moderne (OGG Vorbis, AAC, Opus) față de MP3. Mai simplu spus, dintre două piese identice codificate de codificatori diferiți cu același bitrate, una va suna mai bine și alta va suna mai rău.

În plus, există așa ceva ca plic. Adică poți lua o piesă în format MP3 cu un bitrate de 96 kbps și o poți converti în MP3 320 kbps. Nu numai că calitatea nu se va îmbunătăți (la urma urmei, datele pierdute în timpul codificării anterioare de 96 kbit/s nu pot fi returnate), ci se va înrăutăți chiar. Merită să subliniem aici că în fiecare etapă a codării cu pierderi (cu orice bitrate și orice codificator), o anumită cantitate de distorsiune este introdusă în audio.

Și chiar mai mult. Mai este o nuanță. Dacă, să zicem, rata de biți a unui flux audio este de 320 kbps, aceasta nu înseamnă că toți cei 320 kbps au fost cheltuiți pentru codificarea în acea secundă. Acest lucru este tipic pentru codificare cu un bitrate constant și pentru acele cazuri în care o persoană, sperând să primească calitate maxima, forțează o rată de biți constantă prea mare (de exemplu, setarea CBR de 512 kbps pentru Nero AAC). După cum se știe, numărul de biți alocați unui anumit cadru este reglementat de un model psihoacustic. Dar în cazul în care suma alocată este mult mai mică decât rata de biți setată, nici măcar rezervorul de biți nu salvează (citiți despre termenii din articolul „Ce sunt CBR, ABR, VBR?”) - ca urmare, devenim inutili „zero biți” care pur și simplu „termină” » dimensiunea cadrului la dimensiunea necesară (adică, măriți dimensiunea fluxului la cea specificată). Apropo, acest lucru este ușor de verificat - comprimați fișierul rezultat cu un arhivator (de preferință 7z) și uitați-vă la raportul de compresie - cu cât este mai mare, cu atât mai mulți biți zero (deoarece duc la redundanță), cu atât mai mult spațiu irosit.

Codecurile cu pierderi (MP3 și altele) sunt capabile să facă față muzicii electronice moderne, dar nu sunt capabile de codificare de înaltă calitate a muzicii clasice (academice), live, instrumentale

„Ironia sorții” aici este că, de fapt, totul este exact invers. După cum se știe, muzica academică în marea majoritate a cazurilor urmează principii melodice și armonice, precum și compoziția instrumentală. Din punct de vedere matematic, aceasta rezultă într-o compoziție armonică relativ simplă a muzicii. Astfel, predominanța consonanțelor produce un număr mai mic de armonici laterale: de exemplu, pentru o cincime (un interval în care frecvențele fundamentale a două sunete diferă de o dată și jumătate), fiecare a doua armonică va fi comună celor două sunete. , pentru o patra, unde frecvențele diferă cu o treime - la fiecare treime și etc. În plus, prezența unor rapoarte de frecvență fixe, datorită utilizării temperamentului egal, simplifică, de asemenea, compoziția spectrală muzică clasică. Compoziția instrumentală live a clasicilor determină absența zgomotului caracteristic muzicii electronice, distorsiunea, salturile ascuțite de amplitudine și absența unui exces de componente de înaltă frecvență.

Factorii enumerați mai sus duc la faptul că muzica clasică este mult mai ușor de comprimat, în primul rând, pur matematic. Dacă vă amintiți, compresia matematică funcționează prin eliminarea redundanței (descrierea unor informații similare folosind mai puțini biți) și, de asemenea, prin realizarea de predicții (alias. predictori preziceți comportamentul semnalului și apoi este codificată doar abaterea semnalului real față de cel prezis - cu cât se potrivesc mai precis, cu atât sunt necesari mai puțini biți pentru codare). În acest caz, compoziția și armonia spectrală relativ simplă conduc la o redundanță ridicată, a cărei eliminare asigură un grad semnificativ de compresie, iar un număr mic de rafale și componente de zgomot (care sunt semnale aleatorii și imprevizibile) determină o bună predictibilitate matematică a marea majoritate a informațiilor. Și nici măcar nu vorbesc despre volumul mediu relativ scăzut al pieselor clasice și intervalele frecvente de tăcere, pentru care practic nu este nevoie de informații pentru a codifica. Ca rezultat, putem comprima fără pierderi, de exemplu, unele muzică instrumentală solo la rate de biți sub 320 kbps (encoderele TAK și OFR sunt destul de capabile de acest lucru).

Deci, în primul rând, faptul este că compresia matematică care stă la baza codificării fără pierderi este, de asemenea, una dintre etapele codificării cu pierderi (a se citi Înțelegerea codificării MP3). Și în al doilea rând, deoarece lossy utilizează transformata Fourier (descompunerea semnalului în armonici), simplitatea compoziției spectrale chiar face munca codificatorului de două ori mai ușoară. Ca rezultat, comparând mostrele de muzică clasică originale și codificate într-un test orb, suntem surprinși să constatăm că nu putem găsi nicio diferență, chiar și la un bitrate relativ scăzut. Și lucrul amuzant este că atunci când începem să reducem complet rata de biți de codificare, primul lucru care dezvăluie diferențele este zgomotul de fundal din înregistrare.

În ceea ce privește muzica electronică, codificatorii au o perioadă foarte dificilă cu ea: componentele de zgomot au o redundanță minimă, iar împreună cu salturi ascuțite(un fel de impulsuri din dinți de ferăstrău) sunt semnale extrem de imprevizibile (pentru codificatorii care sunt „crozați” la sunete naturale care se comportă complet diferit), în timp ce transformările Fourier directe și inverse cu respingerea armonicilor individuale de către modelul psihoacustic oferă inevitabil pre- și post -efecte de ecou, ​​a căror audibilitate nu este întotdeauna ușor de evaluat de către codificator... Adăugați la aceasta nivel înalt Componente HF - și obțineți număr mare eșantioane ucigașe, cărora chiar și cei mai avansati codificatori nu le pot face față la rate medii-scăzute, destul de ciudat, mai ales în muzică electronică.

Distractive sunt și părerile „ascultătorilor cu experiență” și ale muzicienilor care, cu o lipsă totală de înțelegere a principiilor codării cu pierderi, încep să susțină că aud cum instrumentele din muzică după codare încep să se dezacordeze, frecvențele plutesc. , etc. Acest lucru ar putea fi încă valabil pentru antediluvian casetofoane cu detonație, dar în audio digital totul este precis: componenta de frecvență fie rămâne, fie este aruncată, pur și simplu nu este nevoie să se schimbe tonalitatea. Mai mult decât atât: prezența urechii unei persoane pentru muzică nu înseamnă deloc că are un auz bun de frecvență (de exemplu, capacitatea de a percepe frecvențe >16 kHz, care dispare odată cu vârsta) și nu-i face deloc mai ușor căutați artefacte de codare cu pierderi, deoarece distorsiunea Acestea au un caracter foarte specific și necesită experiența de comparare oarbă a sunetului cu pierderi - trebuie să știți ce și unde să căutați.

DVD-Audio sună mai bine decât CD-ul audio (24 de biți față de 16, 96 kHz față de 44,1 etc.)

Din păcate, oamenii se uită de obicei doar la cifre și foarte rar se gândesc la impactul unui anumit parametru asupra calității obiective.

Să luăm în considerare mai întâi adâncimea de biți. Acest parametru nu este responsabil pentru nimic mai mult decât intervalul dinamic, adică diferența dintre cele mai silentioase și cele mai puternice sunete (în dB). În audio digital, nivelul maxim este de 0 dBFS (FS - scară completă), iar minimul este limitat de nivelul de zgomot, adică, de fapt, intervalul dinamic în valoare absolută este egal cu nivelul de zgomot. Pentru audio pe 16 biți, intervalul dinamic este calculat ca 20 × log 10 2 16, care este egal cu 96,33 vB. În același timp, intervalul dinamic al unei orchestre simfonice este de până la 75 dB (în mare parte aproximativ 40-50 dB).

Acum să ne imaginăm condiții reale. Nivelul de zgomot din cameră este de aproximativ 40 dB (nu uitați că dB este o valoare relativă. În acest caz, pragul de audibilitate este luat ca 0 dB), volumul maxim al muzicii ajunge la 110 dB (pentru a evita disconfortul) - noi obține o diferență de 70 dB. Astfel, se dovedește că un interval dinamic de peste 70 dB în acest caz este pur și simplu inutil. Adică cu un interval de peste sau sunete puternice va atinge un prag de durere, sau sunete liniştite va fi absorbit de zgomotul din jur. Este foarte dificil să se atingă un nivel de zgomot ambiental mai mic de 15 dB (deoarece volumul respirației umane și al altor zgomote cauzate de fiziologia umană sunt la acest nivel), ca urmare, se dovedește un interval de 95 dB pentru ascultarea muzicii. să fie complet suficientă.

Acum despre frecvența de eșantionare (frecvența de eșantionare, rata de eșantionare). Acest parametru controlează frecvența de eșantionare în timp și afectează direct frecvența maximă a semnalului care poate fi descrisă de o anumită reprezentare audio. Conform teoremei lui Kotelnikov, este egal cu jumătate din frecvența de eșantionare. Adică, pentru frecvența obișnuită de eșantionare de 44100 Hz, frecvența maximă a componentelor semnalului este de 22050 Hz. Frecvența maximă. care este perceput de urechea umană este puțin peste 20.000 Hz (și apoi la naștere; pe măsură ce îmbătrânim, pragul scade la 16.000 Hz).

Acest subiect este tratat cel mai bine în articolul Descărcări în format 24/192 - de ce nu au sens.

Diferiți jucători software sună diferit (de exemplu, foobar2000 este mai bun decât Winamp etc.)

Pentru a înțelege de ce nu este cazul, trebuie să înțelegeți ce este un player software. În esență, acesta este un decodor, handlere (opțional), un plugin de ieșire (la una dintre interfețele: ASIO, DirectSound, WASAPI etc.) și, desigur, GUI ( GUI utilizator). Deoarece decodorul în 99,9% din cazuri funcționează conform unui algoritm standard, iar plug-in-ul de ieșire este doar o parte a programului care transmite fluxul către placa de sunet prin una dintre interfețe, singurul motiv pentru diferențe poate fi manipulatorii. Dar adevărul este că procesoarele sunt de obicei oprite în mod implicit (sau ar trebui să fie dezactivate, deoarece principalul lucru pentru un jucător bun este să poată transmite sunetul în forma sa „pură”). Ca urmare, singurul subiect de comparație aici poate fi posibilităților procesare și ieșire, care, apropo, de multe ori nu sunt deloc necesare. Dar chiar dacă există o astfel de nevoie, atunci aceasta este o comparație a procesoarelor, și nu a jucătorilor.

Diferite versiuni de drivere sună diferit

Această afirmație se bazează pe ignorarea banală a principiilor de funcționare a unei plăci de sunet. Șoferul este software, necesar pentru interacțiunea eficientă a dispozitivului cu sistem de operare, care oferă de obicei o interfață grafică de utilizator pentru a vă permite să gestionați dispozitivul, setările acestuia etc. Driverul plăcii de sunet asigură că placa de sunet este recunoscută ca placă de sunet Dispozitive Windows, informează sistemul de operare despre formatele acceptate de card, asigură transmiterea unui flux PCM necomprimat (în majoritatea cazurilor) către card și oferă, de asemenea, acces la setări. În plus, dacă există procesare software (folosind CPU), driverul poate conține diferite DSP-uri (procesoare). Prin urmare, în primul rând, cu efectele și procesarea dezactivate, dacă driverul nu oferă transmisie PCM precisă pe card, aceasta este considerată o eroare gravă, o eroare critică. Și asta se întâmplă extrem de rare. Pe de altă parte, diferențele dintre drivere pot fi în actualizarea algoritmilor de procesare (resampler, efecte), deși acest lucru nu se întâmplă des. În plus, pentru a obține cea mai înaltă calitate, efectele și orice procesare a driverului ar trebui în continuare excluse.

Astfel, actualizările driverelor sunt axate în principal pe îmbunătățirea stabilității și eliminarea erorilor de procesare. Nici unul, nici celălalt în cazul nostru nu afectează calitatea redării, prin urmare în 999 de cazuri din 1000 driverul nu are niciun efect asupra sunetului.

CD-urile audio cu licență sună mai bine decât copiile lor

Dacă nu au apărut erori (fatale) de citire/scriere în timpul copierii și unitate optică dispozitiv pe care va fi redat discul de copiere, nu există probleme cu citirea acestuia, atunci o astfel de afirmație este eronată și ușor de respins.

Modul de codificare stereo oferă o calitate mai bună decât Joint Stereo

Această concepție greșită se referă în principal la LAME MP3, deoarece toate codificatoarele moderne (AAC, Vorbis, Musepack) folosesc numai Modul Stereo comun (și asta spune deja ceva)

Pentru început, este de menționat că modul Joint Stereo este utilizat cu succes cu compresie fără pierderi. Esența sa constă în faptul că, înainte de codificare, semnalul este descompus în suma canalelor dreapta și stânga (Mid) și diferența lor (Side), iar apoi are loc codificarea separată a acestor semnale. În limită (pentru aceleași informații în canalele dreapta și stânga), se obțin economii duble de date. Și deoarece în majoritatea muzicii informațiile din canalele din dreapta și din stânga sunt destul de asemănătoare, această metodă se dovedește a fi foarte eficientă și vă permite să creșteți semnificativ raportul de compresie.

În lossy principiul este același. Dar aici, în modul de bitrate constant, calitatea fragmentelor cu informații similare pe două canale va crește (în limită, dublu), iar pentru modul VBR în astfel de locuri, rata de biți va scădea pur și simplu (nu uitați că sarcina principală al modului VBR este menținerea stabilă a calității de codificare specificată, folosind cel mai mic bitrate posibil). Deoarece în timpul codificării cu pierderi, prioritatea (la distribuirea biților) este acordată sumei canalelor, pentru a evita deteriorarea panoramei stereo, comutarea dinamică între stereo mixt (Mid/Side) și stereo obișnuit (Stânga/Dreapta) bazat pe cadru. se utilizează moduri. Apropo, motivul acestei concepții greșite a fost imperfecțiunea algoritmului de comutare în versiunile mai vechi ale LAME, precum și prezența modului de îmbinare forțată, în care nu există comutare automată. ÎN ultimele versiuni Modul LAME Joint este activat implicit și nu este recomandat să îl schimbați.

Cu cât spectrul este mai larg, cu atât calitatea înregistrării este mai bună (despre spectrograme, auCDtect și interval de frecvență)

În zilele noastre, pe forumuri, din păcate, este foarte comun să se măsoare calitatea unei piese „cu o riglă folosind o spectrogramă”. Evident, datorită simplității acestei metode. Dar, după cum arată practica, în realitate totul este mult mai complicat.

Și iată chestia. Spectrograma demonstrează vizual distribuția puterii semnalului pe frecvențe, dar nu poate oferi o imagine completă a sunetului înregistrării, prezența distorsiunilor și artefactelor de compresie în ea. Adică, în esență, tot ceea ce poate fi determinat din spectrogramă este gama de frecvente(și parțial - densitatea spectrului în regiunea HF). Adică, în cel mai bun caz, prin analiza spectrogramei este posibil să se identifice o conversie ascendentă. Compararea spectrogramelor de piste obținute prin codificare cu diverse codificatoare cu originalul este o absurditate totală. Da, puteți identifica diferențele în spectru, dar a determina dacă (și în ce măsură) vor fi percepute de urechea umană este aproape imposibil. Nu trebuie să uităm că sarcina codării cu pierderi este de a asigura un rezultat care nu se poate distinge urechea umană din original (nu cu ochiul).

Același lucru este valabil și pentru evaluarea calității codificării prin analiza pieselor de ieșire cu programul auCDtect (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect - acestea sunt doar shell-uri pentru programul de consolă unic auCDtect). Algoritmul auCDtect analizează de fapt și intervalul de frecvență și vă permite doar să determinați (cu un anumit grad de probabilitate) dacă compresia MPEG a fost aplicată în oricare dintre etapele de codificare. Algoritmul este adaptat pentru MP3, deci este ușor să îl „înșeli” cu ajutorul codecurilor Vorbis, AAC și Musepack, deci chiar dacă programul scrie „100% CDDA”, asta nu înseamnă că audio codificat este 100% identic cu cel original.

Și revenind direct la spectre. Există, de asemenea, o dorință populară printre unii „entuziaști” de a dezactiva cu orice preț filtrul lowpass din encoderul LAME. Aici există o lipsă clară de înțelegere a principiilor de codificare și psihoacustică. În primul rând, codificatorul se ajustează frecvente inalte cu un singur scop - de a salva date și de a le folosi pentru a codifica cea mai audibilă gamă de frecvențe. Gama extinsă de frecvență poate avea un efect fatal asupra calitate generală sunet și conduc la artefacte de codare audibile. În plus, dezactivarea limitării la 20 kHz este în general complet nejustificată, deoarece o persoană pur și simplu nu poate auzi frecvențe mai mari.

Există o anumită presetare a egalizatorului „magic” care poate îmbunătăți semnificativ sunetul

Acest lucru nu este în întregime adevărat, în primul rând, deoarece fiecare configurație individuală (căști, acustică, placa de sunet) are propriii parametri (în special, caracteristica amplitudine-frecvență). Și, prin urmare, fiecare configurație trebuie să aibă propria abordare unică. Mai simplu spus, o astfel de presetare a egalizatorului există, dar diferă pentru diferite configurații. Esența sa constă în ajustarea răspunsului în frecvență al căii, și anume în „nivelarea” scăderilor și creșterilor nedorite.

De asemenea, printre oamenii care sunt departe de a lucra direct cu sunetul, setarea unui egalizator grafic cu un „tic” este foarte populară, ceea ce reprezintă de fapt o creștere a nivelului componentelor de joasă și înaltă frecvență, dar în același timp conduce la înăbușirea vocii și a instrumentelor, al căror spectru sonor se află în regiunea de frecvență medie.

Înainte de a converti muzica într-un alt format, ar trebui să o decomprimați în WAV

Permiteți-mi să notez imediat că WAV înseamnă date PCM (modularea codului de impulsuri) în containerul WAVE (fișier cu extensia *.wav). Aceste date nu sunt altceva decât o secvență de biți (zerouri și unu) în grupuri de 16, 24 sau 32 (în funcție de adâncimea de biți), fiecare dintre care reprezintă cod binar amplitudinea probei corespunzătoare (de exemplu, pentru 16 biți în notație zecimală, acestea sunt valori de la -32768 la +32768).

Deci, adevărul este că orice procesor de sunet - fie că este un filtru sau un encoder - funcționează de obicei numai cu aceste valori, adică numai cu date necomprimate. Aceasta înseamnă că pentru a converti audio de la, de exemplu, FLAC în APE, pur și simplu necesar Mai întâi decodați FLAC în PCM, apoi codificați PCM în APE. Este ca și cum ați reambala fișierele din ZIP în RAR, mai întâi trebuie să despachetați fișierul ZIP.

Cu toate acestea, dacă utilizați un convertor sau doar un codificator de consolă avansat, conversia intermediară în PCM are loc din mers, uneori chiar și fără a scrie într-un program temporar. Fișier WAV. Acesta este ceea ce induce oamenii în eroare: se pare că formatele sunt convertite direct dintr-unul în altul, dar de fapt un astfel de program trebuie să aibă un decodor de format de intrare care să realizeze conversia intermediară în PCM.

Astfel, convertirea manuală în WAV nu vă va oferi absolut nimic altceva decât pierdere de timp.

V-ați întrebat vreodată ce se pierde exact la comprimarea de la lossless la mp3 128 kbps sau 320 kbps?
Am verificat și rezultatul mi s-a părut interesant. În primul rând, vă sugerez să faceți un sondaj pentru a înțelege singur dacă auziți vreo diferență. Dacă nu ești sigur ce auzi sau ești sigur că nu auzi, atunci îți aduc în atenție o idee simplă și elegantă: trebuie să iei și să împingi cu fruntea două unde sonore, dintre care una va fi în antifază, respectiv, la mixarea a două piese, ceea ce se va auzi predominant este că nestins. Nu promit încă grafice interesante, dar puteți auzi singur pe sistemul dvs. ce sunete s-au pierdut în timpul compresiei de la flac la mp3 128\320 kbps, arhivă cu exemple la sfârșitul articolului.
Studiu
Trebuie să descărcați și să ascultați 12 piese a câte 30 de secunde fiecare. Apoi specificați pentru fiecare dintre cele 4 melodii una dintre cele 3 opțiuni (128 kbps, 320 kbps sau lossless).
Sondajul este anonim, dar puteți să specificați un hash unic și să mi-l spuneți sau, în ultimă instanță, să vă publicați aici părerea, dar asigurați-vă că folosiți un spoiler. Sondajul va dura până pe 25 februarie, după care voi publica cheia și statisticile.
Fișiere pe Yandex Disk, oglindă pe Dropbox (~80Mb).
Datele inițiale
The Black Keys - Everlasting Light (flac, 44100 Hz, 24-Bit, 1613 kbps), disponibil la Youtube.
Ludovico Einaudi - Drop (flac, 96000 Hz, 24-Bit, 2354 kbps), disponibil pe Yandex Music.
CC Coletti - Rock and Roll (flac, 192000 Hz, 24-Bit, 4845 kbps), disponibil la Youtube.
Annihilator - Ultra-motion (flac, 44100 Hz, 16-bit, 1022 kbps), disponibil la Youtube.
opțiuni de conversie mp3
44,1 kHz, stereo, 128 kbps sau 320 kbps
Descrierea experimentului
Fișierele sursă sunt tăiate în bucăți de câte 10 secunde fiecare, fiecare bucată este exportată în wav. După importarea pieselor rezultate, 2 secunde de tăcere și un al doilea semnal de ton sunt adăugate la începutul fiecăreia, apoi convertite în mp3. După importarea fișierelor mp3, se dovedește că, în raport cu originalul, fișierul rezultat a „mers înainte”. Acesta nu este un bug, este. Sincronizăm cu un anumit semnal de ton din original (am încercat mai multe valori pentru fiecare fișier mp3, pe care ulterior l-am rafinat la cel mai bun rezultat), scăpăm de semnalul de ton, tăcem și exportăm piesele rezultate în wav. Acum tot ce rămâne este să inversezi piesele pentru a obține vârfuri multidirecționale și să le amesteci cu originalul.
Rezultat
Nu voi descoperi America... Da, există o diferență. Da, mai ales când este comprimat la 128 kbps. Da, depinde de muzica. Da, chiar mai mult din calea audio.
Puteți trage propria concluzie și puteți auzi diferența descărcând fișierele pe

Se vorbește mult în aceste zile despre cum am pierdut muzica reală odată cu apariția formatelor audio comprimate precum MP3, AAC și altele asemenea. Este asta cu adevărat adevărat? Formatele Lossless vor salva muzica? Poate un ascultător neinstruit să distingă chiar muzica în MP3 de formatele FLAC? Să ne uităm la această problemă.

Ce este bitrate?

Probabil că ați mai auzit termenul „bitrate” și probabil că aveți o idee generală despre ce înseamnă acesta, dar ar putea fi o idee bună să vă familiarizați cu definiția sa oficială, astfel încât să știți cum funcționează totul.

Rata de biți este numărul de biți sau cantitatea de date care sunt procesate într-o anumită perioadă de timp. În audio, aceasta înseamnă de obicei kilobiți pe secundă. De exemplu, muzica pe care o cumpărați de pe iTunes este de 256 de kilobiți pe secundă, adică fiecare secundă a melodiei conține 256 de kilobiți de date.

Cu cât rata de biți a unei piese este mai mare, cu atât va ocupa mai mult spațiu pe computer.. De obicei, un CD audio ocupă destul de mult spațiu, așa că a devenit o practică obișnuită să comprimați aceste fișiere, astfel încât să puteți inscripționa mai multă muzică pe dvs. hard disk(sau iPod, Dropbox sau orice altceva). Aici intră în dezbatere formatele „fără pierderi” și „cu pierderi”.

Formatele Lossless și Lossy: care este diferența?


Când spunem „fără pierderi” ne referim la faptul că nu ne-am schimbat cu adevărat fișier sursă . Adică am copiat piesa de pe CD pe hard disk, dar nu am comprimat-o până la punctul în care am pierdut date. Aceasta este în esență aceeași cu piesa CD-ului original.

Cu toate acestea, de cele mai multe ori probabil că îți extragi muzica în format Lossy. Adică ai luat un CD, l-ai copiat pe hard disk și ai comprimat piesele astfel încât să nu ocupe mult spațiu. Un album tipic are probabil 100 MB sau cam asa ceva. Același album într-un format fără pierderi, cum ar fi (cunoscut și sub numele de Apple Lossless) va ocupa aproximativ 300 MB, așa că a devenit o practică obișnuită să folosiți formate cu pierderi pentru timpi de încărcare mai rapidi și economii mai mari de hard disk.

Problema este că atunci când comprimați un fișier pentru a economisi spațiu, eliminați bucăți de date. Exact ca atunci când iei o imagine din calitate superioară, și comprimați-l într-un format JPEG, computerul preia datele originale și „păcălește” anumite părți ale imaginii pentru ca aceasta să arate practic la fel, dar cu o oarecare pierdere de claritate și calitate.

Să luăm ca exemplu cele două imagini de mai jos: Cel din dreapta este clar comprimat și calitatea a fost redusă ca urmare.

Amintiți-vă că economisiți spațiu pe hard disk comprimând muzica în formate Lossy, ceea ce poate face o mare diferență pe un iPhone cu 32 GB de memorie, dar în ceea ce privește raportul volum/calitate este doar un compromis.

Există diferite niveluri de compresie: 128Kbps, de exemplu, ocupă foarte puțin spațiu, dar va avea, de asemenea, o calitate de redare mai scăzută decât un fișier mai mare de 320Kbps, care, la rândul său, este de o calitate mai scăzută decât fișierul de referință de 1,411Kbps. 1.411 Kbps este calitate CD audio, care este mai mult decât suficientă în majoritatea cazurilor.

Întreaga problemă nu este cât de mult este comprimată muzica, ci pe ce echipament o ascultați.

Chiar contează bitrate?


Pe măsură ce memoria devine mai ieftină în fiecare an, ascultarea audio la rate de biți mai mari sau chiar în formate Lossless începe să devină din ce în ce mai populară. Dar merită timpul, efortul și amprenta memoriei de pe telefon sau computer?

Nu-mi place să răspund la întrebări în acest fel, dar, din păcate, răspunsul este: depinde.

O parte a ecuației este echipamentul pe care îl utilizați.. Dacă utilizați o pereche de căști sau difuzoare de calitate, sunteți obișnuit cu o frecvență și o gamă dinamică mare. Deci, cel mai probabil veți observa dezavantajele care vin cu comprimarea muzicii în fișiere cu rate de biți mai mici. Este posibil să observați că fișierelor MP3 de calitate scăzută le lipsește un anumit nivel de detaliu; Urmele subțiri de fundal pot fi mai greu de perceput, de sus și frecvențe joase nu va fi la fel de dinamic, sau puteți auzi distorsiuni în vocea solistului. În aceste cazuri, este posibil să aveți nevoie de o rată de biți mai mare.

Cu toate acestea, dacă ascultați muzica folosind o pereche de căști ieftine pe iPod, probabil că nu veți observa diferența dintre un fișier de 128 Kbps și un fișier de 320 Kbps, darămite muzică fără pierderi de 1,411 Kbps. Îți amintești când ți-am arătat imaginea câteva paragrafe mai sus și am remarcat că probabil a trebuit să te uiți cu atenție la ea pentru a vedea defectele? Căștile tale sunt ca o versiune trunchiată a imaginii: vor face ca aceste imperfecțiuni să fie greu de perceput, deoarece sunt fizic incapabile să reda muzica pentru tine așa cum ai nevoie.

Cealaltă parte a ecuației este, desigur, propriile urechi. Unii oameni le poate fi foarte dificil să facă distincția între două rate de biți diferite din simplul motiv că nu ascultă multă muzică. Abilitățile de auz, ca oricare alta, se dezvoltă odată cu practica. Dacă asculți muzica ta preferată des și mult, auzul tău devine mai precis și începe să capteze mici detalii și tonuri medii. Dar până atunci, chiar nu contează ce bitrate folosești?

Deci, ce format și rata de biți ar trebui să alegeți pentru dvs.? Este suficient 320 Kbps pentru tine sau ai nevoie cu siguranță de formatul Lossless?

Chestia este că este greu să auzi diferența dintre un fișier fără pierderi și un fișier MP3 de 320 Kbps. Pentru a auzi diferența, veți avea nevoie de un echipament serios, de înaltă calitate, un auz bun și un anumit tip de muzică (cum ar fi clasică sau jazz).

Pentru marea majoritate a oamenilor, 320 Kbps este mai mult decât suficient pentru a asculta.

Ce altceva trebuie luat în considerare?


Muzica înregistrată poate fi de ajutor. Fișierele Lossless sunt mai rezistente pentru viitor, în sensul că le puteți comprima oricând în format Lossy atunci când aveți nevoie, dar nu puteți face opusul și să restaurați calitatea CD-ului original dintr-un fișier MP3. Aceasta, din nou, este una dintre problemele fundamentale ale magazinelor de muzică online: dacă ați creat o bibliotecă uriașă de muzică în iTunes și într-o zi decideți că aveți nevoie de mai mult bitrate, va trebui să o cumpărați din nou, doar că de data aceasta în format CD.

Ori de câte ori este posibil, cumpăr sau copiez întotdeauna muzică în format Lossless în scopuri de backup.

Înțeleg că pentru audiofili, acesta este ca un ac sub unghii. După cum am spus mai devreme, totul depinde de tine, de auzul tău și de echipamentul pe care îl ai.

Comparați două piese înregistrate în formatele Lossless și Lossy. Încercați câteva formate audio diferite, ascultați-le o vreme și vedeți dacă face o diferență pentru dvs. sau nu.

ÎN cel mai rău caz vei petrece câteva ore ascultând muzica ta preferată - nu atât de înfricoșător, nu? Bucură de ea!