Формат MP3; мультимедійний експерт

Вступ

Беручи до уваги теоретичні обмеження відновлення якісного аналогового сигналу (для людського вуха) з дискретизованого сигналу (теорема Шеннона), ми наклали на аудіо компакт-диски формат зберігання звуку, що має такі дані:
Частота дискретизації = 44,1 кГц
16-розрядні закодовані дані
Стерео звук

Це означає, що зразки, взяті з музичного твору, що підлягає оцифровці, беруться зі швидкістю 44,1 кГц, що вони закодовані на 16 бітів (тобто 65 536 різних можливих рівнів) і що звук є стерео, тобто для даного зразка, необхідність зберігання правого та лівого каналів.
За допомогою цього стандарту, скільки місця займає хвилина музики? ?
Ми маємо 44 100 зразків за 1 секунду (44,1 кГц). Кожен зразок кодується 16 бітами або 2 байтами, а звук стерео. Тому ми маємо ((44100 * 2) * 2 * 60) байт за одну хвилину стерео музики, тобто 10.584x10 6 байт !

Щоб зберегти хвилину музики, потрібно близько 10 МБ.
Ми бачимо, що аудіосигнал, що зберігається на цифровому носії, займає багато місця, звідси ідея спроби його стиснення та поява стандарту MP3.

Стиснення MP3

Що таке техніка стиснення MP3 ?
Насправді, ми повинні скоріше говорити про набір методів, що використовуються для досягнення кінцевого результату. Серед цих методів, як кажуть, деструктивні, інші ні.

Руйнівне стиснення, це стиснення, яке здійснюється втратою інформації. Це означає, що якщо ми розпакуємо стислий сигнал за допомогою такої техніки, ми не знайдемо вихідний сигнал.

Серед руйнівних методів стиснення, в основному ми маємо методи, які використовують властивості людського вуха. Останній чує частоти в діапазоні від 20 Гц до 20 кГц. Якщо пісня містить частоти за межами цього діапазону, ми можемо їх просто і просто видалити, не втрачаючи якості звуку, оскільки вухо їх не чує. Насправді ми правильно чуємо частоти в діапазоні від 2 до 5 кГц. Дійсно, для прослуховування частот цієї смуги потрібно менше 5 дБ, тоді як для прослуховування частот нижче 100 Гц або вище 10 кГц потрібно більше 20 дБ. Ці результати можна використати для зменшення розміру файлів. Наприклад, ми можемо вирішити, що всі частоти вище 15 кГц будуть видалені.

MP3 також використовує принцип частот маскується. Якщо в групі частот деякі мають набагато вищий рівень звуку, ніж інші, не потрібно підтримувати низькі частоти рівня звуку: вони не будуть чути. Щоб використати більш переконливе порівняння, уявіть, що ви перебуваєте у своєму саду і чуєте цвірінькання птахів. Згода проходить над головою (навіть дуже висока). Ви більше не будете чути птахів, оскільки звук, який вони видають, набагато нижчий від звуку, який створюється літаком. Наче птахи вже не існують або перестали співати. Ми бачимо, що не потрібно кодувати всі частоти, наявні в шматку, щоб людське вухо все одно сприймало це правильно. Нарешті, якщо два канали стереозвуку мають схожі послідовності, замість того, щоб дублювати ці послідовності, ми, очевидно, зберігаємо один та інформацію про те, що на даний момент правий та лівий канали ідентичні.

Серед неруйнівних прийомів, що ми знаходимо ?
В основному прийоми кодування.
Пояснимо собі. Звук - це частота. Отже, секунда музики - це послідовність частот. Уявімо, що в серії семплів, що складають секунду музики (пам’ятайте, що їх є 44 100), ми маємо однакову частоту кілька разів поспіль, наприклад 10 разів. Якщо замість того, щоб зберігати ці 10 точок, ми зберігаємо лише 1 і кількість разів, коли це повторюється, нам потрібно закодувати 2 числа, а не 10. Якщо, крім того, ми застосовуємо цей метод до частот, які вже не є однаковими, але дуже близькими до один одного (настільки близько, що середнє людське вухо не може їх розрізнити), ми все одно можемо отримати простір. Цього разу стиснення руйнівне, оскільки ми замінюємо одну частоту іншою (майже однаковою).

MP3 також використовує Алгоритм Хаффмана (1952) як метод кодування інформації. Цей метод використовується у всіх алгоритмах стиснення (стиснення текстових файлів, стиснення зображень, стиснення звуків). Він базується на використанні коду змінної довжини та ймовірності настання події (в даному випадку частоти). Чим частіше частота з'являється, тим коротший її код (мала кількість бітів для її представлення). Файл читається вперше, і складається таблиця з частотами, що з'являються, і кількістю їх появи. Виводимо відповідний код. Це кодування використовується в останню чергу. Це заключна фаза стиснення. Це неруйнівне кодування.

MP3 працює в 1е-е розмістіть властивості вуха зменшувати розмір a шматок, тоді ми обробляємо стерео аспект і, нарешті, застосовуємо кодування, закінчуючи за кодуванням Хаффмана.

Використання всіх згаданих можливостей зменшення залежить від простору, який ми хочемо приділити 1 хвилині стисненого звуку, а отже і швидкості стиснення, яку нам доведеться застосувати.
Для кодування звукових файлів у форматі MP3 ми говоримо більше з точки зору бітрейту, ніж швидкості стиснення.
Бітрейт - це кількість бітів, дозволених за 1 секунду.
Тому ми матимемо таке співвідношення: чим більше ми хочемо стиснути пісню (щоб вона займала якомога менше місця), тим меншим повинен бути бітрейт для вибору.

Вибір швидкості стиснення (бітрейт)

Очевидно, що чим більше ви стискаєте, тим нижча якість звуку.
Ми повинні зробити a компромісний розмір файлу/якість звуку.
Цей компроміс може бути продиктований вашими вимогами, а також використанням ваших MP3-файлів. Дійсно, ви можете бути невибагливими, якщо ваші MP3-файли призначені для вашого Walkman і бути дуже вимогливими до прослуховування в системі Hifi. ! Наведена нижче таблиця може допомогти вам зробити вибір.

Зверніть увагу, що сигнал, стислий з бітрейтом 64 кбіт/с, має смугу пропускання 11 кГц (усі частоти від 11 до 20 кГц видаляються!).
Для отримання такої швидкості стиснення, крім придушення частот, ВЧ також трансформувався в моносигнал замість того, щоб зберігати їх стерео характер. Звук MP3 файлів, стиснених з бітрейтом 64 кбіт/с, не має нічого спільного з оригіналом, тому наша порада використовувати такий бітрейт лише для прослуховування на Walkman і знову.
Хорошим компромісом є використання бітрейту 128 кбіт/с.

Ми також можемо додати, що ми також повинні звернути увагу на технологію стиснення, що використовується кодером. Насправді існує три основних сімейства кодерів, які відрізняються своїм алгоритмом кодування. Існують кодери, розроблені Інститутом Фраунгофера, кодери, що базуються на процедурах, розроблених Xing Technology, і кодери, що базуються на процедурах ISO. Грубо кажучи, ми можемо сказати, що Фраунгофер віддає перевагу якості стисненого сигналу, тоді як Xing - швидкості своїх алгоритмів. Для інших це залежить від творців.

Підсумовуючи, скажімо, що якщо ви хочете якісні файли MP3 музику, яку можна слухати скрізь, навіть у вашій системі Hifi, використовуйте бітрейт 128 кбіт/с, якщо у вас кодер Fraunhofer, процедури на основі ISO або a 192 біт/с, бітрейт, якщо ви використовуєте кодер Xing.