Цифрове аудіокодування Зменшення даних

З моменту появи компакт-диска (CD) та появи цифрової аудіокасети (DAT) цифрові технології стають все більш популярними в аудіосекторі. І CD, і DAT використовують імпульсну модуляцію коду (PCM) як основний процес оцифрування. Ця технологія перетворює оригінальний аналоговий аудіосигнал у цифровий світ за допомогою вибірки, квантування та кодування. Оскільки PCM не використовує зменшення даних, досягається відмінна якість звуку - але воно купується за ціною високих вимог до пам'яті. У PCM компакт-диск може містити максимум 80 хвилин аудіоданих.

Навіщо зменшувати аудіодані?

Високі вимоги до пам'яті PCM, зокрема, робили безпосереднє використання цієї технології в цифрових радіо- та мультимедійних системах неефективним, дорогим або неможливим. Ці системи вимагають радикальної дієти для схуднення звукових сигналів. Причинами цього є недостатня потужність передачі у мовленні, обмежена швидкість передачі даних сучасних систем шин (PCI, IDE, SCSI) і, перш за все, все ще нестача місця для зберігання. Мало того, що не вистачає місця на жорсткому диску, основна пам’ять в сучасних системах ПК також пропонує недостатньо резервів для розумної роботи з аудіоданими PCM. Якщо ви вважаєте, що 6-хвилинний музичний твір в PCM вимагає до 60 МБ пам’яті (файл WAV), то неважко уявити, що передача цього твору через Інтернет, наприклад, є чим завгодно, але вигідною, не кажучи вже про класичні твори тривалістю кілька годин . Результатом буде надзвичайно довгий час завантаження.

З іншого боку, цифрові технології мають неперевершені переваги перед аналоговими технологіями. Дуже хороша якість звуку, стійкість до перешкод та відносно проста технічна керованість були достатніми причинами для того, щоб останні дослідницькі установи в останні роки все частіше розробляли методи, які дозволяють зменшити вимоги до зберігання цифрових аудіосигналів і, отже, їх використання в нових областях, таких як цифрове мовлення. Основною метою було підтримати якість звуку, а компакт-диск був довідковим. Результат - ціла серія кодеків, деякі з яких економить значну кількість даних. На даний момент кодек MP3, розроблений експертною групою кінофільмів (MPEG), який широко поширений в Інтернеті, є, мабуть, найбільш відомим, але MPEG 2, AC-3, ATRAC та інші також є відомими методами цифрового аудіокодування.

Обсяг пам'яті, необхідний цифровому аудіосигналу, в першу чергу визначається швидкістю передачі даних і частотою дискретизації. Обидва параметри можна регулювати під час кодування сигналу. У наступному розділі розглядаються наслідки зміни частоти дискретизації та швидкості передачі даних при обробці сигналів.

Вимоги до зберігання залежно від вибірки та швидкості передачі даних

Для того, щоб перетворити аналоговий сигнал у цифровий еквівалент, потрібно відібрати вихідну функцію. Процес відбору проб також відомий як відбір проб. Точні взаємозв'язки між вибіркою, квантуванням та кодуванням можна знайти в нашій статті "Цифрове зберігання даних та виготовлення аудіокомпакт-диска" в області технологій на нашій домашній сторінці http://www.burosch.de

Другий спосіб кодування цифрових аудіоданих із низькими вимогами до пам'яті - це використання низької швидкості передачі даних. Вибірка та квантування дають дискретні значення вихідного аналогового сигналу. Хоча дискретизація дискретизує оригінал у часовій області, квантування обмежує значення напруги, виміряні під час дискретизації, фіксованою кількістю значень. Якщо значення напруги вимірюється шляхом відбору проб у певний момент часу, це значення напруги округляється до найближчого доступного значення під час квантування. Якщо є лише декілька значень, які можна округлити до, результатом є лише кілька різних цифрових значень для опису вихідної аналогової функції. Досить кілька бітів, щоб двійкове кодування цих значень.

Однак вихідна функція лише недостатньо апроксимована лише кількома значеннями квантування. Через сильне округлення виміряних значень напруги виникають помилки округлення, які можна почути при м’яких музичних проходах. Шуми, які виникають, також називаються шумом квантування. Однак існують широкі діапазони частот, які можна безпечно зберігати з меншою кількістю даних. Ці ділянки в першу чергу визначаються чутливістю людського вуха. Ви можете дізнатись більше у наступному розділі.

Людський слух - підхід до стиснення звукових даних

Медичні та фізичні обстеження людського вуха та обробка шуму в мозку показали, що слуховий апарат має свої перцептивні характеристики. За певних обставин мозок не реєструє або лише частково реєструє мозок. Багато компонентів сигналу, які присутні в акустичному сигналі, навіть не сприймаються людиною. Дослідженням цих питань займається так звана психоакустика. На сьогодні виявлено такі дефіцити сприйняття людського вуха:

Перцептивний діапазон слуху:
Хвилі можуть випромінюватися в широкому діапазоні частот. Однак людське вухо може реально сприймати лише невелику ділянку цього діапазону частот, діапазон звукових частот. Теоретично люди можуть чути звуки з частотами приблизно від 20 Гц до 20 кГц. На практиці, однак, було показано, що чутливість вуха значно зменшується до низьких і високих частот. На малюнку вище амплітуда, тобто звуковий тиск, наноситься на графік щодо частоти. Вимірювання показали, що всі сигнали, які повністю перебувають нижче порогового слуху (червона лінія), не чутні. Амплітуда цих тонів (зелені піки на зображенні) занадто низька, тому їх гучність занадто мала, щоб сприйматися. Цікаво спостерігати, що поріг тихого слуху не є постійним при певному значенні амплітуди, а змінюється з частотою. Дуже низькі тони (менше 50 Гц) можна почути лише з дуже високих амплітуд, як і тони вище приблизно 15 кГц. Також слід зазначити, що не всі мають однаковий поріг тихого слуху. Діти чують високі частоти набагато краще, ніж люди похилого віку.
Маскування:
Ще одним дефіцитом слухового апарату людини є неможливість розрізнити тони дуже подібної частоти та дуже різної гучності. Цей ефект також називається слухова маскування або одночасне німецьке маскування. Сигнал високої амплітуди (темно-синій на малюнку вище), також відомий як маска, приховує більш тихі сигнали, що мають подібну частоту. На малюнку це всі сигнали, які знаходяться в межах області, виділеної жовтим кольором. Деякі бірюзові піки показані як приклад. Жовта область межує з помаранчевим кольором, індивідуальним порогом маскування маскара. Індивідуальний поріг маскування та поріг тихого слуху можна поєднати, щоб сформувати так званий загальний поріг маскування. Тому всі сигнали, які перебувають нижче загального порогу маскування, не чутні. На практиці слухове маскування означає не що інше, як те, що гучні музичні сигнали покривають тихі частини і роблять їх нечутними.
Інший маскуючий ефект виникає, коли два тони слідують один за одним протягом дуже короткого часу. З цих двох тонів сприймається лише той, що має більшу амплітуду, тобто більшу гучність. Цікаво, що навіть якщо м’який звук доходить до вуха першим, у головному мозку реєструється лише гучний сигнал, що надходить пізніше. Цей другий важливий маскуючий ефект також називається технічним жаргоном тимчасове маскування (тимчасове маскування).
Дефіцити при локалізації низьких частот:
Хоча людське вухо здатне добре локалізувати точку початку тонів середніх і високих частот в кімнаті, проблеми виникають в області нижчих частот. Мозок обчислює місце розташування джерела звуку на основі різниці в часі проходження сигналу між лівим і правим вухом. Якщо праворуч є джерело звуку, хвилі, випромінювані цим джерелом, сприймаються раніше правим вухом, ніж лівим. Потім походження тонів обчислюється з інтервалу часу між сприйняттям лівого та правого вуха. Однак звукові сигнали дуже низької частоти мають дуже великі довжини хвиль, що робить чітку локалізацію неможливою. Тому практично немає тональної різниці між моноджерелом звуку для низькочастотних сигналів та стерео джерелом звуку для звуків дуже низької частоти. Це також відомо як спільний стереоефект. Він використовується, наприклад, при побудові супутникових систем сабвуфера, а також є відправною точкою для стиснення звуку в області низьких тонів.

Тому людський слух може лише неадекватно або зовсім не сприймати цілу низку частотних діапазонів. В електротехніці сфера цифрової обробки сигналів займається (цифрова обробка сигналу, DSP), серед іншого, з математичними процесами, які в поєднанні з психоакустичною моделлю слухового апарату призводять до зменшення даних. Такі процеси позначаються терміном психоакустичне кодування або перцептивне кодування узагальнено.

Математичні методи зменшення даних:

Математичні методи зменшення даних, про які йдеться в цьому розділі, спрямовані або на усунення надмірності з даних, що стискаються, тобто на переставлення повторюваних частин так, щоб їх було збережено лише один раз, або на видалення даних, зайвих відповідно до психоакустичної моделі принципово в техніках без втрат та втрат. Слід зазначити, що технології без втрат призводять до скорочення даних лише за певних умов. Часто посилення стиснення за допомогою цих методів досить обмежене. Перевага технік без втрат очевидно в тому, що вони не змінюють якість оригіналу.

Однак спочатку слід визначити, як часто окремі символи з’являються в рядку даних. Однією з можливостей є кодування окремих даних відповідно до заданої статистики частоти. Наприклад, німецький текст може бути закодований відповідно до цієї процедури, якщо точно визначено, як часто в середньому окремі букви трапляються в німецькій мові. Проблема цього типу визначення частоти полягає в тому, що на практиці існують відхилення від випадків, очікуваних згідно зі статистичними даними. Це може призвести до неприбуткового кодування, якщо обсяг даних залишається незмінним до і після процесу кодування, або в крайніх випадках (неправильна статистика) алгоритм навіть призводить до ситуації, коли потреба в пам'яті зросла після кодування. Цей метод визначення частоти окремих символів абсолютно неможливий для кодування невідомої інформації, такої, яка присутня в аудіосигналах. Тут потрібно пройти інший шлях.

Перевага поділу на окремі смуги частот полягає в тому, що методи стиснення даних можуть атакувати більш ефективно. Якби весь діапазон частот зменшився в даних до одного сплеску, стиснення могло б бути якомога більшим без чутних втрат, наскільки це можливо в критичних діапазонах (понад усі частоти від 2 кГц до 5 кГц). Однак це означало б, що потрібно буде зберігати менш помітні частотні сегменти (більше 15 кГц і нижче 50 Гц) з вищою вимогою до пам'яті, ніж насправді. З цієї причини діапазон частот ділиться на окремі секції, і лише тоді кожен окремий діапазон стискається та кодується для забезпечення максимальної ефективності.

Декодер для підсмугового кодування (див. Малюнок нижче) має дуже подібну структуру до кодера. Спочатку вхідний бітовий потік (Y (n)) проходить через демультиплексор, який розбиває рядок даних на окремі піддіапазони. Потім відбувається етап декодування. У наступному інтерполяційному фільтрі деякі обчислювані вибірки відновлюються до того, як банк синтезаційних фільтрів формує вихідний сигнал Z (n) з піддіапазонів шляхом підсумовування.