Главная Случайная страница


Категории:

ДомЗдоровьеЗоологияИнформатикаИскусствоИскусствоКомпьютерыКулинарияМаркетингМатематикаМедицинаМенеджментОбразованиеПедагогикаПитомцыПрограммированиеПроизводствоПромышленностьПсихологияРазноеРелигияСоциологияСпортСтатистикаТранспортФизикаФилософияФинансыХимияХоббиЭкологияЭкономикаЭлектроника






Компрессия цифровых звуковых данных в системе DTS

Общие сведения. В системе пространственного звучания DTS для кодирования звуковых сигналов используется кодек apt-X100. В нем применен алгоритм субполосной адаптивной дифференциальной импульсно-кодовой модуляции (в английском написании Subband-ADPCM — Adaptive Differential Pulse Code Modulation). Напомним, что алгоритм ADPCM широко используется для сжатия речевых сигналов. В частности, он рекомендован стандартом G.726 (принят в 1984 году) для применения в речевых кодеках. Данный алгоритм обеспечивает качество кодированной речи при скорости цифрового потока, равной 32 кбит/c, — практически такое же, как и при равномерной ИКМ и скорости потока, равной 64 кбит/c, то есть позволяет уменьшить скорость в два раза. Эффективность алгоритма ADPCM повышается еще более при разделении сигнала на полосы, что и реализовано в кодере apt-X100.

Входной ИКМ-сигнал имеет в кодере системы DTS обычно частоту дискретизации 44,1 кГц и разрешение 16 бит/отсчет. Сжатие цифровых данных здесь равно 4:1, суммарная скорость цифрового потока на выходе apt-X100-кодера для пяти каналов звука (L, C, R, LS, RS) составляет 882 кбит/c при верхней частоте сигнала, равной 20 кГц. В настоящее время известно несколько модификаций цифровых форматов в системах DTS, ориентированных на разные области применения (табл.1).

Таблица 1. Общие сведения о звуковых форматах систем Dolby Lab, DTS и SDDS
  Dolby Stereo (Pro Logic) Dolby Digital DTS SDDS
Алгоритм сжатия AC-3 apt-X100 (Coherent Acoustics2) ATRAC
Число независимых каналов
Всего каналов 6(71) 6(71)
Число surround-каналов 2(31) 2(31)
Частотный диапазон surround-каналов, Гц 100-7000 20-20000 80-20000 20-20000
Наличие независимого низкочастотного канала нет есть есть есть
Битрейт для кинопленки, кбит/с нет данных
Битрейт для DVD, кбит/с 192-448 754/15093

Примечания. 1 — для формата Dolby Digital Surround EX; 2 — кодек Coherent Acoustics используется для CD и DVD, а кодек apt-X100 для кинематографа; 3 — для системы DTS-ES; для музыкальных компакт-дисков, закодированных в формате DTS, битрейт составляет 1235 кбит/с.

Принято считать (так об этом заявляют, по крайней мере, разработчики системы DTS), что при компрессии цифровых данных, равной 4:1, алгоритм apt-X100 обеспечивает так называемое прозрачное кодирование. Это значит, что искажения, вызванные процедурой компрессии цифровых данных, по отзывам квалифицированных слушателей, незаметны на слух.

Достоинствами алгоритма ADPCM являются:

  • малая чувствительность к цифровым ошибкам;
  • возможность многократного переприема по низкой частоте, что важно при редактировании и монтаже фонограмм (когда звуковой сигнал многократно преобразовывается из «цифры» в «аналог» и наоборот);
  • возможность передачи дополнительной информации со скоростью около 12 кбит/c;
  • простота реализации кодера при его работе в реальном масштабе времени.

Кодер apt-X100. Основными базовыми процедурами системы кодирования apt-X100 являются:

Рис. 3 Упрощенная структурная схема двухканального кодека apt-X100
  • предварительное разделение спектра исходного звукового сигнала на субполосные составляющие;
  • линейное предсказание;
  • адаптивное квантование и кодирование сигнала ошибки в каждой из выделенных субполос независимо друг от друга.

Укрупненная структурная схема двухканального кодека apt-X100 представлена на рис. 3. Суммарный цифровой поток левого L и правого R сигналов стереопары разделяется (х) на две части, каждая из которых затем кодируется независимо и после этого мультиплексором (MUX) снова объединяется в единый цифровой поток. В декодере выполняются обратные преобразования: сжатый цифровой поток демультиплексируется (DEMUX), затем каждый из полученных сигналов декодируется, после чего два восстановленных сигнала L и R при необходимости могут быть снова объединены в единый цифровой поток.

Структурная схема кодера apt-X100 показана на рис. 4. Входной цифровой сигнал обрабатывается временными блоками (выборками), каждый из которых состоит из кодовых слов четырех последовательных отсчетов звукового сигнала. Эти блоки, кодовые слова отсчетов которых содержат еще по 16 бит, обрабатываются в банке цифровых зеркальных квадратурных фильтров (QMF-фильтры), с помощью которых входной цифровой сигнал разделяется на четыре одинаковых по ширине полосы частот субполосных составляющих: LF subband 1, Lower MF subband 2, Higher MF subband 3 и HF subband 4. В каждом таком субполосном канале частота дискретизации понижается в четыре раза. Время выборки входного сигнала при частоте дискретизации 44,1 кГц составляет 2,7 мс, а при 48 кГц — соответственно 2,5 мс. Полосы частот субполосных сигналов, например, при верхней граничной частоте звукового сигнала, равной 20 кГц, составляют: 0…5 кГц (LF subband 1), 5…10 кГц (Lower MF subband 2), 10…15 кГц (Higher MF subband 3), 15…20 кГц (HF subband 4). На выходах QMF-фильтров мы имеем еще 16-битные слова.

Рис. 4. Структурная схема декодера apt-X100

При разделении звукового сигнала на субполосные составляющие учитываются свойства слуха и спектральные особенности самого сигнала. Напомним, что энергия большинства музыкальных инструментов имеет весьма неоднородное распределение по частоте. Для количественной оценки этого явления часто используют такое понятие как «спектральная неоднородность», под которой понимается величина, показывающая, насколько спектры реального звукового сигнала и белого шума в субполосе кодирования отличаются друг от друга. Заметим, что струнные музыкальные инструменты создают звучания, по своей окраске весьма близкие к тональным сигналам. Их спектры имеют значительную спектральную неоднородность и содержат области частот, не играющие существенной роли при слуховом восприятии, то есть они обладают вполне определенной избыточностью. Часто оказывается, что значительная часть энергии сигнала таких музыкальных инструментов содержится в достаточно узких полосах частот, например, вблизи основного тона и некоторых обертонов. В то же время удары тарелок создают сигналы, напоминающие шум. Они содержат мало «спектральной избыточности», их энергия распределяется более или менее равномерно на большой диапазон частот.

Важно, что для сложных по структуре звука музыкальных инструментов их основной тон расположен в области частот, не превышающей 4000 Гц. Причем вне этой области уровень спектральных составляющих достаточно быстро уменьшается. Именно это свойство звуковых сигналов и используется в системе кодирования apt-X100. В тех субполосах, где энергия звукового сигнала значительна, их кодирование выполняется с высоким разрешением (разрядность кодового слова больше). И наоборот, в тех субполосах, где энергия сигнала минимальна, кодирование выполняется с наименьшим разрешением по уровню. Иначе говоря, при разделении спектра исходного сигнала на полосы и последующем независимом квантовании и кодировании информации в каждой из них учитывается реакция слуха на заметность искажений, вызванных квантованием субполосных сигналов. Это дает определенные преимущества при восприятии, ибо один и тот же уровень шумов квантования неодинаково будет восприниматься слуховой системой человека при субполосном кодировании. Важным достоинством QMF-фильтров является также и отсутствие интерференционных искажений в местах стыковки (перекрытия) субполосных сигналов.

Далее отсчеты этих временных блоков после фильтрации одновременно обрабатываются в четырех цепях (субканалах, см. рис.4), каждая из которых и представляет собой собственно АДИКМ-кодер. Она содержит сумматор (+), квантователь Q, линейный обратный предсказатель Р, вычитатель (-), устройство адаптации шага квантования D, инверсный квантователь 1/Q. Сигнал, формируемый на выходе предсказателя P в каждый текущий момент времени, учитывает предысторию сигнала: он формируется на основе учета 122 предшествующих значений отсчетов звукового сигнала. Эти 122 отсчета обусловливают величину задержки предсказанного значения по отношению к текущему моменту времени, что должно быть учтено. Текущее и предсказанное значения вычитаются, при этом квантуется и кодируется их разность, что требует существенно меньшего числа бит. Кодовое слово разностного сигнала называется сигналом ошибки, оно еще по-прежнему содержит 16 разрядов. Можно сказать, что сигнал ошибки квантуется повторно с использованием адаптивного квантователя Лапласа. При этом размеры шага квантования изменяются ступенями в зависимости от абсолютной величины сигнала ошибки. Изменение величины шага квантования также базируется на анализе изменения величин предшествующих отсчетов звукового сигнала. В итоге достигается оптимальное разрешение квантованного сигнала ошибки, а следовательно, и преобразование формата сигнала и его сжатие.

Итак, в цепи линейного предсказания текущее значение отсчета сигнала сравнивается с предсказанным значением, вычисленным по определенной процедуре. Очевидно, что предсказанное значение может быть меньше или больше текущего значения отсчета. В каждом случае этот сигнал ошибки вычисляется как разность сравниваемых отсчетов. Если предсказанное значение будет вычислено точно, то уровень сигнала ошибки будет во много раз меньше значения текущего отсчета и его можно повторно квантовать Q с существенно меньшим разрешением, чем исходное 16-битное слово.

Предсказание базируется на значении предшествующего отсчета, которое реконструируется инверсным квантователем (1/Q). При этом имеется в виду, что кодер и декодер во всем диапазоне возможных изменений уровня могут генерировать идентичные предсказанные значения при отсутствии какой-либо телекоммуникационной связи между ними. Благодаря этому точные значения редуцированных избыточных частей сигнала в декодере могут быть снова реконструированы.

Здесь важно отметить следующее. Эффективность (точность) линейного предсказания растет при наличии в сигнале явной периодичности и благодаря этому свойству может быть существенно повышена, что и реализовано в системе кодирования apt-X100. Заметим, что чистые тоны или тонально похожие сигналы воспринимаются с очень высоким разрешением, то есть слух (имеющий множество детекторов) способен их выделять. При наличии в сигнале значительной периодичности сигнал ошибки, генерируемый в цепи линейного предсказания, очень мал, поэтому кодирование оказывается в этом случае возможным с максимальной точностью (высокая точность предсказания). И наоборот, шумоподобные сигналы не вызывают при слуховом восприятии слишком четких ощущений, их периодичность в сравнении с тональными сигналами незначительна, что является причиной появления большого сигнала ошибки при линейном предсказании. Однако интересно здесь то, что такой сигнал с позиций слухового восприятия может кодироваться с малым разрешением.

Разрядность квантованного разностного сигнала внутри одной и той же субполосы выбирается постоянной по величине и независящей от уровня сигнала ошибки. В первой из субполос кодирования (рис. 4) длина кодового слова составляет 7 бит/отсчет, что обеспечивает наилучшее разрешение, а следовательно, и наименьшее различие квантованного и исходного значения кодируемого сигнала ошибки. Во второй субполосе длина каждого кодового слова равна четырем битам; в третьей — трем и в последней она составляет уже два бита/отсчет (наихудшее разрешение). Итак, в каждой субполосе кодирования независимо от величины сигнала ошибки последний всегда кодируется с одним и тем же разрешением, то есть кодовые слова имеют одинаковое число разрядов.

При равномерном квантовании возникают определенные трудности. С одной стороны, шаг квантования следует выбирать таким, чтобы диапазон квантователя использовался полностью. Иначе говоря, динамический диапазон квантователя должен быть согласован с размахом сигнала ошибки. С другой стороны, шаг квантования следует делать малым для уменьшения искажений (шумов) квантования. Эта задача еще более усложняется нестационарным характером звукового сигнала, ибо его амплитуда, включая и амплитуду сигнала ошибки, может изменяться в широких пределах. На данное обстоятельство влияют факторы, уже перечисленные выше. Все это требует адаптации свойств равномерного квантователя в данном случае к уровню (величине) сигнала ошибки. Если адаптивное квантование применяется непосредственно к сигналу ошибки, представляющему собой разность исходного и предсказанного значений, то такой метод обработки называют адаптивной дифференциальной импульсно-кодовой модуляцией.

Метод заключается в том, что число ступеней квантования в субполосе кодирования остается постоянным для любого уровня сигнала ошибки, а величина шага квантования при этом меняется в соответствии с изменениями величины сигнала ошибки так, чтобы для каждого его значения использовалась полностью вся шкала квантователя. Причем (рис. 4) в данном случае адаптация шага квантователя выполняется по выходному сигналу, его величина зависит лишь от значения предшествующего кодового слова. Предсказанное значение реконструируется с помощью инверсного квантователя также из сигнала ошибки. В итоге выбирается ступенчато такое значение шага квантования, которое минимизирует мощность шумов квантования. Более подробные сведения по теории АДИКМ можно найти в монографии Л. Р. Рабинера и Р. В. Шафера «Цифровая обработка речевых сигналов», («Радио и связь», 1981) год, а также в книге О. И. Шелухина и Н. Ф. Лукъянцева «Цифровая обработка и передача речи» («Радио и связь», 2000 год).

Итак, при АДИКМ для относительно длинных по времени колебаний энергии сигнала величина шага квантователя постоянно приводится в соответствие с уровнем сигнала, чтобы достичь минимума энергии шумов квантования. Если энергия сигнала в субполосе кодирования остается во времени постоянной, то и величина шага квантования не изменяется. Постоянные колебания уровня сигнала ошибки уменьшают эффективность квантования. Немаловажную роль при этом играют и эффекты временной маскировки, когда порог слышимости повышается на коротких временных интервалах до и после выброса сигнала.

Рис. 5а. Среднее число бит, требуемое для кодирования одного коэффициента МДКП

В результате после процедуры адаптивного квантования четыре 16-битных кодовых слова временного блока (всего 16 і 4 = 64 бита) будут уже содержать в сумме только 16 бит (7 + 4 + 3 + 2 = 16 бит), следовательно, сжатие данных составляет 4:1. Итак, разрешение или число ступеней квантования в каждой субполосе различно и много меньше, чем для входного цифрового сигнала. Заметим, что частоты основных тонов музыкальных инструментов и голосов лежат в нижней субполосе кодирования, а здесь разрешение квантователя выше. В области же более высоких частот расположены обертоны, точность кодирования амплитуд которых может быть меньше. В самой верхней субполосе кодирования спектр сигнала по форме напоминает шум и для его кодирования требуется наименьшее число бит. Вследствие этого скорость цифрового потока в каждой субполосе кодирования различна. В качестве примера на рис. 5 (а, б) представлены средние результаты вычислений требуемых для прозрачного кодирования значений коэффициентов МДКП в частотных полосах анализа, полученные для отрывка реального звукового сигнала на основе учета психоакустической энтропии. Здесь явно прослеживается та же тенденция — уменьшение требуемого для кодирования числа бит с повышением частоты.

Рис.5 б. Среднее число бит, требуемое для кодирования в различных субполосах психоакустического анализа, рассчитанное из значений психоакустической энтропии (реальный звуковой отрывок, получено Д. Ятагаммой по формулам стандарта MPEG-1 ISO/IEC 11172-3 Layer 3)

В мультиплексоре цифровые потоки субполосных сигналов объединяются в общий цифровой поток, к которому добавляется также служебная информация, необходимая для правильного его декодирования, и дополнительные данные.

Декодер apt-X100. В декодере системы кодирования apt-X100 (рис. 6) выполняются обратные преобразования: редуцированный сигнал преобразуется здесь снова в последовательность 16-битных кодовых слов равномерной ИКМ.

Рис. 6. Структурная схема декодера apt-X100

Сжатый входной цифровой поток демультиплексируется (De-Multiplexer). При этом каждый 16-битный временной блок разделяется на четыре компоненты, соответственно содержащие 7, 4, 3 и 2 бита, каждая из которых направляется в свой канал обработки (один из четырех), где в результате декодирования и происходит восстановление исходных 16-битных слов. На выходе инверсных квантователей 1/Q с помощью блока управления величиной масштабного коэффициента D восстанавливаются 16-битные слова каждого из четырех отсчетов сигналов ошибки. Затем каждый из этих сигналов поступает на сумматор и с его выхода на цепь линейного предсказания Р. Предсказанное 16-битное значение текущего отсчета, как и ранее, формируется также на основе 122 предшествующих его значений. В итоге на выходах каждого из сумматоров этих четырех цепей будем иметь восстановленные 16-битные слова соответствующих субполосных отсчетов. Далее эти восстановленные субполосные сигналы поступают на банк инверсных квадратурных зеркальных фильтров (QMF-фильтры), где и объединяются в единый цифровой поток, образуя последовательность 16-битных слов реконструированного исходного ИКМ-сигнала.

При необходимости сигнал с выхода декодера может быть подан на цифро-аналоговый преобразователь (ЦАП) для получения аналогового сигнала соответствующего канала воспроизведения системы DTS.

Системы пространственного звучания фирм DTS Technology и Sony. Часть 2

Юрий Ковалгин

Начало в № 10/2005

Система SDDS — Sony Dynamic Digital Sound

 
Рис.1. Расположение громкоговорителей в кинозале для систем SDDS и Todd-AO, звуковой формат 7.1

Kомпания Sony, конечно, не могла остаться в стороне от этого направления развития звукотехники. Она в 1993 году в картине Last Action Hero представила свою цифровую систему пространственного звучания, названную SDDS — Sony Dynamic Digital Sound.

Система SDDS имеет звуковой формат 7.1 (рис. 1, табл. 1). В ней семь раздельных основных каналов воспроизведения, работающих в полной полосе частот 20…20000 Гц, и дополнительный канал СНЧ с двумя пространственно разнесенными субвуферами, работающими в полосе частот 20…80 Гц. При этом из семи основных каналов пять работают на установленные за экраном фронтальные громкоговорители — LF, LC, C, RC, RF, а два — соответственно, на две группы пространственно распределенных громкоговорителей стен LS и RS. С точки зрения числа каналов система SDDS является в настоящее время самым «продвинутым» форматом, так как позволяет кодировать на кинопленку до восьми независимых каналов звука, но все еще пока не стандартизована в международном масштабе.

Таблица 1. Варианты алгоритма компрессии ATRAC
Версии алгоритма ATRAC, год появления на рынке Скорость цифрового потока, кбит/c на канал
ATRAC-1; 1992 год
ATRAC-2; 1994 год
ATRAC-3; 1995 год
ATRAC-3,5; 1996 год
ATRAC-4; 1996 год
ATRAC-4.5 (только для MD); 1996 год
ATRAC3 (для MDLP); 2000 год 132, 105,66
ATRAC DSP Type-R; 2001 год
ATRAC DSP Type-S; 2002 год
ATRAC3plus; 2003 год 256,64,48

Два дополнительных по сравнению с системой Dolby Digital 5.1 канала (LC и RC) разработчики Sony отдали для левого и правого фронтальных громкоговорителей, установленных за экраном в центрах полубаз фронтальной системы громкоговорителей LF, C, RF. Заметим, что такое же расположение громкоговорителей существует и в системе Todd-AO, появившейся в 1972 году, но так и не получившей должного распространения. В данной системе в свое время был записан звук к фильму Apocalypsys Now. В системе Todd-AO при записи звукового сопровождения был применен алгоритм сжатия NUOPTIX с коэффициентом компрессии 2:1, при этом для записи цифрового сигнала была использована DAT-кассета. О недостатке этого способа уже было сказано выше.

Цифровая дорожка звука системы SDDS располагается по самому краю кинопленки за перфорацией, а биты представлены все теми же пикселами, хотя и меньшего размера, чем в системе Dolby Digital. Из-за того что звуковая дорожка идет по всей длине пленки, а размер пикселов довольно невелик, в системе SDDS удалось вместить 8 каналов звука с довольно низким коэффициентом сжатия. Здесь в кодере источника реализован алгоритм сжатия ATRAC (Adaptive Transform Acoustic Coding), впервые появившийся на мини-диске.

Качество звучания фильмов в формате SDDS 7.1 очень высокое. Кроме того, в системе SDDS реализована мощная система защиты и коррекции цифровых ошибок, сама же цифровая звуковая дорожка дублируется по обеим сторонам кинопленки, что вследствие столь высокой избыточности существенно повышает надежность воспроизведения. Если же цифровая дорожка все-таки откажет, то декодер автоматически переключается на резервную аналоговую дорожку, как это имеет место во всех современных цифровых форматах. К сожалению, звучание системы SDDS доступно только в публичных кинотеатрах, а для бытового применения этот формат не был адаптирован, что является принципиальной позицией компании Sony.

Последнее изменение этой страницы: 2016-08-29

lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда...