MPEG-4技术的演进与在中国的应用

摘要：MPEG-4标准目前已发展为ISO/IEC-14496第一版和第二版。随着MPEG-4 第十部分H.264/先进的视频编码（AVC）的提出，MPEG标准进一步演进。与此同时，中国自主知识产权的数字音视频编解码标准（AVS）的制定也为便携式多媒体技术开创了新的发展空间。

　　活动图像专家组（MPEG）针对数字音频和视频的编码原则制定了MPEG标准，通过MPEG压缩引擎，实现了以经济的成本为消费者提供高质量的数字多媒体内容的理想，也为多媒体市场带来了无限商机。
最新开发的MPEG-4，旨在为机顶盒、互联网、移动设备等应用实现更高质量的压缩和更灵活的格式，提供更加丰富的选择。

　　MPEG-4标准目前已发展为ISO/IEC-14496第一版和第二版。随着MPEG-4 第十部分H.264/先进的视频编码（AVC）的提出，MPEG标准进一步演进。与此同时，中国自主知识产权的数字音视频编解码标准（AVS）的制定也为便携式多媒体技术开创了新的发展空间。

　　高质量有效传输数字多媒体内容

　　MPEG-4可同时处理各种“媒体对象（视频和音频内容的统称）”，形成视听场景，为整套工具包提供互动和个性化媒体内容的视听数据，同时，还可压缩/解压其他媒体对象，如文本、图像、语音、动画、2D和3D对象等。为实现该标准的有效实施，MPEG-4系统对子集、视频和音频工具集都进行了定义，以应用于各种特殊应用，为音频/视频对象的编码提供更丰富的工具。

　　H.264/AVC打造MPEG-4新特性

　　MPEG-4 第十部分H.264/AVC在本质上与MPEG-2等其他标准类似，是由时间预测和空间预测的综合体与编码转换共同组成的，但这一新标准并不会取代现有的MPEG-4 第二部分“编码解码器”，也不与其兼容。

　　除此之外，H.264/AVC还采用了视频编码领域的最新研究成果。由于采用了帧内预测、整数转换、可变的块尺寸运动评估/补偿和去块过滤等现有先进技术，H.264/AVC与之前的标准相比又增加了新的特性，在帮助其他现有的标准在维持相同视频质量的同时，还可平均降低50%的位率。

　　帧间预测功能

　　H.264/AVC可根据每个宏块片编码类型的不同，以几种编码类型中的一种进行传输，并且所有片编码类型可支持INTRA-4×4和INTRA-16×16两种类别的帧内编码类型。在以往的视频编码标准中，预测操作都是在转换域中进行的，而在H.264/AVC标准中，这一操作往往是根据已编码块中的相邻样本，在空间域中进行的。帧内预测不能跨越片边界，以保持片与片之间的相互独立性。

图1 H.264/AVC宏块视频编码层框图

　　P片中的活动补偿

　　除帧内宏块编码类型外，H.264/AVC还包含多种针对P片宏块的预测性或活动补偿性的编码类型。宏块被分割在用于活动描述的大小固定的块中，每个P类宏块对应一个特定的宏块分区。活动补偿的精度为一个样本距离的四分之一。

图2 一个H.264的P片宏块的分区结构

　　一般情况下，H.264/AVC的语法可支持无限制的活动矢量，即活动矢量可以超出画面区域，但活动矢量元件预测不能跨越片边界。

　　整数转换

　　此外，与以往的视频编码标准相似，H.264/AVC也采用预测剩余的转换编码，但这种转换仅应用于4×4块，而且计算中采用了与4×4离散余弦转换（DCT）特性基本相同的分离整数转换，以此取代了4×4DCT。由于整个逆转换过程由精确整数运算定义，因此避免了逆转换过程中的不错配现象。而对于转换系数的量化，H.264/AVC运用了标量化的方法。块中的量化转换系数通常按照之字形顺序进行扫描，并采用平均信息量编码的方式传输。只要16位整数值相加，并在16位整数值的基础上进行位移操作，H.264/AVC 中的所有转换就都能实现。

　　平衡信息量编码

　　为实现量化转换系数的传输，H.264/AVC采用了更先进的前后自适应可变长度编码（CAVLC），与仅采用单个VLC列表的方法相比，这一技术能进一步改善平均信息量编码质量。此外H.264/AVC还支持前后自适应二进制算术编码（CABAC），与CAVLC相比，CABAC在进行相同质量的电视信号编码时，通常能够节约10%到15% 的位率，从而进一步提升了平均信息量编码效率。

　　多基准帧

　　H.264/AVC 还支持多画面活动补偿预测。如下图所示，H.264/AVC可提供不止一个的预先编码画面作为活动补偿预测基准。然而，无论是编码器还是解码器都必须存储基准画面，以实现多画面缓冲器中的画面间预测。

图3 多画面活动补偿预测

　　基于以上特别的先进技术，与其他现有标准相比，H.264/AVC所带来的益处显而易见。例如，与MPEG-2、MPEG-4 ASP 和H.263 HLP等现有的编码标准相比，在使用H.264/AVC播放DVD品质的电视或进行HD视频编码时，相关的位率可节省2.25 到2.5，如表1所示。

表1

　　AVS开创MEPG-4发展新境界

　　随着中国数字音频/视频多媒体设备和系统市场的发展，为建立全国性的压缩、处理和数字版权管理标准，中国数字音视频编解码技术标准工作组（简称中国AVS工作组）开发了数字音视频编解码标准（AVS），并于2002年6月由中国信息产业部科学技术司批准通过。2003年12月，AVS工作组针对高清和高质量数字广播、数字存储媒体及其他相关应用制定的首个AVS视频标准问世。

　　由于采用的模块相同，AVS与H.264/AVC编码器的架构看起来比较类似。但是，考虑到目标应用与MPEG-2的向后兼容性以及解码复杂程度等因素， AVS音视频编码解码器中模块还是采用了独到的技术，实现了编码效率的进一步大幅提升。

图4 AVS 视频编码器框图

　　AVS需要对输入宏块进行预测，图4所示的开关S0 用于选择帧间和帧内宏块所需的正确预测方法。帧内预测源自左上方块中的相邻像素。由于采用的是8×8整数转换，因此空间预测的单元大小也是8×8。帧间预测则源自解码帧和解码场。AVS支持16×16、16×8、8×16和8×8这4种尺寸的块，但总体而言，高分辨率视频很少使用小尺寸的块。AVS帧间块的活动矢量精度为四分之一像素。

　　在AVS中，预测剩余误差需通过8×8整数转换方法进行转换。渐进块仍然按照之字形顺序进行扫描，与MPEG-2中的扫描顺序相似。但AVS却通过自适应VLC编码技术在逐行扫描块中定义了一种新的扫描顺序，四种不同类型的Exp-Golomb密码本也分别对应不同的分配方式。此外，AVS还定义了一些映射表，可将编码符号映射到特殊编码及其成分中。

　　预测与当前重建错误图像的总数构成了重建基准。AVS在活动补偿环路中使用了一个去块滤波器，能够根据块的工作情况与QP参数进行自动调节。

　　由于MPEG-2编码解码器与系统在现有的广播系统中得到了广泛的运用，因此AVS的语法结构也特别采用了与MPEG-2类似的设计，因此能够直接应用于现有的MPEG-2系统。

　　目前，AVS可支持YUV 4:2:0和YUV 4:2:2采样结构，以及8位样本精度，用于色度格式的2位无正负整数则为诸如YUV 4:4:4 或RGB 4:4:4之类的其他顺序格式保留了应用空间。

　　实现AVS视频标准的主要技术

　　平均信息量编码

　　首先，AVS 采用了 ?序列Exp-Golomb编码表 (k=0, 1, 2, 3)、CBP、宏块编码模式和活动矢量, 并通过 ?序列 Exp-Golomp 编码表进行解码。由于对Exp-Golomp 编码表进行了调整，AVS解码器并不需要存储这些编码表。而语法元素可以利用带有可选择查找表的简单分析进行解码。 AVS定义的19 个映射表尽管只占用了不到2k 字节的空间，却能很好地适应不同的分配，并具有很高的编码能力。

　　转换和量化

　　与 H.264/AVC 和 MPEG-2不同的是， AVS 采用8×8 整数转换。为了减少解量化和逆转换中的取整误差，AVS还专门设置了一种特殊程序，并且各种操作均可在16 位内完成。

　　帧内预测

　　AVS 视频标准采用了帧内预测技术，改进了帧内编码的宏块性能。与AVC/H.264相比， AVS 定义了5种用于8×8亮度块的模式和 4种用于8×8 色度块的模式。

　　基准画面

　　以往的视频编码标准（如MPEG-2）中，双向预测编码画面 (B 画面) 通常以前一个画面和/或后一个画面为基准。虽然预测编码画面 (P画面) 只用前一个画面来预测当前画面，但在解码器内实际的基准缓冲空间相当于该画面的两倍大。而AVS 完全采用基准缓冲器进行P 缓冲器编码， P画面可用前面的两个相邻的 I/P 画面作基准，因此在提升编码效率的同时，占用的基准缓冲器空间仍与 MPEG-2相同。

　　B画面对称模式

　　AVS还以对称模式取代了现有编码标准的插值模式，只有前向活动矢量进行编码，逆向活动矢量则通过前向和逆向间的相互关系得出。因此，至多有一种方向的活动矢量需要在 AVS的B宏块中进行编码。

　　加权预测

　　AVS的加权预测功能可以在很大程度上改善编码效率，尤其是在场景转换和照明变化时。加权预测采用了一种简单的线性模式，因此参数能在预测的图像头内进行编码。但每个宏块均可以自由选择是否采用加权预测。

　　去块滤波器

　　基于块的视频编码经常会产生块赝象，在低位率情况下这种现象会变得更明显。为解决这一问题，AVS 定义了一种适应性环路去块滤波器，用以改进解码视频质量。除了画面边界或片边界外，过滤功能还能用于亮度和色度块的边界。过滤的强度则取决于宏块的类型、量化阶、活动矢量和块间的区别。

　　隔行编码

　　在输入隔行序列时，一个画面既可以用一帧也可以用两场 ( 顶场和底场) 进行编码。只有帧和场间的画面层适配可以用于当前的版本。在采用两场编码时，前一场由之前的解码场预测，而后一场则通过前一场和之前的解码场共同预测。两个场分享一个图像头。但是它们应属于不同的片。

　　AVS 视频标准已针对SD/HD广播和存储的基准规范做了定义，该基准规范包含了AVS视频标准中定义的除高级预测模式（Advanced Prediction Mode）以外的所有技术。此外，AVS标准共定义了4个等级，画面最大尺寸在 720×576 到 1920×1080之间，最大位率在10 Mbit/s 到 30 Mbit/s之间。

　　综上所述，就压缩效果而言，AVS与H.264/AVC实力相当，同样是MPEG-2的两倍。但AVS在数据存储和传输时对带宽的要求却较小，而且进行数据存储及传输所需的带宽更低，因而相对降低了运算和存储的复杂度。

　　PR818S单芯片解决方案

　　为满足便携式数字摄像机、网络照相机、手持个人录像机（PVR）及个人媒体播放器等超小体积的产品对低位率和低功耗的要求，矽玛特推出的PR818S全面支持MPEG4 CODEC和JPEG模式，提供超高视频质量、低功耗的高集成半导体解决方案．

　　PR818S是用于便携设备高质量视频的全双工、固定线路MPEG-4 ASP/SP和MPEG-2 CODEC的单芯片解?方案，内置的ARM922T™ RISC核心，支持MPEG4 ? MPEG2代码转换和全双工（编、解码可同时进行）。包括三星产品在内的众多消费电子厂商都选择了这一解决方案。