数字视频处理与检索 - Huazhong University of ...media.hust.edu.cn/fujian/medie/002.pdf · itu-r.601标准音频数据 aes/ebu 音频工程学会/ 欧洲广播联盟图像es

2016/10/29

数字视频处理与检索 1

第2讲多媒体数据的压缩与编码-3一级学科课程基础课

主讲：于俊清

2

内容提要

压缩的必要性和可能性

压缩编码的分类

PCM与预测编码

无损压缩编码

变换编码

JPEG

MPEG

H.264

3

§2.7 MPEG http://www.chiariglione.org/mpeg/standards/

MPEG标准概述

MPEG-1

MPEG-2

MPEG声音压缩编码

MPEG视频压缩编码

MPEG-4多媒体应用标准

MPEG-7多媒体内容描述接口

MPEG-21

视频编码的标准和历程

两大主要标准化组织

国际电信联盟ITU-T的视频专家组VCEG：H.26X 系列

国际化标准组织ISO/IEC的运动专家组MPEG：MPEG-

X系列

主要应用场景

H.26X系列：实时的视频通信系统

MPEG-X系列：数字监控系统、视频存储、广播电视

及因特网等领域

4


视频编码标准

第一代：H.261,MPEG-1,H.262/MPEG-2,H.263

基于像素编码

压缩能力为50-75倍

第二代：MPEG-4, H.264

基于对象、视频对象编码

压缩能力达100-150倍

第三代：HEVC（High Efficiency Video Coding） H.265

4K视频、3D蓝光、高清电视节目

5

两代视频编码方法比较

6

传统视频压缩方法基于对象视频压缩方法

3D模型产生动画及纹理

运动矢量的获得：块匹配运动估值

内容及运动描述

轮廓提取、分割、纹理提取、

2D运动

预测：运动补偿、变换、量化

残差误差编码

编码比特流

http://image.baidu.com/i?ct=503316480&z=1168199101&tn=baiduimagedetail&word=胶片&in=14

http://image.baidu.com/i?ct=503316480&z=1168199101&tn=baiduimagedetail&word=胶片&in=14

2016/10/29


视频编码的标准和历程：MPEG系列

7

MPEG-X 标准概况

MPEG-1

特点针对速率为1.5Mbps的数字声像信息的存储指定；支持CIF(352x288)格式

结构继承H.261，添加双向预测、半像素运动、片结构编码和加权矩阵量化

MPEG-2

特点

作为MPEG-1的兼容扩展；解决MPEG-1不能满足多媒体技术、数字电视技术对分辨率和传输率等缺陷；支持低(352x288)、中(720x576)、次高(1440x1152)和高(1920x1152) 4种级别;数据率达3-10Mbps

结构在MPEG-1上增加技术：隔行扫描编码、增加DC量化精度、可扩展性等

MPEG-4

特点支持低比特率的应用、基于对象和基于工具箱的编码

结构基于视频对象编码；采用形状编码、纹理编码、运动信息编码等


H.26X 和 MPEG-X系列标准对比

8

H.26X 标准概况

H.261

特点针对可视电话和视频会议等业务；在窄带ISDN上实现速率P*64kbps双向声像业务，P =1~30；只支持CIF(352x288)和QCIF(176x144)格式

结构 16x16运动补偿、8x8DCT、标准量化、Z扫描、游程编码和变长编码结构

H.262

/MPEG-2特点和结构同 H.261

H.263

特点算法和处理性能提高；支持SubQCIF(128x96)、QCIF、CIF、4CIF(176x144)、16CIF(1408x1152)格式

结构使用半像素运动矢量和重新设计的可变长编码(VLC)表、可选编码模式

H.264

/MPEG4-

part10

特点压缩比高、信道适应性好、广泛应用于视频通信领域；计算复杂度大大增加

结构4×4块的整数变换、多参考帧预测、多模式高精度帧间预测、多种帧内预测模式和统一的熵编码等

9

§2.7.1 MPEG标准概述

MPEG（Moving Picture Experts Group）运动图像

专家小组

开始于1988年

目的：要在1990年建立一个标准的草案

MPEG和JPEG两个专家小组都是在ISO领导下的

专家小组，其小组成员也有很大的交叠

JPEG的目标是专门集中于静止图像压缩

MPEG的目标是针对活动图像的数据压缩

MPEG标准概述

静止图像与活动图像之间有密切关系

视频图像可以看作为独立编码的静止图像序列

以视频速率顺序地显示

MPEG专家小组的研究内容

数字视频图像的压缩

音频压缩

音频和视频的同步

10

MPEG标准概述

MPEG标准阐明了声音和电视图像的编码和解码

过程，严格规定了声音和图像数据编码后组成位

数据流的句法，提供了解码的测试方法等

MPEG标准没有对所有内容都作严格规定，尤其

是对压缩和解压缩的算法既保证了解码器能对符合MPEG标准的声音数据和电

视图像数据进行正确解码，又给MPEG标准的具体实

现留有很大余地

人们可以不断改进编码和解码算法，提高声音和电视

图像的质量以及编码效率

11 12

已经开发和正在开发的MPEG标准

MPEG-1：数字电视标准（1992年发布）

MPEG-2：数字电视标准（1994年发布）

MPEG-3：已于1992年7月合并到高清晰度电视 (High-

Definition TV，HDTV)工作组

MPEG-4：多媒体应用标准(1999年发布)

MPEG-7：多媒体内容描述接口标准(2001年发布)

MPEG-21：数字节目的网上实时交换协议(2007年发布)

2016/10/29


13

§2.7.2 MPEG-1

MPEG-1视频比特率大约为1.5Mbit的视频压缩，分辨率720X576

MPEG-1音频是面向每通道速率为64Kbit、128Kbit/s和

192Kbit/s的数字音频信号的压缩

MPEG-1的最终目标解决数字视频和数字音频等多样压缩数据流的复合和

同步

主要包括 MPEG视频

MPEG音频

MPEG系统

MPEG-1

14

MPEG-l标准是VCD工业标准的核心，现在已

经走入千家万户。

利用MPEG-l音频第三层的MP3音乐格式也

倍受青睐。

15

§2.7.3 MPEG-2

MPEG-2标准克服并解决了MPEG-l不能满足日益

增长的多媒体技术、数字电视技术对分辨率和传

输率等方面的技术要求的缺陷

MPEG-2系统支持五项基本功能

解码时多压缩流的同步

将多个压缩流交织成单个的数据流

解码时缓冲器初始化

缓冲区管理

时间识别

MPEG-2系统框图

16

图像编码器

声音编码器

数据包形成

数据包形成

节目流复用

传输流复用

MPEG-2系统规范

来自视频27MHz时钟

视频数据

ITU-R.601标准

音频数据

AES/EBU 音频工程学会/欧洲广播联盟

图像ES

声音ES

图像PES

声音PES

PS节目流

TS传输流

MPEG-2

17

MPEG-2视频解码器的芯片级产品已被世界上

许多著名的大公司纷纷推出，是工业标准DVD的

核心标准。

18

§2.7.4 MPEG-Audio编码

MPEG声音数据压缩编码

依据波形本身的相关性和模拟人的发音器官的特性

利用人的听觉系统的特性来达到压缩声音数据的目的

这种压缩编码称为感知声音编码（Perceptual

Coding）

2016/10/29


19

听觉系统的感知特性

许多科学工作者一直在研究听觉系统对声音的感

知特性，已经用在MPEG Audio压缩编码算法中

的三个特性：

对响度的感知

对音高的感知

掩蔽效应

20

（1）对响度的感知

声音的响度就是声音的强弱

当声音弱到人的耳朵刚刚可以听见时，我们称此时

的声音强度为“听阈”

当声音强到使人耳感到疼痛时，我们称此时的声音

强度为“痛阈”

实验表明，听阈是随频率变化的

“听阈—频率”曲线

听阈

人耳对不同频率的敏感程度差别很大，其中对2 kHz～4 kHz范围的信号最为敏感，幅度很低的信号都能被人耳听到。

在低频区和高频区，能被人耳听到的信号幅度要高得多。

22

（2）对音高的感知

客观上用频率来表示声音的音高，其单位是Hz

主观感觉的音高单位则是“美(Mel)”，主观音高

与客观音高的关系是 Mel=1000log2（1+f）

人耳对频率的感觉也有一个范围

人耳可以听到的最低频率约20 Hz

最高频率约20000 Hz

“音高—频率”曲线

24

（3）掩蔽效应

一种频率的声音阻碍听觉系统感受另一种频率的

声音的现象称为掩蔽效应前者称为掩蔽声音(masking tone)

后者称为被掩蔽声音(masked tone)

掩蔽可分成频域掩蔽和时域掩蔽

频域掩蔽一个强纯音会掩蔽在其附近同时发声的弱纯音，也称

同时掩蔽(simultaneous masking)

2016/10/29


不同纯音的频域掩蔽

从图中可以看到：① 在250 Hz、1 kHz、4 kHz和8 kHz纯音附近，对其他纯

音的掩蔽效果最明显② 低频纯音可以有效地掩蔽高频纯音，但高频纯音对低频

纯音的掩蔽作用则不明显

掩蔽效应

在时间上相邻的声音之间也有掩蔽现象，并且称

为时域掩蔽

时域掩蔽分为

超前掩蔽(pre-masking)

滞后掩蔽(post-masking)

产生时域掩蔽的主要原因

人的大脑处理信息需要花费一定的时间

一般来说，超前掩蔽很短，只有大约5～20 ms，

而滞后掩蔽可以持续50～200 ms

26

时域掩蔽

28

压缩策略

MPEG音频数据压缩

依据是人耳朵的听觉感知特性，使用“心理声学模型

(Psychoacoustic Model)”来达到压缩声音数据的目的

MPEG Audio采用两种感知编码

感知子带编码（Perceptual Subband Coding）

Dolby AC-3（Audio Code number 3）编码

简称AC-3，由杜比实验室开发

感知子带压缩算法框图

Dolby AC-3压缩编码算法框图

2016/10/29


31

MPEG-2 Audio的“5.1环绕声”也称为“3/2-立体

声加LFE”

其中的“.1”就是指LFE（ Low Frequency Effects ）声道

播音现场的前面可有3个喇叭声道（左、中、右），后

面可有2个环绕声喇叭声道

环绕立体声

环绕立体声

（a）5.1声道（b）7.1声道

33 34

35

§2.7.5 MPEG-Video编码

MPEG-Video图像压缩技术基本思想和方法可以

归纳成两个要点：

在空间方向上：图像数据压缩采用JPEG压缩算法来

去掉冗余信息

在时间方向上：图像数据压缩采用运动补偿(Motion

Compensation)算法来去掉冗余信息

36

2016/10/29


37

MPEG的三种图像

为了在保证图像质量基本不降低而又能够获得高

的压缩比，MPEG专家组定义了三种图像

帧内图（Intra pictures，I）

预测图（Predicted Pictures，P）

插补图，即双向预测图（Bidirectional Prediction，B）

MPEG专家组定义的三种图像

帧内图可提供随机存取的存取位置，但压缩比不大

帧间预测编码时要用到先前（过去）的图（帧内图或预测图），当前的预测图又作为后面预测图的参考值

双向预测图的数据压缩效果最显著，需要先前和后续的信息，双向预测图不能作为其他图的预测参考图

帧内图（I）和预测图（P）及双向预测图(B)沿

时间轴上的排列顺序：

MPEG中这些图的组织结构是十分灵活，它们

的组合可由应用规定的参数决定，如随机存取

和编码延迟等

I B B P B B P B B P B B P B B I B B P B B P B B P B B P B B

40

说明：

电视图像的帧序列中，不能全部是插补图B，B

图必须由参考图进行插补，参考图可以是帧内

图（I）或预测图（P），B图不能作参考图

在两个参考图之间出现双向预测图B的频度是

可选择的

当增加参考图之间B图的数目时，将会减少B图

与参考图之间的相关性

I图、P图、B图三者之间存在因果关系

如第4帧的P图是由第1帧的I图预测，第1帧I图第4

帧P图共同预测出它们之间的双向预测B图

因此，接收端解码器的输入（发送端编码器的输

出），不能按照时间的顺序，而是按照以下的排

列顺序：

I P B B P B B P B B P B B I B B ……

I B B P B B P B B P B B P B B I B B P B B P B B P B B P B B（1）I图的压缩编码算法

帧内图像I不参照任何过去的或者将来的其他图像

帧，压缩编码采用类似JPEG压缩算法

2016/10/29


I图压缩编码算法

BG

R

Y Cb

Cr

RGB到YCbCr 每个平面图像每个8x8块

DCT

量化Zig-zigDPCM

RLE霍夫曼编码

算术编码01101...

44

（2）P图的压缩编码算法

预测图像的编码也是以图像宏块(macroblock)为

基本编码单元

一个宏块定义为I×J像素的图像块，一般取16×16

预测图像P使用两种类型的参数来表示

一种参数是当前要编码的图像宏块与参考图像的宏块

之间的差值

另一种参数是宏块的运动矢量

P图的压缩编码算法

45

编码图像

求差值

Y

Cr

Cb

DCT+量化+RLE

Huffman编码

01001100.....

参考图像

48

64

最佳匹配运动矢量d(dx,dy)

运动矢量的概念

47

运动矢量的求解

在求两个宏块差值之前，需要找出编码图像中的

预测图像编码宏块MPI相对于参考图像中的参考

宏块MRJ所移动的距离和方向

这就是运动（移动）矢量(motion vector)

运动矢量的算法框图

2016/10/29


49

最佳匹配

要使预测图像更精确，就要求找到与参考宏块

MRJ最佳匹配的预测图像编码宏块MPI

所谓最佳匹配是指这两个宏块之间的差值最小

通常以绝对值AE(absolute difference)最小作为匹

配判据

dx和dy分别是参考宏块MRJ的移动矢量d(dx, dy)在X和Y方向上的矢量。

最佳匹配

50

有些学者提出了以均方误差MSE(mean-square

error)最小作为匹配判据

也有些学者提出以平均绝对帧差MAD(mean of the

absolute frame difference)最小作为匹配判据

51

分析可知

对预测图像的编码实际上就是寻找最佳匹配图像

宏块，找到最佳宏块之后就找到了最佳运动矢量

d(dx,dy)

52

最佳宏块搜索算法

为减少搜索次数，现在已开发出许多简化算法用

来寻找最佳宏块

二维对数搜索法（2D-logarithmic search）

三步搜索法（three-step search）

对偶搜索法（conjugate search）

二维对数搜索法三步搜索法

2016/10/29


对偶搜索法

（3）B图的压缩编码算法

56

DCT+量化+RLE

Huffman编码

编码图像过去的参考图像

48

64

将来的参考图像

-0.5x + =

运动矢量d(dx,dy)

01101100....

57

（4）MPEG电视图像的结构

MPEG编码允许选择I图像的频率和位置，I图像

的频率是指每秒钟出现I图像的次数，位置是指

时间方向上I帧所在的位置

一般情况下，I图像的频率为2

MPEG编码也允许在一对I图像或者P图像之间选

择B图像的数目

I图像、P图像和B图像数目的选择依据主要是根

据节目的内容

58

举例说明：

对于快速运动的图像，I图像的频率可以选择高

一些，B图像的数目可以选择少一点

对于慢速运动的图像I图像的频率可以低一点，

而B图像的数目可以选择多一点

编码参数为

帧内图像I的距离为N=15，预测图像(P)的距离为

M=3

一个典型的I、P、B图像安排如下图所示

举例说明：

59

MPEG电视帧编排

60

§2.7.6 MPEG-4多媒体应用标准

MPEG-4从1994年开始工作，1999年发布

为视听(audio-visual)数据的编码和交互播放开发

算法和工具

MPEG-4是一个数据速率很低的多媒体通信标准

MPEG-4的目标是要在异构网络环境下能够高度

可靠地工作，并且具有很强的交互功能

2016/10/29


MPEG-4

MPEG-4的标准名是Very-low bitrate audio-visual

coding (甚低速率视听编码)

标准号 ISO/IEC14496

MPEG-4目前有27个部分系统标准电视图像标准声音标准 ……

其中第10部分：高级视频编码AVC（Advanced

Video Coding），该部分采用H.264

61

MPEG-4

MPEG-4引入了基于对象表达(object-based

representation)的概念，用来表达视听对象

(audio/visual objects，AVO)

MPEG-4扩充了编码的数据类型，由自然数据对象

扩展到计算机生成的合成数据对象，采用合成对

象/自然对象混合编码(Synthetic/Natural Hybrid

Coding，SNHC)算法

在实现交互功能和重用对象中引入了组合、合成

和编排等重要概念

62

MPEG-4

63

MPEG-4系统示意图MPEG-4接收端的主要部件

64

MPEG-4中制定了一个称为传输多媒体集成框架

(Delivery Multimedia Integration Framework，

DMIF)的会话协议，用来管理多媒体数据流

该协议在原则上与文件传输协议FTP(File

Transfer Protocol)类似，其差别是：FTP返回的是

数据，而DMIF返回的是指向到何处获取数据流

的指针

DMIF覆盖了三种主要技术：广播技术，交互网

络技术和光盘技术

65

DMIF覆盖的三种主要技术

66

2016/10/29


67

MPEG-4应用

MPEG-4将应用在移动通信和公用电话交换网

（public switched telephone network，PSTN）上，

并支持

可视电话（videophone）

电视邮件（video mail）

电子报纸（electronic newspapers）

其他低数据传输速率场合下的应用

MPEG-4电视序列编码举例

69

§2.7.7 MPEG-7多媒体内容描述接口

MPEG-7的工作于1996年启动，名称叫做多媒体

内容描述接口（Multimedia Content Description

Interface)）

目的是制定一套描述符标准，用来描述各种类型

的多媒体信息及它们之间的关系，以便更快更有

效地检索信息

Scope of MPEG-7

70

Feature Search

Extraction Engine

MPEG-7

Description

standardization

Search Engine:Searching & filteringClassificationManipulationSummarizationIndexing

MPEG-7 Scope:Description Schemes(DSs)Descriptors (Ds)Language (DDL)Ref: MPEG-7 Concepts

Feature Extraction:Content analysis (D, DS)Feature extraction (D,DS)Annotation tools (DS)Authoring (DS)

Application of MPEG-7

71 72

§2.7.8 MPEG21: Multimedia Framework

MPEG－21由MPEG－7发展而来，2001年开始启

动，2007年完成

MPEG－21主要规定数字节目的网上实时交换协

议

2016/10/29


Digital Supply Chain

73

AuthorAuthor

AgentAgent

PublisherPublisher

AggregatorAggregator

DistributorDistributor

WholesalerWholesaler eTailerConsumerConsumer

Authoring ToolsPublishing S/W

Asset Management

Content Packaging

Content Hosting

WWW. Store Front

Rights ClearingUser Interface

Digital Rights

Meta Data

Digital Content Products & Services

Digital Identification

MPEG-21

1 Vision, Technologies and Strategy

2 Digital Item Declaration

3 Digital Item Identification

4Intellectual Property Management and Protection

5 Rights Expression Language

6 Rights Data Dictionary

7 Digital Item Adaptation

8 Reference Software

9 File Format

75

§2.7.4 MPEG的新计划

New Standards

MPEG-A Multimedia Application Formats

MPEG-B MPEG Systems Technologies

MPEG-C MPEG Visual Technologies

MPEG-D MPEG Audio Technologies

MPEG-E MPEG Multimedia Middleware

MPEG-F Universal 3D file format

76

内容提要

多媒体数据压缩的必要性和可能性

多媒体数据压缩编码的分类

PCM与预测编码

无损压缩编码

变换编码

JPEG

MPEG

H.264

H.264

H.264是由ITU-T视频编码专家组（VCEG）和

ISO/IEC动态图像专家组（MPEG）联合组成的

联合视频组（JVT，Joint Video Team）提出的高

度压缩数字视频编解码器标准

它既是ITU-T的H.264，又是ISO/IEC的MPEG-4

高级视频编码（Advanced Video Coding，AVC）

，而且它也是MPEG-4标准的第10部分

77

H.264

78

高清电视

网络电视

H.264

码率低：相同质量下码率比H.263低50%

优点质量高：图片质量与原始视频相比无明显下降

缺点

编码复杂：计算复杂度相当于H.263

的3倍，串行程序

编码速度达不到实时传输要求

多核平台的发展

H.264多粒度并行编码器

2016/10/29


H.264

79

帧(Frame)

宏块(Macro block)

子块(block)

片(Slice)

扩展阅读

高文：高效视频编码技术标准及其演化

http://wenku.baidu.com/view/e8fa8e82ec3a87c2402

8c4fa.html

80

81

课后作业

请简要论述MPEG-Video图像压缩技术的基本思

想和方法，详细讨论三种图像I、P、B的具体含

义及其压缩编码算法。

Documents

数字视频处理与检索 - Huazhong University of ...media.hust.edu.cn/fujian/medie/002.pdf · itu-r.601标准 音频数据 aes/ebu 音频工程学会/ 欧洲广播联盟 图像es

数字视频处理与检索 - Huazhong University of ...media.hust.edu.cn/fujian/medie/002.pdf · itu-r.601标准音频数据 aes/ebu 音频工程学会/ 欧洲广播联盟图像es