Upload
others
View
26
Download
0
Embed Size (px)
Citation preview
2016/10/29
数字视频处理与检索 1
第2讲多媒体数据的压缩与编码-3一级学科课程基础课
主 讲:于俊清
2
内容提要
压缩的必要性和可能性
压缩编码的分类
PCM与预测编码
无损压缩编码
变换编码
JPEG
MPEG
H.264
3
§2.7 MPEG http://www.chiariglione.org/mpeg/standards/
MPEG标准概述
MPEG-1
MPEG-2
MPEG声音压缩编码
MPEG视频压缩编码
MPEG-4多媒体应用标准
MPEG-7多媒体内容描述接口
MPEG-21
视频编码的标准和历程
两大主要标准化组织
国际电信联盟ITU-T的视频专家组VCEG:H.26X 系列
国际化标准组织ISO/IEC的运动专家组MPEG:MPEG-
X系列
主要应用场景
H.26X系列:实时的视频通信系统
MPEG-X系列:数字监控系统、视频存储、广播电视
及因特网等领域
4
视频编码的标准和历程
视频编码标准
第一代:H.261,MPEG-1,H.262/MPEG-2,H.263
基于像素编码
压缩能力为50-75倍
第二代:MPEG-4, H.264
基于对象、视频对象编码
压缩能力达100-150倍
第三代:HEVC(High Efficiency Video Coding) H.265
4K视频、3D蓝光、高清电视节目
5
两代视频编码方法比较
6
传统视频压缩方法 基于对象视频压缩方法
3D模型产生动画及纹理
运动矢量的获得:块匹配运动估值
内容及运动描述
轮廓提取、分割、纹理提取、
2D运动
预测:运动补偿、变换、量化
残差误差编码
编码比特流
2016/10/29
数字视频处理与检索 2
视频编码的标准和历程:MPEG系列
7
MPEG-X 标准概况
MPEG-1
特点 针对速率为1.5Mbps的数字声像信息的存储指定;支持CIF(352x288)格式
结构 继承H.261,添加双向预测、半像素运动、片结构编码和加权矩阵量化
MPEG-2
特点
作为MPEG-1的兼容扩展;解决MPEG-1不能满足多媒体技术、数字电视技术对分辨率和传输率等缺陷;支持低(352x288)、中(720x576)、次高(1440x1152)和高(1920x1152) 4种级别;数据率达3-10Mbps
结构 在MPEG-1上增加技术:隔行扫描编码、增加DC量化精度、可扩展性等
MPEG-4
特点 支持低比特率的应用、基于对象和基于工具箱的编码
结构 基于视频对象编码;采用形状编码、纹理编码、运动信息编码等
视频编码的标准和历程
H.26X 和 MPEG-X系列标准对比
8
H.26X 标准概况
H.261
特点针对可视电话和视频会议等业务;在窄带ISDN上实现速率P*64kbps双向声像业务,P =1~30;只支持CIF(352x288)和QCIF(176x144)格式
结构 16x16运动补偿、8x8DCT、标准量化、Z扫描、游程编码和变长编码结构
H.262
/MPEG-2特点和结构同 H.261
H.263
特点算法和处理性能提高;支持SubQCIF(128x96)、QCIF、CIF、4CIF(176x144)、16CIF(1408x1152)格式
结构 使用半像素运动矢量和重新设计的可变长编码(VLC)表、可选编码模式
H.264
/MPEG4-
part10
特点 压缩比高、信道适应性好、广泛应用于视频通信领域;计算复杂度大大增加
结构4×4块的整数变换、多参考帧预测、多模式高精度帧间预测、多种帧内预测模式和统一的熵编码等
9
§2.7.1 MPEG标准概述
MPEG(Moving Picture Experts Group)运动图像
专家小组
开始于1988年
目的:要在1990年建立一个标准的草案
MPEG和JPEG两个专家小组都是在ISO领导下的
专家小组,其小组成员也有很大的交叠
JPEG的目标是专门集中于静止图像压缩
MPEG的目标是针对活动图像的数据压缩
MPEG标准概述
静止图像与活动图像之间有密切关系
视频图像可以看作为独立编码的静止图像序列
以视频速率顺序地显示
MPEG专家小组的研究内容
数字视频图像的压缩
音频压缩
音频和视频的同步
10
MPEG标准概述
MPEG标准阐明了声音和电视图像的编码和解码
过程,严格规定了声音和图像数据编码后组成位
数据流的句法,提供了解码的测试方法等
MPEG标准没有对所有内容都作严格规定,尤其
是对压缩和解压缩的算法 既保证了解码器能对符合MPEG标准的声音数据和电
视图像数据进行正确解码,又给MPEG标准的具体实
现留有很大余地
人们可以不断改进编码和解码算法,提高声音和电视
图像的质量以及编码效率
11 12
已经开发和正在开发的MPEG标准
MPEG-1:数字电视标准(1992年发布)
MPEG-2:数字电视标准(1994年发布)
MPEG-3:已于1992年7月合并到高清晰度电视 (High-
Definition TV,HDTV)工作组
MPEG-4:多媒体应用标准(1999年发布)
MPEG-7:多媒体内容描述接口标准(2001年发布)
MPEG-21:数字节目的网上实时交换协议(2007年发布)
2016/10/29
数字视频处理与检索 3
13
§2.7.2 MPEG-1
MPEG-1视频 比特率大约为1.5Mbit的视频压缩,分辨率720X576
MPEG-1音频是面向每通道速率为64Kbit、128Kbit/s和
192Kbit/s的数字音频信号的压缩
MPEG-1的最终目标 解决数字视频和数字音频等多样压缩数据流的复合和
同步
主要包括 MPEG视频
MPEG音频
MPEG系统
MPEG-1
14
MPEG-l标准是VCD工业标准的核心,现在已
经走入千家万户。
利用MPEG-l音频第三层的MP3音乐格式也
倍受青睐。
15
§2.7.3 MPEG-2
MPEG-2标准克服并解决了MPEG-l不能满足日益
增长的多媒体技术、数字电视技术对分辨率和传
输率等方面的技术要求的缺陷
MPEG-2系统支持五项基本功能
解码时多压缩流的同步
将多个压缩流交织成单个的数据流
解码时缓冲器初始化
缓冲区管理
时间识别
MPEG-2系统框图
16
图像编码器
声音编码器
数据包形成
数据包形成
节目流复用
传输流复用
MPEG-2系统规范
来自视频27MHz时钟
视频数据
ITU-R.601标准
音频数据
AES/EBU 音频工程学会/欧洲广播联盟
图像ES
声音ES
图像PES
声音PES
PS节目流
TS传输流
MPEG-2
17
MPEG-2视频解码器的芯片级产品已被世界上
许多著名的大公司纷纷推出,是工业标准DVD的
核心标准。
18
§2.7.4 MPEG-Audio编码
MPEG声音数据压缩编码
依据波形本身的相关性和模拟人的发音器官的特性
利用人的听觉系统的特性来达到压缩声音数据的目的
这种压缩编码称为感知声音编码(Perceptual
Coding)
2016/10/29
数字视频处理与检索 4
19
听觉系统的感知特性
许多科学工作者一直在研究听觉系统对声音的感
知特性,已经用在MPEG Audio压缩编码算法中
的三个特性:
对响度的感知
对音高的感知
掩蔽效应
20
(1)对响度的感知
声音的响度就是声音的强弱
当声音弱到人的耳朵刚刚可以听见时,我们称此时
的声音强度为“听阈”
当声音强到使人耳感到疼痛时,我们称此时的声音
强度为“痛阈”
实验表明,听阈是随频率变化的
“听阈—频率”曲线
听阈
人耳对不同频率的敏感程度差别很大,其中对2 kHz~4 kHz范围的信号最为敏感,幅度很低的信号都能被人耳听到。
在低频区和高频区,能被人耳听到的信号幅度要高得多。
22
(2)对音高的感知
客观上用频率来表示声音的音高,其单位是Hz
主观感觉的音高单位则是“美(Mel)”,主观音高
与客观音高的关系是 Mel=1000log2(1+f)
人耳对频率的感觉也有一个范围
人耳可以听到的最低频率约20 Hz
最高频率约20000 Hz
“音高—频率”曲线
24
(3)掩蔽效应
一种频率的声音阻碍听觉系统感受另一种频率的
声音的现象称为掩蔽效应 前者称为掩蔽声音(masking tone)
后者称为被掩蔽声音(masked tone)
掩蔽可分成频域掩蔽和时域掩蔽
频域掩蔽 一个强纯音会掩蔽在其附近同时发声的弱纯音,也称
同时掩蔽(simultaneous masking)
2016/10/29
数字视频处理与检索 5
不同纯音的频域掩蔽
从图中可以看到:① 在250 Hz、1 kHz、4 kHz和8 kHz纯音附近,对其他纯
音的掩蔽效果最明显② 低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频
纯音的掩蔽作用则不明显
掩蔽效应
在时间上相邻的声音之间也有掩蔽现象,并且称
为时域掩蔽
时域掩蔽分为
超前掩蔽(pre-masking)
滞后掩蔽(post-masking)
产生时域掩蔽的主要原因
人的大脑处理信息需要花费一定的时间
一般来说,超前掩蔽很短,只有大约5~20 ms,
而滞后掩蔽可以持续50~200 ms
26
时域掩蔽
28
压缩策略
MPEG音频数据压缩
依据是人耳朵的听觉感知特性,使用“心理声学模型
(Psychoacoustic Model)”来达到压缩声音数据的目的
MPEG Audio采用两种感知编码
感知子带编码(Perceptual Subband Coding)
Dolby AC-3(Audio Code number 3)编码
简称AC-3,由杜比实验室开发
感知子带压缩算法框图
Dolby AC-3压缩编码算法框图
2016/10/29
数字视频处理与检索 6
31
MPEG-2 Audio的“5.1环绕声”也称为“3/2-立体
声加LFE”
其中的“.1”就是指LFE( Low Frequency Effects )声道
播音现场的前面可有3个喇叭声道(左、中、右),后
面可有2个环绕声喇叭声道
环绕立体声
环绕立体声
(a)5.1声道 (b)7.1声道
33 34
35
§2.7.5 MPEG-Video编码
MPEG-Video图像压缩技术基本思想和方法可以
归纳成两个要点:
在空间方向上:图像数据压缩采用JPEG压缩算法来
去掉冗余信息
在时间方向上:图像数据压缩采用运动补偿(Motion
Compensation)算法来去掉冗余信息
36
2016/10/29
数字视频处理与检索 7
37
MPEG的三种图像
为了在保证图像质量基本不降低而又能够获得高
的压缩比,MPEG专家组定义了三种图像
帧内图(Intra pictures,I)
预测图(Predicted Pictures,P)
插补图,即双向预测图(Bidirectional Prediction,B)
MPEG专家组定义的三种图像
帧内图可提供随机存取的存取位置,但压缩比不大
帧间预测编码时要用到先前(过去)的图(帧内图或预测图),当前的预测图又作为后面预测图的参考值
双向预测图的数据压缩效果最显著,需要先前和后续的信息,双向预测图不能作为其他图的预测参考图
帧内图(I)和预测图(P)及双向预测图(B)沿
时间轴上的排列顺序:
MPEG中这些图的组织结构是十分灵活,它们
的组合可由应用规定的参数决定,如随机存取
和编码延迟等
I B B P B B P B B P B B P B B I B B P B B P B B P B B P B B
40
说明:
电视图像的帧序列中,不能全部是插补图B,B
图必须由参考图进行插补,参考图可以是帧内
图(I)或预测图(P),B图不能作参考图
在两个参考图之间出现双向预测图B的频度是
可选择的
当增加参考图之间B图的数目时,将会减少B图
与参考图之间的相关性
I图、P图、B图三者之间存在因果关系
如第4帧的P图是由第1帧的I图预测,第1帧I图第4
帧P图共同预测出它们之间的双向预测B图
因此,接收端解码器的输入(发送端编码器的输
出),不能按照时间的顺序,而是按照以下的排
列顺序:
I P B B P B B P B B P B B I B B ……
I B B P B B P B B P B B P B B I B B P B B P B B P B B P B B(1)I图的压缩编码算法
帧内图像I不参照任何过去的或者将来的其他图像
帧,压缩编码采用类似JPEG压缩算法
2016/10/29
数字视频处理与检索 8
I图压缩编码算法
BG
R
Y Cb
Cr
RGB到YCbCr 每个平面图像 每个8x8块
DCT
量化Zig-zigDPCM
RLE霍夫曼编码
算术编码01101...
44
(2)P图的压缩编码算法
预测图像的编码也是以图像宏块(macroblock)为
基本编码单元
一个宏块定义为I×J像素的图像块,一般取16×16
预测图像P使用两种类型的参数来表示
一种参数是当前要编码的图像宏块与参考图像的宏块
之间的差值
另一种参数是宏块的运动矢量
P图的压缩编码算法
45
编码图像
求差值
Y
Cr
Cb
DCT+量化+RLE
Huffman编码
01001100.....
参考图像
48
64
最佳匹配运动矢量d(dx,dy)
运动矢量的概念
47
运动矢量的求解
在求两个宏块差值之前,需要找出编码图像中的
预测图像编码宏块MPI相对于参考图像中的参考
宏块MRJ所移动的距离和方向
这就是运动(移动)矢量(motion vector)
运动矢量的算法框图
2016/10/29
数字视频处理与检索 9
49
最佳匹配
要使预测图像更精确,就要求找到与参考宏块
MRJ最佳匹配的预测图像编码宏块MPI
所谓最佳匹配是指这两个宏块之间的差值最小
通常以绝对值AE(absolute difference)最小作为匹
配判据
dx和dy分别是参考宏块MRJ的移动矢量d(dx, dy)在X和Y方向上的矢量。
最佳匹配
50
有些学者提出了以均方误差MSE(mean-square
error)最小作为匹配判据
也有些学者提出以平均绝对帧差MAD(mean of the
absolute frame difference)最小作为匹配判据
51
分析可知
对预测图像的编码实际上就是寻找最佳匹配图像
宏块,找到最佳宏块之后就找到了最佳运动矢量
d(dx,dy)
52
最佳宏块搜索算法
为减少搜索次数,现在已开发出许多简化算法用
来寻找最佳宏块
二维对数搜索法(2D-logarithmic search)
三步搜索法(three-step search)
对偶搜索法(conjugate search)
二维对数搜索法三步搜索法
2016/10/29
数字视频处理与检索 10
对偶搜索法
(3)B图的压缩编码算法
56
DCT+量化+RLE
Huffman编码
编码图像过去的参考图像
48
64
将来的参考图像
-0.5x + =
运动矢量d(dx,dy)
01101100....
57
(4)MPEG电视图像的结构
MPEG编码允许选择I图像的频率和位置,I图像
的频率是指每秒钟出现I图像的次数,位置是指
时间方向上I帧所在的位置
一般情况下,I图像的频率为2
MPEG编码也允许在一对I图像或者P图像之间选
择B图像的数目
I图像、P图像和B图像数目的选择依据主要是根
据节目的内容
58
举例说明:
对于快速运动的图像,I图像的频率可以选择高
一些,B图像的数目可以选择少一点
对于慢速运动的图像I图像的频率可以低一点,
而B图像的数目可以选择多一点
编码参数为
帧内图像I的距离为N=15,预测图像(P)的距离为
M=3
一个典型的I、P、B图像安排如下图所示
举例说明:
59
MPEG电视帧编排
60
§2.7.6 MPEG-4多媒体应用标准
MPEG-4从1994年开始工作,1999年发布
为视听(audio-visual)数据的编码和交互播放开发
算法和工具
MPEG-4是一个数据速率很低的多媒体通信标准
MPEG-4的目标是要在异构网络环境下能够高度
可靠地工作,并且具有很强的交互功能
2016/10/29
数字视频处理与检索 11
MPEG-4
MPEG-4的标准名是Very-low bitrate audio-visual
coding (甚低速率视听编码)
标准号 ISO/IEC14496
MPEG-4目前有27个部分 系统标准 电视图像标准 声音标准 ……
其中第10部分:高级视频编码AVC(Advanced
Video Coding),该部分采用H.264
61
MPEG-4
MPEG-4引入了基于对象表达(object-based
representation)的概念,用来表达视听对象
(audio/visual objects,AVO)
MPEG-4扩充了编码的数据类型,由自然数据对象
扩展到计算机生成的合成数据对象,采用合成对
象/自然对象混合编码(Synthetic/Natural Hybrid
Coding,SNHC)算法
在实现交互功能和重用对象中引入了组合、合成
和编排等重要概念
62
MPEG-4
63
MPEG-4系统示意图MPEG-4接收端的主要部件
64
MPEG-4中制定了一个称为传输多媒体集成框架
(Delivery Multimedia Integration Framework,
DMIF)的会话协议,用来管理多媒体数据流
该协议在原则上与文件传输协议FTP(File
Transfer Protocol)类似,其差别是:FTP返回的是
数据,而DMIF返回的是指向到何处获取数据流
的指针
DMIF覆盖了三种主要技术:广播技术,交互网
络技术和光盘技术
65
DMIF覆盖的三种主要技术
66
2016/10/29
数字视频处理与检索 12
67
MPEG-4应用
MPEG-4将应用在移动通信和公用电话交换网
(public switched telephone network,PSTN)上,
并支持
可视电话(videophone)
电视邮件(video mail)
电子报纸(electronic newspapers)
其他低数据传输速率场合下的应用
MPEG-4电视序列编码举例
69
§2.7.7 MPEG-7多媒体内容描述接口
MPEG-7的工作于1996年启动,名称叫做多媒体
内容描述接口(Multimedia Content Description
Interface))
目的是制定一套描述符标准,用来描述各种类型
的多媒体信息及它们之间的关系,以便更快更有
效地检索信息
Scope of MPEG-7
70
Feature Search
Extraction Engine
MPEG-7
Description
standardization
Search Engine:Searching & filteringClassificationManipulationSummarizationIndexing
MPEG-7 Scope:Description Schemes(DSs)Descriptors (Ds)Language (DDL)Ref: MPEG-7 Concepts
Feature Extraction:Content analysis (D, DS)Feature extraction (D,DS)Annotation tools (DS)Authoring (DS)
Application of MPEG-7
71 72
§2.7.8 MPEG21: Multimedia Framework
MPEG-21由MPEG-7发展而来,2001年开始启
动,2007年完成
MPEG-21主要规定数字节目的网上实时交换协
议
2016/10/29
数字视频处理与检索 13
Digital Supply Chain
73
AuthorAuthor
AgentAgent
PublisherPublisher
AggregatorAggregator
DistributorDistributor
WholesalerWholesaler eTailerConsumerConsumer
Authoring ToolsPublishing S/W
Asset Management
Content Packaging
Content Hosting
WWW. Store Front
Rights ClearingUser Interface
Digital Rights
Meta Data
Digital Content Products & Services
Digital Identification
MPEG-21
1 Vision, Technologies and Strategy
2 Digital Item Declaration
3 Digital Item Identification
4Intellectual Property Management and Protection
5 Rights Expression Language
6 Rights Data Dictionary
7 Digital Item Adaptation
8 Reference Software
9 File Format
75
§2.7.4 MPEG的新计划
New Standards
MPEG-A Multimedia Application Formats
MPEG-B MPEG Systems Technologies
MPEG-C MPEG Visual Technologies
MPEG-D MPEG Audio Technologies
MPEG-E MPEG Multimedia Middleware
MPEG-F Universal 3D file format
76
内容提要
多媒体数据压缩的必要性和可能性
多媒体数据压缩编码的分类
PCM与预测编码
无损压缩编码
变换编码
JPEG
MPEG
H.264
H.264
H.264是由ITU-T视频编码专家组(VCEG)和
ISO/IEC动态图像专家组(MPEG)联合组成的
联合视频组(JVT,Joint Video Team)提出的高
度压缩数字视频编解码器标准
它既是ITU-T的H.264,又是ISO/IEC的MPEG-4
高级视频编码(Advanced Video Coding,AVC)
,而且它也是MPEG-4标准的第10部分
77
H.264
78
高清电视
网络电视
H.264
码率低:相同质量下码率比H.263低50%
优点质量高:图片质量与原始视频相比无明显下降
缺点
编码复杂:计算复杂度相当于H.263
的3倍,串行程序
编码速度达不到实时传输要求
多核平台的发展
H.264多粒度并行编码器
2016/10/29
数字视频处理与检索 14
H.264
79
帧(Frame)
宏块(Macro block)
子块(block)
片(Slice)
扩展阅读
高文:高效视频编码技术标准及其演化
http://wenku.baidu.com/view/e8fa8e82ec3a87c2402
8c4fa.html
80
81
课后作业
请简要论述MPEG-Video图像压缩技术的基本思
想和方法,详细讨论三种图像I、P、B的具体含
义及其压缩编码算法。