Upload
danghuong
View
216
Download
0
Embed Size (px)
Citation preview
数据中心网络面临的挑战
数据中心网络是数据中心基础设施重要的组成部分成部分
数据中心网络技术面临的挑战
高带宽高密度交换、服务质量、虚拟化、节能
以太网无法满足数据中心网络的发展需求以太网无法满足数据中心网络的发展需求
以太网基本原理(1)
分布式地址学习与帧转发
core core
转发表
基于MAC地址转发
地址自动学习和分布式转发控制
3 4
A 1B 2
C 3D 3
制
转发表容量16K-32KTOR
TOR 1 2
D 3
无环控制,生成树算法
A B C D
以太网基本原理(2)
地址解析过程core core
A要与C通信,必须首先根据C的IP地址 使用ARP广播查core core 的IP地址,使用ARP广播查询C的地址
C通过ARP响应消息告诉A自
TOR
3 4
1
C通过ARP响应消息告诉A自己的MAC地址
A需要维护一个ARP表,保存TOR TOR
1 2 A需要维护 个ARP表,保存不同IP与MAC地址的映射关系
A B C D
ARP请求报文流向 ARP响应报文流向
ARP表老化问题
请求报文流向 响应报文流向
传统数据中心网络模型
采用二层和三层相结合的交换方法
缩小广播域缩小广播域
提供多路径负载均衡
引用自“A Scalable Commodity Data Center Network Architecture”SIGCOMM’08引用自“A Scalable, Commodity Data Center Network Architecture”SIGCOMM 08
服务器虚拟化带来的新问题
core core
服务器虚拟化可以提高物理资源利用率,减小用户d 机时间 保护数据
TOR TOR
down机时间,保护数据安全和节能等
A B C D
虚拟机迁移要求数据中心中所有服务器(虚拟机)
A B C D
VM0 VM1 VMN VM0 VM1 VMN
中所有服务器 虚拟机位于相同二层网络
大型数据中心可能包含VM0 VM1 VMN VM0 VM1 VMN
大型数据中心可能包含10000以上服务器,更多的虚拟机
IP=10.10.33.8MAC=MAC-A
IP=10.10.33.8MAC=MAC-C
的虚拟机
大型二层网络面临的挑战
生成树问题
降低交换机之间链路带宽的利用率降低交换机之间链路带宽的利用率
地址解析的压力
ARP协议采用广播机制、超时机制
每个虚拟机每秒需要处理上万个ARP广播消息
交换机压力
MAC地址无法聚合MAC地址无法聚合
交换机MAC表项16K-32K可能成为瓶颈
Monsoon数据中心网络
通过应用层agent获取地址解析信息
支持100000服务器的二层网络 集支持100000服务器的二层网络,集中计算交换机转发表,采用目录服务提供地址解析 交换机支持Mac-in-Mac源路由
PRESTO’08 Towards a Next Generation Data Center Architecture:Scalability and Commoditization
Portland数据中心网络
基于PMAC进行交换,最后一跳出口交换机实现PMAC到真实MAC口交换机实现PMAC到真实MAC的转换
采用集中的Fabric Manager实pod现地址解析
基于openflow技术实现帧的交换(无法使用传统的以太网交换机)
pod
(无法使用传统的以太网交换机)
PMAC格式:pod.position.port.vmid 由于PMAC是层次的编址,p p p
Pod编号 pod中位置 连接的端口号 VM编号
由于 是层次的编址因此可聚合,可以减小交换机转发表的表项
SIGCOMM’09 PortLand: A Scalable Fault-Tolerant Layer 2Data Center Network Fabric
虚拟二层(VL2)数据中心网络采用位置与身份分离的思想,网络基础设施使用位置相关的IP地址(LA),应用使用应用相关IP地址(AA)
发出的报文预先指定核心和出口TOR交换机
采用目录服务器实现AA到LA采用目录服务器实现AA到LA的映射
基于复制状态机(RSM)服务 实 分布的 录 务 之
所有应用(VM)的AA具有相同的前缀,因此认为位于相同的二层网络(虚拟二层网络)
务器实现分布的目录服务器之间映射的一致性
SIGCOMM’09 VL2: A Scalable and Flexible Data Center Network
位于相同的二层网络(虚拟二层网络)
服务器参与的交换结构
Dcell结构 Bcube结构 Camcube结构
服务器参与形成类似overlay的可扩展交换结构,避免使用大的交换机,隔离以太网广播域。同时支持交换策略的注入
SIGCOMM’08 DCell: A Scalable and Fault-Tolerant Network Structure for Data CentersSIGCOMM’09 BCube: A High Performance, Server-centric Network SIGCOMM 09 BCube: A High Performance, Server centric Network Architecture for Modular Data CentersSIGCOMM’10 Symbiotic Routing in Future Data Centers
相关标准
IETF
Trill working groupTrill working group基于Mac-Mac封装,实现二层网络中的多路径传输
2006.7成立
ARMD working group BOFAddress Resolution for Massive amount of hosts in cloud/internet Data centercloud/internet Data center
IEEE
802 1Qbg Edge Virtual Bridging802.1Qbg - Edge Virtual Bridging
802.1Qbh - Bridge Port Extension
数据中心网络技术选择
数据中心网络的特点
集中的控制实现地址解析集中的控制实现地址解析
使用动态分配的地址进行转发
可控的交换机转发表配置方法可控的交换机转发表配置方法
基于信用量的流控机制
更高的带宽和交换密度更高的带宽和交换密度
多种网络技术的聚合
可行的技术:IP over Infiniband
Infiniband原理(1)
子网管理器负责:子网的拓扑发现、接口地址(GID和LID)分配和交换机转发表的配置交换机转发表的配置
子网管理代理负责:响应子网管理器各种响应子网管理器各种管理命令
Infiniabnd支持基于
子网管理器 子网管理代理
Infiniabnd支持基于信用量的流控、优先级调度等
IPoIB技术(1)
把Infiniband作为链路层技术,主机IP协议栈不需改变不需改变
IETF IP over IB working group 2006年完成4个主要标准的制定4个主要标准的制定
RFC4390 Dynamic Host Configuration Protocol (DHCP) over InfiniBand
Proposed Standard( )
RFC4391 Transmission of IP over InfiniBand (IPoIB)
Proposed Standard
RFC4392 IP over InfiniBand (IPoIB) InformationalRFC4392 IP over InfiniBand (IPoIB) Architecture
Informational
RFC4755 IP over InfiniBand: Connected Mode
Proposed Standard
IPoIB技术(2)
源和目的GID等信息
目的QPN和Q-key等访问控制信息
源和目的LID等信息
GID等信息 等访问控制信息
源QPN等信息
GUID:64位,设备唯一,GID=GUID+子网前缀GUID:64位,设备唯 ,GID GUID+子网前缀
IPoIB的地址解析B
C
B
C
AD
SM
AD
SM
2 C发出ARP应答报文 包含自
B B
1.A通过广播发出ARP报文 2.C发出ARP应答报文,包含自己的GID和接收的QPN
A
C
A
C
AD
SM
AD
SM
3.A根据C的GID请求C的LID等信息 4.SM返回C的LID等信息
IB与以太网技术的比较
Infiniband 以太网
控制模型 集中控制 分布控制控制模型 集中控制 分布控制
地址特点 网络地址(LID)与设备地址(GUID)分离
网络地址就是设备地址
相关标准 基本就绪 支持数据中心的标准正相关标准 基本就绪 支持数据中心的标准正在制定
交换设备 硬件可有效支持数据中心的 目前设备难以支持虚拟虚拟化应用 化应用,需要升级
性能 40Gbps到服务器,1us级延时
千兆到服务器,10us/100us级延时延时 / 级延时
QoS 基于信用量的流控,多优先级调度
无
Infiniband网络管理软件
IBviewOFED
IBanalyzer
IB Infrastructure
y
Ib l 命令行的网络网络管理工具 定制的名字系统Ibanalyzer:命令行的网络网络管理工具,定制的名字系统Ibview:提供全方位的网络状态视图,实现自动配置、智能故障诊断等
IBS216Q交换机的应用不同结点规模下,216Q/4700的sendrecv通信延时性能比率
1.11.151.2
1.251.3
16
0.80.850.9
0.951
1.05
1 4 16 64 256
024
096
384
536
144
576
304
32
64
128
1 6 25 102
409
1638
6553
2621
410
4857
4194
30
不同节点规模下all-to-all带宽比率
IBS216Q与ISR4700之间不同结点组合规模下的sendrecv通信延时(us)IBS216Q与ISR4700之间不同结点组合规模下的sendrecv通信延时(us)
100
1000
10000
16-16
32-32
64-64
128-128
1
10
0 2 8 32
128 512
2048
8192
32768
131072
524288
209715
2
不同节点规模下通信延时
在CNCC 2010大会上的展示
大规模互联网行为仿真环境 60个虚拟机仿真60个网络交换设备之大规模互联网行为仿真环境,60个虚拟机仿真60个网络交换设备之间交互的行为环境:IBS36Q+双子型服务器+OpenViz虚拟化+Core开发平台
下一步工作(1)
IBS432Q和IBS108Q设计
应用模式驱动的拓扑设计应用模式驱动的拓扑设计
高性价比网络拓扑结构
nxnx
as’ as’as’as’es’ es’es’es’2x2x
ESESESESASASASAS4x4x
下一步工作(2)
优化IPoIB的地址解析流程
AB
C AB
C AB
C
无广播的地址解析过程,支持包含大量主机的子网
A C A C A C
SM SM SM
1.节点在获得LID后,向SM注册自己的IP地址
2.A要与C通信,使用C的IP地址到SM处查询
3.SM向A返回C的LID和GID向SM注册自己的IP地址 的IP地址到SM处查询 LID和GID
SM在分配LID后,根据节点的注册信息,可获得主机IP和LID及GID的关联为避免主机注册的拥塞 每个主机可随机等待 定时间后再去注册为避免主机注册的拥塞,每个主机可随机等待一定时间后再去注册