View
206
Download
4
Category
Preview:
DESCRIPTION
一站式搜索服务平台 - TSearcher. 柳明 ( 洪震 )@ 淘宝终搜. 背景. 终 搜 产品 是 什么. 诞生 于淘宝 -SNS ,是一站式 的全文 搜索解决方案,起初只是支持部门内部的搜索需求。但随着产品的不断完善和发展,逐渐支持了淘宝网,天猫、 B2B 、一淘、聚划算等事业部 的 100+ 的应用搜索 需求 。. 终搜提供了用户原始数据的一个结构化副本,在副本上提供了多样的查询功能。. 业务方. 终搜. 数据库. 数据副本. 导入. 云梯数据. 导入. - PowerPoint PPT Presentation
Citation preview
一站式搜索服务平台 -TSearcher柳明 ( 洪震 )@ 淘宝终搜
背景 诞生于淘宝 -SNS ,是一站式的全文搜索解决方案,起初只是支持部门内部的搜索需求。但随着产品的不断完善和发展,逐渐支持了淘宝网,天猫、 B2B 、一淘、聚划算等事业部的100+ 的应用搜索需求。
终搜产品是什么
终搜提供了用户原始数据的一个结构化副本,在副本上提供了多样的查询功能。
数据库云梯数据
数据副本导入导入
业务方 终搜
查询Select * From tab1 where col1 like ‘%xxxx%’
产品规模 终搜产品在阿里巴巴集团内部目前已经有将近 300 台的索引服务节点, 12 台全量 DUMP 服务节点,支撑了 120 亿 + 的文档数,和每天峰值在 1 亿 + 左右的查询请求。
背景
发展轨迹2009-2010 2010-2011 2012- 至今
第一阶段
第二阶段
第三阶段产品发展
技术关键字: Solr 、 Lucene , Zookeeper业务规模: 10+数据规模: 5000W+
技术关键字:Solr 、 Lucene 、 Zookeeper,Hadoop
数据规模: 30+数据规模: 30 亿 +
技术关键字:平台化业务规模: 100+数据规模: 120 亿 +
成长的烦恼业务规模的增长终搜集群聚划算事业部 - 技术部 - 开发一组聚划算事业部 - 技术部 - 开发二组应用 2应用 1
share1
replica
replica
replica
share2
replica
replica
replica
(1..n)
(1..n) ….
天猫事业部 - 产品技术部 - 导购 & 垂直线天猫事业部 - 产品技术部 - 会员营销应用 2应用 1share1
replica
replica
replica
share2
replica
replica
replica
(1..n)
(1..n) ….….
成长的烦恼数据规模的增长
CE/ 通用格式 CE/ 通用格式CE/ 通用格式
CE/ 通用格式
CE/ 通用格式数据规模
文档数(万)
成长的烦恼其他业务实例索引配置变化频繁,归属机器需要重启生效
业务实例依赖配置和三方 jar 包无版本化管理,更新轨迹无法追踪。
业务需要在线扩容怎么办检索节点宕机,导致检索服务不稳定怎么办
寻求思路
平台化
容量扩容业务接入
索引构建 基础服务
业务管理 中心管理
数据检索管理
定义和维护业务实例 状态信息收集 可视化状态信息 集群视图关系维护 全量任务分发并执行 源数据存储 索引回流 业务引擎维护 检索服务提供 状态信息汇报
平台化
协调
TSearcher
ºó ̨
µ¼Èë µ÷ ¶È
Zookeeper
ÖÐÐĽڵ㼠Ⱥ
´æ ´¢ ÖÐÐÄ
¿É ÊÓ»¯ ¼à ¿Ø
Åä ÖÃ°æ ±¾ »¯
DUMP¼ Ⱥ
J o bµ÷ ¶È
ÒµÎñ ʵ Àý ά »¤ & ÈÝÔÖÀ©ÈÝ¹Ü Àí
Ë÷ Òý & »ú Æ÷ÊÓͼ ¹Ø ϵ ά »¤
ÈÎ Îñ ·Ö Åä
Ë÷Òý¹¹ ½¨
ʵ Àý ¹Ü Àí
ËÑË÷¼ Ⱥ
ËÑË÷ ·þ Îñ
Ë÷ Òý Ôö Á¿
¼ Ⱥ״̬ÐÅÏ¢ ÊÕ¼ ά»¤
TSearcher
ËÑË÷ ¼¯ Ⱥ
D U M P ¼¯ ȺTas kN o deTas kN o de
J o bN o de
Tas kN o de
C o r e N o de
C o r e N o de C o r e N o de
C o r e N o de
C o r e N o de C o r e N o de
D e fault N e two rk
ÖÐÐĽڵ㠼¯ Ⱥ
C e nte rN o de -L e ade r
Fo l lo we r Fo llo we r
H D F S
M a na g e rN o de
2
1
1 ÐÄÌø »ã ±¨ ¡¢ Ö¸ Áî »ñ È¡
2 È« Á¿ÈÎ Îñ Ìá ½»
3
4
3 Ô´ Êý ¾ÝÏû ·Ñ ¡¢ È« Á¿Ë÷Òý»ØÁ÷
4 È« Á¿Ë÷Òý¿½±´
业务实例管理
C en terN o d e- L ead er
C o reN o d e C o r eN o d e C o r eN o d e
M an ag erN o d e
C en terN o d e- F o llo w er C en te rN o d e- F o llo w er
1
C o r eN o d e
2 2
3 3
3 3
34 4 3 4 4
1
2
3
4
ºǫ́´¥·¢ÒµÎñʵÀý²Ù×÷Ö¸Áî
Follower½Úµãͬ²½³Ö¾Ã»¯Ô Êý¾Ý
CoreNodeÐÄÌø»ñÈ¡Ö ÐÐÈÎÎñ
CoreNodeÁìÈ¡ÈÎÎñÖ´ÐÐ
可视化监控
DUMP 中心
J o b N o d eC lie n t
Ìá ½» ÈÎ Îñ
T a s k N o d e T a s k N o d e T a s k N o d eÔ´ Êý ¾Ý
Ä¿±ê ´æ ´¢ Ô´
¼à ¿Ø ÈÎ Îñ
DUMP 中心
Ô´ Êý ¾Ý
ÎÄ µµ ¹¹ ½¨
ÎÄ µµ ¹¹ ½¨
ÎÄ µµ ¹¹ ½¨
ÎÄ µµ ¹¹ ½¨ ²ã
¹¤ ×÷ÎÄ µµ
¶ÔÏó ³Ø
¿ÕÏÐÎÄ µµ
¶ÔÏó ³Ø
С Ë÷Òý¹¹ ½¨
С Ë÷Òý¹¹ ½¨
С Ë÷Òý¹¹ ½¨
B yteÊý×é ³Ø
С Ë÷Òý¶ÔÏó ³Ø
Ë÷ ÒýºÏ²¢ ³Ì Ðò
´Å ÅÌ Ë÷Òý
Ë÷Òý¹¹ ½¨ ²ã Ë÷ÒýºÏ ²¢ ²ã
¹¹ ½¨ · ¾¶
×ÊÔ´ · ¾¶
搜索 &DUMP 隔离C lientN o d e
s e arc h4 A
/al l /0/20130114000000/search4XXX/al l /0/output/20130114000000/ index
H D F S
Jo b N o d eT as kN o d e
C enterN o d e-Lead er
s e arc h 4 A -n e w
C enterN o d e-Lead er
Jo b N o d e
T as kN o d es e arc h4 A
T a s k -P o o l
Inde xA -ne w
/al l /0/20130114000000/search4XXX/al l /0/output/20130114000000/ index
H D F S
s e arc h 4 A -o ld
Inde xA -o ld
T a s k -P o o l
C o reN o d e
1
2
3
4
56
77
8
9 1 0
1 1
1 Ô´ Êý ¾Ýµ¼Èë 2 È« Á¿ ÈÎ Îñ Ìá ½»
3 ÈÎ Îñ Ìá ½»J o bNo de 4 ·Ö Åä È« Á¿ ÈÎ Îñ
5 TaskN o de ¹¹ ½¨ Ë÷ Òý 6 »Ø Á÷ Ë÷ Òý
7 ÈÎ Îñ Ö´ Ðз´ À¡ 8 Ìá ½»Ë÷ ÒýÇл» ÈÎ Îñ
9 Áì È¡ Çл» ÈÎ Îñ 1 0 ¿½ ±´ Ë÷ Òý
1 1 оÉÒý ÇæÇл»
实时增量
R a m Inde x
F ullInde x S ubInde x
C o m m itL o g
Se ar c hSe r vi c e
C L SynSe r ve r
I n d e x Syn Se rv ic e R a m Inde x
F ullInde x S ubInde x
C o m m itL o g
S e a rc h S erv ic e
I nd e x Syn Se rv ic e
C L SynC l i e nt
R a m Inde x
F ullInde x S ubInde x
C o m m itL o g
S e a rc hS e rvic e
I nd e x Syn S e rv ic e
C L SynC l i e nt
ʵʱд Èë
L e ade r F o l l o w e r
F o l l o w e r
H SF ¡¢ H TTP
fulla t.infoflus ha t.info
fulla t.infoflus ha t.info
fulla t.infoflus ha t.info
扩容 - 垂直扩容
¼ì Ë÷½Úµã 1 -1
¼ì Ë÷½Úµã 1 -2
¼ì Ë÷½Úµã 1 -3
´¹ Ö±À©ÈÝ
¼ì Ë÷ ½Úµã 1 -1
¼ì Ë÷½Úµã 1 -2
¼ì Ë÷½Úµã 1 -3
¼ì Ë÷½Úµã 1 -4
ÁÐË÷ Òý1 ÁÐË÷Òý2
扩容 - 垂直扩容C en terN o d e
S e a rc h4 A /al l /output/20130114000000/ index
H D F S
S e a rc h4 A
I n d e x A
12 3
5
4
1 Áì È¡ ´´ ½¨ ÒµÎñ ʵ Àý Ö¸ Áî
2 Ö´ Ðз´ À¡
3 Áì È¡ ¿½ ±´ Ë÷ Òý Ö¸ Áî
4 ¿½±´ ¶ÔÓ¦ Ë÷ Òý
5 Ö´ Ðз´ À¡
C oreN od e C oreN od e
扩容 - 水平扩容
¼ì Ë÷½Úµã 1 -1
¼ì Ë÷½Úµã 1 -2
¼ì Ë÷½Úµã 1 -3 ˮƽÀ©ÈÝ
¼ì Ë÷½Úµã 2 -1
¼ì Ë÷½Úµã 2 -2
¼ì Ë÷½Úµã 2 -3
¼ì Ë÷½Úµã 2 -4
ÁÐË÷Òý1 ÁÐË÷Òý2
¼ì Ë÷ ½Úµã 1 -3
扩容 - 水平扩容ÒýÇæ³é Ïó 0 ÒýÇæ³é Ïó 1
4 ,8 ,1 2 ,1 6 2 ,6 ,1 0 ,1 4 1 ,5 ,9 ,1 3 3 ,7 ,1 1 ,1 5
¼ì Ë÷ ½Úµã A ¼ì Ë÷½Úµã B
ÒýÇæ³é Ïó 0
4 ,8 ,1 2 ,1 6 2 ,6 ,1 0 ,1 4
¼ì Ë÷½Úµã A
×ÓË÷ Òý0 ×ÓË÷ Òý2 ×ÓË÷ Òý1 ×ÓË÷ Òý3
ÒýÇæ³é Ïó 2
2 ,6 ,1 0 ,1 4
ÒýÇæ³é Ïó 1
1 ,5 ,9 ,1 3 3 ,7 ,1 1 ,1 5
ÒýÇæ³é Ïó 3
3 ,7 ,1 1 ,1 5
¼ì Ë÷½Úµã C ¼ì Ë÷½Úµã B ¼ì Ë÷½Úµã D
容灾恢复
Se arc h4 A1 -1
Se arc h4 A1 -2
Se arc h4 A1 -3
Se arc h4 A1 -4
C en te rN o d e
Se arc h4 A1 -1
Se arc h4 A1 -2
Se arc h4 A1 -3 ÈÝÔÖ»Ö¸´
Se arc h4 A1 -4
S end heartb eat C reate Ind ex Engine
Se arc h4 A1 -1
ÁÐË÷ Òý 1 ÁÐË÷ Òý 1
2 倍索引磁盘空间 &内存
核心业务
Lucene 版本
资源过滤
Solr 版本
版本匹配过滤
业务 独占资源
正在恢复
条件过滤
优先推选 规则 1
空闲资源 磁盘容量、 JVM 内存
请求平均 响应时间
承载业务实 例副本 机器 Load
优先推选 规则 2
优先推选 规则 2
容灾恢复 - 机器推选
查询优化 - 范围查询
doc16
doc17
doc18
doc19doc20 doc21
doc0
doc3
doc1doc2doc5doc4
doc6
doc8doc7doc9doc10
doc11
doc12
doc13
doc14
doc15
[f1[doc0]=100,f1[doc1]=99,f1[doc2]=1001,f1[doc3]=201…,f1[doc5]=1003…..]
fn1:[100 TO 1000]
[f2[doc0]=10,f2[doc1]=11…,f2[doc5]=12…..,f2[doc7]=2,f2[doc9]=3,f2[doc10]=9…]fn2:[10 TO
100]
RF_1 RF_NRF_2 RF_3
doc0
doc1
0
1
127
128
255
doc127
Packet0
doc128
doc255
Packet1
PacketN
0 0 0
查询优化 - 范围查询
热词查询优化自定义打分公式排序
Dump 导入提速
搜索大翻页查询改造
空间地理搜索
其他优化
IndexSet
.META
Indexlet ……
Indexlet
Indexlet
Indexlet
……
IndexConfig IndexSchema
Indexs
通讯层( HSF 、 HTTP 、 webService 、 RPC )Query Parser
Query RouterSearche
rSearcher
Reader
Jvm Cache 堆外 Cache
Reader Cache
Cache
Cache Cache
Index-0 Index-1 Index-2 Index-3 Index-4 Index-5
ClientNode CenterNode HDFS
IndexService
数据层
……
监听
检索层新模型
结束语团队成员新浪微博: @ 金钱松、 @ 淘宝云就、 @ 淘宝洪震、 @ 李雨前、 @淘宝百岁、 @ 笨鸟能先飞吗
产品的未来 开源
Q&A
Recommended