Upload
satoshi-tagomori
View
10.701
Download
0
Tags:
Embed Size (px)
DESCRIPTION
Citation preview
Hadoop and Subsystems
inlivedoor
Hadoop Conference Japan2011 Fall
2011/09/26tagomoris
2011年9月26日月曜日
2011年9月26日月曜日
we are hiring!
2011年9月26日月曜日
what's livedoor?
2011年9月26日月曜日
2011年9月26日月曜日
large scale web services
2800+ servers3200+ hosts
530+ web servers
2011年9月26日月曜日
20 Aug 2009
http://www.amazon.co.jp/dp/47973543642011年9月26日月曜日
Aug 2011
15Gbps(10Gbps + CDN 5Gbps)
2011年9月26日月曜日
Hadoop in livedoor
• 10 nodes (1+9)
• 36 core, 32TB HDFS
• CDH3b2
•with libhdfs, fuse-hdfs
•Hive 0.6.0 (community package)
2011年9月26日月曜日
Hadoop in livedoor
data mining
reportingpage views, unique users,
traffic amount per page,
...2011年9月26日月曜日
super large scale
'sed | grep | wc'with
Hadoop Streaming + Hive
2011年9月26日月曜日
httpd logs
from 96 servers(apache / nginx)
580GB/day (raw)
2011年9月26日月曜日
overview
webservers
hadoopstreaming(perl)
hivescribe loadinsert
hourlyon
demand
hourlydaily
2011年9月26日月曜日
topics
•log delivery network with scribe
•and 'scribeline'
•hive client web application 'shib'
2011年9月26日月曜日
overview
webservers
hadoopstreaming(perl)
hivescribe loadinsert
hourlyon
demand
hourlydaily
2011年9月26日月曜日
scribelog delivery daemon
based on Thriftscalable, reliable
supports HDFS
https://github.com/facebook/scribe
2011年9月26日月曜日
scribe nodesserver
server
server
server
server
server
deliver
central
backup
disk(backup)
disk(archive)
scribed
scribed
scribed
HDFS
2011年9月26日月曜日
deliver node traffic
2011年9月26日月曜日
scribe nodesserver
server
server
server
server
server
deliver
central
backup
HDFS disk(backup)
disk(archive)
scribed
scribed
scribed
2011年9月26日月曜日
what we wantfrom scribe agent•easy to deploy
•works w/o any httpd configurations
•delivery target failover/takeback
•lightweight (without JVM)
•stable
2011年9月26日月曜日
scribe nodesserver
server
server
server
server
server
deliver
central
backup
HDFS disk(backup)
disk(archive)scribeline
scribed
scribed
scribed
2011年9月26日月曜日
scribelinelog delivery agent tool
python 2.4, thrift
easy to setup and start/stopworks without any httpd configurations
works with logrotate-ed log filesautomatic delivery target failover/takeback
https://github.com/tagomoris/scribe_line
2011年9月26日月曜日
how to setup scribelinein livedoor
1. yum install scribeline(tar xzf && cd && sudo make install)
2. vi /etc/scribeline.confblog /var/log/httpd/access_log
blogimg /var/log/nginx/access_log
3. /etc/init.d/scribeline start
2011年9月26日月曜日
scribe nodesserver
server
server
server
server
server
deliver
central
backup
HDFS disk(backup)
disk(archive)
scribed
scribed
scribed
2011年9月26日月曜日
overview
webservers
hadoopstreaming(perl)
hivescribe loadinsert
hourlyon
demand
hourlydaily
2011年9月26日月曜日
what we wantabout hive client•easy to experiment
•from PC on our desks
•result caching
•protection against data loss
•friendly look & feel
2011年9月26日月曜日
shibhive client web applicationnode.js, thrift, kyoto tycoon
query history browserquery editor, based on copy&pasteresult caching & download tsv/csv
filter INSERT/DROP/CREATE ...
https://github.com/tagomoris/shib2011年9月26日月曜日
2011年9月26日月曜日
shib system overview
hadoopcluster
hiveserver
shib
KTstorage
browser
2011年9月26日月曜日
what shib cannot do now
•access control
•graph & chart
•hive 0.7.0+ features support
•database, authentication and ...
•mapreduce status notification
2011年9月26日月曜日
what we are trying now
•New cluster
•more nodes
•CDH3b2 + Hive 0.6.0 -> CDH3u1
•New tools
•Hoop (instead of fuse-hdfs)
•Any stream processing framework
2011年9月26日月曜日
thanks!
2011年9月26日月曜日