18
用互相关联的数据创建超级数据库 Building a super database from linked data Stephen Wang 王傳仁 [email protected] March 3, 2011

用互相关联的数据创建超级数据库

Embed Size (px)

DESCRIPTION

Stephen Wang http://stephenwang.com mongoDB 北京陈述(2011.03.03):介绍alive.cn,一个全球中-英娱乐数据库。从烂番茄网到alivenotdead到alive.cn

Citation preview

Page 1: 用互相关联的数据创建超级数据库

用互相关联的数据创建超级数据库Building a super database from linked data

Stephen Wang 王傳仁[email protected]

March 3, 2011

Page 2: 用互相关联的数据创建超级数据库

谁不适合听这个演讲?

一个小的团队想要创建一个大的数据库 想要组织全世界的信息 想要进行信息方面的创新

谁适合听这个演讲?

Page 3: 用互相关联的数据创建超级数据库

关于

烂番茄网联合创始人 , CTO

流行的电影评论网站 整合的影评,系统全面的影

片数据库

Page 4: 用互相关联的数据创建超级数据库

The Stone Age石器时代

静态的 HTML 模板 编辑阅读大量的文章之

后引用他人的评论 只囊括了最新的影片 大约只有 1000 部影片

Page 5: 用互相关联的数据创建超级数据库

Modern Times现代时光

转移到了 LAMP 上 购买 long-tail 数据库的数

据 自动化的爬虫、以评论的

形式收集用户产生的数据 使用自建的内容管理系统

(CMS) 来管理其他内容(How I felt maintaining Rotten Tomatoes' overloaded database servers)

Page 6: 用互相关联的数据创建超级数据库

每月八百万独立访问者 Lean startup: 25x traffic with 7 staff

电影爱好者非常喜爱的网站(包括史蒂夫乔布斯)

v

结局

Page 7: 用互相关联的数据创建超级数据库

关于 联合创始人 , CTO

一个始于吴彦祖的专属于艺人的社交网络

从最开始的 6 个艺人,发展到现在的 1600 个艺人和 60 万注册用户

同时支持着李连杰、成龙、莫文蔚等艺人的官方网站

JackieChan.comJetLi.com

KarenMok.com

Page 8: 用互相关联的数据创建超级数据库

我们的 LAMP 架构并不适合 ...Newsfeeds...

病毒式传播分析 Viral loop analysis...

多变量测试 Multivariate testing...

存在的问题 ?!?处理大量实时数据时性能受限,

而且损失了许多 long-tail内容带来的流量

Page 9: 用互相关联的数据创建超级数据库

关于

一个更好的娱乐数据库

提供 long-tail 内容 仍然处在 alpha 阶

段,是 alive not dead 的一部分

Page 10: 用互相关联的数据创建超级数据库

功能 综合全面的艺人、电

影、音乐、电视节目数据库

结构化数据、可搜索

多语言:目前支持英语,中文和日语

整合国内外的社会化媒体数据(如微博和Facebook 等)

Page 11: 用互相关联的数据创建超级数据库

为什么要使用 mongoDB?

Flexible schema for different data sources对于多个不同的数据源可以使用灵活的数据模式

Dozens of other sources其他一些数据源

Page 12: 用互相关联的数据创建超级数据库

为什么要使用

Big Data: 处理大量数据时有良好的伸缩性 50 多万个翻译的主题 500K+ translations

下一个挑战 :

整合并储存社会化媒体的海量数据Aggregating and storing the social media firehose

目前支持了 200 多万个主题 2 million topics covered

Page 13: 用互相关联的数据创建超级数据库

为什么要使用

超越边界 Crossing the Border... alive.tom.com 在天津 Alivenotdead.com

在香港

使用重复的数据集来保持数据在墙内外的一致性Use replica sets/eventual consistency to overcome

frequent cross-border network issues

Page 14: 用互相关联的数据创建超级数据库

使用互相关联的开放数据 Using Linked Open Data

多个采用 CC 的数据源 清晰地分类 现被 Google 收购 还没有中文和日文数据!

Wikipedia 是结构化的数据 Creative Commons 数据

Page 15: 用互相关联的数据创建超级数据库

使用互相关联的开放数据 Using Linked Open Data

Wikipedia 是结构化的数据 Creative Commons 数据

采用 Wikipedia作为唯一的数据源

不清楚的分类 对某些已经存在英文数据的

主题有中文和日文的翻译

Page 16: 用互相关联的数据创建超级数据库

使用互相关联的开放数据 Using Linked Open Data

使用 Freebase 的数据分类来扩展数据 利用 DBpedia 中的中文数据 采用同样的方法来收集国内的中文数据资源

Page 17: 用互相关联的数据创建超级数据库

未来 The Future 开放 API 自动主题提取 多语言的实时趋势分析

其他细分领域

数据量已经是 Rotten Tomatoes 的十倍 ...

是整个互联网数据的大集合 ...

信息不再受语言的限制 ...

Page 18: 用互相关联的数据创建超级数据库

我们在招聘 PHP工程师,如果你有兴趣,把你的简历发送到 [email protected]我的博客地址 : http://stephenwang.com