用互相关联的数据创建超级数据库

用互相关联的数据创建超级数据库Building a super database from linked data

Stephen Wang 王傳仁[email protected]

March 3, 2011

谁不适合听这个演讲？

一个小的团队想要创建一个大的数据库想要组织全世界的信息想要进行信息方面的创新

谁适合听这个演讲？

关于

烂番茄网联合创始人 , CTO

流行的电影评论网站整合的影评，系统全面的影

片数据库

The Stone Age石器时代

静态的 HTML 模板编辑阅读大量的文章之

后引用他人的评论只囊括了最新的影片大约只有 1000 部影片

Modern Times现代时光

转移到了 LAMP 上购买 long-tail 数据库的数

据自动化的爬虫、以评论的

形式收集用户产生的数据使用自建的内容管理系统

(CMS) 来管理其他内容(How I felt maintaining Rotten Tomatoes' overloaded database servers)

每月八百万独立访问者 Lean startup: 25x traffic with 7 staff

电影爱好者非常喜爱的网站（包括史蒂夫乔布斯）

v

结局

关于联合创始人 , CTO

一个始于吴彦祖的专属于艺人的社交网络

从最开始的 6 个艺人，发展到现在的 1600 个艺人和 60 万注册用户

同时支持着李连杰、成龙、莫文蔚等艺人的官方网站

JackieChan.comJetLi.com

KarenMok.com

我们的 LAMP 架构并不适合 ...Newsfeeds...

病毒式传播分析 Viral loop analysis...

多变量测试 Multivariate testing...

存在的问题 ?!?处理大量实时数据时性能受限，

而且损失了许多 long-tail内容带来的流量

关于

一个更好的娱乐数据库

提供 long-tail 内容仍然处在 alpha 阶

段，是 alive not dead 的一部分

功能综合全面的艺人、电

影、音乐、电视节目数据库

结构化数据、可搜索

多语言：目前支持英语，中文和日语

整合国内外的社会化媒体数据（如微博和Facebook 等）

为什么要使用 mongoDB?

Flexible schema for different data sources对于多个不同的数据源可以使用灵活的数据模式

Dozens of other sources其他一些数据源

为什么要使用

Big Data: 处理大量数据时有良好的伸缩性 50 多万个翻译的主题 500K+ translations

下一个挑战 :

整合并储存社会化媒体的海量数据Aggregating and storing the social media firehose

目前支持了 200 多万个主题 2 million topics covered

为什么要使用

超越边界 Crossing the Border... alive.tom.com 在天津 Alivenotdead.com

在香港

使用重复的数据集来保持数据在墙内外的一致性Use replica sets/eventual consistency to overcome

frequent cross-border network issues

使用互相关联的开放数据 Using Linked Open Data

多个采用 CC 的数据源清晰地分类现被 Google 收购还没有中文和日文数据！

Wikipedia 是结构化的数据 Creative Commons 数据


Wikipedia 是结构化的数据 Creative Commons 数据

采用 Wikipedia作为唯一的数据源

不清楚的分类对某些已经存在英文数据的

主题有中文和日文的翻译


使用 Freebase 的数据分类来扩展数据利用 DBpedia 中的中文数据采用同样的方法来收集国内的中文数据资源

未来 The Future 开放 API 自动主题提取多语言的实时趋势分析

其他细分领域

数据量已经是 Rotten Tomatoes 的十倍 ...

是整个互联网数据的大集合 ...

信息不再受语言的限制 ...

我们在招聘 PHP工程师，如果你有兴趣，把你的简历发送到 [email protected]我的博客地址 : http://stephenwang.com

Education

用互相关联的数据创建超级数据库