63
木棉检索新进展 董守斌, 董守斌, [email protected] [email protected] 华南理工大学信息网络工程研究中心 华南理工大学信息网络工程研究中心 广东省计算机网络重点实验室 广东省计算机网络重点实验室 华南理工大学计算机科学与工程学院 华南理工大学计算机科学与工程学院

木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

  • Upload
    others

  • View
    11

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

1

木棉检索新进展

董守斌,董守斌,[email protected]@scut.edu.cn

华南理工大学信息网络工程研究中心华南理工大学信息网络工程研究中心广东省计算机网络重点实验室广东省计算机网络重点实验室

华南理工大学计算机科学与工程学院华南理工大学计算机科学与工程学院

 

Page 2: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

2

广东省计算机网络重点实验室简介

• 2001年3月被广东省教育厅批准为第一批重点实验室

• 2002年10月获广东省科技厅资助建立广东省计算机网

络重点实验室

• 依托华南理工大学计算机科学与工程学院和电子与信

息学院的学科和人才优势而建立。

• 现有人员教授、副教授/高工、博士等20多人,80名博士/硕士研究生。主任:张凌教授

Page 3: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

3

主要研究方向

• 下一代网络技术

大规模高性能网络的网络行为学

高性能网络管理、网络安全与信息安全

下一代网络体系结构理论、路由技术与QoS技术

移动网络与业务管理系统

• 网格计算与海量信息处理

网格计算理论与技术

信息检索

高性能计算及其应用

网络多媒体信息处理

Page 4: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

4

相关工作基础

• 开展海量信息处理的研究,在信息检索与数据挖掘等方面形成了一系列的科

研成果:

国家 “九五”攻关项目-中文编码和分布式中英文信息发现

国家 “九五”攻关项目-数字化图书馆异质数据源信息的存储、获取与阅读

国家教育部骨干教师项目-视频检索系统关键技术研究

国务院信息办国务院总理基金项目-信息自动查询与识别技术

国家基金重大研究计划项目-基于网络环境的生物信息学研究和示范显示

广东省自然科学基金项目-网络信息自动发现与识别技术的研究

广东省重点实验室项目-基于XML的内容管理系统的研究

广东省省重点攻关项目“基于网格计算的信息安全保障体系及其关键技术研究”

Intel 2004 HPC研究项目 “The Design and Implementation of HTSFS – High Throughput and Scalable File System”

Page 5: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

5

木棉搜索引擎

• 最早的中文搜索引擎之一。做为国家“九五”重点攻关项

目“中文编码和分布式中英文信息发现”的研究成果,与

北大天网、清华指南针并为教育网三大搜索引擎

Web检索:支持中英文混合查询、布尔查询、结构属性查询、

模糊查询等多种查询

FTP检索:基于文件主要属性的结构查询,包括文件名、目

录名和站点名的匹配等

信息采编:支持信息获取和信息分类

在1998年12月30日通过国家计委组织的鉴定和验收

Page 6: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

6

发展与演变

• 体系结构

海量信息处理平台

• 关键技术

动态并行数据采集机制

索引优化

智能化个性化检索

• 应用

多媒体检索

生物信息专题检索

垃圾邮件处理

Page 7: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

7

海量信息处理平台

解码解密 格式清洗

解压

数据

特征提取

关联分析

索引系统

聚类格式转换

中文分词

图像预处理

算法库

应用支撑环境

Exchange Servers

64位SUN SMP64位Linux MPP 32位Linux MPP

资源层

Globus

资源调度

节点封装网格中间件层

任务调度 数据分发 协同处理

并行编程接口 服务封装

并行文件系统

用户管理

Page 8: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

8

研究内容

• 高速数据存储体系结构:研究海量数据实时高速存储的体系结构,

为海量信息处理提供高性能的数据访问服务;

• 海量数据处理体系结构:研究可支持海量信息处理的计算平台体

系结构,以支持智能化的资源调度和任务管理;

• 并行化数据挖掘算法:基于MPI和Globus的中间件,研究并行编

程模式、程序设计方法和程序开发环境,实现并行化的数据挖掘

算法;

• 快速索引和查询技术:在高速存储和海量计算平台,以及算法研

究的基础上,研究高速并行海量信息检索技术,支持对各类资源

和信息的快速索引和关联查询。

Page 9: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

9

关键技术

• 具有良好的跨平台兼容特性和扩展性的海量数据存储体

系结构

• 基于网格计算的海量数据处理体系结构

• 网格系统资源组织、管理与任务调度机制

• 高效并行的关联分析算法研究

• 海量数据高速存取、快速索引和查询技术

Page 10: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

10

目标与意义

• 目标:把海量数据存储、数据检索和数据挖掘等海量信息处理的关

键技术有机地融合在一起,基于网格计算平台,为海量信息处理的

应用提供一个良好的应用和开发环境

• 基于网格计算的网络信息处理技术,在网络信息处理方面引入新兴

的网格计算理论和技术,为充分利用网格平台进行海量的网络信息

处理的应用提供理论和技术支持

• 应用范围十分广泛,可对网络上的海量网络数据进行数据挖掘,信

息检索,模式识别,分类,数据格式转换,网页拓扑发现,用户行

为识别,文件存储、访问,以及并行程序开发等

• 可在此基础上,开展生物信息学、网络内容安全控制等示范应用,

促进计算机科学与生物、材料等交叉学科的跨越式发展

Page 11: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

11

典型应用:生物信息计算平台

Exchange Servers

64位SUN SMP64位Linux MPP 32位Linux MPP

生物信息应用网格支撑环境

资源层

生物信息网格门户

生物信息学工具 生物信息学数据库生物信息并行算法库

信息检索

mpiBlast

用户登陆 任务提交 文件传输 服务监控

Globus

资源调度

节点封装网格中间件层

任务调度 数据分发 协同处理

并行编程接口 服务封装并行文件系统

用户管理

SiRNA Pro SRS

Cellulase

mpiFastaEmboss

Gromacs Amber SiDB… …

HammerModerler

Page 12: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

12

发展与演变

• 体系结构

海量信息处理平台

• 关键技术

动态并行数据采集机制

索引优化

智能化个性化检索

• 应用

多媒体检索

生物信息专题检索

垃圾邮件处理

Page 13: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

13

动态并行数据采集(Parallel Crawling Schema Based on Dynamic Partition)-ICCS’04

• 数据采集系统的运行效率、采集范围和数据质量极大地影响着搜索

引擎的更新率、覆盖率和查询准确率。随着网络数据的急剧增加,

有必要在并行采集系统中实现动态的任务分配模式。

优化动态分配-利用网格资源调度器可以方便地对采集任务进行动

态分配,并对分配情况进行优化,实现系统负载均衡。

采集性能提高-采用有效的任务分组控制和进程通信,可提高采集

数据的覆盖率(coverage),降低交叠率(overlap)。

Page 14: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

14

并行数据采集器

C-proc Map

Agent Status Info

Coordinator

URL Queue DB

Meta-info Extractor(RMI)

Network File System

AgentMonitor

WWWMeta-info

URL Extractor

Convertor(XML format)

URL Queue

C-proc

Java Spider

Multi-Thread enabled

In-link

Out-link Reporter(RMI)

SGE Feeder

Task Distributor(RMI)

Out-link

Page 15: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

15

技术特点• 提出了一个分布式并行采集架构,对采集任务进行基于站点域名的分组

控制

利用PBS/SGE(Sun Grid Engine)实现并行数据采集任务的动态、优化

分配和负载均衡

采用Berkeley DB JE进行采集任务分组控制,尽可能地降低采集交叠率,

提高覆盖率

基于Java RMI和MPI实现中央控制器和数据采集进程之间的批量通信和

控制

采用XML格式进行数据保存和交换,提高系统的可扩展能力

基于并行文件系统的数据存储方式

• 性能优化:更为完善的调度策略,分配任务时考虑被采集站点与采集机

器之间网络连接距离,采用热门站点统计机制降低进程间的通信量

Page 16: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

16

索引的优化

• 基于Fork/Join算法的并行索引

将问题尽可能的细分为相互独立的足够小的子问题解决,之后将结

果合并

• 内存目录

在索引的过程中,所有的中间信息都存储在内存中,直到处理的文

件达到一定的数目,再一次性写入磁盘,可以加快索引的速度

• 索引合并

每次合并的子索引过少则硬盘的操作过多

每次合并的子索引过多则合并时的计算很复杂

过多和过少都会影响性能

Page 17: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

17

内存目录的实验

对www.pku.edu.cn站点内的18645个文档进行了内存目录的测试,这

些文档大小为 4 7 6 MB,转换为XML后为 8 0 MB,测试环境为

scutgrid11(Solaris系统,24CPU,每个主频1GHZ,24G内存)

0

1000

2000

3000

4000

5000

100 200 500 800 1000 2000 3000 4000 5000 6000 7000

每个XML文件包含的文档数

索引

费时

内存目录 文件目录

Page 18: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

18

索引合并的实验

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

2 3 5 8 10 20 30 50

合并参数

合并费时

• 数据:235个子索引,3.3G

• 对于不同的系统,有不同的最佳经验值。例如在scutgrid11上,每10个目录进行合并效率最优

Page 19: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

19

检索技术

• 自主学习机制

• 排序优化

Pagerank

Anchor权重

query expansion

• 多级缓存

一级Cache系统:缓存原始结果,初始为100条(可以满足90%以上的检索

需求 ),需要继续检索时,构造大一倍的缓存:200、400、800….条

二级Cache系统:缓存结果聚类后的XML结果

• 个性化服务

Page 20: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

20

自主学习机制

• 利用其他搜索引擎的优秀结果来定时更新木棉检索系统的索引数据

库。使木棉检索系统的检索能力自动增大

• 根据其他优秀搜索引擎的检索结果,自动更新优秀结果的排序,使

木棉检索系统的检索结果更加精确

• 主要应用于文件检索和MP3检索。

Q u e r y管 理

外 部检 索

外 部结 果

木 棉检 索

木 棉结 果

比 较更 新

Q u e r y

Page 21: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

21

个性化服务

• 校园门户系统

客户端: PC,mobile PDA

门户入口:UPortal

用户认证:CAS、LDAP

应用程序和基础服务:

Kapok Search, HRM、

LMS 、UMS、CMS

• 做为一种特殊的频道类型

集成于Uportal系统

LDAPCAS

DCampus Portal

Applications

HRM

LMS

Email

News

Alumni

Photo

Announcement

Communication

Fundamental Service

UMS CMS

Authentication

Calendar

Integration

Internet

Kapok Kapok SearchSearch

Page 22: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

22

发展与演变

• 体系结构

海量信息处理平台

• 关键技术

动态并行数据采集机制

索引优化

智能化个性化检索

• 应用

多媒体检索

生物信息专题检索

垃圾邮件处理

Page 23: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

23

图像检索系统

• 基于文本说明的图像检索

利用解析含有图片的网页,使图像和文本内容建立一定的对应关系。

用户检索图像时输入关键字,根据关键字搜索文本内容,进而找到对应的

图像

这种方式的优点是效率较高,容易实现,缺点是难以用有限的文字准确完

整地表达图像包含的内容,影响检索的准确率

• 基于内容的图像检索(CBIR)

分析图像内容上的特征,例如:色调、纹理、形状等,通过距离计算,检

索出与之相似的图像

用户检索图像时提交一幅样本图像,通过计算该图像的内容特征,并与数

据库中的图像作匹配距离计算,检索出内容特征相似的图像

这种方式的优点是克服了文本描述的局限,缺点是运算量比较大

Page 24: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

24

基于文字的图像检索

Page 25: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

25

基于内容的图像检索

• 基于形状的图像检索

• 对上图结果按照颜色细化检索

• 图像库

Page 26: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

26

基于文字和内容的综合分类和检索(Classification of web content by the combination

of textual and visual features) –ICMLC’04• 以Shopping Yahoo的层

次结构数据为实验数

• 文字数据

全文

摘要

题目

图像周围的文字

• 图像数据

颜色PCA索引 Precision-Recall Curves of Single Classifiers and Combination

Page 27: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

27

视频检索

• 针对视频监控系统的需求而设计

• 监控视频的特点

以时间为标记

场景基本不变

没有故事情节

变化主要来自场景内对象的运动

受环境光影响大

记录时间长

• 对算法的要求

时间和场景可以作为索引

不需要判断镜头渐变

对于对象的运动比较敏感

对于环境光不敏感

对于不同的场景和环境光亮度,

可以自适应的选择阈值

处理时间短,计算相对简单

Page 28: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

28

视频监控系统

Page 29: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

29

关键技术

• 视频检索的两个关键技术

镜头提取技术:一种带前预测的自动门限检测算法

关键帧提取技术:自适应的关键帧的提取

Page 30: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

30

几种常用的镜头边缘检测算法的比较

算法名称 基本思想 优点 缺点

基于象素

比较前后两帧的

对应象素之间的

变化

计算量小,运算速度快 对噪声和镜头物体的运动非常敏感,镜头

变化的判断准确性受到阈值T限制

基于全局

颜色直方

在同一个镜头内

相邻两帧的颜色

内容不会改变太

不考虑象素的位置信息,而使用

象素亮度和色彩的统计值,因而

抗噪能力比基于象素差的方法强

丢掉了位置信息,当下一帧图像只是改变

运动物体的位置,而场景不变时,颜色直

方图变化不大,从而容易造成漏检测

基于分块

颜色直方

改进了全局颜色

直方图,加入位

置信息

能够对色度大体相同但是分布差

异比较大的两帧加以区别,具有

象素差和全局颜色直方图两者的

优点

对于不同的场景和不同的运动方式,需要人

工干预调整阈值T

基于边缘

信息

通过对图像边缘

信息的提取和比

克服了环境光的影响,自适应的

调节阈值,对单个对象运动的检

测效果较好

边缘算子运算量非常大,不适用于实际的检

索系统中;当镜头内有多种物体运动时阈值T

的选取变得更加困难,检测效果变得不够理

Page 31: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

31

自动门限检测算法-参数选择

• 象素的灰度差

In(i,j)为第n帧的(i,j)点象素的灰度值,s表示相邻的帧数

• 分区颜色直方图

fn(w)表示第n帧第w个子窗口的HSV空间的颜色直方图

• 归一化的dn

• 颜色直方图的相似度 Yn

• 最终的判决值Zn

|),(),(|1 1

jiIjiId n

M

i

N

jsnn −= ∑ ∑

= =−

∑=

=16

1)(

161

wnn wfX

NM(256dD n

n )××=

∑=

−=287

0

))(),((i

Snnn iXiXMinY

)1(D Z nn nY−×=

Page 32: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

32

前预测处理

0 0 0 0

1 1 0 0

1 1 1 0

1 1 1 0

Page 33: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

33

自动门限检测算法-窗口权值预测

• 每隔200帧抽取一帧图像,4000帧图像中抽取出20帧图像,将图像分成16个子窗口,分别计算每一个子窗口的累计Z(w)值,如下:

• 计算该镜头内无对象运动时的环境光对子窗口造成的Z(W)的最大波动值Tw

Tw=Max(Zn(w)),w=1,2…16, n=i×200, i=1,2…20

• 将每一个子窗口设定一个权重Wi(w),则

• Zn取值修正为:

))()((201)( )1*(200

20

1*200 wZwZwZ i

ii +

=

−= ∑

)(W)(16

1

wwXX iw

nn ×= ∑=

⎩⎨⎧ >

= 0

1)(

其他

当 TZ(w)wW i

Page 34: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

34

自动门限检测算法-自动门限选取

基于直方图提取门限:对相距7帧的帧间Zn直方图,将直方图的第一个趋零值(a)设为门限,大于该门限则认为有目标在镜头内运动,否则认为是静止区域 。

Page 35: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

35

实验数据

实验1:NBA进球TV的视频分割结果(L=2852f)

象素帧间差算法 分块直方图算法 自动门限算法

门限 检出率 检测精度 门限 检出率 检测精度 检出率 检测精度

0.24 85% 77.3% 0.36 95% 81.2%

0.28 85% 81.0% 0.40 85% 89.5% 95% 86.4%

0.32 80% 94.1% 0.48 75% 89.5%

实验2:学生自拍DV的视频分割结果 (L=1212f)

象素帧间差算法 分块直方图算法 自动门限算法

门限 检出率 检测精度 门限 检出率 检测精度 检出率 检测精度

0.20 86.9% 76.9% 0.31 95.7% 75%

0.22 86.9% 80% 0.35 91.3% 84% 91.3% 91.3%

0.26 78.3% 85.7% 0.40 82.6% 82.6%

Page 36: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

36

关键帧提取技术研究

• 特定帧提取法

静态特定帧提取法

动态特定帧提取法

• 帧平均法

静态帧平均法

动态帧平均法

• 边缘信息分析法

• 评价标准

压缩比

关键帧的聚合度:Semi-Hausdorff距离

Page 37: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

37

关键帧提取技术分析

Semi-hausdorff距离

大静态平均法静态特定帧法

动态特定帧法 动态平均法

边缘检测法小

压缩比

大静态平均法

静态特定帧法

动态特定帧法

动态平均法

边缘检测法小

计算量

静态平均法 静态特定帧法动态特定帧法动态平均法边缘检测法小大

Page 38: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

38

自适应的关键帧提取算法

• 计算一个分割好的镜头内的Zn的方差σ;

• 设定阈值T,当σ<T时,采用静态的特定帧提取法,提

取镜头中间帧为关键帧;

• 当σ>T时,认为镜头内存在较为剧烈运动,采用动态帧

平均法提取关键帧;

• 对于运动中的突变帧,直接提取为关键帧。

Page 39: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

39

关键帧提取实验

一段NBA进球的帧图像序列

Page 40: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

40

实验系统

视频流输入接口

镜头分割

关键帧提取 视频数据库

查询接口

匹配引擎

查询接口输入查询 输出镜头

查询

关键帧

特征 关键帧

提取视频序列

特征提取

视频信息提取模块

关键帧生成模块

检索浏览模块

Page 41: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

41

实验系统基于内容的视频检索实验系统

Next >< Back

检 索

关键帧检索结果

< Back Next >

GlobalMDH 开始查询相似度设定

• 分析了监控视频的特点和检索算法的要求,对于自动门限提取算法进行了改进,减

少了计算量,提高了检测精度,取得了较好的实验效果。

• 综合使用压缩比和Semi-hausdorff距离对关键帧的提取效率进行评估,使得对关键

帧的提取算法的分析和评估更加全面

Page 42: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

42

基于内容的MP3检索

• 对保存在MP3文件的信息头进行解析。得到相应MP3文件的作者名,歌曲名,

专辑名等信息,利用这些信息对MP3进行标识。构建索引数据库,对用户提

供检索。

用户

用户

用户

Mp3搜索用户接口

发送请求

返回结果

发送请求

返回结果

发送请求

返回结果

索引数据库

Mp3站点探测器

数据索引器

Web页面分析器

Mp3内容分析器

Mp3站点信息采集器

数据更新管理器

二级更新一级更新

客户端 服务器端

信息数据自动学习管理器

Page 43: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

43

发展与演变

• 体系结构

海量信息处理平台

• 关键技术

动态并行数据采集机制

索引优化

智能化个性化检索

• 应用

多媒体检索

生物信息专题检索

垃圾邮件处理

Page 44: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

44

专题搜索引擎的发展

• 专业搜索引擎:专题搜索引擎针对某一个特定专题的内容进

行索引提供检索,具有高效,专业的优点

• 专业搜索引擎发展存在的问题

检索技术比较落后。

受众范围比较窄,“专业” 成为其发展的瓶颈。

• 专业搜索引擎的发展建议

体现其专业特色,包括数据采集、信息过滤、用户接口等

改进检索技术,与大型通用搜索引擎合作不失为一条捷径

提供多种检索功能,如概念检索(语义网技术)、模糊检索等

Page 45: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

45

生物信息专题检索

• 生物学的特点:

生物学是一门“knowledge-base”的学科,知识共享对生物学研究非常重

要;

海量数据,数据的复杂多样性;

近年来,Ontology在生物信息学领域受到越来越多的生物学家的重视,

将它与数据挖掘、术语的标准化、数据的整合联系起来

• Gene Ontology(GO)计划是一个为实现基因产物在不同数据库中的

统一描述而成立的合作项目,其目标是产生一个三层结构的动态的

受控的词汇表,用于描述所有生物体的现象。

• 目前,GO已经成为构建基因产物数据库所需要遵守的事实上的标准。

Page 46: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

46

GO检索现状

• GO除了定制ontologies外,还开发了许多相关的基于Web的GO Browser工具。

• GO以flat files,mysql,xml等多种格式发布。数量大,结构复杂。

2004.9.13发布的GO包括17771个术语。

• 孤立的基于GO的关键词查询,没有与海量的生物学知识结合。

Page 47: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

47

系统架构

Page 48: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

48

技术特点

• 生物学专业数据采集器

根据web站点结构,利用已知页面和链接锚点信息和用户兴趣模型来预测未

知页面相关性,从而控制页面的采集过程

• 生物学数据库文件解析和XML转换,并利用机器学习算

法实现数据分类

• 基于GO创建语义树及语义树的检索,提供基于关键词

和本体两种可结合的信息检索机制,充分体现生物学专

业特色

Page 49: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

49

用户检索结果示意

Page 50: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

50

发展与演变

• 体系结构

海量信息处理平台

• 关键技术

动态并行数据采集机制

索引优化

智能化个性化检索

• 应用

多媒体检索

生物信息专题检索

垃圾邮件处理

Page 51: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

51

垃圾邮件的定义和特征

• 垃圾邮件

收件人事先没有提出要求或者同意接受的广告、电子刊物、各种形

式的宣传品等宣传性的电子邮件

收件人无法拒收的电子邮件

隐藏发件人身份、地址、标题等信息的电子邮件

含有虚假的信息源、发件人、路由等信息的电子邮件

• 垃圾邮件的特征

特征一:垃圾邮件被大量地发送

特征二:通常向用户推销某类产品,具有非常明显的商业目的

特征三:垃圾邮件的个性化:是用户不想要的东西

……

Page 52: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

52

垃圾邮件的破坏力

• 中国的互联网上网用户数已超过7800万,而每人平均2.6个电子邮箱。

• 目前中国网民平均每周收到正常电子邮件 5.8封,收到垃

圾邮件7.9封

• 美国每年因垃圾邮件造成的损失高达870亿美元。

• 垃圾邮件每年给中国网民造成的损失也超过亿元。

Page 53: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

53

全文文本摘要算法

• 算法前提假设:

内容相同,重复多次通过电子邮件系统传递的邮件是垃圾邮

件。

假设依据:根据信息熵理论,信息量的大小与信息出现的频

率成反比。

大部分的垃圾邮件,为了达到宣传目的,会发送大量的邮件。

• 优点:速度快,节省空间,可靠性高,不妨碍隐私

• 缺点:在垃圾邮件的内容有少量改动的情况下,无法识

别该类垃圾邮件

Page 54: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

54

部分文本摘要算法(指纹算法)

a b c d e f g h i j k l m n o p

cksum[0] a b c d

cksum[1] b c d e

cksum[2] c d e f

cksum[3] d e f g

cksum[4] e f g h

cksum[5] f g h i

cksum[6] g h i j

cksum[7] h i j k

cksum[7] h i j k

cksum[6] g h i j

cksum[5] f g h i

cksum[i] cksum[j]

cksum[N] cksum[M]

cksum[0] a b c d

cksum[1] b c d e

cksum[3] d e f g

cksum[4] e f g h

cksum[2] c d e f

cksum[0]

cksum[1]

cksum[3]

cksum[4]

cksum[2]

按checksum值排序排序

取出最大的k个值

Page 55: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

55

指纹算法

a b c d e f g h x j k l m n o p

cksum[0] a b c d

cksum[1] b c d e

cksum[2] c d e f

cksum[3] d e f g

cksum[4] e f g h

cksum[5] f g h x

cksum[6] g h x j

cksum[7] h x j k

cksum[7] c d e f

cksum[6] g h i j

cksum[5] f g h i

cksum[i] cksum[j]

cksum[N] cksum[M]

cksum[0] a b c d

cksum[1] b c d e

cksum[3] d e f g

cksum[4] e f g h

cksum[2] h i j k

cksum[0]

cksum[1]

cksum[3]

cksum[4]

cksum[2]

按checksum值排序排序

取出最大的k个值

发生了改动:i->x

部分文本被改动的情形部分文本被改动的情形

Page 56: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

56

指纹算法的优缺点

• 优点

保持全文摘要算法的特点,内容不变的邮件,其摘要值不变

在部分文本内容发生少量改变的时候,有很大的概率使得摘要值不变

• 缺点

一小部分正常邮件会有少量正文内容的改变,会导致误过滤。这类邮

件包括:

• 信件回执

• 发信时设置了个人模版,邮件内容只包含主题

• 不填写其他内容。

提取的摘要值内包含改动的内容时,无法正确匹配。

摘要值仍然是随机选取的,不具有代表性

Page 57: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

57

中心词摘要提取

• 在部分文本摘要算法的基础上改进摘要的提取方式,使

得所提取的摘要值更能区分垃圾邮件与非垃圾邮件。

Page 58: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

58

基于中心词词频的指纹算法

Page 59: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

59

实际邮件测试

• 抽取2004年4月21日华南理工大学电子邮件系统的实际邮

件进行过滤效果测试,全文摘要库和指纹库采用最近两

天累积结果。

邮件总数 过滤数 百分比 误过滤数

4103 0

186482

百分比

全文摘要 11792 34.7% 0%

指纹算法 11792 55% 0.15%

Page 60: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

60

垃圾邮件过滤系统

• 连接管理:可以限制一个客户端IP段同时连入的SMTP的最大连接数、

最大频率和数据传输速率,可以为不同的服务设定不同的限制值,也

可以为某些特定的客户端IP设定不同的限制值

• 规则管理:实现规则的定制、添加、查询、预定义以及冲突检查,以

及对各种黑名单、白名单的设定和管理

• 探针管理:添加、管理探针邮箱,查询探针邮箱状态、分析垃圾邮件

情况

• 邮件自动分析:智能化分析和发掘垃圾邮件信息,自动生成过滤封堵

规则,动态调整过滤引擎,实时监控垃圾邮件过滤情况

• 日志功能:记录详细的日志,包括时间、IP地址、并发数、频率、匹

配规则等信息,统计系统的负载情况和垃圾邮件的分布情况

• 监控网络:系统间规则同步,共享规则,实现“一点攻击、全网防护”

Page 61: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

61

有害信息处理平台

• 垃圾邮件中央数据库系统

几百万封垃圾和病毒邮件

发生和过滤日志

• 垃圾和病毒邮件行为分析

垃圾邮件识别和过滤算法研究

垃圾和病毒邮件爆发行为特征分析及跟踪

邮件源头定位技术

Page 62: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

62

结语

• 内容为王

全文信息检索

基于内容的多媒体检索

基于GO的生物信息检索

安全内容控制

• 发展多元化的服务,从单纯的信息检索系统发展为可支持多种应用

的海量信息处理平台

网格化

个性化

智能化

Page 63: 木棉检索新进展 - scut.edu.cn¾优化动态分配-利用网格资源调度器可以方便地对采集任务进行动 态分配,并对分配情况进行优化,实现系统负载均衡。

63

谢谢大家!

Q&A