Upload
others
View
35
Download
0
Embed Size (px)
Citation preview
TRS 信息检索技术的发展
施水才北京拓尔思信息技术有限公司
2006/11/21
热烈祝贺“中国中文信息学会第六届全国代表大会暨成立二十五周年学会会议”胜利召开。TRS公司愿在各界领导、学者、专家的指导和支持下,共同开创中文信息处理技术和应用发展的新天地。
内容
当今语言信息处理系统的挑战
TRS 信息检索系统的发展历程和产业化成果TRS 信息检索相关研发工作的思路TRS 信息检索系统中一些关键技术TRS 文本挖掘技术的进展信息检索中知识库的建设问题
搜索引擎和信息检索的关系
信息检索技术面临的挑战和新需求
当今语言信息处理应用系统的挑战
搜索引擎成为国家一种战略资源信息内容产业的门户和入口
信息安全和国家利益
极大推动各种中文信息处理技术的研究和应用
自动化和智能化应对海量信息的处理
应对信息和知识挖掘问题
多语言和跨语言趋势国际化竞争、网络的无界
和结构化信息以及多媒体信息的融合现实世界信息的多样性
语言信息处理技术的集成创新形成大规模内容处理的基石,全生命周期管理
TRS….
TRS是英文Text Retrieval System的缩写TRS是北京拓尔思信息技术有限公司的简称TRS是国家商标局批准的注册商标(1996),冠名公司全线产品
长期致力于信息检索、文本内容分析和内容管理技术的研究和产品开发。
TRS 信息检索系统的发展历程
时间 主要内容和标志性成果
1985~1990 新华社新闻资料检索系统,基于人工标引的关键词检索
开展中文全文检索研究
1990~1995 人民日报社新闻资料检索系统
TRS 全文检索系统产品化
1995~2000 获国家科技进步二等奖
Web Enable
2000~2005 企业搜索引擎、Web搜索引擎从检索扩展到全生命周期的大规模内容处理
TRS 获得超过2000家企业级用户国家门户等互联网搜索引擎应用
2005~ 垂直搜索引擎
智能企业搜索引擎(文本挖掘技术深入应用)
跨媒体、跨语言、跨数据源的信息检索
TRS信息检索系统获得2006年中国十大创新软件之一
TRS产业化成果
TRS 已经成为中国最大的搜索技术和内容管理技术提供者。
累计获得直接经济效益近5亿元。大型客户数超过2000家。在国家重大项目中发挥了不可替代的作用
和国际上同类系统竞争中取得领先优势,并进入国际市场
Autonomy,Verity等
近期其他相关成果
TRS 搜索引擎产品已被XX行业搜索引擎选用TRS搜索引擎产品已被公安部、XX部、XX选用作为网络信息监控基础技术平台
政务搜索引擎/公安搜索引擎TRS 搜索引擎产品已被新华社、外交部等网络舆情监控应用采用
TRS 为新华社建设了世界上最大的中文多媒体数据库,其搜索技术为TRS所提供国家专利局
TRS 在信息检索领域主要的研发内容
文本信息检索Web 检索企业内容检索(corporate search)E-business search跨语言检索
文本挖掘自动分类和自动聚类自动摘要(包括自动标引)信息过滤、信息抽取相似性检索(信息去重)
搜索引擎应用企业搜索引擎互联网搜索引擎-主要是垂直搜索引擎内容管理和知识管理
TRS 的基本思路和技术路线
致力于大规模海量信息处理
100T级以上数据规模高性能
致力于真实环境下的可用性
领域不受限制
信息的动态和多态性(多格式)和结构化数据的联合查询
致力于已有方法的集成和改进
集成也是一种创新
在实际应用中改进和简化理论成果(如聚类)
TRS 信息检索系统中一些关键技术
中文索引策略
单服务器的索引和查询性能
大规模集群系统(索引、检索)
结构化数据和非结构化数据联合检索
实时索引和检索
Native XMLUnicode 内核查准率和查全率的平衡
严格的安全检索和信息访问控制
TRS中文索引策略
如何建立索引单元对中文来说有许多研究和讨论,TRS的长期实践得出如下结论:
1. 字索引和词索引各有用途, 检索性能没有本质的差别, 只是查全率和查准率不同。TRS开发了两者结合的字词混合索引。
2. 信息检索和自然语言理解用的自动分词在词的定义和收集范围方面有很大不同。
3. N-gram 方法产生的冗余很大,没有词典、知识的支持,查准率比较差。
4. 从检索性能和检索效果来衡量,词索引+BI-GRAM为最佳中文文本索引方式。
5. 实例规则库是有效提高分词准确率的手段我们采用人民日报(1947-2000年,110万篇),新华社电讯稿(500万篇),开发了专用的歧义片断识别软件,并进而建立了数万条歧义处理实例规则库。
TRS单服务器的索引和查询性能
4CPU 的入门级PC服务器,每小时10G文本索引能力(主要是采用并行和多线程算法)
每个服务器管理的文档在500万~1000万之间为最优,千万篇文档平均查询时间<1秒提高性能的高级查询技术自动分库技术、多库并行检索技术
多级Query-CACHE技术基于词以及词频的bi-gram算法索引跳跃式扫描技术
优化的Order By 操作TOP N 裁剪
TRS大规模集群系统(索引、检索)
通过低档服务器的集群结构实现海量信息的索引和查询,实现每天数以千万次的可靠访问
TRS大规模集群系统(续)
目前TRS技术上支持200多台的服务器集群在实际应用中有50多台的案例网络监察(全国可能数千台,但没有链接在一起协同工作)
中华人民共和国门户网站搜索引擎(10台)公安网搜索引擎(8台)中国专利局(预计50台)新华社多媒体数据库(16台)
但是支持数百台和数千台服务器的集群仍有技术难点,特别是数据维护和管理问题
结构化数据和非结构化数据联合检索
在企业搜索、电子商务搜索和垂直搜索应用中特别重要
RDBMS和信息检索系统的索引机制存在冲突RECID 和DOC ID 无法有效归并
目前的解决方案是数据的同步影射
未来的解决方案基于无缝集成,需要研究新的模型(IBM DB2 最新版本有这方面的创新)
实时索引和检索
增量索引
数据和索引同步
支持数据的实时增删改
面向业务信息搜索的核心需求!
TRS Native XML 引擎
内核支持原生XML,是国内首个XML全文检索引擎
优点:直接接收XML文件,直接输出XML文件对XML提供内在的分析和索引,提高查询的准确性和内容理解能力,提高相关排序的效果
对电子政务和电子商务等应用中半结构化信息提供有效处理
TRS Unicode 内核,多语种搜索
客户端支持以下三种字符集:GB2312/GBK/GB18030编码,BIG5编码, UTF8编码。方便了多语言检索应用程序的开发。
服务器短支持以下三种字符集:GB2312/GBK/GB18030,BIG5和UTF8。GB18030是续GB2312之后的关于汉字编码的国家标准,一般应用来说GB18030比Unicode优越之处在于与GB2312/GBK全面兼容除汉语外,还支持西文、俄文和阿拉伯文等10多种语言的切词。
查准率和查全率的平衡
互联网搜索在查准率和查全率方面难以计算,主要追求前几页的相关性。
PageRank, TOP N 等企业级搜索需要满足用户在查询和查全方面的需求。
绝大多数情况下需要精确检索(特别是结构化和非结构化数据联合查询情况下)
TRS 的索引和搜索技术确保查准率和查准率
只有下一页,没有最后一页
严格的安全检索和信息访问控制
系统级、数据库级、记录级和字段级四级安全控制机制
加密和压缩传输
联机和脱机备份
完善的日志管理
系统提供多种权限级别的用户管理
支持用户组的概念,以及Group DBA的概念,适应大型应用中复杂的系统管理和应用
TRS 文本挖掘技术的进展
文本智能处理
海量信息自动化处理的迫切性。
统计机器学习为主要的实现路径。
TRS CKM 有效结合自然语言处理技术、人工智能技术、知识库以及统计分析和机器学习技术,实现了文本智能的商业化应用。
是国内首次推出的实用化中文文本挖掘技术,在新华社、外交部、中央电视台等得到成功应用
仅有搜索是不够的,用户需要发现信息和信息之间的关系,并实现知识的自动提取。
TRS CKM 包含的10个功能组件
1. 自动分词2. 自动分类/规则分类/混合分类3. 自动聚类4. 自动摘要+主题词标引(自由词+行业主题词文本5. 相似性检索(自动排重),跨语言查重(文章对齐)同时还推出了句对齐
6. (政治)常识校对7. 信息过滤8. 拼音、同音检索9. 相关短语检索10.信息抽取(实体识别)
TRS自动分类的技术优势
为用户提供个性化的服务:
允许用户根据自己的分类需求和数据特点设定分类,支持多层分类结构
支持自动分类和规则分类的混合分类机制:分类法,分类算法的问题引起的。比如,支持多种分类标准:内容分类体系,地区分类体系
对文本的类别结果智能给出类别的准确度值
便于用户进行人工干预。用户可集中对准确度值低的文本进行监测。
支持中英文混合自动分类,可以实现跨语言分类。
具有反馈学习功能和补充训练机制
产品成熟。经受了千万计数据的压力测试.分类速度快,每秒100篇以上(单机)分类精度高: 自动分类的准确率达到86%~90%,规则分类准确率达到95%以上
新华社采集入库项目,待编稿项目,报刊数据库项目等。
遵循的分类标准是:《新华社新闻分类法》。
该分类法包括两种分类机制:信息分类、地区分类,均为四层分类结构。
信息分类总类目数为770个,地区分类总类目数为280个。信息分类采用自动分类+规则分类,地区分类采用规则分类。
统计分类的准确率为85%。
自动分类技术的应用
自动聚类
基本思想:自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成主题词,为用户确定类目名称提供方便。
基本方法:采用相似度的方法,首先将文本聚成一个个小簇,然后合并这些原子簇为越来越大的簇,直到簇的数目满足聚类要求。
应用:新闻事件的实时跟踪。检索结果的聚合等
聚类的信息岛图
聚类的时间趋势图
自动聚类的应用
舆情监控
搜索结果的多维展示和可视化
性能单机自动聚类速度达到2000篇/分钟,采样聚类的情况下能够达到1万篇/分钟。在多机分布式集群环境下支持十亿级数据量的文本智能化处理
自动摘要和关键词提取(自动标引)
现状:自动摘要技术目前不是十分成熟。
基本思想:对文章中的所有句子进行权值运算,对所有的句子按权值排列,提取出权值大的作为关键句,进而形成摘要。
功能:摘要的句数或字数可按用户的要求,随机的产生。
根据用户提供的关键词,来形成摘要。便于更好的人机交户。(偏重摘要)
形成摘要的同时,可同时提供精确的关键词标引。
提供包括行业主题词或自由主题词标引功能。
自动分类和自动提取关键词
跨语言信息检索技术
支持中文到多种外文的查询翻译
基于词典的查询翻译方法和二元模型相结合
对于没有双语词典的语言,采用英语作为中间语言
基于内容的去重
信息过滤
主要思想识别和过滤各种有害文本信息(如色情,反动,封建迷信,商业垃圾邮件等),帮助用户摆脱有害信息的侵扰。以及个性化的服务等。如有效的识别有关“法轮功”的正面报道和反面信息。
基于统计和机器学习的过滤技术对训练文档进行学习,识别形成过滤模板,进而通过模板对文本进行快速精确的识别。
褒贬倾向分析上下文窗口褒贬分析和句子褒贬分析两种算法,可以准确识别文本的主题及褒贬倾向,对于识别反动邮件、色情邮件等效果良好。
运用丰富的语言学知识
基于关键词匹配的有害信息过滤,常常带来大量正面信息的被误杀,人们希望在理解内容的基础上实现准确的过滤。
信息过滤演示
在邪教头目李洪志那一大堆“法轮功”邪说中,“圆满”是一个使用频率颇高的名词。他诱人迷魂失性的饵料是“圆满”;他许诺给其追随者发展“法轮
功”邪教组织的奖赏是“圆
信息抽取
新词的识别:人名、地名、组织机构名等命名实体识别
信息抽取:时间、电话号码、身份证号、护照号、email、车牌、案件名称等的抽取采用的主要技术:
采用规则与统计相结合的策略。
基于已标注的语料库,进行知识学习。
找到内容和内容之间的关系,从中发现内容的新价值!
信息抽取演示
信息检索中知识库的建设问题
MCD本体知识
统计挖掘
内容本身
LOG
本体+短语方法
文本挖掘技术如何运用?
不完全成熟技术如何在实际中应用-必须依托于一个成熟技术,进而创造价值。
需要有补救措施
人工干预
和关键词或者规则结合
作为服务而不是产品
搜索引擎和信息检索
信息检索不等于搜索引擎
信息检索的和核心是“检”,搜索引擎包含“搜”和“检”两个过程,搜的过程是后台服务,和使用者无关,用户面对的搜索框是“检”。信息检索是搜索引擎的核心技术之一。
仅仅研究文本检索对搜索引擎来说是不够的,有些研究内容实验室比较难以进行
大规模分布式采集和检索系统
海量信息的统计分析处理
检索过程中产生的数据
垂直搜索引擎、企业搜索、互联网搜索的技术侧重
互联网采集系统
分布式架构
深层次分析
采集更新
资源发现
搜索引擎发展趋势
1. 搜索技术向智能化方向发展聚类技术、个性化、问答系统、社会搜索
2. 从通用搜索到垂直搜索专、精、深
3. 从文本搜索到多媒体搜索目前还只能以文本为核心,利用元数据和多媒体内部或周边文字信息进行多媒体信息搜索
4. 从单一媒体搜索到跨媒体搜索通过多种媒体源之间语义关联分析和融合,允许用多种媒体信息表达用户查询需求,并最终能输出多种媒体类型的查询
结果
机会
行业/垂直搜索引擎企业搜索引擎
智能搜索引擎
跨语言跨媒体搜索引擎
信息检索技术面临的挑战和新需求
文本检索仍面临查询效果和相关性不好的难题
自然语言查询难以取得重大突破,甚至有人说自然语言检索是个伪命题
机器翻译技术在信息检索中会得到应用,但是翻译本身的质量难以满足用户需求
基于内容的多媒体信息检索难以取得突破
基于用户搜索和浏览历史的分析对改进搜索质量是目前的热点之一,并且有可能取得很大的突破-社会搜索
信息检索系统的工程化新课题
内存文件系统
实时搜索
集群文件系统
利用分布的磁盘和整体带宽可极大地提高I/O效率。
可有效保证数据的完整性,便于多集群共享数据和负载平衡。
网格技术
自动均衡使用系统内的机器, 且增减机器自如(无需做太多的配置工作) 管理、维护分布的各集群系统,使系统结构在可变性和扩充性上具有柔性
合作
TRS 的成果可以按照一定的规则免费向研究者授权。
期望和中文信息处理领域的学者和团队进行深层次的合作,TRS充分尊重知识产权和经济权利。
总结
搜索引擎对信息检索技术的发展具有巨大的推动力,但不仅仅是信息检索,还涉及到其他众多中文信息处理技术
信息检索技术的理论和实践存在鸿沟
信息检索第一名不一定能开发出好的搜索引擎
海量信息的自动化和智能化处理是中文信息处理系统的发展方向,大系统需要集成创新
系统中产生的用户数据具有极大的研究价值
把中文信息技术处理作为服务的新尝试