Upload
others
View
37
Download
0
Embed Size (px)
Citation preview
欢迎您使用本教学课件!
日期:2007年3月
单位:华东理工大学科技信息研究所
计算机信息检索策略与技巧
关系到对各种数据库进行具体操作的
指导思想及其操作过程;关系到用户在完
成具体课程时应注意的方方面面;是解决
用户从“什么”到“哪里”(what→ where)
提问的整个计算机信息检索的全过程。
文献检索的目的
• 学习文献检索知识的目的:• 1.了解信息源
• 2.获取有用信息
• 3.分析、评判、利用信息
• 4.创造信息
检索策略和技巧学习的目的
• 1. 为什么检索?如何检索?
• 它山之石可以攻玉。但并不是每块石头都可以攻玉的。用何方法寻找最好石头。
• 2. 利用信息解决问题。
• 提高自我科学研究过程中对事物现有的认知能力并弥补认知缺陷
• 3. 从信息中发现问题。
• 有助于自我认知区域局限的跨域• 从必然认知世界走向自由认知世界
计算机信息检索的基本构成
课题分析
检索词的确定
检索策略
编制检索式
其他误检或漏检原因
检索策略实例
计算机信息检索策略与技巧
一、计算机信息检索的基本构成接受课题
选择数据库
数据库组档方式课题概念分析
抽取检索词
决定检索策略
编制检索式
重建检索式
补充新的策略
不满意
用户满意程度
满意
输出
可供检索的字段
基本索引辅助索引 截词算符
布尔算符
位置算符
匹配
数据库
整理检索结果
(一)课题分析
● 检索目的定位
例如:
课题1:“煤脱硫的最新工艺与技术”课题2:“论企业生产线的优化”
“煤脱硫的最新工艺与技术”
• 煤脱硫*最新*(工艺+技术)
• 煤*脱硫
•煤*微波*脱硫
• 了解信息、解决难题
“煤脱硫的最新工艺与技术”
• 1. 橡胶 微波 脱硫
• 2. 橡胶 超声波 脱硫
• 解脱自我科研瓶颈,超越认知局限
• 扩展检索后发现
课题2:“论企业生产线的优化”
企业 * 生产线 * 优化
(企业+工厂)*(生产线+流水线)*(优化+计算机控制+在线控制+智能控制)
● 自由语言与数据库标引语言要对等
例如:海绵的制造工艺
检索式: 海绵*(制造+工艺)
实际是:海洋中的多孔类动物
对“海绵”的理解,世人已经共认为: “海绵”与 “泡沫塑料”、“泡沫橡胶”类物质等同。
中文“超分子”,译成英文为“super molecular”
• 而实际译成 “macro molecular”更为合适。
• Nano lamella 纳米层构
• Plate layer hiberarchy stratification• Wall 壁
• 中西方科研人员对同一事物的认知差异。
• 沟通认知的桥梁
● 生造词汇或堆积词汇
• 1 生造词汇
• 空分 凹土
• 空气分离 凹凸棒粘土
• 2. 堆积词汇
• 服装压力测量
• (服装 or 织物 or 面料)and 压力 and(测量 or 测试 or 测定)
● 要充分运用与选定检索词概念相同或相近的词
“名牌”就是“名牌”,“品牌”不是“名牌”
国内市场品牌效应
国内*市场*品牌*效应
中国*品牌
“维他命C”就是“抗坏血酸”
• “天然维生素E”• Natural(crude) vitamin E • “生育酚” 或“抗不育维生素”• tocopherol
● 多主题概念的课题应以“简”为主
1、课题有A、B、C、D、E、F等主题概念进行组配,其中“C”词建库人员未从原始文献中挑选出来作为标引词时,该“C”主题词则表现为零,则
整个检索式等于零。
2、课题“利用基因工程的手段提高植物中淀粉含量”基因工程*淀粉
基因*淀粉
“最专指面优先”(Most Specific Face First)方法
天然植物茶叶中提取茶多酚作为食品防腐剂
• 天然*植物*茶叶*提取*茶多酚*食品*防腐剂
•茶叶*提取*茶多酚*食品*防腐剂•茶叶*茶多酚*食品*防腐剂
•茶多酚*食品*防腐剂
•茶多酚*(食品+防腐)
● 少用或不用对课题检索意义不大的词
1、词义泛指度过大的词,如:
“展望”——趋势、现状、近况、动态等“应用”——作用、利用、用途、用法等还有如“开发”、“研究”、“方法”、“影响”、“效率”等等。
2、词义延伸过多的词,如:
“制造”——制备、生产、加工、工艺等“提炼”——精炼、提取、萃取、回收、利用等
3 .少用无法定性定量的词
• 冷、温复合挤压连续成形技术• (冷挤压 or 温挤压) and 连续 and 成型• (冷or 温) and挤压and 连续 and 成型• 冷= 常温以下• 温=45`C ~ 600`C or 800`C 处理结果:
取消:冷、温二词
深化处理:增加:挤压对象的词。如塑料、金属等词或其他如
有助于限制范围的有效实词如:挤压时用的润滑材料:石墨。。。。
●运用主题概念所表达的上位或下位概念
课题(1)“加氢裂化防污垢的开发与应用研究”,将“加氢裂化”与“防污垢”组配,结果不理想。概念向上位“石油加工与石油炼制”的概念扩大,再与“防垢剂”组配,完成了课题
的要求。
课题(2)碳4、碳5馏份工艺情况
(C4 or C5) and distillat* 上位:Petroleum and product* and distillat*
下位:(Butene or 1-3 butadiene…) and distillat*
一氧化碳氢化
1、氢化热 2、氢化催化剂
3、氢化动力学 4、甲烷化
5、甲烷化热
6、甲烷化动力学
7、甲烷化催化剂
8、燃料气体制造
“逐次分馏”(Successive Fraction)方法
课题(3)“一氧化碳的氢化”很明显这
一课题所包括的范围过于广泛:
(二)注意检索词的词义变化
1、汉词与英语等西方语言的词汇相比较:
◆ 汉词的字与词界线比较模糊,一个字也许就是一个词,英语基本上没有这种现象。
◆ 汉词无固定的词头、词尾和性、数的变化。而英语构词时这种情况很多。
◆ 汉语的构词一般与语义有关,一个词后加上一个字就派生出另一个新的词,而英语的情况与此有很大的不同。
2、关键词与主题词
◆ 关键词即是“自由词”,是信息的提供者各自
采用的不经过一定规范化限定的词。检索操作方便,但其专指度差,常需用较高的逻辑匹配、截词符等技能。
◆ 主题词即指以自然语言中优选出的,经过规范化处理后的名词术语。检索操作需将习惯使用的自然语言与各数据库自编的主题词表对照后方能使用,但专指度较高。
(三)检索策略
查全率是指系统检索时能检出相关文献的能力。
(1)查全率=被检出的相关文献量
系统数据库中相关文献总量*100%
(2)查准率=被检出与课题相关的文献量
被检出的文献总量*100%
查准率是指系统检索时拒绝不相关文献的能力。
条件、目标?
查准率
查全率
1.二者相背
2.目标优先
3.现有条件
(四)编制检索式
一个好的检索式是最终实现检索策略是否达到预
想结果的具体表现形式。
1、影响查全率的种种因素如:检索词是否已扩
大到穷尽;是否合理应用逻辑“或”来优化检索;
是否对课题检索策略作了必要的扩大。
2、影响查准率的因素如:是否尽量选用了专指
度较高的检索词;是否尽量采用了逻辑“与”逻辑
“非”和位置算符进行优化检索;是否对所检课题
作了范围的有效限制等等。
二、其它误检或漏检原因
1、过分强调专业知识
课题“聚氨酯泡沫塑料的工艺”选“聚氨酯泡沫塑料”这一多元词作为检
索词
“聚氨酯 and 泡沫塑料”
一、不同字段的比较:
二、多元词和单元词比较
2、同义词和异称词产生的漏检情况
没能将同义词和异称词运用全。如:
设备——apparatus, equipment, device汽车——car, automobile, vehiclePVC——聚氯乙烯、PVC塑料
偏重于大概念还是偏重于小的概念。如:
▲ 燃料——有固体燃料、液体燃料、气体燃料等。具体一点有煤、油、煤气、天然气等等。
▲ 植物油——有蔬菜油、种子油等。具体些有玉米油、花生油、棕榈籽油等等。
3、位置算符”造成的漏检
查找“高压反应设备”方面文献,将检索式编
制成 High( )pressure( )reacting( )device”检索式应是“ High( )pressure and react? and (device or apparatus, or equipment) ”。
检索工型钢
• 中文:工型钢 英文:H Steel
检索:
H and STEEL
H (W) STEEL
H (W1) STEEL
4、检索词本身的多义性导致的误检
如:
海绵——海洋里的多孔类动物、泡沫塑料、
泡沫橡胶等。
扩大检索范围的策略是:
(1)去掉一些次要的、崭新的概念,以及专指度很高或没有把握的某些主题概念
(2)充分利用逻辑“或(OR)”将某些主题概念
组配起来,以扩大检索范围。
(3)缩小检索策略时,增加一些主题概念加以限制,用逻辑“与(AND)”进行组配。
5。由于误导而至进入信息利用误区
• NAS切割气增温添加剂的应用
• 使丙烷燃烧增温催化剂的必然指定物
• 双氧水、高锰酸甲(温度+压力)
• 结果增温同时造成对载气容器的腐蚀
• 实际上应该是丙烷燃烧增温用的助燃剂
• 磁滞损耗和扩散驰豫损耗对发热机理贡献
• 驰豫----弛豫
6.信息流向中对信息的误用
• 1. 拷贝走样(哥伦布的家乡)
• 2. 未仔细阅读引文之引文原文
• 3. 简单地抄用引文的引文。
三、检索策略实例
如课题:
SF/CD 15W/40地面车辆多用途润滑油
碳酸二甲酯作为绿色溶剂在涂料中的应用
鸡蛋免疫球蛋白
酿酒厂废水用米曲霉处理新工艺
同向双螺杆挤出机一步法制备硅烷交联聚乙烯管
一种海水淡化的方法及装置
1、复杂工业过程的先进控制技术与软件
(1)内容要点:在综合研究产品质量指标的软测量技术、分布式多变量预测控制和优化控制技术、鲁棒预测控制技术等各种先进控制技术的基础上,研究开发以产品质量和工艺要求为指标的复杂工业过程多变量先进控制技术和软件。
(2)选用的检索数据
库:
中国专利索引数据库 VIP科技期刊数据库
中国化学化工文献数据库 中国科技成果数据库
中国学术会议论文库 中国科技论文数据库
美国化学文摘(CA) 工程索引(EI)应用科学技术数据库 英国科学文摘(INSPEC)
美国专利数据库 世界专利索引数据库(WPI)
因特网上各种信息源
(3)选用的检索词及检索策略(1):中文检索词
#1 多变量 AND 约束 AND 预测控制
#2 鲁棒 PID AND 参数整定
#3 鲁棒 AND 预测控制
#4 软测量 AND 神经网络
#5 (乙烯 OR 丙烯 OR PTA OR 对苯二甲酸)AND (软测量 OR 质量控制 OR 先进控制 OR 智能控制)
检索式:#1 OR #2 OR #3 OR #4 OR #5
XUAN选用(3)选用的检索词及检索策略(2):
英文检索词及检索式:
#1 constrain? And multivarible(w)predictive(w)control
#2 robust?(w)predictive(w)control
#3 robust?(w)PID
#4 soft()sensor and neural()network
#5 (olefin or ethylene or ethene or propylene or propene) and neural
#6 (4-carboxybenzaldehyde or terephthalic acid) and control
#1 or #2 or #3 or #4 or #5 or #6
2、电动汽车电控与驱动技术
(1)内容要点:
电动汽车电控与驱动控制系统要求输出力矩大,响应速度快,可靠性和电磁兼容性好,使用维护方便。课题研究电动汽车电控驱动系统的模型与控制算法,电动汽车专用高性能交流永磁同步电机和交流异步电机控制系统的产业化所需解决的控制器技术。
(3)选用的检索词及检索策略(1):
中文检索词及检索式
#1 电动汽车 OR 电动车
#2 电动机 OR 电机
#3 矢量控制
#4 能量回馈 OR 能量反馈 OR 能量再生
(#1 OR #2) AND #3
#1 AND #4
(3)选用的检索词及检索策略(2):
外文检索词及检索式:#1 electric vehicle? Or motor#2 vector control#3 energy feedback or energy regenerat?#1 and (#2 or #3)
检索综合练习
• 课题:抑制乙烯裂解炉管内壁结焦的在线预膜技术
抑制*乙烯裂解炉*管内壁结焦*在线*预膜技术
抑制*乙烯*裂解*炉管*内壁*结焦*在线*预膜
课题:抑制乙烯裂解炉管内壁结焦的在线预膜技术
(结焦 + 炉管)* (涂层 + 预处理)
(cok? + decok? + anticok? + anti(w)cok?) * (tub? + furnace? + reactor?) * (coat? + pretreat? + passivat?) * (silic? + online + on(w)line)
《观书有感》(朱熹):
• 半亩方塘一鉴开,• 天光云影共徘徊。
• 问渠哪得清如许?• 为有源头活水来。•• 谢谢大家
文献检索报告书写要求• 论文题目• 课题的技术要点• 一、检索过程要求• 选择的五个以上的数据库(文摘型+全文型)• 各个数据库中使用时的检索策略(中外文检索词)• 每个所用数据库中如何编制的检索式及检索的结果• 相关课题密切的文献下载(下载到文摘内容)• 二、综述写作要求• 整理分析所检的国内外文献• 结合课题撰写不少于2000字的综述
• 明确标引采用参考文献的编号• 综述后按文献被采用先后次序列出参考文献