Click here to load reader
Upload
ursula-reynolds
View
338
Download
9
Embed Size (px)
Citation preview
数字保存 Digital Preservation-- For the Future of the Past
曾蕾
2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班
大纲1. 数字资源的类型2. 对数字资源长期保存的需求3. 数字资源的特点4. 什么应该得到长期保存,谁的责任5. 数字保存的方法
参考: 1 ) 2004 年 7 月 14 至 16 日,“中欧数字资源长期保存国际研讨会”,中国科学院文献情报中心2 ) 2006 年 3 月,教育部科技发展中心 “ 2006’ 教育行业信息存储大会”
目前在座各位可能面对的资源
high low
low
high
stewardship
uni
que
ne
ssBooksJournalsNewspapersGov. docsCD, DVDMapsScores
Special collectionsRare booksLocal/Historical newspapersLocal history materialsArchives & Manuscripts, Theses & dissertations
Research and learning materials •ePrints/tech reports•Learning objects•Courseware•E-portfolios•Research data
Freely-accessible web resourcesOpen source softwareNewsgroup archives
正式出版物书、刊、报纸政府出版物CD, DVD地图乐谱
特藏
珍本书地方文献地方 / 历史报纸照片档案和手稿学位论文
开放的网络内容
免费网上资源开放资源软件新闻组的档案图像
机构 / 单位的内容电子版文献、技术报告学习物件、教学材料地方政府报告培训资料研究数据
摘译自 Lorcan Dempsey “Terms and conditions ... libraries, subject terminologies and the web 2004 http://www.oclc.org/research/presentations/dempsey/dewey_20040316.ppt
目前在座各位可能面临的情况• 决定是否要担起保存数字资源的责任 • 拿出一个数字保存的计划来 • 生产 / 制造预计会有长期价值的数字物件 • 收藏数字物件并决定是否要长期保存之• 判断目前对数字典藏管理的长期保存安排是否有效• 进一步完善现有计划项目• 建立合作计划 • 鼓励和帮助其他单位建立新的保存计划
决定是否要担起保存数字资源的责任
否
是生产数字物件
收藏数字物件
注入
存储
索取
数字物件的生命周期管理
Source of the list: Report to ICABS on guidance for digital preservation National Library of Australia , July 2005 : page 6
• 负责存档( archiving )和保存( preservation )
• 管理数字保存项目 • 与 生产制造者一起生产 / 制造可保存的数字内容 • 决定什么需要保存 • 将数字物件转到档案 ( archive )中• 为存档的数字物件起名、描述、控制管理等 • 处理对保存有影响的法律方面的事务 • 保护和存储数字信息资源的数据 (data) • 为重新显示存档物件以便获取而维护必需环境和
方式
目前在座各位可能面临的具体任务
Source of the list: Report to ICABS on guidance for digital preservation National Library of Australia , July 2005 : page 3
1. 数字资源的类型
• 数字资源中有一部分是对以前存在的物件 进行数字化再造的产品 digital “double” -- 数字拷贝 不声称与原作一模一样,只是原物的一
种表现形式 往往能利用数字化的特长将原物更好展
现和利用
第一大类:数字再造资源
approximately one million pages of documents approximately one million pages of documents approximately one million pages of documents
approximately one million pages of documents
Source: The Nuremberg Trials Project website.
数字米开朗琪罗项目Digital Michelangelo Project
height of gantry: 7.5 meters
weight of gantry: 800 kilograms
目的:•采用先进的 3 维扫描技术 •让技术为人文科学服务 •为一些最重要的文化遗产建立有长期保存价值的数字档案
Source: Marc Levoy, et al., 2000
• 480 个专门定位的扫描
• 2 亿个多边形建模 • 7,000 彩色图像 • 32 gigabytes• 30 个通宵扫描 • 22 位老师和学生• 1998.9-1999.6
扫描大卫
(20 cm tall)
用 1 百多万个多边形建模制作的小模型:
基础网格上有 8 百万个多边形建模
展现、拼接、运作这些数据需要特别的软件和硬件,成为该项目的长期任务
展览馆的三维显示
• 第二类数字资源来自于那些仅仅以数字形式存在的数据– 例如:
•万维网网站•电子出版物•多媒体产品•文化或科技数据库•...
第二大类:天生的数字资源
10-136 TB = total collection of Library Of Congress
若把全部国会图书馆馆藏数字化,将产生 10 到 136 TB 数据(因分辨度可能不同)
网上产生的资源,一年就比国会馆的百年收藏多几倍到几十倍
Source: UC Berkeley SIMS “How much Information”. (2000, 2002)
NASA 每天收回的数据都上 terabytes
人类基因组计划The Human Genome Project
• 人类基因组计划 (1990- 2003) 支持的数据库含有全球合作的结果(美国、英国、日本、法国、德国、中国等国家的科学家)– 阐明人类基因组 30 亿个碱基对( chemical base
pairs )的序列,– 发现所有人类基因 ( 20,000-25,000 )– 并搞清其在染色体上的位置 – 将这些信息存放在数据库中,不断更新– 改善数据分析的各种工具– 为 30 亿个碱基对构成的人类基因组精确测序,从而最终弄清楚每种基因制造的蛋白质及其作用
Sources: Human Genome Project website, 2004; Hughes, 2003 & http://www.bjkp.gov.cn/bjkpzc/kjqy/smkx/7108.shtml
24 对人类染色体 human chromosomes
与某个染色体相关的特性和异常
制造业更多依赖于软件系统来设计、生产、维护产品。有关一种飞机模型的信息必须在该种飞机服役的期间保留。医药品也是如此… 还有电子政府、电子银行 …
越来越多的有价值的内容是‘天生的数字型’,而且只能以数字形式来管理、保存、使用之。
2. 对数字资源长期保存的需求
数字技术在带来新机遇的同时也产生了新的威胁和问题
有的数据已无法再读Example: 1960 美国人口调查统计数
据• 1960 人口调查统计数据
• 存储在只有用 UNIVAC type II-A tape drive 才能读的磁带上
• 全世界只有两台机器可以读,一台在日本,一台在Smithsonian 博物馆
• 很多类似的信息已经永远无法获取了,实例举不胜举 Source: CPA & RLG, 1996, p.2
• 早期因特网的很多数字物件已不复存在
• 从 1995 到 1999 年在 IEEE Computer 和 Communications of the ACM 上被引用的文献在 2000 年时就有 28% 不再可获,到 2002 年增加到 41%
Source: Spinellis, D. (2002). & LC&NSF Announcement, 5/4/2005
• 目前科研单位面临着管理海量的各式类型数据的挑战 – 有些每天就有成百上千个 GB.
• laboratory experiments, • life-size experiments • observations from various instruments
(satellites, radar, telescopes, probes, sensors, microscopic cameras, etc.),
– 其中有些包括永远不可能重复的历史性事件• 数字技术发展太快,人类还没有相应的完善的应
对计划和方法
3. 数字资源的特点
技术发明和有效年限• 作为信息载体的巨石已经存在了几千年
• 书本 -- 几百年 • 声像产品 -- 几十年• 因特网– - 才十年左右
10TB = total collection of Library Of Congress
渺茫的万维网
不稳定性• 预测英特网上有 1 亿多网页的寿命只有 44天到 2 年
• 生存下来的有很大一部分在一年内都会有变
Source: Abdelaziz Abid. 2004
OCLC 的 IP 地址波动 (volatility) 研究在 A 年测到的网站的 IP 地址在 B 年仍然存在的百分比
所有网站 : 1998 1999 2000 2001 2002
1998 100% 56% 35% 25% 13%
1999 NA 100% 55% 37% 19%
2000 NA NA 100% 55% 33%
2001 NA NA NA 100% 51%
2002 NA NA NA NA 100%
Source: OCLC Web Characterization, 2003
Note: It doesn't indicate whether those resources still exist elsewhere on the Web or whether the content has changed.
( 续 ) 在 A 年测到的网站的 IP 地址在 B 年仍然存在的百分比
公众网站 :
For example, only 8% of the IP addresses identifying a Web site in the 1998 sample
also identified one in the 2002 sample.
1998 1999 2000 2001 2002
1998 100% 52% 28% 15% 8%
1999 NA 100% 50% 27% 14%
2000 NA NA 100% 47% 26%
2001 NA NA NA 100% 46%
2002 NA NA NA NA 100%
Source: OCLC Web Characterization, 2003
被废弃的媒体 – 在数字环境中,要保留下来的不是酒瓶,
而是瓶中之酒 . – 电子文献采用的新媒体比以前的更脆弱易损,使用年限更短 .
无固定住所的记忆
• 信息与载体分离– 内容 & – 容器
• 信息的这两个因素被彻底分开
昙花一现的文件格式
看看现在的各种图像格式:
容易受到外来攻击 • 病毒 Virus
– Code Red virus, -- 12,000 Web sites in the U.S
• 蠕虫 Worm– Nimda worm, 2001 -- 150,000 computers
• 特洛伊木马 Trojan Horse • Backdoor/Trapdoor• 黑客 Hackers• … …
Nimda worm, which took down 150,000
法律和组织机构等问题
用数字化形式来将知识产权”移民” • 牵涉多个方面 :
– 知识产权的创造者– 知识产权的拥有者– 数字档案的管理者– 公众兴趣的代言人 – 知识财产的实际和潜在的用户
• 获取数字文件所需要的软件的版权问题 • 为了保存而拷贝的权利
数字黑洞
Source: Jonas Palm, 2006. The Digital Black Hole.
长期保存与获取使用之间的关系preservation & access
1. 保存或者获取使用 Preservation OR Access
• 二战前,保存即收藏• 要保证一本书可以有长一点的
寿命,最保险的办法是将之锁起来,或者弄个备份来用。
2. 保存并且获取使用Preservation AND Access
• 现代的保存管理策略相信保存和获取是互补的。
• 对一个物件采取保存行动后,这个物件就可以被使用了。
3. 保存就是获取使用Preservation IS Access
• 在数字时代,这两个概念被认为是因果关系。由于有了保存的行动才使得获取使用成为可能
• 一个文献的生存并不取决于其载体的寿命,而是取决于该文献的内容尽可能经常地被从一个载体转到另一个载体的可能性。
4. 对获取途径的保存 Preservation OF Access – 在数字世界中,保存就是行动,而被保存的实
际上就是获取途径 – - 所以是对获取途径的保存的行动
– “ 可获取性的长期保存”
•未来最明显的威胁就是在数字的长链中失去获取的途径。
• 如果失去了获取途径或者不可能获取,那么数字资源不能被称为被保存了。
• 数字资源保存的目的是维持其可获取型 : 获取其原始的信息或目的的能力
UNESCO: GUIDELINES FOR THE PRESERVATION OF DIGITAL HERITAGE
4. 什么应该得到长期保存?谁的责任 ?
• “天生的 (Born digital)” 数字资源应该明确地给以优先权 .
-- Charter on the Preservation of the Digital Heritage, Adopted at the 32nd session of the General Conference of UNESCO, 17 October 2003
《 ICABS 数字保存指南报告中》包括的数字资料类型
• 综合– 包括各种材料 • 档案材料,包括电子邮件• 视听资料• 数字艺术作品和电子
文学作品 • 电子游戏,虚拟现实
和软件 • 电子“手稿”
• 图像 • 其它各种电子资料 • 联机信息和网络资源 • 数字资料的物理格式 • 科学、统计、研究数
据 • 太空、地理和类似数
据集 • 文献通报资源 Report to ICABS* on guidance for digital preservation
*ICABS: IFLA-CDNL Alliance for Bibliographic Standards
Source: NSF Data Report. http://www.nsf.gov/pubs/2005/nsb0540/start.jsp
数据管理者
数据作者 数据用户
谁的责任 ?
high low
low
high
stewardship
uni
que
ne
ssBooksJournalsNewspapersGov. docsCD, DVDMapsScores
Special collectionsRare booksLocal/Historical newspapersLocal history materialsArchives & Manuscripts, Theses & dissertations
Research and learning materials •ePrints/tech reports•Learning objects•Courseware•E-portfolios•Research data
Freely-accessible web resourcesOpen source softwareNewsgroup archives
正式出版物书、刊、报纸政府出版物CD, DVD地图乐谱
特藏
珍本书地方文献地方 / 历史报纸照片档案和手稿学位论文
开放的网络内容
免费网上资源开放资源软件新闻组的档案图像
机构 / 单位的内容电子版文献、技术报告学习物件、教学材料地方政府报告培训资料研究数据
摘译自 Lorcan Dempsey “Terms and conditions ... libraries, subject terminologies and the web 2004 http://www.oclc.org/research/presentations/dempsey/dewey_20040316.ppt
谁的责任 ?
“ 数字资源正以我们不可能管理和保存的增长率增长。”
-- NSF and LOC, August, 2003
光靠图书馆、档案馆、博物馆是绝对不够的• 大家都要参与
– 政府 , – 政策决策者 , – 信息生产者 , – 文化遗产单位和专家 , – 软件工业 , – 标准化组织,– … …
• 每人不必什么都要做,也不用一次什么都做完• 迈出一小步总比原地不动强
第一个专门的因特网档案机构 http://www.archive.org
清华大学图书馆网站, 2000 年 3 月,由 www.archive.org存档
http://www.archive.org/web/web.php
国际因特网资源保存集团
http://netpreserve.org/about/index.php
欧美主要国家图书馆,以及 Internet Archive
Multiple copies of pages
Wayback Machine Enter URL in search box to view From late 1996 to six to ten months agofrom the Internet Archive
Single "Cached" Copy of a Page
Yahoo! Cached link to viewEstimate from yesterday to 3 months old, no date given
Google cache:URL or Cached link to view
Estimate from yesterday to 3 months old, no date given
Gigablast [cached] link to viewFrom recent to a year old, gives date of cache
ScrubTheWeb Cached link to viewSmall database, from 1-3 months old, no date given
IncyWincy cached link to viewSmall database based on ODP, about 6 months old, gives date of cache
Family Source Cached link to viewSmall database, 1 million+ "family friendly" pages. About 1 month old. Date on search results page, not cached page.
Daypop Cached date link to viewLast two weeks, blog postings and news articles, gives date of cache
Feedster Cached link to viewTypically caches only the first few lines from blog & news RSS feeds
BoardReader Cached link to viewWeb forum postings only, date unreliable
Blogging Ecosystem c link to viewVery small: top linked and linking blogs only
Finding Old Web Pages
http://www.searchengineshowdown.com/others/archive.shtml
检索引擎的短期存档
详细的保存和管理
评估
传递
添加元数据
生产文件
选择文件格式
所有的机构和组织
保存方面的专家
信息专业人员
生命周期责任
Source: Maggie Jones, 2005,
选择方式•随机抽样
– Internet Archive 的做法•按特定标准选择
– 按照主题、形式、语言、国别 •根据内容选择
– Sept.11, SARS
•根据表述的形式– Web radio, etc.
国际合作、避免重复劳动• 最近,欧洲研究图书馆组织 LIBER 和
OCLC 决定交换关于数字主件 (Digital Masters) 的书目纪录
• 欧美图书馆已经数字化的印刷本资料的所有信息都将在一个数字主件注册中心(Registry of Digital Masters) 合并,并可免费查询。
• 这是建立一个全球注册中心的第一步。
康乃尔大学注目的十个文件
1. OAIS 开放档案信息系统参考模型
2. PREMIS 保存元数据3. Audit Checklist认证可信任数字仓储的审核清单
4. PADI 国际数字保存资源主题门户网站
5. NSF Data Report
6. Tufts/Yale reports
7. PDF/A
8. DCC Manual
9. RLG DigiNews
10. DPM reader
Source: Nancy Y. McGovern , 2005“10 x 10: Tracing Cornell’s Digital Preservation Efforts”
1. OAIS (Open Archival Information System) Reference Model
OAIS 开放档案信息系统参考模型OAIS 参考模型是致力于长期保护和维护数字信息可存取档案系统的一个
基本概念框架
http://ssdoo.gsfc.nasa.gov/nost/wwwclassic/documents/pdf/CCSDS-650.0-B-1.pdf
总的特征: Ingest 摄入 , data management 数据管理, access 访问, Common services (一般服务)保存有关的特征: preservation planning 保存计划, archival storage 档案存储, administration 行政管理(包括政策)
2. RLG/NARA Audit Checklistfor the Certification of Trusted Digital Repositories
认证可信任数字仓储的审核清单
• 2002 RLG/OCLC: Trusted Digital Repositories: Attributes and Responsibilities (TDR) 在 OAIS 基础上进一步说明可信的、可依赖的、可持续的数字仓储的属性特征和责任
• 2003-2005 RLG/NARA 可信任数字仓储的认证
http://www.rlg.org/en/pdfs/rlgnara-repositorieschecklist.pdf
NARA=National Archives and Records Administration
Source: Kenney and McGovern , 2005. The Three-Legged Stool: Institutional Response to Digital Preservation
TDR 的属性特征和责任1. 行政管理责任
Administrative Responsibility
2. 组织机构的活力 Organizational Viability
3. 经济上的可持续性 Financial Sustainability
4. 技术上和操作过程上的可持续性 Technological and Procedural Suitability
5. 系统的安全可靠性 System Security
6. 操作过程上的可靠性 Procedural Accountability
TDR model + OAIS framework
TDR缺乏一个实施模型
OAIS脱离组织机构的环境
二者合并,可以促进以群体为基础的努力,使得合作起步成为可能
康乃尔大学将自己的形势和任务放进模型
3. PREMIS (Preservation Metadata: Implementation Strategies) 保存元数据
建立在 OAIS 模型上并具体化 • 数字保存的目标是维持数
字资源的:– 长期可生存能力– 可呈现能力– 可理解能力
• 其数字字典的注重点不在于描述型元数据
• 其元素有层次结构,有关系的
• 很多实例
http://www.oclc.org/research/projects/pmwg/premis-final.pdf
4. PADI (Preserving Access to Digital Information ) -- 国际数字保存资源主题门户网站
http://www.nla.gov.au/padi/
5. 数字保存的方法
为了保证数字资源的持续的可获取性,必须在四个层次上能理解和管理数字物件:– 作为物理现象;– 作为逻辑的编码 ; – 作为对人类而言有意义的概念上的实物; – 作为一套套必须保存下来以便向未来的读者提供物件的原貌的原始的成分
– 数字资源在存储媒体上的可读性 – 数字字符串可以被人或电脑阅读和处理– 格式化内容可以被它的使用者理解– 数字资源与它所代表的原物相同
UNESCO (2004). Guidelines for the Preservation of Digital Heritage.
数字保存的方法• 对原物进行处理
– 迁移 /旧移新 Migration– 规范化 Normalization– 数据抽取 Data extraction– 风干 Dessication
• 保持原物– 模仿 Emulation– 封装 Encapsulation– 技术保存 (硬件博物馆) Technology preservation
(hardware museum)– 重整 / 数据恢复 / 数码考古 Re-engineering/ data
recovery/ digital archaeology
迁移 (旧移新 ) Migration
• 硬件迁移 – 将数据转到新的容器中
• 软件迁移 – 转移到同样格式的
新版本– 转移到新格式
• 在使用时才做迁移
规范化 Normalization
• 把所有的物件转换成:– 一种或多种选定的格式 – 一种限定的保存格式 , e.g., XML– 一种更通用的格式
Example: National Archive of Australia, stores everything in XML format.
• 硬件模仿• 软件模仿• 模仿另一种操作系统 • 通过一层中介或虚拟机器 来模仿
模仿 Emulation
封装 Encapsulation
将内容‘塞进’一个描述中例如 :• 在 XML 文件中装进原文件 • 在描述中与文件一起装进与软件的链接 复杂的数据类型,如 records, class,
objects 常常很依赖包装
Example: Archival Information Packages (AIP) that contain metadata and content files
技术保存Technology Preservation
• 常被称为硬件博物馆• 保留所有的东西: files, hardware and
software, and keep them alive• 几乎不可能做到维护•当数量太大时不可能做到
重整 / 数据恢复 / 数据考古 Re-engineering
• 保存原码,然后恢复其可读性和可用性• 很费工,技术上很大难度 • 因为原件不一定还能找到,无法判断到底
应恢复成什么样
风干 Dessication
补充措施现在最简单的技术对数字信息进行保存,将
来才有可能通过最简单的操作来读取和理解被保存的信息。
对于类似文档(如网页)的数字对象,在保
存原始格式的同时,应该同时派生出一个低技术含量的版本进行保存。
http://www.kodak.com/global/images/mul/business/docimaging/repositories/migrationDilemma.gif
The tasks in digital preservation will only increase …
“ 如有紧急情况,可到 174 公里处打紧急电话”
结语
•我们的社会已经目睹了有数百年历史的书面形式的档案的模式的结束
• 现有的设备无法应付信息技术的进展和随之而来的信息膨胀
• 保存数字遗产的任务远远超出那些以保存和管理人类记忆为特长的机构的能力范围
• 每个单位都应该把数字保存提到议事日程上来
Based on Abdelaziz Abid. Preserving our Digital Heritage: A UNESCO Perspective
重温目前在座各位可能面临的情况• 决定是否要担起保存数字资源的责任 • 拿出一个数字保存的计划来 • 生产 / 制造预计会有长期价值的数字物件 • 收藏数字物件并决定是否要长期保存之• 判断目前对数字典藏管理的长期保存安排是否有效• 进一步完善现有计划项目• 建立合作计划 • 鼓励和帮助其他单位建立新的保存计划
决定是否要担起保存数字资源的责任
否
是生产数字物件
收藏数字物件
注入存储索取
数字物件的生命周期管理
Source of the list: Report to ICABS on guidance for digital preservation National Library of Australia , July 2005 : page 6
数字保存 刻不容缓Digital Preservation
For the Future of the Past
曾蕾 Based on the speech at the Distinguished Scholar Series,
College of Communication and Information, Kent State University. Kent, Ohio , 3/06
References (1)
• The Commission on Preservation and Access and The Research Libraries Group, 1996. Preserving Digital Information-- Report of the Task Force on Archiving of Digital Information
• LC&NSF, 5/4/2005. Announcement. Library of Congress and National Science Foundation announce research award of $3 million to advance digital preservation. http://www.digitalpreservation.gov/about/pr_050405.html PR 05-118, 5-4-05, ISSN 0731-3527
• Hilde van Wijngaarden. (2004). Different Approaches to Digital Preservation. Chinese-European Workshop on Digital Preservation, July 14-16, 2004. Beijing.
• Abdelaziz Abid. (2004).Preserving our Digital Heritage: A UNESCO Perspective http://www.unesco.nl/images/preserving_our_digital_heritage.doc
• Maggie Jones (2005). Preserving the Digital Heritage: Principles and Policies, The Netherlands Commission for UNESCO, 4-5 November 2005, The Hague.
• National Digital Information Infrastructure and Preservation Program (NDIIPP). http://www.digitalpreservation.gov/
• UNESCO (2004). Guidelines for the Preservation of Digital Heritage. http://www.unesco.nl/images/guidelines.pdf
• UNESCO (2003). Charter on the Preservation of the Digital Heritage. Adopted at the 32nd session of the General Conference of UNESCO, 17 October 2003. http://portal.unesco.org/en/ev.php-URL_ID=17721&URL_DO=DO_TOPIC&URL_SECTION=201.html
• NSF and LOC, (August, 2003). It’s about time: Research challenges in digital archiving and long-term preservation. http://www.digitalpreservation.gov/repor/NSF_LC_Final_Report.pdf
中欧数字资源长期保存国际研讨会,中国科学院文献情报中心, 2004 年 7 月 14 至 16 日教育部科技发展中心 “ 2006’ 教育行业信息存储大会” , 2006 年 3 月Report to ICABS on guidance for digital preservation National Library of Australia , July 2005 。 http://www.ifla.org/VI/7/pub/IFLAPublication-No119.pdfJonas Palm (2006). The Digital Black Hole. http://www.tape-online.net/docs/Palm_Black_Hole.pdfNancy Y. McGovern (2005). “10 x 10: Tracing Cornell’s Digital Preservation Efforts” http://www.library.cornell.edu/iris/dpo/docs/NC-DP%20at%20Cornell-1105.pptReference Model for an Open Archival Information System (OAIS) 。( 2002 ) CCSDS 650.0-B-1 http://ssdoo.gsfc.nasa.gov/nost/wwwclassic/documents/pdf/CCSDS-650.0-B-1.pdfRLG/NARA Audit Checklist for the Certification of Trusted Digital Repositories http://www.rlg.org/en/pdfs/rlgnara-repositorieschecklist.pdfRLG/OCLC: Trusted Digital Repositories: Attributes and Responsibilities (TDR)http://www.library.cornell.edu/iris/dpo/docs/Cuba-ark-nym_final.pptAnne R. Kenney and Nancy Y. McGovern, (2005). The Three-Legged Stool: Institutional Response to Digital Preservation http://www.rlg.org/longterm/repositories.pdfNSF. (2005). Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century. NSB-05-40 http://www.nsf.gov/pubs/2005/nsb0540/start.jsp
References (2)
Data Sources
• OCLC Web Characterization, 2003. <http://wcp.oclc.org/> – Miscellaneous statistics http://
www.oclc.org/research/projects/archive/wcp/stats/misc.htm• How Much Information? 2003. Peter Lyman and Hal R. Varian
http://www.sims.berkeley.edu:8000/research/projects/how-much-info-2003/execsum.htm
• Spinellis, D. (2002). The decay and failures of web references. Communications of the ACM, 46, (1), 71 - 77.
• Hughes, Andrew (2003). Genomic Data Sets. Version 1.3: Jun 16, 2003. • The Human Genome Project: Human Genome Project website, 2004 http://
www.ornl.gov/sci/techresources/Human_Genome/home.shtml• Internet Archives: http://www.archive.org/• Search Engines archiving: http://
www.searchengineshowdown.com/others/archive.shtml
• Google Zeitgeist: Search patterns, trends, and surprises http://www.google.com/intl/en/press/zeitgeist.html
• Migration. http://www.kodak.com/global/images/mul/business/docimaging/repositories/migrationDilemma.gif
Image Credits
• UNIVAC II: http://www1.u-netsurf.ne.jp/~jr1yyt/image/QSL02L2.jpg• FIlmreader: http://www.ssa.gov/history/ssa/filmreader.jpg• Chained book: http://www.nationmaster.com/encyclopedia/University-of-Oxford• Early email: http://www.soon.org.uk/humor/email.gif• Obsolete computer component: http://www.fotosearch.com/ART292/bte004/• Medical records: Image: http://www.medgadget.com/archives/img/r745173893.jpg• Amazon Basin map http://boto.ocean.washington.edu/gifs/sa_basic.gif• Megalith from China 1536 年四川西昌地震遺跡
http://159.226.2.5:89/gate/big5/www.kepu.net.cn/gb/earth/quake/remains/images/rms00602_picb.jpg
• The Nuremberg Trials Project. http://nuremberg.law.harvard.edu/php/docs_swi.php?DI=1&text=overview
• The Digital Michelangelo Project: Marc Levoy, et al., The Digital Michelangelo Project: 3D Scanning of Large Statues http://graphics.stanford.edu/papers/dmich-sig00/
• Mellon International Dunhuang Archive. http://www.artstor.org/info/collections/mida.jsp
• NASA Image Gallery. http://www.nasa.gov/multimedia/imagegallery/index.html• Human Genome Landmarks Poster: Chromosome Viewer.
http://www.ornl.gov/sci/techresources/Human_Genome/posters/chromosome/chooser.shtml
• CNN page: http://edition.cnn.com• Internet Archives: http://www.archive.org/• IIPC: http://netpreserve.org/about/index.php