美国网页归档项目发展的新动向 ——基于ndsa2016年和2017年调查报告的分析
美国网页归档项目发展的新动向


——基于ndsa2016年和2017年调查报告的分析

张莉 颜祥林 (南京大学信息管理学院,江苏南京)



摘要:美国国家数字化管理联盟的网页归档项目调查报告已成为一些机构制定网页归档政策时的重要参考之一。文章通过分析美国国家数字化管理联盟2016和2017两年的网页归档项目调查报告,并与2011和2013年调查结果相比较,探索了美国网页归档项目发展的总体特征,总结了美国网页归档项目在建设主体、实施内容以及开发利用方面的发展新动向,并在此基础上对我国网页归档实践的发展提出了一些思考与建议。




美国网页归档实践的领先发展一直为我国众多学者所关注。总的来说,国内相关研究多是聚焦于一个或多个美国重点网页归档项目的案例分析,鲜有文献对美国网页归档项目发展的总体进行研究。2010年,美国国会图书馆宣布成立国家数字化管理联盟(national digital stewardship alliance,ndsa)。该组织分别于2011、2013、2016和2017年共计四次开展了美国全国性的网页归档项目调查,其中最新的2017年调查报告已于2018年10月对外公开。调查涉及网页归档项目的建设主体、归档范围、归档方法、凯发k8娱乐app的版权与隐私、访问与利用等五个不同方面。这四次调查既对美国网页归档项目不同阶段的总体概况进行了记录,又追踪了美国网页归档项目在过去几年内的变化。调查所形成的报告指明了美国网页归档实践的未来走向和发展机遇,最新的调查还发现,这些报告已被部分美国机构作为制定网页归档政策时的重要参考之一。 

同时nsda的调查报告也为我国相关领域跟踪和研究美国网页归档项目的总体发展特征提供了契机。国内学者蔡舜在《美国网页存档调查及启示》(以下简称“蔡文”)中着重对ndsa2011年和2013年的调查报告进行了介绍与分析。鉴于美国网页归档实践在不断发展的这一事实,近年必然会出现值得我们持续关注的新动向,因此我们在蔡文研究的基础之上,聚焦ndsa2016和2017年的调查报告,试图揭示美国网页归档项目在建设主体、实施内容以及开发利用方面的新动向,以期对我国网页归档实践的未来发展提供一定的借鉴与思考。


1
建设主体的动向
ndsa的调查对象包括但不限于联盟的成员机构,2016年和2017年ndsa分别收到104个和119个美国机构的有效调查结果。2017年参与调查的机构数较2013年增加了1/3,除开展网页归档项目的机构数量在不断增长外,美国的网页归档项目在建设主体方面还出现了以下变化。
高校成为发展的主力军
美国网页归档实践已进入快速发展时期,近十年美国开展网页归档项目的机构迅速增加。2017年调查报告显示,仅2016年后启动网页归档项目的机构就占了全部调查对象的1/4。而这一趋势的出现与高校的积极参与是密不可分的,具体表现在:与前两次调查相比,开展网页归档项目的政府部门及其他类型机构的数量变化并不大,而高校的数量则呈现出明显增长,占全部调查对象的比例超过60%。高校已成为美国开展网页归档项目的主阵地,其次是政府部门和公共图书馆。网页归档项目在高校内的活跃程度,说明网页归档已经成为美国高校图书档案机构资源建设的重要途径。
机构合作推动项目建设

网页归档的挑战不是任一机构可以独立解决的。调查中曾有机构表示:“作为一个中小型大学……我没有资源(或专业知识)去实现高水平的、前沿的发展。提到工作流程,我还要考虑员工时间不足的问题——虽然我希望实现更好的质量保证和元数据描述,但是这不是我们的首要任务。”ndsa也在《2014年国家数字管理议程》(national agenda for digital stewardship 2014)中提出,不是每个机构都能为网页归档的所有活动提供全部资金,要求每个机构在网页归档的各个方面拥有专业知识也是不切实际的。但是不同的机构可以专注于不同的方面,并相互依赖某些职能,通过合作促进网页归档实践的发展。

ndsa调查发现,2013年仅有18%的机构表示自己参与过合作,这一比例在2017年则增长为57%,而机构间合作的加强与2013年以来推出的一系列网页归档合作计划紧密相关。ndsa也在报告中认可了常春藤图书馆联合会的“网页馆藏计划”(web collecting program)、加利福尼亚数字图书馆的“cobweb”、“联邦网页归档工作组”(federal web archiving working group)等网页归档合作计划的积极作用。2013年常春藤图书馆联合会开始“网页馆藏计划”,建立了常春藤联盟各大学图书馆间网页馆藏建设的合作关系;2016年加利福尼亚数字图书馆联合哈佛大学图书馆、加州大学洛杉矶分校图书馆,推出网页归档协作平台“cobweb”;2014年美国国家档案与文件署、美国政府出版局、美国国会图书馆等以“联邦网页归档工作组”形式开始联邦政府网页归档合作。这些都是网页资源馆藏建设的不同合作形式,通过机构间的协作和资源共享,吸收了来自不同机构的不同资源,推动了网页归档项目建设的快速发展。随着现有网页归档合作计划的不断推进及新的网页归档合作计划的推出,参与合作的机构将会越来越多,网页归档合作的参与方式也会越来越丰富。 
公共图书馆成为新生力量

在2011、2013和2016年的调查中,公共图书馆在全部调查对象中的占比一直不足3%,2017年公共图书馆占比增长到13%,仅次于高校和政府部门。这一变化得益于2017年互联网档案馆启动的“社区网页:助力公共图书馆员创建社区历史网页档案”(community webs: empowering public librarians to create community history web archives)项目。“社区网页”项目由互联网档案馆主导,博物馆和图书馆服务研究所提供资金支持,在线计算机图书馆中心提供技术指导,皇后区公共图书馆、克利夫兰公共图书馆和旧金山公共图书馆提供人力资源,共同为15个不同的公共图书馆提供技术培训、人员支持和网页归档服务,帮助他们提高网页归档的技术与能力,以创建记录当地记忆、有历史意义的网页资源库。

公共图书馆以所在社区相关网页为起点开始网页归档实践,通过机构间合作,汇集和利用了多个机构的资源和专业知识,不仅推动了网页归档被纳入馆藏建设的正式活动,对社区数字记忆的长期保存也有着重要意义。不仅如此,“社区网页”项目在保存社区历史网页档案的同时,对公共图书馆的技术培训还将产出一系列开放的网页归档与数字保存相关的教育培训资源,供其他有兴趣开展网页归档项目的机构及其人员参考,既有利于吸引其他机构的参与,也在一定程度上推动了美国网页归档培训的步伐,是美国网页归档实践专业化发展的重要体现。
2
实施内容方面的动向
从2016年调查开始,ndsa引入了archive-it推出的网页归档生命周期模型(the web archiving life cycle model)。该模型认为政策涉及网页归档的方方面面,网页归档中的高层决策可分为愿景与目标、资源与工作流程、访问/利用/再利用、保存、风险管理,而网页归档的日常任务可分为鉴定和选择、归档范围界定、数据捕获、存储和组织、质量保证与分析,元数据描述则是贯穿整个网页归档的持续过程。它概括了通用的网页归档工作流程,为机构开展和改进自己的网页归档项目创造了一个可测量的模型,本文也将以此为参考,对美国网页归档项目实施内容方面的动向进行分析。 
归档范围向内部网站倾斜
机构在决定归档哪些网站的内容时主要有两个选择:一是归档自己或附属网站的内容作为机构记录的一部分;二是归档其他机构或个人的网站内容以便未来研究。随着网页归档作为机构信息资源管理的正式活动得到越来越多的认可,机构也愈加倾向于归档自己或附属网站的内容作为机构记录的一部分,内部网站成为网页归档的主要内容。据2017年调查,对内部网站进行采集的机构较2011年增加了17%,而对外部网站进行了采集的机构则明显减少,较2011年低了24%。不论是采集内部网站还是外部网站,机构的归档能力在整体上有了很大的提升。机构对采集音频、视频、博客、数据库、社交媒体等类型资源的信心均有所增强,同时对采集互动式多媒体的顾虑则加深了。 
数据捕获借力外部工具和服务
机构网页归档能力的提升与网页归档工具和服务的发展与进步息息相关,利用外部服务商实现网页归档成为机构首选。2017年有87%的机构使用了网页归档服务,其中archive-it是最受欢迎的网络资源归档服务,使用率从2013年的71%增长为2017年的94%。使用网页归档工具进行本地网页采集的机构数量相对稳定,占全部机构的30%左右,四次调查的结果相差不大。自2011年ndsa开始调查以来,网页归档工具heritrix和httrack一直深受机构欢迎,机构使用率始终排在前列。heritrix采用广度优先算法,可实现大规模网站网页信息的完整采集;httrack有较强的链接分析功能,适合重要网站网页信息的深度采集。2017年webrecorder发布仅一年就跃居前两者之上,成为机构使用率最高的网页归档工具。webrecorder是基于浏览器的网页归档工具,可以捕获传统的基于链接的heritrix和httrack难以采集的网页。 

关注归档网页的质量问题
2016年开始,ndsa以archive-it网页归档生命周期模型为参照,对机构当前在网页归档项目上取得进展最多和最少的领域进行了调查。从结果上看,数据捕获、鉴定和选择、归档范围界定在2016和2017年的调查中一直是机构取得进展最多的领域之一。相反,访问/利用/再利用、元数据描述、质量保证与分析则是机构认为自己取得进展最少的领域。这说明当前各机构在确定捕获什么以及如何捕获它们方面,也就是网页生命周期的前期取得了很大进展,但是在网页归档生命周期的后期,美国网页归档项目的推进较为缓慢,机构仍有很多问题需要解决。调查结果也显示,归档网页的质量问题已经引起了机构的关注与重视。ndsa对机构在发展网页归档项目时首要考虑的因素进行了调查,其中选择数据量的机构则从2013年的53%减少到2017年的29%,而选择质量的机构则从17%增长到51%。ndsa将“质量”定义为完整性、准确性和重现保真度,这也就意味着机构越来越关注是否将原始网页完整、准确地进行归档,以及归档网页能否重现网页最原始的样子。机构对归档网页质量的关注在一定程度上印证了美国网页归档项目在逐步走向成熟。机构也表示有兴趣在质量保证技术和策略、捕获配置和优化、元数据标准和应用等领域开展合作。但是质量保证在过去十年中技术进步缓慢,还需要机构投入更多的关注和资金来开发有着更高可靠性的工具。
凯发k8娱乐app的版权相关政策仍待加强
2016年开始网页归档项目的进行不可避免地会遇到知识产权问题,机构在制定项目计划时,会考虑自身愿意接受的与凯发k8娱乐app的版权相关的风险级别及如何管理这种风险,这主要体现在凯发k8娱乐app的版权相关的政策中。2011和2013年的调查显示,机构在开展网页归档项目时缺乏从内容创造者处申请许可的明确政策。这与机构倾向于内部网页归档有直接关系,但是在外部网页归档时机构也缺乏相应措施。这种情况在2017年并没有改善,71%的机构在采集时没有申请内容创造者的许可,75%的机构在提供归档网页资源的访问时也不会告知内容创造者或寻求许可。随着机构越来越关注内部网页归档,这一趋势可能会继续。但乐观的是,2017年ndsa首次调查了机构在没有许可的情况下是否收到过内容创造者提出的停止采集或删除内容的要求,91%的机构表示没有收到过。正因内容创造者的不追究,放纵了机构在外部网页归档时的不作为。
3
开发利用方面的动向
随着机构将目光转向网页归档生命周期后端,不仅质量问题得到机构重视,归档网页资源的开发利用也受到机构越来越多的关注。 
开发利用意识加强
调查中,认为访问和利用是发展网页归档项目重要因素的机构比例从2013年的40%增长为2017年的70%。ndsa将“访问和利用”定义为包括研究人员互动、网络分析及利用案例等在内的概念。进一步的调查发现,2017年仅有18%的机构表示有研究人员活跃地使用他们项目的归档网页资源,更有33%的机构明确表示没有研究人员正在使用,大部分的机构并不知道研究人员的利用情况如何。即使部分机构肯定已归档网页有研究人员正在使用,但是据调查,这些机构主要是通过谷歌分析等工具实现利用情况跟踪的。然而这些工具只能跟踪网页的访问数据,这些数据并不能直接转换为研究人员实质性利用的数据。美国网页归档项目的开发利用现状并不乐观,各机构在关注网页归档项目发展的同时,仍需积极采取措施应对。ndsa认为随着“archive-it研究服务”(archive-it research serv-ices,ars)、“档案释放工具包”(archives unleashed toolkit,aut)、“继续教育推动网页归档”(continuing education to advance web archiving)等有益措施的不断推进,在未来的调查中, 网页归档项目的开发利用情况或许会有所不同。 
创新提供利用方式
机构在依赖网页归档服务进行数据捕获的同时,提供的归档网页利用方式也深受其影响。被广泛使用的archive-it不仅提供全文搜索和浏览列表等多种检索方式,还可以将托管的网页档案集合直接链接到机构本地的搜索页面。同时 archive-it也在积极探索新的提供利用方式,并于2015年3月宣布推出archive-it研究服务。在此之前, archive-it提供的网页档案访问方式主要是基于搜索和浏览的,用户通过点击一次只能研究一个网页,和浏览实时网页是一样的。ars则引入了新兴的数据驱动研究方法,如网络分析、文本与数据挖掘、纵向内容分析等。archive-it希望通过ars扩展研究人员、学者及用户访问和分析归档网页资源的方式,增加网页档案的利用率“。档案释放工具包”的开发思路与ars类似,aut是档案释放项目(the archives unleashed project)推出的包括网页归档服务和网页档案分析在内的一站式平台,不仅可以实现网页存储、元数据管理和知识提取,还提供了强大的数据处理和分析工具。
提升服务人员技能
ars和aut是将网页归档分析工具嵌入网页归档服务平台的有益尝试。弗吉尼亚理工大学图书馆则认为尽管已经开发出许多开源网页归档分析工具,但是很少有图书馆员和档案人员接受过培训以了解、使用、管理和维护这些工具,这也就导致了图书馆和档案馆难以提供满足客户需求的网络归档与分析服务。机构也同样认为工作人员的技能对网页归档项目的成功有着重要影响,2016年调查中更有69%的机构认为网页归档工具相关技能是工作人员最重要的技能之一。正因如此,弗吉尼亚理工大学图书馆联合了阿拉莫斯实验室、滑铁卢大学历史学系等机构于2018年5月启动了“继续教育推动网页归档”项目。该项目针对图书馆员和档案人员对网页归档培训,尤其是网页归档分析技能提升的需求,组织了一系列教育课程,帮助他们有效地使用创新的网页归档和网页分析工具来解决研究问题,更好地提供网页归档和网页分析服务。
4
结语
总的来说 ,2016 和 2017 年 ndsa的网页归档调查反映了美国网页归档项目的发展与成熟,也体现了美国网页归档项目发展的一些新动向,这对我国网页归档实践有着重要的借鉴意义。 

(1)美国网页归档项目的建设主体呈现多样化的特点,不同类型 的机构由于性质的差异,项目开展的具体情况也不尽相同。ndsa是 一个为不同类型机构提供协商解决网页归档项目建设过程中各种问题的平台,为各机构更好地开展网页归档工作提供了便利。ndsa开展网页归档调查的初衷也是为了更好地识别和传达成员机构的需求。我们应当向ndsa学习,从整体上把握国内网页归档项目发展的现状,并持续追踪国内网页归档项目发展动向,从而实现更高效的资源配置,也能制定更有针对性的指导政策。 


(2)在美国,许多机构中档案、 图书、资料管理职能都隶属于一个统一的管理机构即图书馆,图书、 档案、资料一体化管理模式是美国档案管理体制的一大重要特色。近十年美国开展网页归档项目的机构迅速增加,高校图书档案机构的积极参与带来了美国网页归档实践的活跃期。网页归档合作计划的出现也推动了公共图书档案机构网页归档实践的发展。而我国档案工作与图书工作各自属于独立的工作系统,当前我国网页归档实践尚处于起步阶段,档案机构应当意识到网页归档对数字文化遗产保存的重要意义,主动承担网页归档实践主体的职责,并积极扩展与其他机构间的合作关系,推动机构间的资源共享,吸引更多机构参与网页归档实践,这也有利于推动我国网页归档项目建设的规范 化和标准化。


(3)网络资源归档服务和网络信息采集工具的开发和使用,为美国网页归档项目的发展提供了重要助力。我国网页归档实践尚不成熟,可适当引入国外开源网络信息采集工具,帮助网页归档项目实现在数据捕获这一关键环节的重要突破。网络资源归档服务的出现在很大程度上减轻了美国机构网页归档的负担,我国目前尚未出现相关服务的提供商,市场的空白也在一定程度上延缓了我国网页归档项目的发展进程。 


(4)网页归档分析工具的开发和网页归档培训的推出是机构推动归档网页资源开发利用的重要措施。网页归档项目的发展不仅依赖于技术,而且也与网页归档项目的团队建设息息相关。人员数量是保证网页归档项目顺利开展的基础,人员质量是保证网页归档项目建设质量的重要条件。我国网页归档项目的建设需要更多高质量人才的投入,优秀的团队建设也更容易获得其他资源的支持。因此网页归档高素质人才的培养和培训是我国网页归档项目发展不可忽视的重要方面。



我国档案馆的资金支出范围较为广泛,涉及到方方面面,但是档案馆经费毕竟有限且须专款专用,而“零库存”档案馆的设计是一个非常庞大的工程,它的实现需要大量的人力、物力和财力投入,实现难度大。此外,该设计存在资源浪费之嫌,例如 “零库存”档案馆中 “智慧档案馆联动利用模式”的设计,需要馆际、馆室、馆社等的资源整合,无论是在技术上还是具体工作上,都将花费很高的成本。再者,“档案馆” 中 “免费班车”的设计也较为浪费资源。为了便于提供利用,许多档案馆如上海浦东档案馆、广东东莞市档案馆等均位于交通便利、人流量较大的城市中心地带。在我国档案馆建设的选址中,交通因素是一个非常重要因素,由此一来,设置“免费班车”就显得多此一举了。

综合以上分析,笔者认为,将工商业领域中的“零库存”理念引入档案管理领域不符合档案管理理念和档案管理体制,“零库存”档案馆的设计存在一定的理想化倾向。笔者认为,在档案学跨学科研究中,相关学者应对引用的理论、观点和方法等进行全面的把握,在此基础上,还应结合档案事业的实际情况,深入分析所应用理念、观点和方法的适用性。韩文的两位作者将“零库存”理念强行引入档案领域,且并未对其进行深入分析,从而造成了“零库存”档案馆设计的片面化和理想化。在大数据时代,虽然我国档案事业应该紧随时代的发展、适应时代的要求有所创新和改进,但是我国档案管理要求与工商业中“零库存”的管理理念毕竟存在较大差异,所以应用“零库存”理念时需要慎重考虑。

*本文系2016年国家社科基金青年项目“基于范式论视阈的档案学科与档案职业协同发展研究” (项目编号:16ctq034)阶段性研 究成果。

文章来源:环球视野 2019.10 档案建设 ,如有侵权,请联系删除。

点击下方,阅读或下载原文件。

美国网页归档项目发展的新动向 ——基于ndsa2016年和2017年调查报告的分析.pdf


网站地图