Librarian
                       Mylibrary
研 究 交 流
 
Dspace研究
 
 



1背景

   对于数字图书馆,专家学者纷纷提出自己的见解 ,公司厂商也不断推出各种原型系统 。虽然有很多模型构建的尝试 ,但实际上我国图书馆的现状基本上还处于数字图书馆的起步阶段,其模式如下:


   在上面这个模型中,图书馆的数字门户(Web服务)是独立于自动化系统开发的,外部用户能够访问的自动化系统数据只有OPEC。由于共享的数据很少,图书馆的WEB服务或者通过自动化系统的接口进行复杂的二次开发,或者进行重复的元数据建设。
   随着网络的发展,人们已经习惯于在线检索,无论是已经出版还是未经出版的,是印刷的或是电子的材料。而这在上面的模式中,受限于自动化系统的专用性,要实现显然是有局限的。能不能有一个可以把图书馆的内外用户统一在一起的系统呢?它不仅管理数字资源,也管理印刷资源,换句话说,它可以管理所有的馆藏对象(Collection),同时又可以方便地向读者提供服务。为此,我们注意到了MIT和HP实验室共同开发的数字空间(DSpace)系统。
   随着越来越多的原生数字材料(born digital)出现在教育研究领域,研究机构逐渐意识到如何创建一个稳定的环境来长期保存和获得这些材料是一个重要问题。这就是MIT和HP实验室合作研究DSpace平台的初衷。经过两年多的努力,到2002年10月,这个平台开始在MIT正式服务 。一个月后,MIT和HP实验室一起向全世界公开了基于BSD开放源代码许可 的DSpace源码。
   DSpace是一个专门的数字资产(Digital assets)管理系统,它管理和发布由数字文件或“数字流”(bitstreams)组成的数字条目(item),并且允许创建、索引和搜索相关的元数据以便定位和存取该条目。它包括的基本概念主要有:
   数字空间群(DSpace communite):数字空间是针对数字材料的长期保存而设计的。数字材料来源于不同的组群,比如大学的院系、实验室,图书馆的采访、编目等部门,这些依据不同的授权完成不同任务的组群称作数字空间群。
   电子用户(e-people):DSpace的用户可能是教师、学生,也可能只是一些计算机系统,因此DSpace把用户称作“E人”。
   工作流(workflow):DSpace的运作方式,数字材料和元数据在被接受之前经过事先设定的流转审核的步骤;
   信息订阅(subscription):用户可以向DSpace发送订阅请求,以便在新材料到来时收到带有内容提要的Email提示。

2超越传统数字图书馆

   诚如上述,DSpace是一个数字资产管理系统,本身不是为数字图书馆而开发的,但其围绕存储管理,利用分级认证的工作流机制,先天上就具有构建新一代数字图书馆模型的优势(如图2)。

   其特征可以归结为三个要点:
   ①基于存储的资产管理;
   ②利用数字提交的工作流模型来捕获和描述数字化条目;
   ③分级权限认证;
2.1 基于存储的资产管理
   DSpace首先是基于存储管理的,它提供对所有数字格式的支持,比如文档、书籍、数据库、计算机程序、虚拟和仿真模型、多媒体出版物和学习对象等等。另一方面,对于印刷型文献,DSpace也可以通过元数据进行存储管理,利用URL和馆藏地点来区分文献服务的方式。
   Dspace支持两种存储模式:“位”存储(bit preservation)和功能存储(functional preservation)。位存储保证提交的数字材料没有任何改变,即每一位(bit)均保持原样。我们不能保证“位”存储的文件在5-10年以后还可以被阅读或执行,但我们假设会有“数字考古学家” (digital archaeologists),在多年以后仍然可以将文件复原出来,尤其是在有诸如用户指南、创建程序等附加信息的情况下,这是可以办到的。功能存储的实现是通过随着时间的变化改变存储内容的格式,以保证当旧有格式淘汰后,数字材料还能够被随时调用(可浏览、可运行、可检索……)。显而易见,功能存储是理想的存储状态,但需要更多的经费支持。为此,Dspace对于文件格式定义了三个层次:支持的格式、知道的格式和不支持的格式。如下表:

支持的格式

Supported

支持的格式将利用格式迁移技术进行功能存储

知道的格式

Known

知道的格式意味着我们无法承诺进行功能存储,但是作为一种流行格式,可以尝试通过第三方提供的转换工具完成格式迁移从而实现功能存储。

不支持的格式

Unsupported

不支持的格式意味着 DSpace 没有足够的信息保证功能存储

  有些文件格式很容易向通用的格式转化(像TIFF图像或XML文档),而有些格式会由于专利等原因很难实现功能存储。对于上述的所有三个层次,DSpace建议在经费允许的情况下同时进行“位”和“功能”存储,以便一旦时间证明哪种格式可以更有效地呈现素材时,“数字考古学家”能够获得最初的原料。
由于存储的问题同样存在于元数据,因此,DSpace的重要合作伙伴,英国的剑桥大学,为了完成元数据格式的周期性迁移,也在致力于开发新的提交转换系统,以将用户提交的材料从“知道的格式”和“不支持的格式”转换为“支持的格式”。
2.2以事件触发构建的工作流机制
   DSpace的运作是以事件触发的机制来实现的。谁可以存储材料,怎样存储,谁可以利用存储的材料,谁负责管理?这一系列问题在可定制的管理策略下完全由事件触发来解决。
   在DSpace中有很多的数字空间群,对于内部工作部门(数字空间群),通常我们设定所有工作人员都是“提交者”(submitters),而其中的一部分人又被设定为“审核者”(reviewers),负责人则设定为终审者(coordinator)。每个数字空间群中都存在着“提交者”、“审核者”等等的角色。这些角色可能指派给很多人,组成角色群,或称“电子工作组(e-person group)”。 任何一个对系统的请求,从检索、浏览到材料提交,都会触发不同的工作流,并进入相应的“任务池(Task pool)”。经过审核、元数据编辑和终审等等环节最终进入DSpace。而该工作流涉及的每一个步骤的电子工作组,都会因为自己的角色而获得通知,使相应的电子用户可以进入个人数字空间(Individual DSpace)来完成任务。
   典型的事件如新书采购:书商(用户)的图书馆(DSpace)提交书目,新书通告被放入采访部(acquisition数字空间群)的“任务池”,处于采访数字空间群的专业人员可以从“任务池”中获取书目进行审核,(相应的书目将同时被移除,以免重复相同的工作流。)如果审核通过,系统产生订购单。如果是即时生效的数字资源,这一事件将触发DSpace的元数据编辑工作流。如果审核不通过,用户将得到附有审核人员意见的通知书。示意如下:

   对于外部数字空间群,匿名用户可以通过WEB访问进行检索和浏览,授权用户则可以将自己的材料提交DSpace,触发馆藏接收工作流。比如教员的课件、博士的学位论文,这些数字文献本来就是数字图书馆的馆藏来源,通过DSpace的工作流经过专业馆员的审核和元数据编辑,很方便地进入馆藏。另外,作为数字图书馆功能的拓展,用户还可以在授权的个人数字空间中临时或永久存放数字材料。
2.3以分级权限控制的管理体系
   如上所述,数字空间群拥有不同的电子工作组,而不同的组拥有不同的权限。某些DSpace的功能,象检索、浏览等可以是匿名的,但是象提交、订阅以及管理等等功能则需要经过用户认证。DSpace提倡“电子用户”(e-people)的概念,每个电子用户需要向DSpace提供如下信息:
· E-mail 地址
· 姓名
· 认证信息,比如密码
· 订阅专题列表
   DSpace有一个可变的认证系统,它采用的是“缺省否定(default deny)”的策略,比如,一个电子用户对某个元数据具有“读”权限,但他未必就拥有对此元数据指向的材料的“读”权限。在DSpace中可以设定的权限如下表:

READ读

知道某个对象存在,可以浏览相关的元数据

WRITE写

修改和某个对象相关的元数据,但不可删除

ADD添加

允许增加对象,如果需要向一个专题空间提交对象,用户必须拥有这一权限。

REMOVE移除

删除对象

WORKFLOW工作流

可以加入某个专题空间的工作流,比如拥有拒绝一个特定提交的权限。

  这其中没有“DELETE”行为,为了从专题空间中删除某个对象,就必须拥有“移除(REMOVE)”权限。权限策略可以针对个别的用户和匿名用户,也可以适用于电子工作组和数字空间群。

3 构建基于DSpace的数字图书馆

   DSpace是一个开放源代码的软件平台,主要代码均为Java编写,可以运行于所有UNIX系统,象Linux或者HP-UX等。对应于数字图书馆的五个技术环节:数字资源采集、数字对象存储与管理、搜索技术、信息传递技术和权限认证 。我们可以根据自己的需要来修改和扩展它的功能 。由于Java虚拟机是由HTML和部分嵌入的Java代码组成的,基本上不需要触动其核心的代码就可以方便地修改它。同时,它还采用了一些第三方的开放源码系统:
· PostgreSQL, 开放源码的关系数据库系统 ;
· Jakarta Tomcat,Java服务器组件 ;
· Apache HTTP 服务器发布系统,可选SSL和X509认证支持 ;
   当然,还可以选择这些组件的替代品:比如可以用Caucho的Resin application server 来代替Tomcat ,为了尽量减少移植和使用的障碍,DSpace缺省都使用完全免费的开放源码工具包。
   数字资源采集是数字图书馆的对象来源,包括创建原始内容和捕获开放系统中现存的资源。DSpace不支持原始内容的创建,但可以以工作流方式捕获任何支持主动文档开放协议(Open Archives Initiative)的数字资源和元数据,同时也通过这一方式完成信息传递 。
   检索是DSpace挖掘(discovery)的重要组成部分。用户对于搜索引擎的要求是很高的,所以DSpace的目标就是提供尽量多的检索特色。DSpace的索引和检索模型有一个API接口,允许非常方便地索引新内容,重建索引以及在指定范围内检索。这个API来自免費的Java搜索引擎——Lucene 。Lucene支持字段检索、停词(stop words)、词干(stemming)以及不重建索引增加新的索引内容的能力。
   所有的DSpace用户界面都是基于WEB的,并且包含一系列的界面:用户提交界面、搜索界面、系统管理界面以及提交审核的各种界面。利用Java虚拟机和Java服务器技术,DSpace允许用户通过浏览器访问系统,这使DSpace的使用和管理都十分方便。
   在虚拟存储技术的支持下,利用DSpace联盟,还可以实现虚拟馆藏:联盟的馆藏对于用户完全透明,用户通过WEB界面访问元数据,并发送资源请求。DSpace可以根据标准协议进入不同院校的系统,象康奈尔大学的arXiv ,通过本地的存储过程自动获取有关的文档备份。用户只需点击锁定(located)的条目,它就会被下载到WEB浏览器中。如果是一种WEB支持(Web-native)的格式,它就会立刻显示在浏览器中;否则它就被存储在用户的计算机上,象Excel数据表或者CAD文件,需要以特定的程序来打开它。
   DSpace可以存储、管理和发布任何已经和未经出版的本地馆藏,保证印刷和数字文献的统一索引和定位。浙江大学图书馆一直关注着DSpace的发展。我们认为,围绕DSpace核心,制定完善的策略,设计合理的工作流,采用成熟的工业标准和协议,构建一个高效、稳定、易用的新一代数字图书馆是完全可能的。为此,图书馆开展了相应的研究和实施规划,并将在适当的时候公开这一 原型系统

进入原型系统


  --------------------------------------------------------------------------  
浙江大学图书馆 版权所有 联系我们
最后更新日期: 2005-03-10