- 数字出版实用教程(第二版)
- 黄孝章 周健华 张志林
- 2242字
- 2021-03-27 17:41:42
1.2.3 元数据标引的重要性
(1)元数据是都能利用的工具
元数据是指关于图书的信息,比如书名、作者、定价等。从本质上看,元数据是对特定图书的描述。它传达给人们关于这本书所需了解的所有信息,以及关于如何更好地利用这本图书的信息。元数据是每个人都能利用的工具。对读者来说,准确无误的元数据信息将确保读者能够通过网络搜索找到所需要的图书;对电子书零售商来说,要靠元数据信息协助使用者找到他们的图书,完备编制的图书元数据信息,有可能在用户检索请求提交后使图书的检索结果排在首位;对图书馆来说,元数据帮助其优化馆藏管理和更好地服务于用户;对出版社来说,元数据有助于使图书在市场上取得成功,流通时间更长。如果图书的元数据信息编写有了错误,读者就无法找到该图书,而出版社也将失去潜在的销售机会。
(2)基于XML的元数据在图书信息流通中起至关重要的作用
对元数据的重视与否,恰恰暗示了出版业界传统的印刷出版思维(print mentality)对数字化转型的严重阻碍。目前,国内外电子书市场火热,尤其在美国。电子书是一种版本形式,通过屏幕阅读,就像精装本和平装本通过纸本阅读一样。当然,屏幕阅读体现了电子化能够检索、关联等信息利用的特征,的确有优于纸本书的特点。一些人认为,电子书是解决图书市场出现滞涨的一剂良药,但美国业界资深人士认为,是图书的元数据而不是电子书拯救出版业,元数据标记能够帮助使用者锁定一本书的具体特点,它在全行业图书信息流通交换中起着至关重要的作用。
基于XML的元数据标引这件事情很琐碎,一般与业内人士难以产生共鸣。元数据信息从产业链上游的出版社发布,包括了出版物商品、供货目录及库存商品等三类信息。这三类信息用电子数据的方式及时向产业链下游的发行投送商发布,方便下游及时、有效地完成向上游的商品采购,避免上游产品资源无序的市场投放。其中,对纸本书来说,库存商品信息可以双向使用,下游既可将上游的库存信息作为采购依据,上游也可将下游的库存信息作为加印、备货和发货的依据。2006年,我国新闻出版总署发布了《图书信息流通交换规则》行业标准(CY/T 39-2006),旨在加速图书发行行业的信息流通。这个标准根据行业现状和网络技术发展趋势,采用文本文件和XML(置标语言)两种格式,作为计算机软件系统之间的信息交换格式,并通过标识符的定义,建立了文本和XML类型数据的内容对应关系,使两种数据格式的信息交换规则在逻辑上保持了一致。通过完整定义图书商品信息以及图书商品在流通各环节中的信息交换内容和规则,规范图书出版发行供应链中各企业信息系统的数据接口,使企业间数据库能以标准格式相互提供所需数据,达到整个出版发行供应链、信息链异构系统的数据传输简单化。
这个交换规则的一个重要意义在于,将图书的发行销售信息、图书馆的编目录著等工作前移到了出版社,直接在内容生产的源头进行图书编目、信息著录的描述,为全供应链的信息共享与检索提供了标准规范。但是,由于我国出版行业的标准化程度较低,没有从供应链的角度设计产品信息在流通过程中的穿透、延伸和反馈,一些行业通用的数据项,如分类、读者对象等未采用统一的代码方式;规则使用过程中的最大困难是行业商品信息ISBN号使用不规范。作为一项行业标准还存在一些需要完善的地方。
(3)良好的元数据管理帮助电子书销售和出版社品牌提升
从图书商品信息及销售信息集成所进行的元数据XML分类,将一些标记整理编制出来,能够帮助图书以不同版本跨媒体销售。2011年,法兰克福书展举行了世界首次元数据展望会议,来自世界各地的专家讨论了优秀元数据的优势和好处。所有发言者都认为,图书的数据管理需要提升到战略优先层面。对电子书来说,元数据信息联网(包括移动网络)上能够使搜索引擎从海量的信息中尽可能有效搜索到你所出版的图书。搜索引擎优化(SEO)技术对能提供有用信息和有价值数据的网站会更加有效,糟糕的记录会导致图书信息在供应链上失去可信的基础,交易扩散低效且不完整,会大幅降低出版商的网站在Google搜索引擎中的排名。
(4)基于内容的XML标引是高级别应用的方向
目前,对图书元数据标引的认识主要在图书商品信息、销售信息的应用描述上,要适应数字出版对读者大规模定制化阅读的需求,还可以开发更深层面的元数据标引。基于内容的XML标引将成为挖掘出版资源、适应读者个性化阅读需求的新应用。可实现内容的提要性阅读、同类图书的批量主题性阅读,甚至对承载在不同图书上的海量内容进行语义查询、引文比对、概念关联等高级应用开发,还可对正文内容进行一些类别的标记,对图书信息进行深度搜集整理分析,进行基于内容的元数据标引。例如,对文学类小说的深度标引包括:①页数(或者字数)信息。此类数据让读者了解图书的篇幅和阅读时间长短。②故事发生时间。是20世纪90年代,还是19世纪70年代,还是发生在未来。有些人喜欢历史小说,有些人不喜欢,要有明确的时代背景。③类别信息。一本书可以同时带有“浪漫小说”和“吸血鬼”两种类别标记。对于非虚构类图书,“战争”“历史”“二十世纪”“1912年战争”等都是很好的类别。一个类别就是一个具体的标记,但这类标记并不处于层级结构中。④写作风格。是第三人称写作还是第一人称写作?是否为三幕话剧式的?里面对话多不多?等等。⑤系列信息。是否系列作品之一?是系列作品中的第几部?是一个顺序系列中的作品,还是合集中的一部?还可以有不少元数据项目,但以上这些项目是核心。如果每一种书都有这些元数据,那么对读者来说,基本上就可以通览群书了。因此,元数据标引这项工作有许多可挖掘空间,还需要引起出版社的高度重视。