1.3.2 常见文档的数字化加工层次

常见的数字化加工涵盖非结构化和结构化两个类型,如上图中①~⑤所标明的阶段。有些出版社的数字化加工,层次也进入到对内容分拆、标引的深度结构化阶段。一般来说,存量出版资源要求的数字化加工文档包括扫描图、PDF文件、正文文本XML、目录XML文件和图书元数据XML文件等。按照本书的分类,扫描图、PDF文件属于非结构化加工,正文文本XML、目录的XML和图书元数据XML文件属于结构化加工。

由于图书内容加工层次及需求变化不同,并非所有图书的数字化加工都需要全部包含这5种文件,某些图书只需要加工成其中的2~3种;期刊加工需要5种,但所有的加工项目技术指标要求大致相同。下面分别论述主要加工类型的特点和要求。

(1)扫描图

扫描图文件要求格式为TIFFTIFF图像文件格式(Tagged Image File Format,也简称TIF),是基于标记的文件格式,适用于在应用程序之间和计算机平台之间的交换文件,它的出现使得图像数据交换变得简单。TIFF广泛地应用于对图像质量要求较高的图像存储与转换。它由于结构灵活和包容性大,已成为图像文件格式的一种标准,绝大多数图像系统都支持这种格式。或JPEGJPEG(Joint Photographic Experts Group),由国际标准化组织(ISO)和国际电话电报咨询委员会(CCITT)为静态图像所建立的第一个国际数字图像压缩标准。JPEG是与平台无关的格式,可以提供有损压缩,因此压缩比可以达到其他传统压缩算法无法比拟的程度。,其中黑白文字要求扫描为600dpiDpi(Dots Per Inch),每英寸所打印的点数或线数,用来表示打印机打印分辨率,是衡量打印机打印精度的主要参数之一。一般来说,该值越大,表明打印机的打印精度越高。的黑白图,黑白图片扫描为300 dpi的灰度图,彩色图片扫描为300 dpi的彩色图。

要求图像清晰、版心居中、无明显歪斜、无污点及颜色失真现象;要求同一本书版心及图像尺寸统一,图像完整无残缺。

(2)PDF文件

PDF文件包括图像PDF、双层PDF及版式还原的纯文本单层PDF三种形式。对普通读者而言,用PDF制作的电子书具有纸版书的质感和阅读效果,可以“逼真”地展现原书的原貌,且显示版面大小可任意调节,给读者提供了个性化的阅读方式。每种PDF要求内容完整,无缺页、重页、页码顺序颠倒;每册书须制作目录书签,书签内容与图书目录一致,书签动作缩放比例设置为“承前缩放”;每册书初始放大率设置为“适合页面”。

①图像PDF。图像PDF文件要求文档中所使用的图片格式为JPEG,图像其他要求与扫描图一致。若一页中既有文字也有黑白图像,文字部分采用黑白图;图像部分使用灰度图进行拼接。图像PDF文件还有一个用途,即方便查阅核对及数码印刷,制作双层PDF和单层PDF的图书也可同时制作图像PDF文件。图像PDF文件适用于作为资料保管和保持原貌为主,无全文检索需要的文档。例如中华人民共和国成立前出版的图书及一些手迹、画册,以图片形式展示内容的图书等。

②双层PDF。所谓双层PDF,是指用户浏览看到的是图像层,在全文检索和文字拷贝时使用的是文字层。为方便检索,文字层均对应为简体文字。双层PDF图像层的要求与图像PDF相同,只是精度统一为300 dpi,以减少文件的大小。文字层所使用的字体以“已嵌入子集”方式嵌入PDF文件。书中的生僻字、特殊符号、复杂数学公式对应文本统一为“■”,数学公式对应文本为计算机通常可输入的表达式,如公式中存在一些无法输入的符号,则按特殊符号处理。图像层和文字层的文字对应准确,反显区域与文字区域相差1毫米以内。双层PDF文件的不足是文字层的错误不宜发现。

一般类型的著作及繁体字或简繁混排的图书,可加工为双层PDF。因大多数PC机均未安装繁体字库,含有繁体字的图书不适合以纯文本形式制作单层PDF,因而均需要按双层PDF形式进行加工。双层PDF比版式还原的单层PDF节省排版这一环节,在加工成本上相对低。从节约资金的角度出发,一些以阅读为主、文字拷贝需求较低的非重点图书,都可以加工为双层PDF。

③版式还原的纯文本单层PDF。所谓版式还原的纯文本单层PDF,是指全部文字是以纯文本形式展现,图片以图像形式展现,再按照图书的版式重新排版的PDF文件。单层PDF要求与双层PDF文字层大致一致,由于文字不使用图片,生僻字要求用矢量造字补缺,但对应文本统一为“■”。此外,还要求版式与原书保持一致,部分没有的或难以辨别的字体可用相似字体代替。由于这种PDF看到的文字与检索拷贝一致,错误易于被发现,并且可进行修改,展现效果也好。只是加工成本较高,加工周期较长。中央文献、党和国家领导人讲话等重要著作,宜加工为版式还原的纯文本单层PDF。

(3)正文文本XML文件

为了实现全文检索和章节标题及对应内容提取的功能,绝大多数图书要加工正文文本XML文件和制作目录XML文件。由于PDF文件包含了图书全部文本内容,也涉及页眉、页脚、页码、页下注释等非正文内容,这些要素会影响全文检索和内容提取。除了只制作图像PDF的图书外,其他图书都需要加工正文文本XML文件。XML文件采用UTF-8编码UTF-8是Unicode的一种变长字符编码,由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其他语言(如日文、韩文)。Unicode(统一码、万国码、单一码)为一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。,一本书一个XML文件,每页内容作为一条数据进行存储。此数据不包含正文以外的无文字内容的页。正文中无文字内容的页面如果占页码(无论是否上面印刷了页码),需要体现在数据中;如果不占页码,在数据中不体现。

文件结构如下:

        <?XML version="1.0" encoding="UTF-8" ?>
        <Book>
        <Content>
        <page>
            <pageNum></pageNum>
        <PDFPageNum></PDFPageNum>
        <pageContent>
            <![CDATA[    ]]>
            </pageContent>
          </page>
          </Content>
        </Book>

字段说明如下:

①pageNum项。此字段是用于标识内容在纸质图书上所属的页码,要求是当前页的纸书页码整型值。要求与图书上印刷的页码完全一致。正文部分如有空白页,但实际在书中占了页码的,也须补充页码。非正文部分的内容(前言、序、后记等)页码如与正文页码重复,须在数值前加“*”标识,如*1。该字段标识的目的是方便读者了解内容出处,便于在自己的文章中对内容进行引用。

②PDFpageNum项。此字段是用于标识内容在PDF上所属的页码,要求是当前页的PDF页码整型值。要求与图书PDF文件的页码完全一致。该字段是使全文检索系统能够获取用户检索结果对应的电子书的页码,可实现直接翻到结果所在位置进行阅读。虽然大多数图书的PDF页码与印刷的页码都相差固定值,该字段可通过pageNum项计算获取,但个别图书在正文中会出现不占页码的内容,这样就会导致计算错误,造成混乱,因此该字段仍然需要标识。

③pageContent项。该字段为当前页的文本内容,是为精确全文检索所使用,要求为标准CDATA类型CDATA(character data)是DTD中的属性类型,在标记CDATA下,所有的标记、实体引用都被忽略,而被XML处理程序一视同仁地当做字符数据看待。DTD(Document Type Definition)属于XML文件组成的一部分,是一套关于标记符的语法规则。。内容中影响文字检索的要素都要去除,这些要素是指非正文文字内容的文本插入在正文文字中,造成语句不通顺、词语分家的情况。如页眉、页脚和页码的文字,插在两页正文内容文本之间,隔断了两页正文文字连贯性,被分割的词语肯定无法被检索到。

为此,对内容作出以下规定:每个段落开始有两个全角空格,结束要有回车;段落之间只能有上一段落的回车和下一段落的两个全角空格,不能有其他内容;每段文字须保持内容文字的连续性,影响连续性的页眉内容、页脚内容、页码、注释符、符号、图示说明、表格说明、注释等内容都须剔除;如遇到标题、诗句、人名列表等显示美观需要而在内容间有空格、回车换行的,要去除文字间的回车和空格,使其文字连续起来,独立成一个段落;保留文字内容与PDF一致,不得有漏字、段落混乱现象。

(4)目录XML文件

目录XML文件是为了方便提取章节标题及对应的内容,结构如下:

        <?XML version="1.0" encoding="UTF-8"?>
        <Book>
            <Content>
                <Title> </Title>
                <Level></Level>
                <PageNum></PageNum>
                <PageNumEnd></PageNumEnd>
                <PDFPageNum></PDFPageNum>
                <PDFPageNumEnd></PDFPageNumEnd>
        </Content>
        </Book>

以每个章节标题作为一条数据,Title为章节的标题内容;PageNum为当前章节内容起始的纸书页码;PageNumEnd为当前章节内容结束的纸书页码;PDFPageNum为当前章节内容起始的PDF页码;PDFPageNumEnd为当前章节内容结果的PDF页码;Level为当前章节所属的层级(便于获取章节间的从属关系)。

(5)元数据XML加工

元数据XML加工是一个非常重要的类型。因此,在历史出版资源的数据化加工中,根据情况尽可能使元数据信息完整。图书的元数据信息可以在出版社内部各部门流转编写,也可以将同一个元数据文档制作电子书的元数据外包给服务提供商,由他们负责电子书的格式转换和发行业务。目前,对历史出版资源的元数据标引还采取委托数字加工服务商制作的方式,由他们根据出版社的要求重新录入,并进行相应的格式转换。