包号:***
包组名称:****年智慧图书馆体系建设项目-古籍数字化加工项目
标的对应的中小企业划分标准所属行业:软件和信息技术服务业
通过对采购方入选《国家古籍珍贵名录》古籍,严格依据****年*月国家图书馆(国家古籍保护中心)发布的《全国智慧图书馆体系建设:古籍数字化和知识标引规范手册(暂行)》为标准,进行古籍数字化和知识标引,总加工量不少于**.*万筒子叶。中标人须到馆数字化加工,任何古籍文献不得带出辽宁省图书馆(辽宁省古籍保护中心)。
一、古籍图像数字化
*.*数字图像采集指标
*.*.* 古籍数字图像长期保存级采集参数
以满足古籍数字图像长期保存要求为目的。长期保存级标准如表*所示。
*.*.* 古籍数字图像发布服务级加工参数
古籍数字图像发布服务级标准,用于中华古籍智慧化服务平台的资源服务。其加工主要参数及要求如表 * 所示。
*.* 数字图像采集要求
(*)采集图像清晰,数据文件叶码连续,没有重叶、缺叶,错叶、折叶等情况(原书缺叶、错叶除外)。补扫缺叶图像要与同册图像文件的大小尺寸一致,颜色接近。
(*)按*:*比例扫描,图书叶面外围要求留白,宽度不超过*厘米;书叶间距不超过*.*厘米。
(*)以原书的上边沿为基准,以中缝为中心线,保持原文献的天头、地脚的尺寸不变,左右两边的尺寸基本不变。图像倾斜角度不大于*.*度。
(*)原件表面有其他粘贴物件时,先将原件与粘贴物(即粘贴物覆盖于文献)一起扫描,然后将粘贴物掀开,再次扫描原件。
(*)古籍整理完毕后,需根据古籍实际透字状态确定有无必要添加衬纸。透字情况不很严重、不影响阅读的情况下,无需添加衬纸。必须注意的是,加垫衬纸不应对古籍造成损坏。加垫衬纸前应先评估图书纸张厚度、纸张强度、折叶空隙等情况,选择适宜的衬纸。衬纸应保持整洁,出现污渍、褶皱时要及时更换。
(*)原件超大幅面(如地图)分画幅扫描时,各扫描区域边缘必须留有 *厘米(含)以上的重复扫描区。
(*)采集图像完整清晰,无扭曲、变形现象发生。数字图像文件用图形图像类软件检查清晰度(图像放大至实际尺寸***%),确保图像不失真。
(*)定时做采集设备和输出设备的色彩校正。工作过程中,当数字图像文件与古籍原件颜色不一致时,应及时进行色彩校正,重新完成图像采集工作。
*.*数字图像处理要求
*.*.* 长期保存级(A)处理内容及要求
古籍图像处理应在未改变原扫描图像色彩位数、分辨率、像素、格式等情况下进行。
(*)纠偏处理。对出现偏斜的图像进行纠偏处理,对方向不正确的图像进行旋转还原,以符合阅读习惯。
(*)图像剪裁。只允许处理古籍背景纸与图书外边缘的空白处。古籍原书与背景纸外边缘距离*.*~*厘米。
(*)不能进行锐化或者图像增强处理,不能更改图像的颜色,尽量减少对图像文件的后期处理。
*.*.* 发布服务级(D)处理内容及要求
*.*.*.* 格式转换
由长期保存级文件(A)转换为发布服务级(D)文件。在评估文献的纸张颜色、文字大小、版面、清晰度等因素基础上,将无损 TIFF 格式按 jpeg**** 压缩方法,选择适宜的压缩因子,做有损压缩处理后转换为 PDF 格式文件。
*.*.*.* 图像切分
(*)半叶图像文件处理。通常数字化采集的古籍图像为双半叶 TIFF 文件,PDF文件须按半叶图像进行切分保存。切分图像分辨率不做任何改变,以书脊中线为切分线,将原有的半叶处理为独立的页面。书脊右侧的半叶为页面 A,书脊左侧的半叶为页面B。切分后,包含古籍版框和文字的图像信息应完整无损,并按命名规则对切分文件进行命名。
(*)古籍封面文件处理。古籍封面的TIFF文件带有色卡和标尺。为保持全册古籍图像画面大小一致,须对封面 PDF 文件进行色卡和标尺的裁切处理,裁切后只保留古籍封面。
*.*.*.* 图像拼接
古籍超大幅面(如地图)分拍采集影像后,按需对古籍图像进行拼接处理,即对PDF格式文件做拼接处理。拼接时对图像分辨率不做任何改变,拼接后图像与古籍的原貌基本一致,无重影,拼接处无明显歪斜变形。按命名规则重新对拼接文件进行命名。
*.*.*.* 双层 PDF 输出
经过图像处理和 OCR 识别,采用图在文上的模式进行双层PDF输出。该文件是双层的,上层是原始图像,下层是识别结果。
PDF文件的图像层包括古籍图书从封面到封底的所有叶。根据图像尺寸、颜色、数据存储量,按JPEG**** 有损压缩,压缩因子适度动态调整,在确保图像清晰的情况下,尽量压缩图像文件所占空间至最小。
PDF文件的文字层所使用的字体以“ 已嵌入子集 ”方式嵌入 PDF 文件。
PDF单个文件存储容量不超过*MB。
PDF文件格式编码为*.*版本以上,兼容Adobe reader*.* 及以上版本。
二、古籍元数据著录
*.*古籍基本元数据
*.*.* 著录总则
*.*.*.* 著录对象
本部分的著录对象为以古籍原件为来源的古籍数字资源,也包含古籍原件。
*.*.*.* 著录单位
古籍元数据的著录单位分为两个级别:(*)以每种古籍原件(或其对应的古籍数字资源)的每个藏本为基本著录单位。(*)以每种古籍原件的每个版印为基本著录单位。著录时可根据具体情况及需求选取著录单位的级别。
这里所说的“种 ”,既包括内容上能够独立存在的一组数字资源对象,也包括内容上不宜分割的一个数字资源对象。
*.*.*.* 著录用文字和数字
古籍著录应使用规范的繁体汉字。
“题名 ”元素中的卷数、“ 日期 ”元素中的年号纪年应使用汉文数字著录;其他如数量、开本尺寸和公元纪年等数字均用阿拉伯数字著录。
*.*.* 扩展原则
(*)现有元数据标准中,如没有恰当的元素可供复用,允许自行扩展元素。
(*)自行扩展的元素不能和已有的元素有任何语义上的重复。
(*)扩展的修饰词必须遵循向上兼容的原则,即修饰词在语义上不能超出被修饰词(元素)的语义。
(*)新增加的元素和修饰词须优先采用 DCMI(Dublin Core Metadata Initiative 都柏林核心元数据倡议)中的元素和修饰词,或者是现有其他元数据标准中的元素和修饰词。
(*)新增元素如果复用来自其他元数据标准的元素和修饰词,必须说明来源,使用时严格遵循其语义。
*.*.* 著录项目
需要著录的古籍基本元数据共有**个元素,详见表* 古籍基本元数据著录项目列表。
*.*.* 元数据描述
本部分通过名称、出处、标签、定义、注释、术语类型、限定、元素修饰词、 编码体系应用于、编码体系修饰词、必备性、可重复性 ** 个属性及说明项目对表 * 古籍基本元数据进行描述,各元素及修饰词著录细则见《手册》附录 A。
*.*结构数据
本部分标引对象为整理后的 PDF文件目录结构,包括品种层、子目层(有则必备)、册目录、册内文件数量。
*.*.* 标引规则
(*)准确记录古籍原书各册信息,以及各册与古籍图像的对应关系。
(*)古籍数字资源按子目拆分或者合订拆分时,按实际拆分结果,记录古籍书册信息,以及与古籍图像的对应关系。
*.*.* 标引项目
古籍分册保存目录结构的标引项目及属性如表 *所示。
*.*.* 标引项目说明
(*)加工记录标识号
古籍数字资源的加工唯一标识号,作用于古籍元数据和对象数据的关联。应填写正确,以免链接错误。
(*)内部序号
标引数据的内部顺序号。数据类型为数字型,每条记录从*开始编号。
(*)册名称
古籍册次名称,自拟每册名称。名称包含册顺序号,并用括号括注该册古籍的起讫卷次信息,如“第一册(卷首上、卷首下) ”“第二册(卷一至二) ”。
(*)册号
古籍图像文件按“册 ”保存的文件目录名称,数据类型为数字型,为*位阿拉伯数字,如“**** ”“**** ”等。
(*)册内文件数
古籍册文件目录内的全部图像文件的数量。数据类型为数字型,用阿拉伯数字表示。
*.*卷目和篇名数据
本部分标引对象为整理后的 PDF各级目录和文件。
*.*.*标引规则
(*)卷目篇名数据是每部古籍数字资源的分卷和篇名信息。如果加工的古籍是丛书,应先将丛书拆分为子目,再对每个子目做卷目篇名数据。
(*)卷目篇名在数据标引工作中应做到准确、客观。
准确性要求:标引词(古籍目录中的卷号、卷名、篇名)与标引对象(图像文件的文件名)指向正确。标引词中难以确定的文字可以结合与该字相配的词组,分析比较词意,取用表意准确的字进行标引。难以确定或使用现有字库无法录入的文字,可选择描述的方式,具体参见《汉语文古籍机读目录格式使用手册》中***字段系统外字附注的相关规定。
客观性要求:客观性是指标引词必须来源于古籍文献,不加入标引人员的看法和观点。目录类名与正文类名不一致时,以正文为准。卷名、篇名、篇作者等信息一律取自正文,原书目录(总目、分卷目等)作为参考。
(*)古籍原书有目录,可以参考目录中的分卷分篇层级进行标引。每部古籍第一条记录取自“古籍基本元数据 ”的“题名”项。第二条起按古籍原书实际内容顺序客观标引。
(*)古籍原书无目录,但有卷级信息,按书内正文客观标引;古籍原书无目录,且无卷级信息,第一条标引记录取自“古籍基本元数据 ”的“题名”项;第二条标引“题名”项+“正文”。这里的“正文”两字直接录入,用于提示读者开始阅读正文,指向正文卷端首叶位置。
*.*.* 标引项目
古籍分卷、篇名、责任者的标引项目及属性如表 * 所示。
*.*.* 标引项目说明
(*)加工记录标识号
古籍数字资源的加工唯一标识号,作用于古籍元数据和对象数据的关联,应填写正确,以免链接错误。一部古籍的“加工记录标识号”是一个号,各种数据类型在使用“加工记录标识号”时应保持一致。
(*)内部序号
一部古籍卷目篇名的标引内部顺序号。每个加工记录标识号下的标引记录从* 开始编号。
(*)层级号
表示一个加工记录标识号下的各级卷目篇目之间的层级关系。书名为*级, 卷目层级为*级。同一级别卷目,属于并列关系,可重复使用“层级号 ”。卷内为包含关系的层级,从*级起,按序号递加方式标引。
层级号 卷名篇名
* 增補傷寒六書
* 陶節庵伤寒六書序
* 新刻陶節菴家藏秘授傷寒六書卷之一
* 傷寒鎖言
* 辯張仲景傷寒論
* 治傷寒用藥大略
* 傷寒言證不言病
* 厥分寒熱辯
(*)卷名篇名
古籍总目、分卷目、正文中的分卷名称和卷内篇目名称,包括卷号、卷名和篇名。
标引是按照层级填写加工古籍的卷名篇名信息。如果古籍原书有目录,可以参考目录中的分卷分篇层级进行标引。若古籍原书无目录,卷名篇名信息一律取自原书正文。原书目录中的卷名、篇名、篇作者与正文不一致时,以正文为准。每部古籍标引的第*级,填写该书古籍基本元数据的“题名 ”项,即题名卷数。
每部加工古籍的第*级,根据书内实际情况标引。如果正文前后有序、跋、目录等内容,若单独成卷,则单独列出,如“首一卷”“末一卷”“目録二卷”等;若未单独成卷,则依次逐一标引。正文部分则按其卷端所题标引。如果原书有相应名称,则卷名客观原样标引;如果原书无相应名称,则只标引卷次。
如果原书卷端有大小题,即既有书名卷次信息,又有卷名,则大小题之间用*个汉字空格间隔,如“漢書一 高紀第一上”“漢書一 高紀第一下”“漢書二 惠紀第二”等。
如果原书卷端有编号(如道藏、大藏经的千字文帙号),也可以一起标引,与前面的卷名篇名之间用*个汉字空格间隔,如“進鬻子表 顛一”“鬻子卷下顛二”。
每部加工古籍的第*级,根据书内实际情况标引卷内篇名信息。有的内容并非篇名,但有助于读者定位阅读,也可以列出。
一部古籍有多卷,其中部分卷有*个篇名,部分卷有多个篇名,则统一将篇名作为卷的下一层级,保持全书的层级一致。如果仅存一卷且仅有*个篇名,可以将卷名、篇名写在一起,中间用*个汉字空格间隔,作为同一层级。
(*)责任者
即古籍总目、分卷目、正文中的分卷和卷内篇名的作者。有多名作者的客观标引。
著录序、跋及篇名对应的责任者,格式为“(朝代/国别)责任者姓名”, 如“(宋)程頤 ”。如果责任者有多个,责任者之间用逗号间隔,如“(唐)韓愈,(宋)陸佃”。批校题跋的责任者,已在古籍基本元数据“批校题跋项”中著录,在这里做相同标引。
(*)册号
古籍图像文件按“册”保存的文件目录名称,数据类型为数字型,为*位阿拉伯数字,如“****”“****”等。该项填写卷名篇名对应的图像文件所在册文件目录名称。
(*)叶码
每条标引对象所在“册号”目录内的文件名称,为方便处理,此处仅填写文件名中的“流水号”,用于补齐位数“*”不用填写。如:PDF 格式半叶文件,填写实际数字和字母, “*A”“*B”等。
*.*外字信息处理
本部分标引对象为整理后的 PDF各级目录和文件。
*.*.* 标引规则
古籍的外字信息,每个外字填写一行。
*.*.* 标引项目
系统字符集以外的古籍用字处理项目,如表*所示。
*.*.* 标引项目说明
(*)加工记录标识号
古籍数字资源的加工唯一标识号,与该书古籍基本元数据的加工记录标识号一致,作用于古籍基本元数据和对象数据的关联。应填写正确,以免链接错误。
(*)内部序号
标引数据的内部顺序号。数据类型为数字型,每条记录从*开始编号。
(*)外字
描述外字的结构及组成部分。具体可参见《汉语文古籍机读目录格式使用手册》中***字段系统外字附注的外字描述方法进行描述。
(*)描述
补充说明该字字形及拼音等信息,如“淘-氵”,表示“淘”字去掉左边三点水、“澄(氵→ 扌) ”表示“澄”字左边三点水更换为提手旁,等等。
(*)位置
该外字所在整部书的册号和图像文件位置。册号、叶码之间以“\ ”间隔,如“****\****A ”(表示在第*册第**叶A面)。
三、古籍全文文本转换
*.* 文本数据转换
文本资源是以字符、符号、词、短语、段落、句子或者其他字符排列形成的数据,用于表达意义,基本上来自用户使用的自然语言或者人工语言的知识内容。
文本资源可以有一定的逻辑结构。一部古籍的信息可以由题名、前序、卷、篇、后序等组织而成。
文本数据分为结构化数据和非结构化数据。本手册采用非结构化文本数据制作,按照古籍文本内容的逻辑顺序进行录入,强调字符、数字和各种可打印符号的准确性和完整性,可以忽略版式信息,如分栏的文本以单元格或栏目顺序为单位进行录入,而不是逐行录入。
正文、注释、小注等区分。同一版面的大、小字,将单行或双行小字, 在文本文件的对应位置用括号“() ”标识,将文字内容放在括号里。
正确划分文本段落。每个段落用“ 回行 ”区分处理。
不需转换的空白页。为保持古籍内容完整性和页面连贯性,需保留正文中空白页,并按照命名规则正确命名,内容标注为“ [=此叶为空白叶页 =] ”
地图、表格无需处理。正文中地图、表格无需识别转换,在文本文件的对应位置用方括号“ [ ] ”做内容标注。如“ [=此处为地图=] ”或“ [=此处为表格=] ”。
因古籍图书的残缺、断版,文字漫漶不清等情况,造成文本数据转换困难时,可在文本文件对应位置用方括号“ [ ] ”做出标注。如“ [=此处版面残缺=] ”“ [=此处文字模糊=] ”。
由图像文件逐页进行文本转换,生成单版 TXT 文件,文件名与对应图像文件名一致。
*.* 文本质量要求
文本数据质量应达到以下要求:
(*)文本数据具备唯一标识符。
(*)文本数据内容应忠实于原典文献,完整有序。
(*)元数据著录项目完整,著录信息准确。
(*)集外字处理。对于集外字或现有字库中无法显示的汉字,用符号“〓 ”表示缺字,并应建立“集外字表 ”,详细填写该字的描述信息。
描述方法具体参见国家图书馆编《汉语文古籍机读目录格式使用手册》中*** 字段“系统外字附注”等相关说明。
(*)文本数据与基本元数据、结构数据、标引数据、说明文件等各类数据,具有关联关系且著录无误。
(*)使用 UTF-* 编码方式、Unicode*.* 以上版本字符集。文件格式与字符编码无误。
(*)文本数据的字符、符号等信息的综合错误率不超过 *‰。
四、数据命名规则
*.* 加工记录标识号
*.*.* 按古籍品种分配加工记录标识号
古籍文献加工记录标识号是数字化加工过程中每部古籍的唯一标识号。一般情況下,每部古籍图书目录结构分为*层,包括函文件夹和册文件夹。函文件夹用加工记录标识号来命名,册文件夹用册次流水号来命名。古籍叶文件保存在册文件夹下。
当古籍是合函合订情况时,先按版本进行拆分,再为不同版本分配加工记录标识号。
加工记录标识号共**位数字,由*段组成:机构代码-资源类型-项目建设年-品种加工流水号,记录标识号各段之间不加任何连接符。具体如下:
机构代码:* 位。同数字图书馆推广工程联合建设项目图书馆机构代码。
资源类型代码:* 位。
同《智慧图书馆知识资源数据建设指南:资源类型代码表》
古籍资源代码为 ***。
项目建设年:* 位。
品种加工流水号:* 位
【示例】
*.*.* 按古籍丛书分配加工记录标识号
同“古籍品种分配加工记录标识号 ”分配规则
【示例】
*.*.* 按子目分配加工记录标识号
为更好的表达古籍丛书和子目的关系,在丛书古籍加工记录标识号 ** 位的基础上增加“子目加工流水号”。
子目加工记录标识号由*段组成:机构代码-资源类型-项目建设年-品种加工流水号-子目加工流水号,记录标识号各段之间不加任何连接符。具体如下:
机构代码:* 位。由国家图书馆(国家古籍保护中心)统一分配。
资源类型代码:* 位
参见《智慧图书馆知识资源数据建设指南:资源类型代码表》
古籍资源代码为 ***
项目建设年:* 位
品种加工流水号:* 位。
子目加工流水号:* 位
【示例】
*.* 文件目录命名
*.*.* 单本古籍
数据保存目录由两个层级结构组成:
第一级目录名称为加工记录标识号。
第二级目录名称为古籍册次。每部古籍有多册实体,每一册命名为*位数字,从****开始,依次按流水号命名。
说明:存储结构适用于 TIFF 格式和 PDF 格式的文件目录。
详见【示例】御製圓明園詩 (清刻本) * 冊國家圖書館藏
*.*.* 丛书古籍
(*)丛书款目文件目录
数据保存目录由两个层级结构组成:
第一级目录名称为“丛书”加工记录标识号。
第二级目录名称为古籍册次。每部古籍有多册实体,每一册命名为 * 位数字,从****开始,依次按流水号命名。
说明:此存储结构只适用 TIFF 格式的文件目录。
详见【示例】二十四史三千二百五十卷(清乾隆武英殿本)*** 冊國家圖書館藏
(*)丛书子目文件目录
数据保存目录由三个层级结构组成:
第一级目录名称为“丛书”加工记录标识号。
第二级目录名称为“子目”记录加工标识号,即“丛书”加工记录标识号+*位“子目”顺序流水号。
第三级目录名称为子目册次。子目对应实体古籍的册次,每一册命名为*位数字,从****开始,依次按流水号命名。
当子目跨册时应进行数据拆分,先给子目加工记录标识号,然后从 ****开始建立“册次”文件目录。
比如,第*种子目存于古籍第二册和第三册,拆分后文件保存两个目录,分别是:丛书加工标识号“+ ”****\****\、丛书加工标识号“+”****\****\;第*种子目也存于古籍第三册,拆分后文件目录是:丛书加工标识号“+ ”****\****\。
说明:此存储结构只适用 PDF 格式的文件目录。
【示例】二十四史三千二百五十卷(清乾隆武英殿本)國家圖書館藏 包含 ** 部子目:(*)史記一百三十卷;(*)前漢書一百卷;(*)後漢書九十卷;(*)三國志六十五卷;(*)晉書一百三十卷;(*)宋書一百卷;(*)南齊書五十九卷;(*)梁書五十六卷;(*)陳書三十六卷;(**)魏書一百十四卷;(**)北齊書五十卷;(**)周書五十卷;(**)南史八十卷;(**)北史一百卷;(**) 隋書八十五卷;(**)舊唐書二百卷;(**)唐書二百二十五卷;(**)舊五代史一百五十卷;(**)五代史七十四卷;(**)宋史四百九十六卷目錄三卷;(**)遼史一百十六卷;(**)金史一百三十五卷;(**)元史二百十卷目錄二卷;(**)明史三百三十二卷目錄四卷
其中,第 ** 部子目《明史三百三十二卷目錄四卷》有 *** 册
*.* 文件命名
*.*.* 长期保存级
古籍原件,以册为单位进行数字化,从古籍封面、前护、正文、后护、封底等依次加工。古籍原件的扫描,页面类型可选择筒子叶、双半叶方式,也可选择半叶方式。选择不同的页面类型,文件命名规则不同。
*.*.*.* 双半叶或筒子叶
古籍每一叶 (TIFF 格式)文件名由*位数字组成,文件命名从****开始,后以流水号递加顺序命名文件。
*.*.*.*半叶
图像 (TIFF格式)文件名为*位数字+*位大写字母
其中*位数字,从****开始,古籍封面命名为****,后以流水号方式以递加顺序命名文件;大写字母,古籍书脊右侧的半叶命名为A, 书脊左侧的半叶命名为B。
*.*.* 特殊处理
古籍原件有粘贴物、浮签、夹条等,采取一叶多拍方式处理。扫描时先将粘贴物平铺于当前拍(即粘贴物覆盖于古籍文献)扫描一拍,然后将粘贴物掀开,再次扫描当前拍。掀开粘贴物不得改变原固定方式。
特殊处理的图像文件命名:
(*)双半叶或筒子叶
*位数字 + *位小写字母
其中,数字为原件内容的顺序流水号;小写字母,从 a 开始,顺序命名。
(*)半叶
*位数字 + *位小写字母 + *位大写字母
其中,数字为原件内容的顺序流水号;小写字母,从 a 开始,顺序命名;大写字母为古籍半叶命名。
*.*.* 发布服务级
*.*.*.* 半叶 PDF 文件切分处理
对古籍双半叶图像进行切分。以古籍书脊中线为切分线,将古籍图像原有叶面切分为两个独立的古籍图像。书脊右侧的半叶命名为 A,书脊左侧的半叶命名为 B。
半叶文件名由*位数字+* 位字母组成,数字部分从 **** 开始,按流水号方式递加顺序命名文件。
以古籍双半叶图像为例,图像切分后的文件顺序,古籍封面为 ****.pdf,第二拍图像切分后命名为 ****A.pdf、****B.pdf,第三拍图像切分后命名为 ****A.pdf、****B.pdf,古籍封底命名不变,文件名后缀为 pdf。
*.*.*.* 按半叶采集 PDF 文件的处理
文件名命名不变,与TIFF文件相同,参见 *.*.*.* “半叶”的命名方式。后缀为pdf。比如古籍第 * 叶 A 面为 ****A.tif,转换后为 ****A.pdf。
*.*.* 全文文本
全本文本(TXT格式)文件命名与发布服务级(PDF格式)文件命名应保持一致,即PDF文件名不变,后缀为txt。比如半叶 PDF 文件名为****A.pdf,全文文本文件命名为****A.txt。
*.*.* XML文件
一部书有一个XML文件。以每部古籍加工记录标识号来命名。比如加工编号为XXXX***********,XML文件命名为 XXXX***********.xml。
五、数据存储结构
*.* 保存结构和内容
(*)单本古籍文件目录名称和结构如下所示
一级目录:加工记录标识号
二级目录:metadata
object
information
三级目录:对象数据。在Object下面建立三个子目录,即TIFF、PDF、TXT
四级目录:按图书册次建立的册目录
图: 单本古籍数据保存结构示意图
(*)丛书古籍文件目录名称和结构如下所示
一级目录:丛书加工记录标识号
二级目录:metadata
object
information
三级目录:对象数据。 在Object 下面建立三个子目录,即TIFF、PDF、TXT
四级目录:子目加工记录标识号
五级目录:按图书册次建立的册目录
图 丛书古籍数据保存结构示意图
*.* 元数据
元数据以 metadata 命名目录。
XML封装文件和文献整理登记表、古籍外字表的 Excel 文件存储路径为:根目录\加工记录标识号\metadata\
注:XML 封装文件按照命名规则保存。
文献整理登记表和古籍外字表用中文命名保存。
*.* 对象数据
对象数据以object命名目录。
TIFF文件、PDF文件、TXT文件存储路径分别为:
根目录\加工记录标识号\object\TIFF\册次\
根目录\加工记录标识号\object\PDF\册次\
根目录\加工记录标识号\object\PDF\子目记录加工标识号\册次\
根目录\加工记录标识号\object\TXT\册次\
根目录\加工记录标识号\object\TXT\子目记录加工标识号\册次\
*.*说明文件
项目总体说明以information命名目录。
项目总体说明文件表存储路径为:根目录\information\
六、质量要求
*.* 元数据著录和标引要求
(*)遵照 XML*.*规范,使用UTF-*编码方式、Unicode*.*以上版本字符集。
(*)著录信息应严格按照文献实际内容进行客观著录,标引词与标引对象文件应正确链接,确保实用性。卷目篇目层级正确,链接正确。文字错误率不超过 *.*‰。
*.*数字图像质量要求
*.*.* 检查项目
(*)将图像文件(各种格式)放大到*:*状态,逐叶检查清晰度、明亮度、色彩还原度,以及图像内容的完整性和准确性。检查事项包括但不限于图像透光、彩点、彩线、黑边、污点、歪斜、模糊(马赛克等);图像有压字、折角、异物、透字、漏字、夹框、夹字和图像倾斜、扭曲变形、图像裁切过度等情况。
(*)图像文件有无缺叶、倒叶,文件命名漏号、重号、错号等不规范现象。
(*)检查书叶图像的完整度。发现文件漏扫时应及时补扫并在正确位置插入图像文件。
(*)检查图像叶码是否连续,不得跳叶。
(*)加工数据以文献册次为单位,检查对应的各类标引数据是否齐全,链接准确。
(*)检查扫描(拍照)图像的采集技术指标。
(*)检查双层 PDF 文件的图像层和文字层的文字对位准确。
(*)按照命名规则,检查目录、文件、数据库、文档、介质等名称是否正确。
(*)检查各类说明、统计、验收等文档是否齐全。
(**)确保所有文件保存位置正确,可以有效打开和显示。
*.*.*质量标准
(*)图像完整性***%正确。不能丢失、错位。
(*)图像歪斜、压缩转换等综合错误率不超过*‰。
(*)双层PDF文件的图像层和文字层的文字对位准确,反显区域与文字区域相差*毫米以内。
(*)双层 PDF 文件与TXT文件的文字内容保持一致,文字错误率不超过*‰。
*.* 全文转换质量要求
(*)文本数据的文字、版式、符号、段落顺序等,其字符综合错误率不超过*‰。
(*)文本数据文件与发布服务级 PDF 文件一一对应,叶面连续,不得跳号,不丢失文件。错误率为 *。
七、成果要求
*.* 数据内容
*.*.* XML 文件
XML文件内容包括古籍基本元数据、结构数据、卷目篇名。
*.*.* 对象数据
长期保存级、发布服务级数据,包括:
TIFF格式文件
PDF格式文件
TXT格式文件
*.*.* 文献整理登记表和外字表
文献整理登记表和外字表用 EXCEL表填写。
文献整理登记表内容包括:名录号、普查编号、索书号、题名、册数、总叶数、开本尺寸、透字、夹框、夹字、皱折、缺残叶、重叶、签条、夹纸、登记人员、登记日期、备注。
外字表的内容包括:加工记录标识号、内部序号、外字、描述、位置。
*.*.* 说明文件
项目总体说明文件用 EXCEL 表填写。
填写内容包括:
项目建设年、单位名称;
记录标识号、题名、TIFF 格式文件数量、PDF格式文件数量、TXT 格式文件数量、采集分辨率/拍照像素;
备注(需要特别说明的事项)
*.* 数据标准
(*)送检数据有效,与《数据说明文件》内容和数量一致,不夹杂无关文件。
(*)著录、标引文字、符号,标引位置等信息准确,综合错误率不超过*.*‰。
(*)双层 PDF、全文文本文件的内容编码、文字识别等,综合错误率不超过*‰。
(*)数据的采集方式、技术指标、文件格式、文件命名、图像处理等综合错误率不超过*‰。
(*)成果数据中古籍图像完整,无缺失;数据类型和文件结构符合规范要求,且无坏死文件、不携带病毒,错误率为*。
(*)达到标准的数据视为合格,在规定错误率范围内检查出的数据问题由资源提交单位进行修正;超出错误率、未达到标准的数据由资源提交单位对全部数据进行整改、返工处理。
八、数据储存设备
供应商需提供不小于**T移动存储设备,满足本项目数据提交。