近日中共中央办公厅、国务院办公厅联合印发了《关于推进实施国家文化数字化战略的意见》(简称《意见》),明确了“十四五”期间国家文化数字化建设的主要目标及2035年远景目标,要求各地因地制宜制定具体实施方案,相关部门要细化政策措施。《意见》提出了许多新的理念、新的目标、新的任务,如国家文化大数据体系、国家文化专网、数据超市等,是指导新时期文化数字化建设的纲领性文件,对出版业的数字化建设同样具有重要指导意义。
我国出版业的数字化起步较早,如今不仅出版流程基本实现数字化,所有的出版物都实现了数字化存储,而且新型的数字出版服务与产品层出不穷,数字化消费、数字化阅读等不断引导与满足人民群众对出版产品的新需求。但正是由于起步早,在既没有成熟的经验可资借鉴,也没有成熟第三方平台可用的情况下,出版业数字化建设过程不可避免地出现一些问题,比如在出版业数字化的初期,出版单位、技术公司、文化公司等各种机构,开展了出版物的数字化工作,建设了多种格式、多种形式的出版数据库,由此出版领域出现了数据库林立但大数据体系未充分建立的局面。各种数据库之间标准不统一、资源重复、内容分割等问题严重,与《意见》提出的建成物理分布、逻辑关联、快速链接、高效搜索、全面共享、重点集成的国家文化大数据体系相去甚远。
在去年的全国政协会议上,笔者提交了建设“新中国出版物数字资源总库”的提案,其初衷是有感于我国书报刊等出版物数量巨大,但绝大多数没有数字版本,虽然一些技术公司、图书馆、报刊社开始对部分出版物进行数字化工作,但是存在不少问题:一是由于缺乏统一谋划,出版物数字化有遗漏,许多重要出版物,特别是改革开放前的出版物没有数字版本;二是许多企业或机构分别进行数字化并提供社会应用,数字资源分散与重复,不便于读者使用;三是版权问题没有彻底解决,一些数字化出版物存在侵权现象。为此建议由国家新闻出版署牵头建设出版物数字资源总库。
现在看来,建设出版物数字资源总库与《意见》提出的“统筹利用文化领域已建或在建数字化工程和数据库所形成的成果,关联形成中华文化数据库”的任务有相同之处,或可以把出版物数字资源总库视为中华文化数据库的内容之一。在出版领域具有一定规模的数据库已经不少,比如在期刊领域有同方知网、万方数据、龙源期刊、维普期刊等大型期刊数据库,在图书领域,有综合性的国家数字图书馆、读秀网、掌阅科技、中文在线、方正电子书等图书数据库,专题性的如人民出版社的中国共产党思想理论资源数据库、科学出版社的科学文库、社科文献出版社的皮书数据库等,以及专业性的如中华古籍资源库、爱如生、翰堂典藏、书同文等古籍数据库等,还有许多出版社、报社建设了自己的数据库,这是其他文化领域难以比拟的,由此可以说出版业的数字化、标准化、碎片化工作已经取得了很大进展,实现了物理分布的目标。但是仔细分析我们可以发现,这些出版数据库离逻辑关联、全面共享的要求还很远,出版的大数据体系远未形成,因此有必要按照《意见》的要求,对现有各类出版数据库进行再造与提升,进而形成出版领域的关联数据库——出版物数字资源总库。
出版领域现有数据库类型丰富、情况复杂,要实现逻辑关联、全面共享的难度非同一般。要认真学习《意见》精神,以制定系列标准为抓手,抓紧数据采集加工、交易分发、传输存储及数据治理等标准,以及出版数据安全标准、入库标准等的制定,为共享提供支撑;以构建完善的出版数据安全监管体系为保障,让参与关联的企业放心。同时完善出版资源数据和数字内容的产权保护措施,让参与企业的利益得到充分保障。