学术咨询服务,正当时......期刊天空网是可靠的职称工作业绩成果学术咨询服务平台!!!

大数据时代档案数据化的前景展望:意义与困境

发布时间:2021-12-25所属分类:管理论文浏览:1

摘 要: 摘 要 大数据时代兴起的数据化浪潮引发档案界对档案数据化趋势的关注。档案数据化被认为是档案数字化发展的新阶段,它是指档案部门以用户需求和业务需要为导向,将数字档案资源转换为可供阅读、分析和处理的档案数据资源的过程。档案数据化对大数据时代档案工作的数据

  摘  要  大数据时代兴起的数据化浪潮引发档案界对档案数据化趋势的关注。档案数据化被认为是档案数字化发展的新阶段,它是指档案部门以用户需求和业务需要为导向,将数字档案资源转换为可供阅读、分析和处理的档案数据资源的过程。档案数据化对大数据时代档案工作的数据转型与纵深发展具有重要现实意义,它有助于突破档案信息资源深度开发瓶颈、创新以需求为导向的档案服务模式以及推动档案管理业务流程实现智慧化。但由于诸多不确定性因素的存在,档案数据化工作同样面临困境,主要体现为政策与动力层面的困境、人才与技术层面的困境。

大数据时代档案数据化的前景展望:意义与困境

  关键词  大数据  档案数据化  档案数字化  档案信息资源开发  智慧档案馆  档案服务

  0 引 言

  计算机技术尤其是互联网技术的出现,推动数字化的兴起,带来数字记忆储存的革命;大数据技术的出现,推动数据化的兴起,带来的则是数据处理能力的革命。近年来,大数据及随之而来的数据化浪潮对档案行业的冲击已经显现。2016年印发的《全国档案事业发展“十三五”规划纲要》认识到国家大数据战略对档案工作理念、技术、方法及模式的深刻影响,并提出要采用大数据、智慧管理等技术,提高档案馆业务信息化和档案信息资源深度开发与服务水平[1]。档案数据化成为档案界新的研究关注点,有学者试图强调档案的“数据”价值,认为在数据时代要把档案看作需要挖掘的数据集合[2],要通过数据化使档案成为有价值的数据[3];也有学者以档案信息资源的挖掘或深度开发为切入点,强调对档案数字化成果进行进一步的数据化开发[4][5][6],认为只有转化为“数据态”,才能进行档案数据的关联、挖掘和分析,实现档案的数据价值[7];还有学者基于创新档案服务模式的需求提出要推动档案数字化向数据化的转变[8]。这些研究成果共同揭示了档案数据化趋势的到来,但未深入剖析档案数据化的内涵与发展前景。基于此,本文将阐释档案数据化的内涵,并展望大数据时代推进档案数据化的意义与困境,以期对数据转型时期的档案工作和档案学研究有所启示。

  1 数据化趋势与档案数据化内涵

  1.1  数据化趋势

  2 0世纪9 0年代至21世纪的前10年,数字化(digitization)代表了信息化发展趋势。数字化实现了模拟态向数字态的转换,进而推动着社会的数字(化)转型[9]。诚然,数字化将模拟世界带入了数字环境,它使人类社会能够存储更多的信息,并进行更快地处理。但在数字时代,数字信息仍被当作模拟物对待,常被用于相同的“单一目的”,且收集这些信息的目的与其价值捆绑在一起。[10]大数据引发广泛关注后,数据化成为一个颇为流行的术语和趋势。2013年,维克托·迈尔-舍恩伯格(Viktor MayerSchonberger)和肯尼思·库克耶(Kenneth Cukier)将 “数据化”(datafication)作为一个有特定内涵的专业术语引入大众的视野。当前,学界通常从三个角度来解读数据化:

  首先,数据化代表一种技术趋势,它将我们生活的许多方面转化为计算机化的数据。迈尔-舍恩伯格和库克耶认为数据化将社会行为转化为在线量化数据,以实现实时跟踪和预测分析[10]。也有学者认为数据化是将均匀、连续的数字比特结构化和颗粒化,形成标准化的、开放的、非线性的、通用的数据对象,并基于不同形态与类别的数据对象,实现相关应用,开展相关活动[11]。其次,数据化描述了一种组织趋势,它将组织转化为数据驱动型组织,形成新的价值创造形式。马克·莱西特(Mark Lycett)将“数据化”理解为一种由I T驱动的价值创造过程。[12]也有学者指出数据化是指将组织转换为数据驱动企业所使用的集体工具、技术和流程[13]。此外,数据化是一种社会变革趋势。有学者表示,数据化是全球化背景下,人类社会在数字时代的发展趋势。它是人类在信息传播、人际交往乃至日常生活过程中,为了便于沟通、传播和保存,将一切客观存在处理为数据,进而使得整个人类社会成为一个庞大的数据库。[14]在大数据时代,万物皆数据,一切皆可量化,世界的本质是数据,数据与物质、能量一起成为构成世界的三要素。[15]

  上述从技术、组织和社会角度对数据化的解读,揭示出数据(化)转型的发展趋势。这种广义上的数据化趋势,主要描绘的是网络空间中新的数据形成与处理方式,例如环境感知数据、科学观测数据、物联网大数据、用户生成数据、网络和社交媒体数据以及对这些数据的收集、聚合、量化与分析。而数据(化)转型趋势无疑会对档案馆、图书馆等传统的馆藏机构以及企业文档信息部门带来影响和冲击。近几年,我国档案界已经认识到大数据与数据化趋势给档案工作带来的影响。2016年,国家档案局印发的《全国档案事业发展“十三五”规划纲要》中表明了档案行业应对大数据挑战的国家态度。 2018年,国家档案局局长李明华对我国档案工作趋势的阐述也从侧面揭示出档案数据化的趋势,他指出:“我国档案工作正经历一个从接收保管纸质档案到接收保管电子档案,从管档案实体到管档案数据,从手工操作到信息化智能化操作,从档案资源分散利用到联网共享的变革过程”。[16]

  受数据化趋势的影响,越来越多的档案界人士认识到档案数据化将成为档案数字化的新方向或新阶段[8]。湖南省档案局局长胡振荣将我国档案数字化的发展历程划分为三个阶段:第一个阶段是档案目录数字化,致力于建立目录数据库;第二个阶段是全文数字化,即将档案全文扫描成数字图像;第三个阶段是全文数据化,即将所有的图像转换成文本数据,形成可全文检索的文本数据库[17]。而他所称的档案数字化的第三阶段,实质上就是档案数据化的初级阶段。钱毅站在馆藏机构视角,认为狭义的数据化指的是针对数字化成果进行的数据著录、抽取与挂接工作,工作成果表现为积累形成大量的二次文献数据库。[9]这种狭义的数据化实际上就是从数字态转化到数据态的过程。参考钱毅对数据化的解读,笔者认为,数据化趋势对档案工作的直接影响体现在数字态的数字档案资源进一步向数据态的档案数据资源的转换中。因此,从狭义上理解档案数据化更切合我国档案工作的实际。

  1.2  档案数据化内涵

  “数字化”是数字时代的高频词汇,它是指“将模拟信息转换成电脑可以处理的用0和1表示的二进制代码”[18],其对应的基本单元是比特(bit),而数据化对应的典型对象则是字节(byte)和字(word)。可见,数据化内生于数字化,又区别于数字化。近几年,在数据化趋势的冲击下,档案数据化也逐渐成为档案界关注的新词汇。很多学者从数字化档案的数据化加工角度对档案数据化概念进行了狭义上的理解,认为档案数据化是在数字化的基础上,用光学识别(OCR)、语音识别(ASR)等技术对图像、音视频中的数字内容进行全文识别、分类、著录、标引等工作,形成结构化数据,并建立目录数据库、全文数据库和媒体资源库,使档案资源内容为计算机所挂接、存取、调用、更新、分析和处理,使其能用检索词进行检索的过程。[3][6][8]也有学者认为档案数据化不仅是数字化档案的数据化加工范畴,还包括数据的结构化解析、应用级封装、媒体化组织和全链式管理过程[19]。

  青岛市档案局承担的国家档案局科技项目“大数据背景下档案信息资源挖掘策略与方法研究”对档案数字化与档案数据化进行了比较,指出早期档案数字化的主要目的是获取图像格式的档案数字化成果,对档案内容的控制和利用主要通过档案目录数据库加以实现,形成典型的“数字图像+档案目录数据库”档案数字化模式。这种模式满足了传统载体档案计算机阅读的需要,并没有直接解决档案内容的控制与开发利用问题。档案数据化则是指将档案信息转化为计算机可以阅读和理解的档案信息资源的过程。其目的是实现计算机自动分析、理解和处置档案信息,将利用档案的途径由“页面阅读”转变为“内容控制”“信息开发”。其实现的途径是由计算机识读档案文字,进而借助智慧化的工具转换成计算机可以理解的内容,实现档案利用价值的深度开发。[4]

  当然,相关领域学者也已认识到数字化与数据化的联系与区别。有学者对图书馆馆藏资源数字化与数据化的内涵进行了比较分析,指出馆藏资源数字化是把纸质文献变成计算机可读取的比特流数据,简言之就是把书籍内容整体数字化,把纸上的东西搬到计算机显示器上阅读和编辑。馆藏资源数据化则是把计算机可识别文本内容中的字、词、句、段落、图像以及各种概念、公式、数据等知识单元进行分割和提取,并建立知识单元之间的各种关联,从而进行无穷无尽的检索、分析与挖掘。数字化是馆藏资源描述方式的电子化,资源的载体形态发生了转变;而数据化则是对馆藏资源内容的重新拆分与组合,资源内容的组织粒度发生了根本转变。[20] 也有学者指出数字化、数据化、文本挖掘是历史文献数据库的三种不同形态。数字化是将文献从物理形态转化为电子形态,数据化是将电子形态进一步转换为可识别的文本与可分析的数据,文本挖掘则是针对文本、数据做进一步的计量分析、相关性分析和GIS分析。数据化的意义是将利用文献的方式从“读”转变为“分析”,其核心方法是重组文献内容,置入使用者所建立的新的文本或数据结构中,也即文献的结构化。[21]例如,谷歌扫描图书的方式允许全文搜索,存储文本的方式允许人们在几秒钟内在数百万本书中搜索特定的单词或短语。它对图书的内容进行了数据支持的分析,而这就超越了单纯的文献数字化[22];日本对马克思、恩格斯文献的数据化处理不仅仅停留在数字化、文本化方面,而是将批注与其所解读的文本相链接,以实现视觉化展示和理解为目的。[23]

  通过上述界定和比较分析可以看出,档案数据化将数字化档案的加工推向“数据开发”阶段。笔者认为需要从“开发”的视角对档案数据化进行狭义上的理解。它主要是指档案部门以用户需求和业务需要为导向,将数字档案资源(包括数字化转换形成的数字档案资源和归档电子文件)转换为可供阅读、分析和处理的档案数据资源的过程。“档案数据化”与“档案数字化”不同,如果说档案数字化是将处于模拟态的档案对象转换成用0和1表示、以二进制码表示的数字态档案,以供计算机识别和读取,那么档案数据化则是将数字态档案进一步转变为可制表分析的数据态档案,实现计算机可理解可分析的过程。档案数字化是数据化的基础,但是数据化在对数据信息的识别和处理上的功能之强大,是数字化所不能替代的。因此,笔者同样认为档案数据化将是档案数字化发展的新阶段。尽管当前档案工作的主流认识和工作重点还停留在数字化阶段,但档案数据化已经引起档案界的关注。档案部门要突破档案数字化阶段对档案信息开发利用不完全的瓶颈,就需要在档案数字化的基础上实现档案数据化。所以档案数据化和数字化并不是对立的,而是承接与完善的发展过程。

  2 推进档案数据化进程的意义

  在数据时代,通过数据来实现决策和改善业务、通过数据来揭示历史和文化“现象”都会给档案工作带来一定的影响。首先,大数据分析能实现对多源异构的低密度价值数据资源的深层次开发。相较于社交媒体大数据等来自外部的大数据,作为企业内部资产且具有高密度价值的档案资源由于缺乏数据化,而长时间被置于无用的暗数据行列。要实现档案数据资源的价值,就要实现档案数据化处理。其次,随着智慧档案馆从理念走向实践,智慧鉴定、智慧标引、智慧检索、智慧编研等档案业务智慧化的实现也对档案数据化提出了要求。此外,数字人文学科对大量历史和文化数据集的需求同样是促成档案数据化的动力因素。

  近年来,档案界已经注意到档案数据化的机遇,有学者提出“为大数据分析提供基础数据是档案工作在信息时代的价值所在”[24],而只有档案数据化之后,档案大数据的数据基础才奠定起来,才有可能去讨论档案的数据挖掘与数据的深度整合[8];也有学者强调要通过“档案数据化引领服务模式创新”,档案部门的传统业务将向档案资源的数据分析、数据挖掘方向转移,对大量数据的分析与处理将成为档案部门的主要业务[25]。笔者认为,对档案部门(包括企事业单位档案部门以及国家综合档案馆)而言,需要明确自身在数据时代的职能定位,既要提供高质量的档案数据资源、数据服务和知识服务,也要探索数据时代改善业务能力、服务水平,提升档案利用率、提高工作效率的技术方法。因此,在数据时代,档案部门需要以开发为导向重新认识档案数据资源的价值,通过深层次的档案数据化开发,实现数字档案资源从机器读取到机器理解的转变,为企业或政府基于数据分析的决策提供有价值的档案数据资源;为档案部门业务工作智慧化转型(智能鉴定、智慧编研等)奠定基础;并面向数字人文、政府决策、社会治理提供数据服务、知识服务和智库服务。因此,大数据时代推进档案数据化进程具有重要现实意义。

  2.1  有助于突破档案信息资源深度开发的瓶颈

  档案信息资源的深度开发一直以来都是困扰档案部门的瓶颈问题。从开发方式上看,图书情报界所言信息资源开发利用的方式一般包括“分类序化、数字化、网络化、分析研究、知识挖掘、提供服务与进入决策”[26]。相比之下,档案信息资源开发利用主要强调的是档案检索和档案编研两个环节,其中前者是对档案信息的浅加工,后者是对档案信息的深加工。[27]然而,当前以检索、编研为核心的档案信息资源开发深度明显不足。档案部门拥有大量有价值的 “一手资料”,且档案编研工作早已成为档案部门的常规性工作,但始终难以突破“有编无研”的瓶颈。档案数字化曾为档案信息资源开发带来曙光,因为它既要强调将档案信息从档案实体剥离并存储在数字载体上,也要强调对数字化档案的重新组织并实现序化与内容的开发。但当前我国档案数字化实践往往只强调前者,也就是实现“模数转换”的数字化加工。伴随着档案数字化工作的不断推进,不少档案机构已进入“后数字化”阶段,管控着大量以PDF、图片格式保存的数字档案资源,但这些资源大多停留在简单的组织、检索、利用层面,内容层面的开发与挖掘还未引起足够重视。[28]可见,档案数字化虽大大提升了档案部门的存取能力,但未能突破档案编研的困境。

  如果进一步从开发层次来审视,可知档案数字化开发层次与档案数字化加工深度密切相关。参考古籍数字化领域对古籍数字化开发层次的划分方式[29],本文以纸质档案为例,将档案数字化开发深度分为四个层次(见表1)。其中,第一层是解决纸质档案的扫描录入和数字化存储问题;第二层是基本上解决数字化档案资源的网络发布和检索问题;第三层是档案内容的浅层标注与数据化处理;第四层是档案智能检索和智慧编研。数字化后的档案虽然改变了档案的存在形式、拓宽了档案信息获取渠道,但是究其本质,“存”的是档案本身、“取”的是档案内容,并没有实现对档案信息资源的进一步开发。当前,我国大部分机构的档案数字化开发层次仍停留在“表层”,档案数字化为计算机检索提供了基础,但由于数字化技术的限制,无法对档案信息进行计算机识别和处理,使档案数字化停滞于数据领域之外。

  以国家综合档案馆为例,为推动国家重点档案工作的重心向“保护与开发”转变,国家档案局于 2016年先后发布《全国档案事业发展“十三五”规划纲要》《“十三五”时期国家重点档案保护与开发工作总体规划》,对国家重点档案的开发工作进行规划和统筹。要求加强国家重点档案开发力度,每年安排若干重大专题进行档案开发,开展国家重点档案目录资源基础体系建设。但目前看来,国家重点档案信息资源开发的主要任务,还是对国家重点档案进行信息采集、著录并建设目录数据库、专题数据库等,侧重点仍在信息资源的采集、加工、组织和信息化管理方面,而利用国家重点档案信息资源发现新信息、新知识等高级形式的开发尚未充分开展。[30]基于此,有学者提出“国家重点档案信息资源融合”理念,强调借助信息融合技术对国家重点档案信息资源进行综合处理与协同利用,从而生成新的信息空间和知识架构。[31]

  总之,按照马费成教授和靖继鹏教授对信息资源开发步骤的阐述[26],当前档案数字化开发仍处于 “载体开发”阶段,属于基础性开发,而下一步将进入“内容开发”阶段,要将数据挖掘、知识组织等技术引入开发当中。因此,部署实施档案数据化工作,有助于在数字化基础上进一步推进档案信息资源在数据层级的深度开发,实现档案数据资源的融合、关联、挖掘与分析,推动档案知识发现和知识服务的开展,而这也将为国家重点档案信息资源的深度开发提供一条可行路径。[32]

  2.2  有助于创新以需求为导向的档案服务模式

  不断满足社会需求是档案服务的永恒主题。长期以来档案部门虽然开发出档案查阅、档案编研、档案展览、跨馆出证、信息推送、参考咨询等多种服务方式,但这些服务方式很难满足新时期档案用户对网络化、便捷化、高效化、知识化和个性化服务的需求。大数据时代的到来,有学者认为要利用大数据技术,对用户身份、借阅内容、存储行为、搜索方式、言行记录等结构化、半结构化、非结构化数据进行分析,挖掘预测用户隐性诉求,改善服务方式,使得关联服务、精准服务、跟踪服务、知识服务成为可能,从而提升服务能级,实现档案服务的人性化和知识化,从“供给导向”服务模式向以用户为中心的 “需求导向”服务模式转变。[33]诚然,以需求为导向的档案服务模式寄予了档案学界对大数据时代档案服务创新的厚望,但档案服务的创新离不开档案资源开发端的努力,档案资源开发的程度将直接影响档案服务的能力和质量。

  党跃武教授指出档案资源开发是指为了满足不同的档案需求,对各种载体和形式的档案和档案集合进行加工处理,以形成各种档案产品或服务的过程。其根本目的在于,深入发掘档案资源中蕴藏的有利用价值的档案信息,寻找和获取更为系统或特定价值的知识和智慧,有效提供给社会各领域的具有特定需求的档案用户,从而实现档案资源和档案用户的需求对接、资源关联和服务匹配。[34]传统的档案服务在很大程度上依赖于著录标引深度以及文件目录、案卷目录、专题目录、专题指南、全宗指南等检索工具的编制。随着档案数字化工作的推进,基于元数据的数字档案资源的标引成为一种成熟的技术,它对于数字档案资源的著录描述、检索、管理和长期保存具有重要意义。当前,不仅可以通过对档案案卷级和文件级目录著录项进行基本检索,也可以关键词检索、主题检索、元数据检索、全文检索等。尽管如此,仍无法对信息单元的复杂特征及信息单元间的复杂语义关系进行定义、分析和识别。有学者提出在大数据时代,档案工作要善于运用数据挖掘技术分析档案数据,从海量数据中揭示出隐含潜在价值的信息,实现档案信息智能检索服务、档案信息决策服务。[35]数据分析和数据挖掘确实可以作为档案业务的拓展,也是档案服务创新的重要内容[8]。以企业档案为例,利用大数据技术对档案数据进行聚类、分类和相关性分析,找到数据间的关系,建立数据模型,可为企业生产经营提供多角度和全方位的服务[36]。

  然而,值得注意的是档案数字化虽实现了为档案制作数字化副本和网络环境下的档案获取,但档案数字化并没有从根本上改变档案服务被动性。数字化后的档案文本存在两方面缺陷:一是数字化文本仍然需要用户有意识地进行检索,没有建立档案信息间完整的联系;二是数字化文本中信息依然只能依靠人的阅读,才能转化为有用的信息。档案数据化能通过计算机识别数字图像的光学字符,将数字化档案转化成数据,进而分析档案数据的信息。——论文作者:赵  跃

2023最新分区查询入口

SCISSCIAHCI