发布时间:2021-02-27所属分类:计算机职称论文浏览:1次
摘 要: 摘要面向计算档案学的调查研究旨在发现档案领域立足技术视角的数字转型进展,深化对档案领域与数字技术协同融合的认知。本文通过文献调研与理论归纳,以CAS研讨会的发布成果为主体,梳理与呈现计算档案学的主要内容。从计算档案学的理论要义与计算档案学框架
摘 要面向计算档案学的调查研究旨在发现档案领域立足技术视角的数字转型进展,深化对档案领域与数字技术协同融合的认知。本文通过文献调研与理论归纳,以CAS研讨会的发布成果为主体,梳理与呈现计算档案学的主要内容。从计算档案学的理论要义与计算档案学框架下的实践内容两方面总结计算档案学的内涵。从技术与档案趋向协同融合的内容层和跨领域协作趋于聚合性网络的主体层两大方面发现计算档案学的要点。由此,提出计算档案学的内涵可从三大方面予以拓展:更完整的理论基础建构、更系统的实践应用设计、更全面的共同体建设。
关键词计算档案学档案理论档案实践档案管理数字转型
0引言
数字技术正改变着人类的认知体系与活动方式,这同样映射于同人类活动密切关联的档案领域。随着大数据影响日趋深入,一方面档案领域如何利用各类数字技术备受关注;另一方面在计算机科学推进的技术与管理情境中,从认知到信息对象的变化同样不容忽视,例如,在技术引领的数字中国建设背景下的电子文件单轨制、数据转型都是显著表现。因此,如何在这其中完成从计算思维、方法到具体行动的建构并贯通于档案领域正待探索。为更好在理论层明确认知与方法论基础,系统指导档案学对技术的理解以及应用,以未来为导向的计算档案学应时而生:旨在为计算机同档案学的跨学科融合形成理论基础,聚焦于将计算方法和资源应用于大范围的文件/档案处理、分析、存储、长期保存和利用,以实现更高效率、生产力和精准度的鉴定、整理、描述、保存和利用决策,并助力于参与和开展使用档案材料的研究。[1]
因而,关于计算档案学的研究在国内外正逐步展开。于国内,计算档案学是什么的问题逐步得到说明,主要依托国外的理论与实践予以介绍性解释,但缺乏对现有研究与实践成果系统、深入的解析。[2]同时,通过探讨档案同数字技术的关系,逐步积累档案领域与数字技术及方法的关联和融合经验。[3]这既包括从宏观的整体技术情境讨论档案领域的走向,如电子文件单轨制、数据化、“互联网+”转向等[4][5][6];也包括针对某个或某类前沿技术的档案数字转型乃至具体应用,例如,将区块链、人工智能、大数据用于文件与档案管理中[7]。这方面的研究主要为计算档案学提供“局部”或微观层的探索基础,未达到计算档案学更关注的跨学科整体格局。于国外,关于计算档案学的研究主要有赖于世界最大的技术专业组织IEEE每年举办的大数据会议下的CAS(ComputationalArchivalScience)研讨会的发起和持续召开,研究议题聚焦于计算机与档案学跨学科融合的理论基础、用以支持所有产业和领域的教育和培训设计、协作环境中用以测试和应用科学发展的虚拟和实体实验室的建设等方面[8]。一方面,相较于国内而言,国外的研究层级更加丰富且成体系;但另一方面,国外研究并没有在理论、方法和具体实践上充分回应计算档案学的所有问题,亦有必要明确其进展并发现未来的优化方向。
由是,为明确计算档案学的跨学科内涵与形态是什么及其历史脉络和未来方向,本文将研究聚焦于CAS研讨会的研究成果,以整合认识计算档案学的具体内涵,这既可以跟国内研究相对照且提供参考价值,也可在综合分析成效与不足的基础上发现未来发展空间。由此,在技术情境日趋显现于人类世界的背景下,可在回溯与展望中更好推进档案的学科发展与实践进程。
1研究进展:基于CAS研讨会成果的描述
因之,当前计算档案学最大的研究力量即CAS研讨会的研究成果将是本文用以发现与分析计算档案学主要内涵的数据源。作为探索计算思维(computationalthinking)与档案学融合的学术共同体,CAS研讨会从2016年起于IEEEBIGDATA的年度会议中开设专属论坛公开最新研究成果,协同数字策展创新中心、马里兰大学信息学院,在主席MarkHedges、VictoriaLemieux和RichardMarciano的倡议下,发布50余项来自欧盟、美国、加拿大、英国、南非等全球多个国家和地区的研究。综合2016—2019年所公开的研究报告与论文,计算档案学的内涵显现为:
1.1 计算档案学的理论要义
计算档案学的理论要义从三个层面展开:
第一,计算档案学建构的驱动力与必要性,体现为两个视角:(1)数字技术已应用于各个领域,尤其是由大数据普及所带来的技术和方法上的影响,使得具有信息与记忆职能的档案类机构须考虑数字融合已指向纸质时期不再适用的专业方法[9]。例如,如果没有技术支持,现有的人工审核会导致大量档案由于无法充分识别个人信息造成利用阻碍。(2)档案在大数据技术的推动下正逐步转变为数据形态予以管理或是以原生数字形态的方式形成,本身就需在大数据的情境中进行管理。这意味着档案保管和处理等活动需要同计算思维相结合,并实现档案工作者定位从传统的档案保管者向策展(curation)者的拓展[10]。
第二,计算档案学的理论主体内容。宏观层面,对计算思维和档案学的结合作初步探讨。在这其中,将计算思维界定为数据实践、建模与仿真实践计算式的问题解决实践、系统思维实践4个维度22种活动的集成[11],立足大数据背景将档案学、计算科学、信息科学予以融合,提出:计算档案学是基于此三大方向的跨学科领域,探索将计算方法和资源、设计模式、社会技术建构、人机互动应用于大批量(大数据化)的文件与档案的处理、分析、存储、长期保存和利用中,用以提升和优化效率、真实性、可信性、来源、生产力、计算、信息架构和设计、精确性和人机互动,从而用以支持文件、档案的获取、鉴定、整理和描述、保管、共享、传播、分析和利用决策等活动。[12]再如,提出档案工程学,立足如何以档案建构过去的探讨将传统档案理论扩充以适用于更多领域,并形成量化的可测试、可验证的档案方法。[13]
微观层面,结合计算思维,以数字技术和方法呈现档案学的核心概念。随着新技术形成新类型的信息且新技术管理信息的方式日益创新,对文件、档案等核心概念的理解在关联、背景化、利用、定位等方面要相应改变。[14]学者认为档案学核心概念不仅要被档案工作者理解,也要使利用者等利益相关者明白,调整核心概念的具体内容也是为更好地把握数字技术,为实践提供各种机会,因而尝试使用系统功能语言学和图表理论重新阐释“来源”使其更加通用且可供档案实践参考。[15]再如,利用数字领域的知识抽取方法和“本体”概念,从档案的形成原因、形成主体和如何形成来深化理解“来源”。[16]同时,还对档案重要属性予以拓展,例如,区块链特点结合于电子文件四个关键属性,则可用性明确为顶层属性,具体可分解为平台可用性、安全性与可信任。平台可用性主要指代平台可用和可维护,安全性则包含保密性和电子文件核心属性真实性,可信任则由可靠性和准确性组成。[17]
除概念外,计算档案学亦显示档案方法同计算思维的融合。例如,技术视角下的分类方法聚焦于内容分析,指出档案领域以背景为要义的职能鉴定可通过司法行政、来源、程序、文档、技术等背景形成图谱式框架以用于抽取元数据,并使用机器学习的方法实现智能鉴定。[18]类似立场的另一研究提出,网络平台假视频的识别同样可跳脱内容分析的局限,采用档案领域中关于可信性的理论成果,形成核查网络视频内部一致性与外部一致性的具体方法。[19]
第三,计算档案学应跨界融合技术与档案背后的其他相关学科的要义:管理视角下应用管理学的理论与方法,如针对业务与技术的协同方式,可将业务架构的方法框架作为档案管理和技术的连通中介,从而实现业务、文件与档案管理、技术整体融合[20][21];深化人文艺术领域认知,例如,依据文化和艺术理论充分关注档案数字化中造成的色彩偏差,以保障不同种族肤色的真实呈现[22];政治学的关注要点和方法要融入其中,例如,建立国家广播档案收集全国范围内的音频数据时,哪些机构和群体的更具优先级、公共和私人主体如何平衡等问题需要政治学方面的思考[23];将法学维度纳入,明确合规要点,用以指导解决档案内容开发利用涉及的法理和伦理事宜,如隐私保护、不同群体的权益冲突等[24][25]。
1.2 计算档案学框架下的实践内容
从CAS研讨会发布的近40个实践项目可发现,计算档案学框架下的实践内容表现为:
一是从策略层明确计算档案学框架下档案实践的基本原则与方法:(1)技术与档案不可偏废,从意识上认可数字技术为各领域带来的变化并积极应用数字技术与方法。同时明确档案领域的发展需求,深度理解与阐明档案活动的具体情况与要求,从而厘清技术可用于何处。例如,对数据工作流、基础设施及数据模型要有深入认识,从而可基于数据流涉及的利益相关者及其信息要求获知以怎样的数据模型为标准才可更好地实现系统间的信息交换,并识别数据管理任务自动化设施的必要服务和构件[26];(2)强调协作,立足实际问题采纳多领域的视角,档案、技术、法律、经济等领域都与此相关,例如,档案馆要坚持同学术机构以及私人产业合作来确定专业标准,并重视官方机构的政策配套[9];(3)档案领域同数字技术以及方法的融合兼具成功与失败,须持续探索[10];(4)实践者立足档案领域需求和数字技术要求的能力学习是必要条件。[14]
二是从更具体的方案层展现面向档案管理需求而展开的数字方法与技术的应用实践。主要表现为以档案及包含档案的更宽泛的信息资源为对象探讨档案与数字技术及方法的融合问题。这既包括深入探查各类数字技术与方法对档案活动的可用性,如评估数十种本体对文化遗产领域关联数据的自动化互操作的适用性[27],也包括立足档案活动,如档案馆、图书馆、博物馆等记忆机构的信息资源的开发利用活动,研究如何使用数字技术与方法。例如,应用自然语言处理、机器学习等技术实现从资源数据化、整合到后续的多样化利用。[28]各类实践案例呈现的实践内容为:
(1)数字化,即以更加自动与智能的方式对档案等信息资源进行形式转换实现数据资源的建设。例如,对植物标本图片的保存和欧洲数字图书馆的文化遗产语言资源就涉及OCR工具的开发和大数据分析工具的使用,以实现大范围的批量数字化[29],马里兰大学信息学院为NARA开发基于视觉式的计算机工作流工具以读取穿孔卡片中的编码数据[30]。
(2)整合与开发,即从内容、形式、背景等要素对从个体的档案到整体的档案汇集(或其他信息资源)进行数据的有序化处理如组织和挖掘。例如,用主题建模的统计方法解决欧盟数字档案元数据主要在案卷或文件层面的局限性[31],使用概率方法进行档案数据关联来帮助英国国家档案馆项目“TracesthroughTime”实现人物关系挖掘[14],使用工具进行隐私信息识别、鉴定、分类与整理[32],使用文化分析与主体建模对档案进行宏观的时间分类[33]、开发API实现元数据抽取、关联发现、数据检索功能[34],探索对已有的分层描述信息进行数据整合的方法[35]。
(3)利用,即使用各种技术和工具为利用者提供深度全面的档案或信息产品与服务,且注意规避各类法律与伦理风险[36]。例如,使用监控型的机器学习技术识别与人力资源和个人信息有关的数据以保护隐私[37]、对档案馆原有的索引卡进行数据提取和语言分析来优化合规利用[38]、开发原型网络平台和分析引擎来提供利用[39]、评估各类自动化视频质量鉴定算法[40]、使用二进制文档扫描方法进行国际追踪服务档案馆的图片分类[41]、面向档案的知识利用,建设可实现知识基地自动化构建的灵活系统架构[42]。
(4)长期保存,确保档案等资源的真实、完整、安全、可用。例如,采用内容比较的方法以实现对同一文化馆藏的变化追踪和真实性鉴别以弥补出版领域使用数据标识符却无法发现内容变化的问题[43],探索应用元数据方案、数据集和算法来进行完整性测试的方法[44]。
相关期刊推荐:《档案学研究》杂志,于1987年经国家新闻出版总署批准正式创刊,CN:11-1226/G2,本刊在国内外有广泛的覆盖面,题材新颖,信息量大、时效性强的特点,其中主要栏目有:室业务、县、乡、镇、村档案工作等。
另一方面,前中端的文件管理也有一定探讨。基于区块链的文件管理讨论占据主体。以爱沙尼亚、瑞典和巴西的实践项目阐释区块链创新应用于文件管理程度不同的三类模式,呈现了从集中到去中心保存的不同模式下可信真实保管文件的机遇和挑战[45],亦从区块链的智能合约技术提出可用于文件智能鉴定和处置的应用,以此说明区块链对文件管理的支持潜力[46]。同时,也有研究通过结合区块链平台特点得出可靠、安全和可信任保管文件的具体要求,并对MedRec等四个项目进行分析后得出区块链目前的使用成本超过其产生的价值,因而不适用于文件管理的结论[47]。此外,亦有研究探索机器学习对文件的自动分类并促进电子发现[48],或对比分析数字鉴证工具、机器学习、自然语言处理等方法鉴定或选取文件作为档案的可用性[49]。
2计算档案学内涵解析
综合以CAS研讨会为主体的研究成果,基于在研究内容和共同体建设两大方面的投入,计算档案学的内涵从以下要点得到凸显:
2.1 内容层:技术与档案趋向协同融合
研究在内容层通过不同议题的理论与实践探索形成一定成果,体现出这一跨学科领域建成的趋向,显示出尽管以往从技术视角的探讨对计算档案学有重要参考价值或本身就在计算档案学范畴之中,但计算档案学的技术视角更加强调同档案领域的协同关系。
首先,凸显以技术激发档案管理需求,更要实现档案理论与方法的发展。计算档案学从提出到当前的深入探索均强调以大数据为背景,现有研究将其解读为:一是档案的表达趋向于数据的颗粒度形态,如针对历史档案提出要通过数字化形成数据才能为现有技术所理解和管理,且有着更多的原生数字文件本身就是在各类技术情境中以数据方式形成。二是大数据带来更多技术,为档案活动提供更加多样化的工具,这使得档案活动日趋自动和智能化,亦能实现此前无法实施甚至想象的档案活动。上述内容均为档案是什么、能用来做什么与档案管理可呈现为何种形态赋予了更丰富多元的空间。因而,一方面,研究认为要面向技术的积极应用明确甚至创新档案活动及其具体方案。例如,通过将计算思维的22种活动服务于个人信息识别、开发名字登记册、重要档案整合、设计可控词汇库、描绘事件与人物地图等具体子项目中,NARA实现了“二战”日裔集中营档案从纸质时期的保管利用向数字策展的延伸[50]。再如,在档案利用端强调用户分析,数字技术的发展可进一步挖掘、分析用户要求。例如,莱比锡语料库的馆藏机构使用莱比锡语言服务LLS全面采集用户反馈并基于语言学原理多维度分析用户利用情况并用于预测需求、优化利用服务[51]。另一方面,深入理解技术本质和熟练使用技术,促进档案理论与方法的发展。例如,科学工作流系统、数据库理论及生态系学为保障科学结果可信与可靠复制提出的元数据类型即来源数据,被研究用于档案领域的来源以适应数字环境的理论解构,为保障档案的真实透明与再利用提供借鉴[52]。
其次,把握档案领域的应用属性,将技术的工具性利用探索从策略层充分延展至执行活动层。相比以往技术视角有关研究,计算档案学现有研究整体上侧重于呈现如何使用技术这一问题。因而,面向实践的应用型研究占主要比例,技术使用不再仅限于策略层或是构想阶段,而是从档案需求与相应技术或方法的提出、已有研究与实践梳理、方法论设计、实施具体实践、实践结果说明与分析、总结与下一步工作的展望等完整流程中呈现如何将数字技术与方法应用于档案活动中。在这其中,美国NARA、欧洲数字图书馆、英国国家档案馆等在2016—2019年中均呈现了多个项目,如NARA将计算思维包括数据形成、操作、分析和可视化,设计和开发计算模型及计算机编程,开发调制计算解决方案和排除故障等多项方法持续运用于“二战”日裔集中营档案开发利用的多个子项目中[53]。再如,即使较为前沿的区块链技术,也是基于电子健康文件的分布式管理的MedRec等项目进行探讨。同时,通过档案领域对技术的使用优化实现双向促进。例如,记录研究人员作为利用者使用数字技术利用网络档案的全过程,应用研究对象框架来分析技术的使用结果与注意事项以此探讨如何优化相关技术[54]。
最后,除了技术外,整体观之下同样关注司法、行政、社会文化等维度的考量与融合。一方面,各类实践项目的提出具有这样的整体观,例如美国“二战”日裔集中营档案的相关项目出发点是深度讲述不同群体故事的同时又要保障当事人的隐私,报纸馆藏数字化的项目要求防范不同人种的肤色在数字化过程造成的错误[55]。另一方面,各类实践项目在总结性分析中将关注人作为主体与依赖于人的协作、规避法理与伦理风险、明晰组织机构的需求等作为重要策略。例如,记忆、身份认同、法律与伦理事宜等均在CAS研讨会现有议题中。
此外,这样的整体观下,技术与档案都强调更加开放和“集群”的理念:技术方面,倡议应有开放包容的形态,尝试运用各种技术,因而研究建议存有局限之处既是技术的发展空间,也需要技术搭配应用来解决一个或多个问题。例如,NARA在探索档案主题自动化挖掘的过程中就发现有必要多个技术组合使用。档案方面,也不仅限于严格定义的档案对象,后端档案资源开发的各类项目中有着档案属性不甚明确的记忆资源如图书、报纸,乃至卡耐基梅隆大学游戏开发档案所涵盖的各类数字形式的记录[56]。同时,从档案延展到文件端,区块链的多个研究更多是面向电子文件甚至形成于区块链上的数据进行探索。
2.2 主体层:跨领域协作趋于聚合性网络
研究进展同时显示出计算档案学通过跨学科的多元议题,基于涵盖各领域的实践项目实现主体力量的汇聚,逐渐建构出计算档案学的共同体。多元类型的组织机构参与到计算档案学的学术与实践探索,学术组织与实践机构相互协作,共同成为计算档案学的重要支持力量。
学术方面,马里兰大学、伦敦国王学院、英属哥伦比亚大学等通过建立实验室、申报项目、举办研讨活动等成为重要发起方。例如,马里兰大学建设数据策展创新中心,伦敦国王学院协同马里兰大学仅在2019年就在世界各地举办了四场计算档案学研讨活动,且均有项目支持。除了档案或信息管理类院校逐渐加入,技术专长的院校如麻省理工学院、斯坦福大学等亦是重要支持力量。
实践机构以档案为资源基于实践问题导向,成为探索计算档案学的重要阵地。NARA、英国国家档案馆、欧洲数字图书馆、欧洲大屠杀科研基础设施等提供了各类实验项目,也为学术组织开辟了合作渠道。例如,马里兰大学面向教学的计算档案学项目针对马里兰州立档案馆的部分档案展开数字化处理、数据挖掘和开发利用。
此外,来自学术组织和实践机构的各方力量也从多元参与人员中形成了跨学科的研究人才体系。研究力量仅通过档案学或信息管理类学者扩充支持体系实现跨学科对话已是基本策略,计算档案学得以推进的另一个关键是不同领域专长的研究人员遍布技术、历史、政治、媒介、艺术等领域,尤其是支柱型的以数字技术为研究专长的学者加入有效促进了对技术的理解及技术同档案需求的落实性匹配。
由此,计算档案学逐步形成了聚焦档案与技术融合的多元议题下的跨国、跨领域、跨组织的聚合性力量。例如,2019年计算档案学国家网络组织宣告成立,成员来自英国的伦敦国王学院数字人文中心、英国国家档案馆、马里兰大学信息学院、马里兰州立大学等多个学术组织或记忆机构。——论文作者:周文泓 代林序 贺谭涛 黄小宇 吴 琼
SCISSCIAHCI