发布时间:2021-08-02所属分类:免费文献浏览:1次
摘 要: 图书与情报
《机构知识库嵌入期刊数据规范管理应用与服务研究》论文发表期刊:《图书与情报》;发表周期:2020年05期
《机构知识库嵌入期刊数据规范管理应用与服务研究》论文作者信息:冯中华,男,南京水利科学研究院科技信息研究中心高级工程师;卢利农,男,中国科学院西北生态环境资源研究院文献情报中心馆员;祝忠明,男,中国科学院西北生态环境资源研究院文献情报中心研究馆员;徐灿灿,女,南京水利科学研究院科技信息研究中心工程师。
摘 要:在机构知识库数据建设过程中,开发设计具备更高自动化的期刊数据规范管理功能,提高元数据质量,可以为数据的进一步关联分析、聚类统计、决策审计等能力提供数据保障。 文章通过分析期刊数据规范的特征项及辅助因子,采用自动化实现的技术路线,实现对期刊数据规范的功能,并在数据的统计分析中测试修正。该期刊数据规范 管理功能具备较高的自动化程度,提高了工作效率,减轻了人力成本,并可高质量完成对相应数据的规范。针对期刊数据规范的自动化技术路线和功能实践,是一种切实可行、更加高效的实现路径,可在高质量规范数据的保障下提供更优质的机构知识库服务。
关键词:机构知识库;数据管理;期刊规范;自动化
Abstract In the process of data construction of Institutional Repository, the development and design of periodical data standard management function with higher automation can improve the quality of metadata, and provide data rantee for the ability of further correlation analysis, clustering statistics, decision auditing and so on. The characteristic items and auxiliary factors of periodical data specification were analyzed, the technical route of automatic realization was adopted to realize the function of periodical data specification, and the correction was tested in the statistical analysis of the data. The data specification management function has a high degree of automation, and it can improve work efficiency and reduce labor costs, and it can also complete the corresponding data specification with high quality. The nstandardized journal data may not be easily discovered on the display layer, so the manual specification is highly required. Aiming at the automatic technical route and functional practice of periodical data specification, it is a feasible and more efficient implementation path, which can provide better Institutional Repository service under the guarantee of high quality normative data.
Key words institutional repository; data management; periodical specification; automations
1 引言
期刊数据的规范性一直是图情领域所面临的一大难题, 不规范的期刊数据可能会衍生出一系列包
括数据冗余、数据不完整、期刊历史记录信息无法补 充、 数据统计与分析错误等问题。 对于机构知识库 (IR)而言,期刊数据的规范性显得尤为突出,期刊数 据质量是 IR 是否成功建设的重要标志。 在 IR 中,期刊中英文名称、 期刊 ISSN 号、JCR 简称等信息是数据建设工作中的深水区和重灾区。 在期刊数据中,发 表在同一期刊中的文章其“出处/来源”元数据由于 刊物历史名称的变更或输入不规范等原因就可能出 现各种不同,特别是外文期刊情况更加复杂,一种外文期刊名称有可能对应数十种以上的别名名称。 在 实际数据建设过程中, 需要耗时耗力将同一刊物发 表的文章都归并到该刊物名下。 因此,对于机构知识库中期刊名称、 期刊别名等数据的规范急需一种高效、稳定、准确的方式进行集中统一处理。 当前,国内 学者对期刊数据规范进行了相关研究,如王军辉等[1] 对期刊名称规范描述记录组成的文档, 实现对期刊信息的规范化管理以及外部数据本地化之后的统计和分析;张晓林[2]从期刊载文篇均引用文献、作者地 区分布统计、 基金论文比例和有作者机构标注论文 比四个主要指标来评价分析 CSSCI 来源期刊和扩展 版体育学期刊(2009-2011 年)的学术规范程度与学术影响力。 上述文献都是从期刊学术规范角度进行了研究, 但对因期刊变动导致期刊信息发生变化等 问题未进行深入研究。
文章从期刊的历史名称变更、 中英文期刊名称 不统一不规范等问题出发,给出一致化解决方案。 通 过对期刊信息自定义, 根据不同机构要求自定义期 刊信息数据, 对第三方系统提供标准的 RESTful 接 口服务,通过接口可以对接同步期刊基本信息、期刊影响因子、图谱分析等期刊信息数据。
2 研究现状
机构知识库数据规范的研究现在已不在少数,但对机构知识库中期刊数据规范的研究并不多。 大多数都是只针对论文期刊信息显示的规范性进行研 究,采取最为普遍的方法是建立唯一的标识符(Name Identifier)对期刊数据进行规范。 但随着对期刊数据规范性要求的提高, 机构知识库通过对期刊数据的信息进行全面补充, 探讨期刊变动对期刊的字段信息的影响变化,进而对期刊的数据信息规范。 期刊数 据规范不仅可以根据期刊的历史记录信息查看期刊 历年的影响因子,而且为数据的进一步关联分析、聚 类统计、决策审计等能力提供数据保障。
对于机构知识库中的期刊数据处理目前还是采 用较为传统的人工介入的方式来完成。 一般的方式 为, 在作品提交或编辑时由提交者或管理员手动的 对作品的出处、作者单位等字段值进行规范。 采用此 种数据规范方法存在效率低下、 人力成本较高和由 于人工规范失误所导致的知识图谱统计分析信息错 误、期刊论文详情页中来源期刊和 ISSN 号等元数据书写不规范、 论文期刊的统计分析错误以及检索导出条目数据错误等各种问题(见图 1)。
由上图可知, 名为 “JOURNAL OF BIOLOGICAL CHEMISTRY”的期刊存在“JOURNAL OF BIOLOGICAL CMT”别名,在不对该期刊进行规范时,系统会默认存在上述两个名称的期刊,但实际上,上述名称 的刊物为同一期刊。未被规范的数据直接影响的就是统计图谱的准确性,而错误的知识图谱将严重影响机构科研评价、知识共享的能力。 因此急需开发对应的数据管理规范功能, 对机构知识库中的数据进行规 范, 并且对于数据管理规范的目标尽可能多的由机 器进行规范处理,以此来提高准确度与自动化程度。
为解决因期刊数据不规范而造成的各种问题,中国科学院西北生态环境资源研究院文献情报中心 研发的机构知识库采用了一种较为高效的方法对期 刊数据进行规范。 首先,由用户在期刊数据中新增期 刊,然后为该新增期刊建立别名库,将该刊存在的名 称形式归入别名库, 对期刊别名的整合规范处理可 以提高引文数据与基础数据匹配的成功率。 在系统 中则是为该新增期刊设定唯一标识符, 在用户进行期刊类别统计分析时, 将知识作品的出处属性字段 值与期刊别名库中的值进行一一匹配,若匹配成功,则为该字段赋予唯一标识符, 表示作品来源为该新 增期刊。 在此规范过程中除人工新增期刊外,其余流 程都将由机器进行规范操作。
另外,还有一些有关数据规范的算法研究。 如曾 新等[3]提出的基于 join-based 的数据规范化算法DNRA;温捷文等[4]提出的批再规范化算法;米允龙 等[5]提出的基于区间模糊匹配函数的数据清洗算法 等, 其共同特点均是抽取规范数据特征项后再利用其他数据挖掘方法对数据进行聚类规范, 但由于此类算法的应用宽广性, 多使用在语义类别数据处理方面。 由于机构知识库规范数据的特殊性与严谨性,仅依靠数据规范算法来对机构知识库数据进行规范显然是不合理的,因此,开发针对对应的机构知识库数据的规范功能, 再配合算法进而规范机构知识库数据, 可实现将外部数据本地化之后进行统计和分析,使期刊管理高效化。
3 期刊数据特征项及辅助因子
期刊规范数据特征项需要具备的是准确对期刊 规范数据的描述能力,一般选择如“ISSN”号作为其
特征项,期刊名称、期刊别名作为辅助因子,具体介 绍如下:
3.1 期刊数据的特征项
标准国际刊号(ISSN 号) [6]具备唯一性,它可以 更好的聚类规范数据。 在进行期刊数据规范时,通常 采用 ISSN 号作为期刊数据特征项来规范数据。 一般 情况下,每一个期刊都对应一个 ISSN 号。 但对于一 些期刊可能存在发行的电子刊和纸刊对应不同的标 准国际刊号、一些期刊的 ISSN 号会随着期刊变更而进行变化,但实际上这些变更的 ISSN 号对应的都是 同一期刊, 对于出现此类 ISSN 号不同但属于同一期刊的问题, 我们在做数据规范时会存储期刊的历史记录以及期刊的变更记录, 并根据这些变化的值来进行期刊数据规范。
3.2 期刊数据的辅助因子
辅助因子作为期刊数据规范流程中不可或缺的 一部分, 是判断论文期刊详情页中的特征项与期刊 规范库中特征项是否匹配和人工规范确认中间的桥 梁。 在通过特征项不能进行匹配确认时,就要考虑到 使用一些辅助因子来进行二次匹配确认期刊数据。
期刊的名称样式可能存在多种情形。 一些外文 刊物名称可能存在大小写问题导致别名形式[7]众多, 一般公开发表的学术作品均会有出处信息, 可依据 此来判断作品的来源,如根据名称为“Advanced Energy Materials”的刊物作品,可判断出知识作品的出 处属性(见表 1)。
4 数据规范功能框架及流程
4.1 数据规范框架设计
期刊数据规范功能的开发要找到具备一定描述 机构知识库期刊规范的特征项, 确定数据规范特征
项及其辅助因子后, 就具备了对规范数据的细致准 确的描述, 同时也能对数据管理规范功能的框架进行设计(见图 2)。
在机构知识库中知识作品的存缴存在多种形 式,一般的方式为个人作品提交、管理员进行批量导 入、数据回溯或通过 OAI 数据接口收割同步等。为了 使存缴的知识作品中的发表期刊、 出处等元数据单 元值发生变化后, 知识图谱依然是基于期刊规范数据统计分析得出,在知识作品存缴后,系统会调用期 刊规范数据事件, 触发期刊数据规范管理模块对论文的来源期刊、影响因子等元数据进行规范。
其中,在进行期刊数据规范管理时,系统内部均 通过具备唯一标识能力的数据特征项及其辅助因子
综合来确定规范数据名称[8]。如在进行期刊数据规范 时,首先会触发期刊规范管理事件,对所匹配到的知识作品由系统检测存在对应的期刊别名, 在内部规 范时便将此期刊别名归入规范的期刊名称下, 再比 对电子期刊数据具备唯一标识能力的 ISSN 号,当ISSN 号相同,且其他辅助因子对应准确率较高,则说 明为同一期刊,即该条期刊数据规范正确。 在进行期 刊排行等图谱统计分析时, 此知识作品会自动被归 并到规范的期刊名下。
对没法合并的非规范数据, 系统提供了人工规 范确认功能,由人工进一步纠正规范数据信息。
4.2 数据规范流程
期刊数据规范流程的核心是整个数据规范事 件, 特征项的匹配性直接影响是否继续执行数据规 范事件。 而数据规范的流程正是体现到利用机器进 行自动化实现。 在数据规范时,系统会重复读取知识作品中的特征项数据, 而后与规范库中的规范特征项唯一标识进行比对, 若匹配且其他辅助因子匹配 性也较高则可判断为同一数据,进而完成规范操作, 否则都会由人工介入进行二次审核以此来进行数据规范(见图 3)。
5 数据规范功能实现
5.1 数据规范唯一标识机制
数据规范的前提是需要一个唯一标识来代表某 一个规范数据。 当唯一标识被建立后,就需要将未规 范及待规范的数据信息映射到该唯一标识[9]中。将期 刊数据规范及机构数据规范中所设定的数据规范特 征项 ISSN 号字段作为唯一标识,即得到期刊数据规 范项(见图 4)。 唯一标识的确立,保证了数据统计及传递时不会出现数据混乱的错误[10]。
5.2 数据规范设计
5.2.1 根据期刊 ISSN 号特征项及辅助因子进行规范
在当前提交或采集的期刊知识作品中, 首先会 提取知识作品的 ISSN 号, 与规范期刊的 ISSN 号进 行匹配,当 ISSN 号匹配成功时,且辅助因子匹配率 较高,即表明为同种期刊。 当 ISSN 号匹配失败,但辅 助因子匹配成功时, 就要考虑到因期刊变动引起的 期刊 ISSN 号不同,或者同一种期刊出现的电子版与 纸质版的 ISSN 号不同问题,此时就通过将期刊的历 史变动数据处理来判断期刊为同种期刊。
5.2.2 自动化期刊数据规范
期刊数据规范的功能在于解决因数据不规范造成的论文期刊详情页中字段值不规范以及统计分析中图谱错误的问题。 而加入自动化规范期刊数据的技术,能够避免因人为因素造成的失误,同时能够减 少人力资源浪费。
自动化期刊数据规范流程:通过云端技术从其他 期刊库中获取到需要的期刊数据信息, 构建一张本 地期刊数据规范表, 期刊规范表中包含一些在论文 期刊详情页以及统计分析中常用的规范字段, 如影响因子、五年影响因子、JCR 分区、CAS 分区、学科信息、出版周期、历史信息记录和收录类别。 系统通过 收录期刊的历史数据存储期刊往年的影响因子等字段信息, 有效的解决期刊因变动造成的收录类别变 化的问题,并按照分区规则要求对分区信息字段进行规范。 论文期刊详情页数据规范显示:通过 Ajax 同步请求读取期刊数据规范表中数据的技术, 在客户 端发送数据规范请求后, 服务端接收到请求后会根据传送过来的特征项唯一标识与规范库中的 ISSN 号进行匹配,若匹配成功,服务端将规范库中的数据发送给客户端,进行字段值的规范。 若匹配失败,则需要 将客户端的期刊名称,期刊别名等辅助因子与规范库 中对应的辅助因子进行匹配,匹配成功后,服务端将 规范库中的信息发送到客户端进行数据规范展示, 若辅助因子匹配失败, 此时就需要介入人工进行期 刊数据处理。 论文期刊统计分析图谱展示:本地期刊数据规范表建立后,设定统计分析条件,系统中将规范库中的特征项与辅助因子进行聚类统计分析,获 取统计分析图谱(机器化数据管理规范见图 5)。
5.2.3 人工规范确认
人工规范确认是进行机器化数据管理规范后一 个纠错的过程, 如对于一些规范错误的数据或未被 规范的数据由管理员统一进行规范。
6 应用案例及效果
期刊规范功能汇集国内外近 1.7 万种期刊信息, 其中包括国别、语种、ISO、ISSN、EISSN 等基础信息,也包括历年影响因子、 对应收录类别排名等重点信息,对期刊信息进行自动关联、聚类、分析,并生成可视化图谱(见图 6)。 同时,期刊信息可自动关 联至成果数据, 实现成果数据中发表期刊字段的自 动关联更新[11]。 该功能支持对期刊信息自定义,根据不同机构要求自定义期刊信息数据, 对第三方系统提供标准的 RESTful 接口服务, 通过接口可以对接同步期刊基本信息、期刊影响因子、图谱分析等期刊信息数据。 而这一功能在一些机构得到很好的应用, 如:南方科技大学知识苑(SUSTech-KC)以及中国科学院的一些研究所。
6.1 论文期刊成果数据规范应用
对期刊数据进行规范后,通过 Ajax 技术[12]将期 刊数据的规范表中的数据读取到期刊论文的详情页 中。 对期刊论文中的发表期刊和 ISSN 号字段进行自动规范填写, 从而可以根据发表期刊来查看期刊论文的影响因子以及 JCR 分区的信息。
6.2 论文期刊统计分析图谱应用
系统将自动化获取到的期刊数据进行规范后, 可以用于论文期刊的统计分析。 在统计分析时可以 使用规范后的字段信息作为统计条件进行分析。 当 按 JCR 的分区方式进行论文期刊类别统计分析时, 即可得到期刊类别分布图 (见图 7)。 即得到不同效果图(见图 8)。
从上述论文期刊统计分析图的数据管理规范结果来看, 采用机构知识库的期刊数据规范方式将更 准确地展示期刊数据、更清晰地查看统计分析结果。 同时机构通过不同 JCR 分区的论文期刊数量和影响因子来判断该机构的发文质量, 也可以通过不同刊物名称的论文期刊分布图查看机构的常用发表期 刊, 用来帮助机构在一些有较高影响力的期刊上进行论文期刊的发表, 同时机构根据统计分析出的数 据可以对一些发表的高质量的论文进行奖励, 鼓励科研人员多发表一些高质量的数据。
7 结语
综上所述, 在机构知识库数据规范管理中期刊 规范数据的建立可以让知识资产更加方便维护管 理, 也有利于知识资产的多级组合定制统计分析以及知识资产的共享传播利用, 因此对于期刊数据规 范管理是具备其独特意义的, 数据规范管理功能的实现也意味着机构知识库自动化程度的进一步提升。 同时,通过期刊规范功能的实现,目前已累计 1.7万条详细的期刊规范词表, 可以以接口的方式广泛的应用于知识服务领域的各类期刊规范服务中,具 备积极的社会效应。 此外,在规范性数据的保障下, 更多深层次的机构知识库应用服务也将被广泛应用,机构知识库也将真正成为机构自身管理、利用、 传播知识资源的综合应用型平台。
此外, 目前的机器自动化数据规范管理由于各 类别名的多样性及其它元数据规范情况的不统一, 虽已有较高的自动化处理能力, 但依旧无法完全实 现机器规范化处理, 这两个问题目前还是机构知识库以及数据分析领域的两大难题, 还需要不断的探 索与实践[13]。
参考文献:
[1] 王军辉,方安,任慧玲,等.期刊规范文档建设方案与应用场景研究[J].数字图书馆论坛,2015(7):9-13.
[2] 张晓林.中文类体育核心期刊学术规范分析[J].体育文化导刊,2012(8):151-155.
[3] 曾新,李晓伟,杨健.基于数据规范化的 co-location 模式挖掘算法[J].计算机科学,2018,45(S1):482-486.
[4] 温捷文,战荫伟,凌伟林,等.实时目标检测算法 YOLO 的批再规范化处理[J].计算机应用研究,2018,35(10):3179-3185.
[5] 米允龙,李金海,米春桥,等.基于区间模糊匹配函数的数据清洗算法研究及其在问卷调查中的应用[J].南京师范大学学报(工程技术版),2017,17(3):70-79.
[6] 国际标准刊号[EB/OL].[2020-04-19].
[7] 王鹏,马湃.医学期刊中常用中药规范用名与别名校正[J].河南中医,2004(12):67-69.
[8] DOI 标识符查找文献的方法[J].台湾农业探索,2019(4):46.
[9] 赵蕴华.国内数字期刊资源唯一标识符的应用研究[J].情报科学,2007(7):1018-1021.
[10] 刘巍,祝忠明,张旺强,等.机构知识库中作者标识与作品认领机制的研究与实现[J].现代图书情报技术,2014(3):8-13.
[11] 徐春,李广原.一种高效的增量更新约束关联规则挖掘算法的研究[J].广西师范学院学报(自然科学版),2016,33(2):48-54.
[12] 王菲露,李军,宋杨,等.基于 Ajax 技术的 ECharts 实时图形报表实现[J].黑龙江工业学院学报(综合版),2019,19(12):79-83.
[13] 陈孝文,陈宁,李蕊,等.基于 MAPREDUCE 并行化处理的用户地址数据规范化存储与管理系统设计[J].电子测试,2019(2):87-88.
SCISSCIAHCI