基于文献计量的中文科技新词探讨

发布时间：2020-01-14所属分类：管理论文浏览：1次

摘要：摘要: 文章以中国知网的中文学术文献数据库为基础，利用词频统计，结合时间参数，对中文科技新词做了探讨。文章认为，高被引论文的关键词包含了专业领域的重要中文科技名词。统计结果表明，大部分高被引论文为基金论文。由于基金论文在全部论文中所占比例较

　　摘要: 文章以中国知网的中文学术文献数据库为基础，利用词频统计，结合时间参数，对中文科技新词做了探讨。文章认为，高被引论文的关键词包含了专业领域的重要中文科技名词。统计结果表明，大部分高被引论文为基金论文。由于基金论文在全部论文中所占比例较低，因此，不需要考虑全部新论文，只要对其中基金论文的关键词做词频统计，就有助于发现大部分重要中文科技新词。这样，既减少了工作量，也减少了盲目性。此项工作对科研工作者和术语工作者有一定帮助。

基于文献计量的中文科技新词探讨

　　关键词: 大数据; 文献计量学; 基金论文; 词频统计; 中文科技新词

　　引言

　　首先说明，本文所指的科技新词，是指在所考察时段才出现，而在该时段之前没有出现过的科技名词。科技新词发现越早，越可以及早规范定名，就可以尽量避免因定名过晚，多名并存导致的混乱。

　　从中国知网( CNKI) 来看，关于这方面的文献，主要有 3 篇: 才磊的《科技新词工作初探》[1]，张晖的《科技新词工作实践探索》[2]和余恒、崔辰州、张晖的《天文学英语新词自动提取系统》[3]。《科技新词工作初探》主要就科技新词的概念、科技新词的界定、科技新词的来源及其构成着手，探讨了如何开展科技新词的命名及审定工作，但未讨论具体如何操作。《科技新词工作实践探索》在操作层面做了探讨，提出自动抽取与专家推荐相结合的办法，但实际效果与期望有一定差距，未能持续开展工作。在中文名出现之前就及早发现英文科技新词并为之确定中文名是最理想的。因此，《天文学英语新词自动提取系统》就提出了一套全新的天文学英语新词自动提取系统。该系统综合使用脚本过滤、术语识别、正则表达匹配等多种方法，能够自动追踪 Ar Xiv 论文数据库的更新，分析天文学论文的内容，生成推荐术语列表。但一个问题是 Ar Xiv 论文数据库虽然可以免费获取，但覆盖的学科及论文数量都太少，大部分学科都缺乏可免费获取的系统、全面的论文资源，因此作用有限; 另一个问题是该系统虽然按照词频统计生成了新词列表，但并不是每个科技新词都值得为之定名———很多科技新词没什么价值，往往过段时间就会被淘汰或很少使用。所以，如果对每个科技新词都要关注，都要定名，就会做很多无用功。对科技新词而言，更重要的是确定其重要性，只有重要的科技新词才需要及早定名。

　　术语学工作者或不熟悉某专业领域的科研工作者，虽然对相关专业也有一定了解，但毕竟不了解该领域发展的前沿，所以能首先认识到一个科技新词 ( 包括中文或英文新词) 重要性的，更多的可能还是一线专家。一个科技新词的定名，需由相关领域的众多专家经过一定时间的讨论，按照一定的程序才能审定公布。而了解一个科技新词的重要性，并在该领域从事科研工作的专家，出于学术竞争及创新性的考虑，往往会尽快使用该词发表论文，而不会等到许多专家都知道，再经过较长时间讨论并给出规范名称再使用该词。他使用该科技新词时，要么自己为该词命名，要么沿用别人用过的名称。所以，大多数科技新词，在规范的中文名称审定公布之前，就已经有其他中文名称存在了。因此，要想由术语学工作者、名词审定工作者，在其他人命名之前就首先为一个重要的科技新词确定中文名，是一项比较困难的工作。更可行、更容易的是及早发现一个重要的已有中文名的科技新词。

　　鉴于英文科技期刊的国际影响力，目前大家对英文科技新词及其中文译名都比较重视。但实际上，除了英文科技新词之外，探讨原创的中文科技新词也很重要: 首先，中国已成为具有重要影响的科技大国，有很多重要科技成果是首先用中文发表的，因此，中文科技论文里有很多原创的重要的科技新词。其次，在世界历史的长河中，中国曾经在很长一段时间里遥遥领先西方，目前中国正处于民族伟大复兴的征途中。许多有识之士认为，按照目前的发展趋势，中国将来有望再度领先世界。中国的科技、文化、中文也将有望像现在的美国的科技、文化和英文一样，成为世界的主流，越来越多的重要的科技新词也将首先在中文科技论文里出现。因此，不管是立足现实，还是面向长远，探讨中文科技新词都具有重要意义。所以，笔者在此主要探讨及早发现重要中文科技新词的问题。

　　关于发现中文科技新词，要考虑两个问题，一是来源，二是如何筛选。

　　关于来源，笔者认为，科技名词毕竟属于专业领域，要从专业文献数据库中筛选，否则选用良莠不齐的非专业文献，从数量上求多求全，会做很多无用功。考虑到科技新词反映了科技发展动态，笔者以中国知网的期刊论文数据库为数据源，选择论文的关键词筛选科技新词。选择论文关键词的原因在于方便中文分词。对选择论文的关键词筛选科技新词，有人提出异议，认为在实践中存在科技新词可能首先不在论文的关键词中出现，而在正文中出现的情况。但笔者认为，一个重要的科技新词，不可能在该领域所有时段、所有论文的关键词中都不出现，它总会在某些时段、某些论文的关键词中出现，否则该词就无足轻重。因此，即使在出现该新词的时段的论文的关键词中没有发现该词———这意味着该词在该时段虽然是新词，但并未得到大家关注; 也能在其后的某些时段、某些论文的关键词中发现该词———这意味着该词的重要性在这些时段才逐渐得到了大家的认可，该词也成为这些时段的重要科技名词。所以对关键词做词频统计，在原则上可以发现所有重要的科技新词。

　　相关期刊推荐：《中国科技术语》致力于建设有中国特色的术语学理论、促进全球华语圈科技术语的规范和统一。是由科技专家和语言专家合力打造的集科技与人文于一体的综合性刊物。主要介绍国内外术语理论研究成果，公布规范科技名词，发布试用科技新词，组织重点、难点科技名词的定名讨论，探究科技术语的历史文化内涵，报道科技名词规范工作动态，是促进术语学在我国发展的权威杂志，是及时发布规范汉语科技名词的媒体，是集中展现我国科技名词术语审定工作情况的窗口。

　　关于筛选方式，利用大数据做词频统计是发展方向，但需要改进。实际上，现代科技发展越来越快，各学科越来越趋向纵深与融合，专家精通的领域也越来越狭窄，很难对所在领域的最新进展有全面系统的了解，所以仅依靠少数专家提供科技名词的传统模式已经难以适应现代科技快速发展的需求，需与时俱进，探索新的模式。利用大数据统计选词就可以从宏观量化上弥补这个不足。改进的思路是建立一个可尽早判断科技名词是否重要的大概原则，以便尽量缩小筛选范围，当然还要保证是新词，不是以前出现过的旧词。

　　一重要名词与重要论文

　　科技新词的定名不能等太久，否则其使用就会越来越混乱。而新词刚出现的时候，其所代表的概念的内涵和外延都不太稳定，与所在领域的其他科技名词的关系也不太清晰，因此，即使该领域专家也需要等一段时间才能发现其是否重要，不可能一蹴而就。这就是一对矛盾。这里所说的判断科技新词重要性的原则，不是从科技新词的科学意义上来判断的，而是从术语学的角度，为了减少工作量，缩小筛选范围而发现的形式特征。但这些形式特征足以保证大多数具有重要科学意义的科技新词，在设定的较小的范围内，在其出现的早期就被发现，因而可以尽量减小这个矛盾。

　　对术语学工作者或不熟悉某领域的科研工作者来说，从一个科技名词的名称上来判断该词是否重要并不容易。但如果有很多论文和不同的作者研究、使用的名词，即高频词应该很重要。显然，这种判断对旧词来说是成立的。但对新论文、新名词来说，这样判断就行不通了，因为研究、使用新词的论文和作者都很少，该词词频不可能很高。所以，不能从词频角度来判断新词是否重要。

　　另一方面，如果一篇重要论文把该词作为关键词，就能判断出这个科技名词可能很重要，即重要论文的关键词就包含重要名词。这就把判断科技名词重要性的问题转化为判断论文重要性的问题。对旧论文旧名词来说，判断其重要性还是很容易的: 一篇论文是否重要，一般来说，目前的判断标准还是以被引频次为主，即高被引论文就是重要论文。高被引论文的关键词就包含重要科技名词。所以，可以用高被引论文关键词词频统计的方法来发现重要名词。但对新论文新名词来说，从论文被引频次判断就行不通了。因为新论文刚出现不久，人们不能立刻判断出其是否重要，还需要有一过程，因而被引频次可能不高。所以，对于新论文新名词，就需要寻找其他特征。如果找到了与高被引论文有关的其他特征，就可以根据这些特征预判新论文、科技新词的重要性。

　　二与重要论文有关的特征

　　中国知网的检索条件有: 支持基金、来源类别、来源期刊 3 个选项，另外检索结果的分类浏览还有研究层次，这几项与论文的重要性有关，需要仔细分析。

　　1.基金论文

　　一篇论文是作者一个研究项目的成果，是否重要是从结果来判断的，但这个研究项目还是一个过程，我们还可以从整个研究过程来看。可以认为，一篇重要的论文来自于一个重要的研究项目。而一个重要的研究项目在源头上一般是需要有资金资助的，而有资金资助的研究成果当然就是基金论文了。所以，是否有基金资助有可能作为论文重要性预判的一个重要依据，基金论文很可能会成为重要论文，或者说大部分基金论文比非基金论文重要。

　　由此可以想到: 基金论文的被引频次一般比非基金论文的被引频次要高。实际上，已经有多篇文献发现了这个规律，如董建军通过对中国知网中国学术文献出版总库中收录的各类基金论文的文献量和篇均被引频次的研究，发现基金论文从整体上来看能够获得比一般论文较高的被引用[4]; 戚尔鹏，叶鹰用 Web of Science 数据库收录的 2010— 2012 年基础学科论文数据进行实证研究，结果揭示除逻辑学外所有基础学科的基金资助引用优势为正，表明基金论文的被引频次和影响力普遍高于非基金论文。讨论分析了基金论文获得较高引用的原因，揭示基金论文更易获得引用是因其具有相对较高的品质[5]。

　　以上是从文献的质量来比较，从数量来看，又是如何呢? 即高被引论文中的基金论文能占多大比例呢? 关于这方面的统计数据，目前还没有查到相关文献。为此，笔者分别以数学、物理学、化学、力学和生物学为文献检索目录，检索了中国知网 2010— 2012 年历年的期刊论文、高被引期刊论文( 这里指被引频次≥5，检索时间为 2018 年 8 月中下旬) ，并筛选出高被引论文中的基金论文。统计结果见表 1。

　　从表 1 可见，这些学科的大部分高被引论文是基金论文。除数学略高于 64%以外，其他 4 个学科的高被引论文中的基金论文所占比例都高达 70% 以上，有些甚至超过 80%。显然，数学研究主要依靠研究人员自身的理论思维，而其他学科则还与客观世界的实践、实验有关，需要具备一定的物质条件，没有资金支持，研究工作很难开展，而有更多资金支持就可能做出更好的研究成果，这是科技领域大部分高被引论文是基金论文的重要原因。

　　既然统计数据表明大部分高被引论文是基金论文，而高被引基金论文又只是全部基金论文的子集，那么某时段期刊论文中的全部基金论文就包含了该时段大部分高被引论文，即重要论文。这些论文之间的集合关系可用图 1 表示。其中，A 代表期刊论文，B 代表高被引论文，C 代表基金论文，B∩C 代表高被引基金论文，B∩C 占了 B 的大部分。

　　显然，从宏观比例上看，论文越多，其所包含的关键词也越多。因此，对该时段全部基金论文( C) 的关键词做词频统计，就可以发现该时段大部分高被引论文( B∩C) 的关键词，这些关键词就包含了该时段大部分重要论文( B) 的关键词，即该时段大部分重要的关键词。实际上，科研工作者在申请科研基金的时候，需对所在领域文献有充分了解，因此基金论文会引用之前的高被引论文，所以，基金论文的关键词会包含所在学科的一些重要科技名词。对新时段而言，对该时段全部基金论文的关键词做词频统计，就可能提前找到将来被发现具有重要意义的大部分科技名词。

　　2.来源类别与来源

　　期刊对来源类别来说，显然，SCI 来源期刊、EI 来源期刊、核心期刊、CSSCI、CSCD 都是比较重要的期刊，在这些期刊上发表的论文一般来讲比其他期刊论文重要。检索时，文献分类目录选择对应的学科，来源类别可以选择以上那些重要的分类，当然也可以是全部期刊。选择来源类别主要是为了包含综合性期刊里的专业论文。

　　对来源期刊来说，检索每个学科的专业期刊时，如果文献分类目录选择对应的学科，则检索出的文献就会比不选择学科的检索结果少很多。如检索《力学进展》2010—2012 年的文献时，文献分类目录选择“力学”时，找到 135 条结果; 但不做任何选择时，找到 240 条结果。这是因为，现在各学科都是互相交叉、融合发展，而不仅仅局限于本学科本专业。所以，在检索某学科的专业期刊时，不能选择文献分类目录中的学科选项，而是要不做任何选择，就包含了专业期刊里的全部论文。

　　以上选择期刊来源类别并对应学科目录的检索结果，和选择全部专业期刊并不对应学科目录的结果有重复，需要查重并删除重复的内容。

　　3.研究层次

　　检索结果的分组浏览下有个“研究层次”选项，显然，重要的科技新词与“研究层次”下的“基础与应用基础研究( 自科) ”及“工程技术( 自科) ” 关系密切，其他层次可不用考虑。

　　三如何查新

　　检索到了需要的重要论文之后，要对这些论文的关键词做词频统计，才能发现重要的科技名词。但词频统计发现的不同名词很多，而且大部分都是之前很早就出现过的旧名词，新名词很少。如果一一检验，既费时又费力，会做很多无用功。那么怎样才能尽快发现新名词呢? 为行文方便，以下举例说明。

　　前文曾说过本文所指的新名词，是指在所考察时段才出现，而在该时段之前没有出现的名词。例如，在 t1—t2期间才出现的新名词，在 t1之前( 包括 t0—t1期间) 就没有出现。我们可以考察延拓的时段 t0—t2。知网的文献检索结果有“PubTime-发表时间”这一项。显然，如果在做词频统计的时候，同时统计关键词在 t0—t2期间最早出现的时间，就会发现在 t1—t2 期间出现过的很多关键词，最早在 t0—t1期间就已出现，这些关键词就肯定不是 t1—t2 期间才出现的新名词，这就可以筛掉很多旧名词，只剩下少数最早出现时间在 t1—t2之间的术语才需要检验是否新名词，这就可以减少很多工作量。

　　显然，时段 t0—t1越长，筛掉的旧名词就越多，需要人工一一检验 t1—t2 之间的新词就越少。当 t0—t1足够长之后，就会筛掉该专业发展历史上几乎所有的旧名词，这时候基本上只需要统计关键词的词频和最早出现的时间，不用人工一一检验，就可发现 t1—t2之间的新词。而时段 t0—t1足够长的情况，实际上相当于一个包含该专业发展历史上所有常用和重要术语的语料库和术语库，由此也可见建设完备的语料库和术语库对发现科技新词的重要性。另外，如果所考察的时段较长或该时段距离现在时间较早，就不能以基金论文为考察对象，而应以该时段的高被引论文做时段延拓和词频统计。

基于文献计量的中文科技新词探讨

热门核心期刊

sci|ssci服务

EI|SCOPUS服务

翻译润色解答

论文发表指导

学术成果常识