发布时间:2019-04-16所属分类:文史论文浏览:1次
摘 要: 摘要:随着科学技术迅速发展,学术成果呈爆炸式增长,挖掘论文的核心作者、识别高引论文、分析文献主题变得日益重要。通过Python抓取中国知网1953-2018年间990篇水族文献,基于文献的计量分析方法挖掘出我国水族文献的高影响力期刊、报纸及机构,分析水族领
摘要:随着科学技术迅速发展,学术成果呈爆炸式增长,挖掘论文的核心作者、识别高引论文、分析文献主题变得日益重要。通过Python抓取中国知网1953-2018年间990篇水族文献,基于文献的计量分析方法挖掘出我国水族文献的高影响力期刊、报纸及机构,分析水族领域高引论文、发文热点时间及核心作者;基于知识图谱的分析方法构建水族文献核心科研群体及作者间的合作关系,并揭示出水族文献的主题演化趋势。实验结果展示我国水族文献的发展历程、核心科研群体和高引论文,识别出水族文化、体育、音乐、医学和水书五大主题的关键词及历年的主题演化趋势,为水族文化的研究和进一步发展提供相关启示。
关键词:水族文献,计量分析,知识图谱,高引论文,中国知网
随着科学技术迅速发展,学术成果呈爆炸式增长,基于文献的计量分析可以挖掘出一个研究领域的高影响力期刊和机构,识别出高被引论文的主题、出版社和核心作者;基于知识图谱的分析可以构建文献作者的合作关系,挖掘出核心科研群体,并揭示文献的主题演化趋势。水族是一个具有悠久历史和古朴文化的民族,繁衍生息于贵州、云南、广西等省份,拥有独特的民族文化、风土人情和语言文字[1],具有重要社会历史文化价值。
近年来,学术界和社会媒体掀起了研究水族文化和水书的热潮,1953年至今,中国知网共收录水族相关文献990余篇,涉及水族文化、水族体育、水族医学、水族音乐、水书文字等主题。水族文献作为水族文化和知识交流的重要载体,是水族相关的学术研究团队或科研工作者贡献的重大成果。这些学术成果将有效地推动水族学科和领域的发展,为进一步追踪水族源流、研究水族文化变迁、保护和传承水族文化提供相关启示。
传统的学术成果研究方法是基于文献计量学和科学计量学的方法,分析内容包括文献的主题、地域分布、机构分布、核心作者、引文特点等。姜春林通过文献计量历时法对《科学学研究》做出全面的计量分析[2]。梁永霞等基于CSSCI的中国引文分析进行了可视化研究,展现引文分析领域的知识结构关系[3]。黄晓斌等统计分析我国情报学高被引论文,展示情报学的发展历程和学科主题[4]。蔡文伯等通过计量分析方法研究我国民族教育文献态势[5]。
王宗水等基于1998-2014年中国社会科学引文数据分析社会网络范式的演化、发展与应用[6]。徐庶睿等利用引文内容进行主题级学科交叉类型分析[7]。近年来,国内外学者致力于通过数据分析与机器学习技术来研究学术文献,基于社交网络和知识图谱的引文分析技术也被用来辅助科研工作者和管理者把握学科发展脉络,挖掘主题关键词和核心作者。罗双玲等提出了基于半积累引文网络社区发现的学科领域主题演化分析方法,并应用于“合作演化”领域[8]。马文博等通过文献计量方法和知识图谱分析《经济研究》近十年载文[9]。
任晓松等归纳研究中国碳排放热点演化与知识图谱分析[10]。当前水族领域的研究更多的是采用传统的查阅资料、现场考察及问卷调查等方法分析水族文化、历史、习俗、水书内容,没有采用计量分析方法和知识图谱来研究水族文献,缺乏对水族文化深层次的主题演化和科研群体发现的研究。
针对这些不足,本文提出了一种基于计量分析和知识图谱的水族文献分析方法,一方面统计分析水族文献的高影响力期刊、报纸及机构的基本情况,挖掘水族领域高被引论文、发文热点时间及核心作者;另一方面通过知识图谱构建水族领域核心科研群体及作者间的合作关系,并揭示出水族文献的主题演化趋势。本文的研究成果具有重要的理论意义和实用价值,对传承与弘扬水族传统文化具有重要意义,为水族文化的研究和进一步发展提供相关启示,为后续的水族引文分析、水族迁徙研究和水族文化传承提供有效支撑。
1研究方法和数据采集
1.1算法总体流程
当前科研成果的分析研究已经引起了社会和学术界的广泛关注和重视,所涉及的领域包括引文分析、论文自动分类、主题挖掘、学术成果测度、论文知识图谱构建等。本文主要是关于水族文献的计量分析和知识图谱研究。(1)调用Python、Selenium和XPath技术自动抓取中国知网水族领域的文献共990篇。(2)对所抓取的论文信息进行数据预处理,包括数据清洗、数值提取、中文分词、停用词过滤等处理,这是数据分析的重要处理环节。(3)将预处理之后的文本数据转换为特征词矩阵,涉及特征提取和权重计算。(4)通过计量分析和知识图谱方法研究水族文献,包括水族高影响力论文、知识图谱挖掘核心作者及科研群体、水族文献主题挖掘及演化趋势等。
1.2数据说明及预处理
本文数据集采用Python自定义爬虫抓取中国知网CNKI水族领域相关的学术成果信息,包括1953-2018年共收录的990篇水族领域的学术文献,其中学术期刊论文662篇,会议论文106篇,博士论文7篇,硕士论文91篇,中国专利5篇,科技成果3个,报纸116篇,详细信息如表1所示。所抓取的水族文献共包括九个字段,包括文章标题、出版社、文献类型、出版年份、下载次数、引用次数、作者、摘要和关键词。
在进行数据分析之前,通常需要对所爬取的信息进行预处理操作,包括缺失值填充、异常值处理、数据清洗、中文分词、停用词过滤等步骤,其目标是为了得到高标准、高质量的数据,从而提升分析的结果。接着从六个方面分析水族文献,包括水族文献的高影响力期刊报纸及机构计量分析、高被引水族论文计量分析、水族文献的时间跨度分析、高引论文的核心作者分析、核心作者知识图谱分析及科研群体发现、水族文献主题挖掘及演化趋势。
2水族文献分析及研究
2.1高影响力期刊、报纸及机构计量分析
本文将分析水族文献的高影响力期刊、报纸及机构,所采用的指标是刊载成果数量、总引用数量、总下载数量、篇均引用数量和篇均下载数量。
(1)引文期刊分析
对水族学术期刊论文的计量分析,可以从宏观层面揭示出刊载期刊及研究群体的力量分布情况,也在一定程度上挖掘出高影响力的期刊,它们对水族文化研究做出了重要的贡献。其中《黔南民族师范学院学报》刊载论文数量最多,共刊载45次;《贵州民族研究》总引用次数最多,42篇论文共被引用203次;《人类学学报》篇均引用数量最高,刊载10篇论文,平均每篇论文被引用16.40次。
(2)引文机构分析
引文机构分析主要研究来自全国各大高校、各类研究所和图书馆等机构的水族文献。本文根据毕业论文的第一单位进行统计分析。发表水族领域相关论文两篇及以上的机构共16个,其中刊载水族论文数量排名前三位的分别是:贵州民族大学(共刊载16篇)、贵州师范大学(共刊载8篇)、贵州大学(共刊载8篇);论文被引用最多的四个机构是:贵州民族大学(共被引用32次)、贵州师范大学(共被引用24次)、云南大学(共被引用19次)、昆明理工大学(共被引用19次);论文被下载最多的三个机构是:云南大学(共被下载4193次)、贵州民族大学(共被下载3715次)、中央民族大学(共被下载2793次)。
该结果表明大学是水族领域研究机构的中坚力量,这些大学主要分布于贵州、云南、广西等省份,这些省份也是水族的聚居区;同时民族类和师范类大学也对水族文化有重要的贡献,如贵州民族大学、中央民族大学、华东师范大学、广西民族大学等。
(3)引文报纸分析
报纸作为学术成果的组成部分,同样对水族文化和水族传承具有一定的贡献,它能让社会大众接触到水族文化内涵、水书艺术和迁徙漂泊的历史。其中《贵州民族报》报道的水族领域文章数量、下载次数和被引用次数都是最多,分别为发表45篇、被下载633次和被引用2次;接下来是《黔南日报》报道了20篇,《贵州日报》报道了19篇,《中国民族报》报道了9篇。
2.2高被引水族论文计量分析
论文被引用频次越高,说明论文的学术价值越高。本文研究的990篇水族学术成果共被引用2124次,平均每篇学术成果被引用2.15次。被引用次数最多的文献类型是学术期刊和硕士/博士论文,其中学术期刊662篇共被引用了1869次,硕士/博士论文98篇共被引用了242次,二者共占总被引用次数的99.4%。
全部10篇高引论文的被引频次都是20次以上,是所有水族文献篇均被引用次数(2.15次)的10倍。其中被引频次最高的论文是李培春等在1994年发表在《人类学学报》上的“水族的体质特征研究”一文,被引频次为82次;排名第二的是苏和平所作,2004年发表在《贵州民族研究》上的“水族审美意识探源”,被引频次为48次;随后是孙志国等于2011年发表在《贵州民族学院学报(哲学社会科学版)》上的“水族非物质文化遗产保护的探讨”,顾晓艳等于2006年发表在《中国体育科技》上的“传统体育文化在水族山寨中的生存状态——水族‘端节’赛马活动的变迁”,两者被引频次均为38次。
其中被引频次前三位的分别是:陕西师范大学陈永娥的“黔南本土文化语文校本课程资源开发的研究”,被引用23次;云南大学尤伟琼的“云南民族识别研究”,被引用18次;上海师范大学韦学纯的“水语描写研究”,被引用14次。
这10篇论文主要分布于民族类、师范类、人文社科专业较强以及西南水族聚居区所在的高校,一定程度上反映了这类大学对我国民族文化研究的影响程度。
3研究结论
本文采用计量分析方法和知识图谱方法研究中国知网的水族文献,涉及1953-2018年共990篇水族领域的学术成果。研究成果如下:
(1)通过对水族文献的高影响力期刊、报纸及机构计量分析发现:①民族类和人文社科类的期刊对水族文化研究做出了重要的贡献,如《黔南民族师范学院学报》《贵州民族研究》《人类学学报》等。②大学是水族领域研究机构的中坚力量,这些大学主要分布于贵州、云南、广西等省份,这些省份也是水族的聚居区;同时民族类和师范类大学也对水族文化有重要的贡献,如贵州民族大学、中央民族大学、华东师范大学等。③报纸是学术成果的重要组成部分,对水族文化和水族传承具有一定的贡献,它能让社会大众接触到水族文化内涵、水书艺术和迁徙漂泊的历史,具有代表性的包括《贵州民族报》《黔南日报》《中国民族报》。
(2)高被引论文期刊和机构主要分布于民族类、师范类、人文社科专业较强以及西南水族聚居区所在的高校。被引频次前10位的学术论文的被引频次都是20次以上,是所有水族文献篇均被引用次数(2.15次)的10倍,这些作者是水族文化研究的核心力量,这一定程度上反映出高校对我国民族文化研究的影响程度。
(3)通过水族文献时间跨度分析展示了水族文献研究的进程和不同年份的文献分布情况。最早一篇论文发表在1953年,是凌慰民老师发表在《中国金融》的“少数民族地区的农贷工作不能违反民族政策”。被引用10次及以上的文献共45篇,被引用5至9次的文献共64篇,被引用2至4次的文献共151篇,仅被引用1次的文献共137篇。2012年被引用过的水族文献最高,共45篇;2006年被引用的总频次最高,为277次,其中10篇文章被引用频次10次以上,为高被引论文;2004年单篇均被引用频次最高,平均每篇论文被引用10.69次。
(4)高引论文的核心作者分析采用发文量、被引频次、篇均被引频次三个指标评估核心作者,并挖掘出40位核心作者,其中余跃生发表了水族相关的文章23篇,被引频次为174次,篇均被引频次为7.57次;顾晓艳发表了水族文献16篇,被引频次为176次,篇均被引频次11次;赵凌发表了水族领域的论文14篇,被引频次为25次,篇均被引频次1.79次。
(5)通过知识图谱构建了水族文献作者之间的合作关系,挖掘出水族文献的核心科研群体,形成了以余跃生、顾晓艳、赵凌、潘朝霖、何燕、吴昌学、刘世彬、单可人等学者为核心的学术研究团体。其中以余跃生为首的团队以水族基因、水族医学、遗传学方向为主;以顾晓艳和王亚琼为首的团队主要研究水族体育、水族文化传承;以何燕为首的团队研究方向是水族医学、水族基因、心血管疾病;以赵凌为首的团队主要研究水族音乐和水族乐器;以潘朝霖老师为首的团队主要研究水书、水族图腾、水族祝词;以张振江为首的团队以水族村落、水族祖灵和民族语言为主。这些团队主要来自于黔南民族医学高等专科学校、黔南民族师范学院、贵阳医学院、黔南民族师范学院、贵州民族大学、中山大学等机构。
(6)通过LDA模型识别出水族文献的五大主题(水族文化、水族体育、水族音乐、水族医学和水书文字)及关键词,并采用词云展示了1953年以来水族文献的主题演化趋势,包括1953-1995年、1996-2000年、2001-2005年、2006-2010年、2011-2015年、2016-2018年中不同年份的水族文献所研究的热点主题关键词。
总之,本文的研究成果具有重要的理论意义和实用价值。该结果展示了我国水族文献的发展历程、高引论文、核心科研群体的研究热点,指出了水族领域高被引论文的主要特征及影响,识别出水族文化、体育、音乐、医学和水书五大主题的关键词及历年的主题演化趋势,对传承与弘扬水族传统文化具有重要意义,为水族文化的研究和进一步发展提供相关启示,为后续的水族引文分析、水族迁徙研究和水族文化传承提供有效支撑。
参考文献:
[1]饶文谊,梁光华.关于水族水字水书起源时代的学术思考[J].原生态民族文化学刊,2009(4):90-93.
[2]姜春林.基于文献计量学历时法引文的案例分析[J].现代情报,2005(10):140-145.
[3]梁永霞,杨中楷,刘则渊.基于CSSCI的中国引文分析的可视化研究[J].情报研究,2008:34-38.
[4]黄晓斌,张欢庆.我国情报学高被引论文分析[J].情报科学,2018,36(1):54-60.
[5]蔡文伯,马杰.我国民族教育研究文献态势的计量分析[J].民族教育研究,2014,25(2):138-144.
[6]王宗水,赵红,刘宇,秦续忠.社会网络研究范式的演化、发展与应用——基于1998-2014年中国社会科学引文数据分析[J].情报学报,2015,34(12):1235-1245.
相关刊物推荐:《情报科学》曾用刊名:(国外情报科学),1980年创刊,本着求实创新的理念,始终站在学科研究的前沿,全面反映学科发展的动态,着力突出刊物与时俱进的时代特征,抓住图书情报界的研究热点,刊发了一大批既有理论水平,又有学术影响的重要论文,及时反映了情报学、信息管理、图书馆学等诸领域的最新研究进展。《情报科学》主管单位:国家教育部,主办单位:中国科学技术情报学会;吉林大学,国内统一刊号:22-1264/G2,国际标准刊号:1007-7634.
SCISSCIAHCI