学术咨询服务,正当时......期刊天空网是可靠的职称工作业绩成果学术咨询服务平台!!!

基于文献计量分析的数据挖掘在中医诊断学领域的应用研究

发布时间:2021-04-01所属分类:医学论文浏览:1

摘 要: 摘要:为系统探索数据挖掘在中医诊断学领域应用的科研产出、研究主体及研究主题演化路径和前沿热点问题,研究以中国知网(CNKI)期刊数据库为数据源,收集自建库以来至2019年该领域相关文献,并利用CiteSpace和VOSviewer科学计量软件进行可视化知识图谱绘制。

  摘要:为系统探索数据挖掘在中医诊断学领域应用的科研产出、研究主体及研究主题演化路径和前沿热点问题,研究以中国知网(CNKI)期刊数据库为数据源,收集自建库以来至2019年该领域相关文献,并利用CiteSpace和VOSviewer科学计量软件进行可视化知识图谱绘制。该研究领域的成长依次经历了起源阶段、探索阶段、发展阶段、平台阶段及新的发展阶段,学者们对该领域研究的关注度总体上呈上升趋势。目前,该领域高产作者共有35位,发文期刊主要为中医领域的核心期刊,机构以上海中医药大学、北京中医药大学、湖南中医药大学科研产出最多。研究主题主要形成四大聚类:计算机与中医辨证论治、数据挖掘与疾病用药规律、中医计量诊断、人工智能与中医四诊。主要研究主题从较早的计算机辅助诊断、数学模型、计量诊断、证素辨证等在中医诊断的应用发展至近年来的数据挖掘、关联规则、中医药、模糊数学、用药规律、聚类算法、大数据、状态辨识、名老中医等。特别是在现今互联网+及“健康中国”的时代背景下,中医诊断有了新的内涵,充分发挥数据挖掘优势,立足中医思维与名医经验,挖掘中医药真实世界的健康大数据规律成为新兴热点。

基于文献计量分析的数据挖掘在中医诊断学领域的应用研究

  关键词:数据挖掘;中医诊断;知识图谱;CiteSpace;VOSviewer;文献计量;发展趋势

  中医诊断[1]立足于整体观念,分别从望、闻、问、切4个不同方面收集疾病相关信息,通过综合分析以判断当前疾病的内在机制给出相应的辨证,从而指导临床用药,这个过程体现了中医最大的特点,即辨证论治。然而,传统辨证诊断方法也存在一定的局限性。首先,繁杂性。同一证候表现常有不同的辨证方法,面对繁多分类,往往给学习者带来困惑。其次,主观性。中医辨证主要凭借人体感官所获取的病例信息,其主观性较大。再者,模糊性。中医中许多概念都是以定性或半定量为主,诊断相关的症状如频率、严重程度、证候的轻重、转归等都是相对模糊的概念,因此传统中医诊断过程中的规范、客观、量化一直成为近半个世纪以来中医研究领域中亟待解决的关键问题[2]。

  自20世纪70年代开始,受计算机新技术的影响,中医学者开始寻求借助计算机技术以解决中医复杂、灵活的辨证问题,这也为后面的数据挖掘技术与中医辨证诊断结合奠定了基础,并促进了中医的现代化发展。数据挖掘是指从大量的、不完全的、有噪声的、模糊的数据中通过挖掘隐藏于其中有用信息的过程,它由计算机科学、统计学、机器学习、专家系统和模式识别等诸多方法多个领域相融合而形成的一个交叉学科[3]。可见,数据挖掘技术可充分考虑到真实世界中中医数据繁杂、模糊、非线性的特点,从复杂的临床数据中挖掘繁杂的证、症关系,寻找大数据下的隐藏中医知识和规律[4],这无疑成为中医诊断客观化进程中有力的催化剂。

  虽然有不少文献对近年来常用数据挖掘方法在中医诊断领域进行总结梳理,但参考文献有限,且缺乏基于整体学科发展趋势的科学计量研究。因此,研究运用科学计量方法,通过绘制可视化知识图谱,概括国内数据挖掘在中医诊断学领域应用文章的发表情况、主要研究主题、研究热点及未来的发展趋势等,以期对中国中医诊断与数据挖掘交叉领域研究提供有益参考。

  1研究方法

  1.1文献来源文献资源以国内科技文献中最全的中国知网(CNKI)数据库为检索来源,为保证文献质量,进一步选择中国知网学术期刊网络出版总库,采用高级检索功能,依次对“中医”“诊断”“数据挖掘”及其同义词进行主题检索,并选择在结果中检索,时间范围设置为1915—2019年,文献类型选择“期刊”,排除会议摘要、杂志通知、广告、信件等内容后,将所选文献以“Refworks”文件格式导出以进行可视化分析,同时保存至Endnote软件以进行文献整理和查重。

  1.2数据处理利用CNKI数据库文献分析功能进行描述性分析,利用Endnote对收录文章进行查重处理,并提取相关题录信息进行频数统计分析。利用信息可视化软件CiteSpace(V5.5.R2)和VOSviewer(V1.6.14)进行本研究领域知识图谱绘制。前者是由美国德雷塞尔大学陈超美博士所开发,其特点是能够展示一个学科或知识域在一定时期发展的趋势与动态,并形成若干研究前沿领域的演进历程[5];后者是由荷兰莱顿大学的NeesJanvanEck和LudoWaltman所共同开发[6],其主要特点是可以对学科主题之间的关系进行清晰的呈现。文章结合两款科学计量软件的优势,通过对发文作者与机构合作网络、关键词共现与时间演变、突现词等进行分析,以进一步探讨数据挖掘技术在中医诊断学领域应用研究中的主题分布与热点演进情况。

  2研究结果

  2.1总体分布特征

  2.1.1年度发文量通过对CNKI所有文献资料检索初步获得1797篇文献,进一步将文献类型设为“期刊”,获得期刊文献共计693篇文献,并将不符合研究内容的文献如会议摘要、期刊通知等删除,并去除重复文献,最后共得662篇符合研究标准的目标文献,时间跨度从1979—2019年。期刊文献为科研思路和成果的重要载体,发文量可以一定程度上反应科研产出情况。数据挖掘在中医诊断学领域应用的发文量随时间分布见图1,从发文量来看,数据挖掘与中医诊断相关的期刊文献出现5个较明显的发展阶段。

  1)1979—1987年为交叉学科的起源阶段,中医学界开始纷纷探索用科学计算机、统计手段解决中医诊断存在的问题以寻求实现现代化的方法,发文量开始递增,该阶段每年平均发文量9篇。

  相关期刊推荐:《天津中医药》(月刊)1984年创刊,是综合性中医药学术刊物,国内外公开发行,经国空和科技部批准,旨在更全面地报道中医、中药现代化研究的新成果、新技术。为了促进中医、中药在全国省市间及全世界的学术交流本刊收稿范围包括国际稿件、全国各地稿件、天津稿件。设有:名医精粹、情志医学、临床报道、中西医结合专栏、针灸经络、实验研究、学术探讨、争鸣园地等栏目。

  2)1988—2002年为缓慢的科学探索阶段,该时期每年发文量波动不大并维持在相对较低水平,主要基于前期的研究工作进行探索与验证,每年平均发文量6篇。3)2003—2008年期间为发展阶段,该时期在数据挖掘与中医诊断学领域中有较多的新方法和新理论产出,发文量开始呈较快上升速度,2005年论文增长率为92%,2008年发表论文达40篇,该阶段平均每年发文量为23篇。4)在2009—2015年为发展平台期,自2009年相关论文发表量回落后,论文发表保持在相对稳定的水平,曾出现短暂的回落但又快速恢复,平均年度发文量为27篇。5)2016年至今为新的发展阶段,论文发表量至2019年达到历史最高的53篇,平均每年发文量为42篇。可见,目前数据挖掘在中医诊断学领域应用研究有着很好的发展前景,但如何更好实现中医诊断现代化还需要更多的学者予以关注。

  2.1.2学科和期刊分布在CNKI数据库中显示本研究领域发表的文献所属学科集中在医药卫生科技,约占64.5%;其次,是信息科技,约占28.7%。此外还涉及工程科技、社会科学及基础科学等领域,有些文献内容涉及不同学科的交叉,故也会出现同一篇文献归于几个不同学科的现象,这也体现了学科的交叉是科学发展的原始动力之一。1979—2019年间中医诊断与数据挖掘交叉领域研究的文献共计在国内243个期刊发表,发文量前20名的期刊情况如图2所示,发表在《中华中医药杂志》《辽宁中医药杂志》《中国中医药信息杂志》上的数量最多,分别为34篇(6.25%)、25篇(5.77%)、21篇(4.81%),这些期刊主要为中医领域的核心期刊,说明国内将数据挖掘与中医诊断学交叉领域已有被学术界认可的学术成果。

  2.2研究主体

  2.2.1主要作者分布本次纳入研究的662篇文献共包含1749位作者,其中核心作者是活跃在这一研究领域的代表性学者。依据普赖斯定律的计算公式:m=0.749(1)式中nmax为所统计年限中发表论文最多的作者的发文数,而发表论文数在m篇以上的作者即被认为是高产作者。统计发现高产作者发文量最多为13篇,故m=2.7,按照取整原则,高产作者发文量大于或等于3篇。通过数据统计与分析,发文量3篇及以上的作者有35位,其中发文量为前20位作者如表1所示,高产论文学者主要有周小青、李建生、林求诚、胡金亮、朱文峰、晏峻峰、王忆勤、王永炎、袁肇凯、李灿东、王阶等。通过VOSviewer对近20年(1999—2019年)作者主要合作网络进行可视化分析,如图3所示,不同节点颜色代表不同的年份,颜色越接近蓝色,说明该作者发文时间越久,是该研究领域的早期开拓者;节点颜色越接近黄色,说明该作者发文时间越近,是该研究领域的新近活跃者。图中清楚地展现了近20年全国数据挖掘在中医诊断学科领域应用研究的主要团队的合作与发展脉络,并且发文量较多的作者呈现出明显的网络特征,说明中国该领域已形成多个产量较高的作者群。

  2.2.2研究机构分布本领域的发文机构主要集中在中医药大学及附属医院,高产研究机构有上海中医药大学(43)、北京中医药大学(42)、湖南中医药大学(40)等,图4中列出了排名前18位的机构。进一步利用CiteSpace软件对近20年本领域的主要研究机构绘制共现图谱,切片长度(SliceLength)设置为2,筛选原则(SelectionCriteria)为T50,修剪方法选寻径法(Pathfinder),并将节点阈值(Threshold)设为2次,如图5所示。图中共出现64个节点和40个链接,密度值为0.0198,从图中知中国该领域的合作多以省内合作为多,跨省合作对象主要是各中医药大学之间,值得注意的是少部分理工类机构也加入其中,主要有厦门大学智能科学与技术系、广东工业大学自动化学院、河南大学数据与知识工程研究等。从合作发文时间来看,早期以湖南中医药大学、北京中医药大学发文为主,而后上海中医药大学、广州中医药大学发展起来,近几年福建中医药大学、山东中医药大学及成都中医药大学也成为后起之秀。

  2.3研究主题与发展趋势

  2.3.1关键词共现分析研究的主题的分布及演化过程能够体现不同时序内的热点领域、分析视角、研究方法等的变化。而关键词作为学术论文研究主题的精炼表达,其在一定程度上可以揭示学科领域中知识的内在联系。文章对1979—2019年出现的关键词进行同义词合并,其中出现频数排前28位的关键词分布见于表2。运用VOSviewer软件对中医诊断与数据挖掘交叉领域的文献中作者所给出的关键词进行共现分析,取阈值3后绘制图6。关键词字体越大、结点越大说明该关键词在网络中越重要,不同颜色代表其不同的聚类,从图中可以看出,本交叉学科研究领域围绕“数据挖掘”核心技术主要形成4大关键词类簇,形成4个主题:计算机与中医辨证论治(红色部分),数据挖掘与疾病用药规律(绿色部分),中医计量诊断(蓝色部分),人工智能与中医四诊(黄色部分)。从图中可知这4种聚类之间存在一定的混合部分,如红色区域中的“辨证论治”与蓝色部分“中医辨证”、绿色部分的“数据挖掘”与黄色部分的“人工智能”等存在着有包含和重叠的部分,说明各研究主题之间存在相互交叉、渗透的关系,这也是学术研究中普遍存在的现象,有助于中医诊断与数据挖掘交叉领域研究的深入发展。——论文作者:夏淑洁1,2,杨朝阳1,2,林雪娟1,李书楠3,王洋1,李灿东1,2

2023最新分区查询入口

SCISSCIAHCI