发布时间:2021-03-04所属分类:文史论文浏览:1次
摘 要: 摘要:地名凝结了区域文化及历史过程,蕴涵丰富的文化信息。如何挖掘地名文化信息是一个有趣又重要的问题。结合文本知识、专业知识、先验知识、专家知识与第二次全国地名普查成果数据,通过建立知识库及提取规则,采用数据制图、模型制图、知识制图等制图方
摘要:地名凝结了区域文化及历史过程,蕴涵丰富的文化信息。如何挖掘地名文化信息是一个有趣又重要的问题。结合文本知识、专业知识、先验知识、专家知识与第二次全国地名普查成果数据,通过建立知识库及提取规则,采用数据制图、模型制图、知识制图等制图方法实现中国大陆方言地名、地名通名制图。结果表明,制图结果可以得到相关地名的空间分布范围,揭示区域地名通名的高频词汇特征,可以为区域地名管理、规划、保护与利用提供知识支撑。
关键词:地名;地名普查;数据制图;模型制图;知识制图
地名是人们赋予某一特定空间位置上自然或人文地理实体的专有名称。它记载着民族兴衰、社会变迁、经济生产、军事活动和地理环境变化等多维度信息[1,2],具有承载、积淀和传播文化信息的功能,是历史的见证者和“活化石”[3]。人们可以从地名中分析和挖掘诸多直接或间接的丰富的自然和文化知识[4,5]。地名的基本属性包含“音、形、意、位、类”,分别指地名的读音、字形、含义、位置及类型[6,7]。地名既具有个体属性,也具有群体属性。地名的形成和发展与语言、地理、社会、政治、历史、经济、军事、交通、民族、文化和风俗等要素有着密切关联。因此,长期以来,国内外地名个体的含义及文化价值研究较为活跃,主要包括地名的来历、内涵、演变、通名考证、区域特征等。例如,Mailhammer[8]以欧洲和澳大利亚为例,通过地名中保存的语言元素痕迹对特定地区的语言进行历史推断;Buharova[9]探究了地方方言在研究区域地名形成和演变过程中所起的重要作用。然而,地名作为蕴含类别的知识集合体,其群体属性(如空间聚集特征和空间分布特征)的研究较为沉寂。尽管近年来陆续出现了相关研究,如壮语地名空间分布[10,11]、区域地名分布等[12,13],但受限于数据与方法,中国全国范围内的相关研究较少。
地图是地理学的第二语言,具有感知功能、载体功能和认知功能[14]。随着科技进步和社会需求变化,地图的功能也发生漂移,最重要的是地图的空间分析功能[15]。基于地图认知,目前地图制图方法主要包含意念制图、经验制图、数据制图、模型制图和知识制图等[16-18]。其中,数据制图是指根据所得数据(测绘数据或统计数据)直接编制地图;模型制图是指针对专题,利用专业数学模型计算得到专题图;知识制图是指将通过知识推理或数据分析得到的新的结论、空间格局、地理界线等反映到地图上。借助地图的功能和对地名的认知,人们可以利用地图制图方法和技术深入挖掘和分析地名的群体属性特征,及其所蕴含的自然和人文地理实体的时空演化特征和规律。比如,开展地名数据制图(统计制图和空间统计制图)、地名模型制图和地名知识制图等的研究和应用。近年来,相关学者基于地学信息图谱理论开展了系列地名信息图谱方面的研究和应用[7,19]。Frajer等[20]使用地名地理信息系统制图探索了地名的空间分布和相互关系,并将其应用于退化水体的识别。
第二次全国地名普查共获得1300万余条数据,内容不仅包括地名含义、来历、位置、读音等文本信息,还包含声音、图像等多媒体信息,这些信息构成了内涵丰富的地名大数据。本文以第二次全国地名普查成果数据库为基础,构建地名知识库与关联规则,提取专题地名集合,开展了地名数据制图、地名模型制图和地名知识制图的应用研究,进一步揭示了隐含在地名背后的规律与知识,挖掘地名数据并进行地名制图,为地名学研究提供了新方法。其成果既可以为历史地理学、社会学、政治学等研究提供知识支撑,也可以为地名保护、规划与利用提供决策支持,对促进区域地方认同、增进民族文化自信具有重要意义。
1地名制图的流程和方法
1.1地名制图流程
地名制图技术流程如图1所示。地名数据层主要包含原始的地名数据库、文献典籍、专家知识、先验知识等。其中地名数据库包含地名、历史沿革、来历含义等几十个字段;专家知识是地名专家对地名知识的总结;先验知识为已经发布的各类与地名相关的知识。对地名数据按规则抽取,实现地名数据到地名信息的转换。对地名大数据进行统计,得到通名、专名高频词;从相关先验知识、专家知识中提取地名文化特征字词,形成地名文化特征库,并建立简易提取规则,开发提取工具,结合配置文件,实现专题地名信息数据集抽取。然后,将得到的地名信息集合进行关联规则验证,进一步更新地名基础信息库或进行地名制图。
地名制图主要包括数据制图、模型制图与知识制图。地名数据制图直接提取地名数据,按统计单元进行统计,将相应结果进行制图,如通名、专名统计频次图和地名词云图等。地名模型制图是对相应数据进行空间分布分析及数学建模后实现制图。地名知识制图是通过知识推理,或基于空间统计分析模型(如空间聚集分析)的地名知识发现,将所获得的地名空间分布的新知识绘制于地图上。
1.2地名知识库的构建
地名知识库包含了某类地名知识的关键特征字词。基于知识库,结合提取规则,可以提取能够表达特定知识的地名数据集合。例如,以“厝”结尾的地名在闽方言区大量存在,通过考察含有该关键字的地名分布特征,同时结合方言地理分区知识,综合推断得到闽方言分布的大致范围。闽方言地名部分特征字见表1。
本文依据专家知识、先验知识等,先后建立了6种方言(客家方言、闽方言、粤方言、吴方言、湘方言、赣方言)和4种少数民族语(壮语、藏语、维吾尔语、蒙古语)地名知识库,限于篇幅,其他地名知识库不再一一列出。
1.3提取规则和关联规则验证
1)提取规则。提取特定类别的地名信息需要遵循一定的规则。地名所反映的文化知识不仅局限于地名自身,也同地名背后的历史沿革、来历、含义及重大事件等属性信息密切相关。可以通过地名提取文化信息,也可以通过挖掘地名属性获得隐含文化信息[21]。例如,红色地名是指与革命事件相关的地名,此类地名信息大部分只能在地名相关的历史沿革、重大事件等地名属性中提取。因此,需要依赖提取规则才能自动化获取完整专题地名。
规则通常根据先验知识、专家知识进行制定。常见提取规则包括“前置匹配”“后置匹配”“包含”3种。“前置匹配”是指将地名特征字进行前置匹配,“后置匹配”是指将地名特征字进行后置匹配,“包含”则表示特征字包含在地名或地名来历、地名含义等字段中。例如,壮侗语系地名一般含有“那”“罗”“老”等特征字,如“那沟”“那谷”“罗浮山”“老唐”等,特征字位置一般位于地名的头部,属于“前置匹配”。此外,有些特征字词要与其他字词组合才能表达某类信息,如姓氏地名要考虑姓氏同某些特征词的结合情况,如“李家”“李家庄”“李家村”等,以及来历含义中是否有相关姓氏。设置提取规则后,还需要进一步经过关联规则验证,通过置信度检验,才能进行下一步分析并进行制图。
2)关联规则验证。关联规则的目的是发现数据项集之间的关联关系或相关关系[22]。地名特征词关联规则挖掘,就是挖掘出某类“地名特征字词”与相应“地名知识”之间的关联,如前文所述的“厝”字同闽方言的关联,这种关联规则源自地名基础知识库中引入的先验知识及专家知识,在验证时只需考察置信度即可。例如,考察含有“王”字的居民点有多少与姓氏相关时,通过随机抽样人工检验发现提取的含有“王”字的居民点地名中有95%与王姓相关,即认为通过该方法提取的数据的置信度为95%。本文设定的置信度为90%。相关地名数据置信度通过检验后,可进一步丰富地名基础知识库。
2地名制图案例
2.1地名高效数据制图地名数据制图是根据提取到的地名数据直接进行地图制图或进行简单统计后再进行制图。地名数据制图能够反映地名群体的空间分布及结构特征。受数据获取限制,本文暂不包含香港特别行政区、澳门特别行政区和台湾省。
词云图主要用于文本大数据的高效视觉表达,它是由丰富的字词组成的彩色图形,能充分突出文本中的高频词和关键信息。本文将词云图与行政边界结合起来,表示行政区域内某类地名中某字词的使用频次。图2为全国人文地理实体地名通名词云图。从图2中可以看出,地名中“桥”“路”“水库”“站”“街”等居前列,反映了中国经济社会发展的建设成就。图3为全国自然地理实体通名词云图。“山”“岭”“沟”“河”“坡”等居前列,反映了中国山区分布广、地形地貌复杂多样的特点。
相关知识推荐:现代测绘期刊投稿怎么样
比例图通过计算某类地名在统计单元上的使用比例来反映该类地名的分布范围、优势区域。通过比例图可以直观看出该类地名在相关区域的比例优势。图4为按普查单元统计的闽方言地名比例图。通过图4可以看出闽方言地名的空间分布范围、优势区域。
密度图通过计算提取的某类地名数量与统计区域面积之比来反映某类地名在统计区域的密度特征。图5为闽方言地名密度图,可以看出闽方言的分布范围及相关界线,且在闽北存在明显的方言岛。
2.2地名模型制图
地名模型制图可以针对某专题构建数学模型来解析成因,得到相应的专题图。以全国热点地名通名分布影响因素探究为例进行说明。
本文将在全国地名通名中使用频次排名前十位的10个通名作为全国热点地名通名。对全国热点通名进行分析,得到全国层面上的通名使用的主要特征。本文在对全国热点地名通名空间格局分析的基础上,进一步构建数学模型,探究其空间分布格局的影响因素。以全国热点地名通名使用频次排名第一的“桥”字为例,图6和图7分别为对“桥”进行地名通名密度空间分布制图和影响因素建模分析的结果。
由图6可知,地名中“桥”在中国东部、南部地区的密度较高。由此推测,此分布格局的形成原因可能是这些地区人口密度大、河流相对较多、经济发达、交通便利等。
本文选择人口密度和公路桥梁密度这两个影响因素,通过构建数学模型,探究了“桥”密度与两者的定量关系,拟合结果如图7所示。由图7可知,“桥”密度与人口密度呈指数关系,拟合程度R2为0.9031;“桥”密度与公路桥梁密度呈二项式关系,拟合程度R2达0.9663。这说明“桥”的使用与人口密度和公路桥梁密度密切相关,且所选择的数学模型可以较准确地表达出“桥”密度与影响因素之间的函数关系。
2.3地名知识制图
地名知识制图是将经过知识推理和知识发现获得的地名空间分布的新知识和新结论展示在地图上的一种地名研究方法。本文以自然地理实体类和人文地理实体类地名通名知识制图为例,研究全国各省(自治区、直辖市)首位通名的空间分布规律。首位通名是指各省(自治区、直辖市)地名通名排行榜中使用频次最多的通名,高度浓缩了各地区通名使用特征的知识。绘制首位通名知识地图,有助于地名研究和管理部门理解通名使用区域差异规律。
图8和图9直观展示了自然地理实体类和人文地理实体类首位通名空间分布知识。对于自然地理实体类首位地名,全国主要有两个聚集区,分别位于“胡焕庸线”东西两侧。位于“胡焕庸线”西侧的聚集区主要以“沟”为自然地理实体类首位通名,主要包括内蒙古自治区、山西省、陕西省、宁夏回族自治区、甘肃省、青海省、新疆维吾尔自治区及吉林省;位于“胡焕庸线”东侧的聚集区主要以“山”为自然地理实体类首位通名,主要包括辽宁省、北京市、河北省、山东省、河南省、安徽省、浙江省、福建省、江西省、湖北省、湖南省、重庆市、四川省、贵州省、云南省、广西壮族自治区、广东省。总体来看,全国共有9个省级行政区以“沟”为自然地理实体类首位通名,18个省级行政区以“山”为自然地理实体类首位通名。
人文地理实体类首位通名的空间分布格局比自然地理实体类首位通名的复杂,总体可分为两个聚集区和若干个单独的首位通名省级行政区。第一个聚集区以“桥”为人文地理实体类首位通名,主要包括黑龙江省、吉林省、辽宁省、山东省、河南省、陕西省、湖北省、安徽省、江苏省、浙江省、福建省、江西省、贵州省、广西壮族自治区;第二个聚集区以“路”为人文地理实体类首位通名,主要包括北京市、天津市、河北省、重庆市、四川省、云南省。总体来看,全国共有16个省级行政区以“桥”为人文地理实体类首位通名,10个省级行政区以“路”为人文地理实体类首位通名。
3结束语
本文对地名制图进行应用研究,具体总结如下。
1)结合先验知识、专家知识及地名大数据挖掘的知识等,建立地名知识库及提取规则,能够有效提取具有某类群体特征的专题地名数据集。
2)地名数据制图能够有效表达地名群体的分布特征、密度、分布边界等。对地名群体数据集按统计单元进行统计分析,以地名词云图、比例图、密度图等方式表达地名的高频信息,识别方言地名的分布范围、比例、密度等,能够为方言地名的保护及利用提供决策支持。
3)地名模型制图能够表达地名同其他影响因素之间的定量关系,如“桥”的使用与人口密度和公路桥梁密度的关系。它还能进一步挖掘地名同其他自然、人文因子之间的定量关系。
4)地名知识制图可从不同视角(如语言、民族、历史等)对某地名群体进行知识推理与知识发现。
由于地名蕴涵了丰富的地理、历史、政治、经济、交通等信息,地名制图研究还有待进一步挖掘。下一步可以结合历史沿革、地名启用时间等动态表达地名的时空过程,也可以将地名数据集作为一种基础数据集,耦合其他人文地理、自然地理数据集进行分析,揭示地名群体隐含的文化密码,增强地名文化认同与文化自信,更好地服务于地名保护、管理和规划。——论文作者:葛咏1满旺2任周鹏1张夕宁1周令泉1
SCISSCIAHCI