发布时间:2014-06-26所属分类:管理论文浏览:1次
摘 要: 论文摘要:研究中还发现,分类AH中的采样点均显示了较低的数值,平均匹配率为43%~60%。此类中的采样点数据重构性较差,需选择另外一种相对独立的方法进行分析研究,进而对采样点分类提供更合理的证据,并非只是单单从不同土地利用类型和专家知识而进行的分类检索
论文摘要:研究中还发现,分类AH中的采样点均显示了较低的数值,平均匹配率为43%~60%。此类中的采样点数据重构性较差,需选择另外一种相对独立的方法进行分析研究,进而对采样点分类提供更合理的证据,并非只是单单从不同土地利用类型和专家知识而进行的分类检索。
1决策树模型的建立
1.1采样点概况专家从环境监测网络选取了47个采样点(图1),并且根据硝酸盐来源划分为5类:温室大棚区(G,11个点位)、农作物区(A,7个点位)、有地下水补给的农作物区(AGC,15个点位)、居民区(H,8个点位)以及农作物和园艺混合区(AH,6个点位)。
1.2数据集合根据采样点在监测网络中的编码、采样时间,监测的地表水水体的10个物理化学参数(水温T,EC20,pH,DO,O2,Cl-,NH+4-N,NO-2,NO-3、PO3-4)以及硝酸盐来源分类等指标创建了数据集合,实例总数为3928。其中,数据集合中缺失的数据根据多重插补(MultipleImputation)法进行插补。分类AH以及G中的地表水站点在2002—2009年都具有较高的平均硝酸盐浓度范围,质量浓度分别为13.5~29.8mg/L和6.9~44.4mg/L;分类A以及AGC中的地表水站点的NO-3平均浓度次之,质量浓度分别为2~14mg/L和1~22.4mg/L;而分类H则为最低,NO-3平均质量浓度为0.4~3.6mg/L(以N计)变化。
1.3决策树模型决策树模型的基本算法是贪心算法,其生成则是自上而下的递归过程通过不断将样本分割成子集来构造决策树。算法的核心问题就是属性选择和剪枝策略。采用C4.5算法来建立决策树模型[13]。C4.5对属性的选择基于信息理论(informationtheory)[14],通过计算信息增益来确定节点的分裂属性,每个节点均选择具有最大信息增益的属性。这样能够使得样本在依据该属性进行分类时所需要的信息最小,可以有效减少分类所需的分裂次数。假设一个集合M,具有s个类别,其中个类在M中出现的比例为p(ci),那么M的信息熵为式中info(M|X)代表X的信息熵,V(X)代表属性X的可能值的数量,Mj代表集合M的子集中属性X的可能值的数量为j。最优属性则是信息增益gain(X)的最大值。C4.5对决策树的剪枝是自下而上,从树最底层的节点,将符合修剪规则的剪掉,直到没有节点满足修剪规则为止。决策树建立后,根据10次交叉检验法进行准确性评估。
2结果与讨论
2.1模型输出与专家分类对比利用47个地表水样点的10个物理化学参数数据建立了决策树模型,共有247个节点,树形规模较大。实例数量为3928个,其中3142个实例与专家知识的分类情况一致,剩余的786个实例则被分为不同的类别。所以,此决策树模型的输出与专家分类的匹配率为80%。决策树模型中每一硝酸盐源类实例的分类情况见图2。从图2可见,分类A、AGC、G和H具有较高的匹配率(大于80%),表明使用建模的物理化学参数数据具有较高的可重构性。分类AH则具有较低的匹配率(50%),表明了这一类样点的物理化学参数数据具有较低的可重构性,但是引起这一现象的原因目前不详,需要结合后续的氮氧同位素方法进行深入研究。此外,每一硝酸盐源的模型输出与专家分类的匹配率都不是100%,说明部分实例与专家分类不相同。所以,了解决策树模型中每一类实例的分类情况是比较有意义的。从图2中可以看出分类A、AGC、G和H具有较高的匹配率(大于80%),因而这些分类中相应的实例被划分为其他分类的百分比则相对较低。相反地,分类AH因具有较低的匹配率而导致其相当部分实例(大于40%)被决策树模型重新分到A以及G这2个类别中。其原因可能是分类AH本身就是农作物和园艺混合区,此类中地表水样点所构成实例不排除具有其他类别实例的特征。另外,47个采样点的平均决策树模型的输出与专家分类的匹配率为43%~95%,有近3/4的样点大于80%。研究中还发现,分类AH中的采样点均显示了较低的数值,平均匹配率为43%~60%。此类中的采样点数据重构性较差,需选择另外一种相对独立的方法进行分析研究,进而对采样点分类提供更合理的证据,并非只是单单从不同土地利用类型和专家知识而进行的分类检索。
2.2依据决策树模型选择代表性样点如前所述,决策树模型所评估的47个采样点中,部分样点数据重构性较差导致决策树模型的输出与专家分类的匹配率较低,需要其它方法进行校正。氮氧同位素方法已经广泛应用于对硝酸盐污染源判断以及硝酸盐迁移转化过程的研究。所以,在47个样点中选择了30个具有代表性的样点作为后续研究。另将30个优化后点位的数据集再次带入模型中,该决策树模型的输出与专家分类的匹配率达到84%,优于前47个点位的模型输出。然而分类AH中的采样点仍显示较低的匹配率(48%~63%)。根据此决策树模型,缩减了工作量,选择的样点更具有代表性。其目的是通过后续方法更准确地对选择的样点进行分类,建立输出结果更为精确的决策树模型进而对监测网络中其它未知源的样点进行硝酸盐来源的预测。
3结论
建立的决策树模型成功地从47个采样点的物理化学数据所组成的数据集中挖掘了未知的、有价值的信息。此决策树模型评估了约有80%的样点分类与专家知识分类相吻合,然而部分样点则显示了较低的匹配率,数据的可重构性较低。决策树模型的输出结果为选择有代表性样点进行后续研究提供了可靠的数据保证。
SCISSCIAHCI