发布时间:2021-05-15所属分类:科技论文浏览:1次
摘 要: 摘要随着海洋观测技术和数值仿真技术的发展,人们能获取到规模更大、分辨率更高的海洋数据,这为复杂多元海洋环境要素及结构现象的分析带来了机遇,同时也给传统的分析方法带来了挑战。因此,将大数据可视分析方法引入了海洋数据分析,并探索了其在多元海洋
摘要随着海洋观测技术和数值仿真技术的发展,人们能获取到规模更大、分辨率更高的海洋数据,这为复杂多元海洋环境要素及结构现象的分析带来了机遇,同时也给传统的分析方法带来了挑战。因此,将大数据可视分析方法引入了海洋数据分析,并探索了其在多元海洋时空数据分析、海洋重要结构的时空特征和演化分析等方面的应用价值,开发了多个可视分析系统,并通过全球和我国周边一些海域数据分析的案例研究,提出了海洋数据可视分析的基本框架,展示了可视分析是大数据时代海洋复杂数据分析方面一种很有前途的技术。
关键词可视分析;多元海洋时空数据;海洋结构;可视分析应用
1引言
随着海洋观测技术和数值仿真技术的不断进步,人们逐渐可以获取到更高分辨率和更大规模的多元时空变化的数据集,这给针对海洋复杂过程的分析研究提供了更多的机会,也带来了很大的挑战。首先,海洋数据本身隐含着复杂的时空过程和多元要素的动态变化,多个时空变量在空间和时间上与多个尺度高度相关,这使得从这些庞杂的数据中获取有价值的模式或发现海洋结构(现象)及其时空演化规律变得困难;同时大数据使得传统的依赖人工发现、评估和解释时空模式或特征的分析方法变得低效;另外对海洋结构及其时空模式的识别目前还是局部粒度的,缺少对其时空模式的整体概览和多尺度细致的分析,而且目前的分析系统也缺少符合海洋研究者探索不同海洋时空情形的高效交互方式;此外,海量海洋大数据导致存储困难、计算时间过长,虽然采用常规的数据约简技术可以降低数据规模,但同时容易引起数据细节甚至关键结构信息的丢失;高纬度的海洋多元要素间的关系分析也变得复杂和困难;传统的2D/3D可视化方法难以应对海量高维复杂时空数据的挑战,视觉混淆和过度绘制问题变得尤为突出。可视分析是结合了机器学习、统计等自动化数据分析算法和交互式可视化来促进数据分析和推理的科学[1],能从大规模和复杂数据中多尺度地提取有用的信息和有意义的知识[2],并通过交互可视化数据探索生成假设和验证,以获得对物理现象的科学洞察,因而可视分析是现有的基于经验、理论和基于数值模式方法进行复杂海洋数据分析研究的有力补充。
为此,笔者将先进的可视分析技术引入复杂海洋数据分析中,开发了多个可视分析系统,用于辅助领域专家探索多元海洋环境要素的时空特征或相关性,分析涡旋及海洋锋等重要海洋结构(现象)的时空特征及其演化规律,呈现可视分析技术在海洋数据分析领域的应用前景,并总结了海洋数据可视分析的基本框架。
2相关工作
2.1多元海洋时空数据可视分析
常见的多元海洋时空数据可视分析是围绕研究一个或多个海洋标量(温度、盐度等)和矢量(流场)的变化特征展开的,例如,SteinRJ等人[3]提出了一个用于水质研究的交互式可视分析系统,该系统利用剖面、等值面、轮廓面、矢量箭头等方法,对水源盐度和流场数据的时空特征进行多视图协同交互分析。SuTY等人[4]开发了海洋数据可视分析系统,它支持对等高线、等值面、体绘制和流场的动态模拟,该集成系统采用基于图形处理器(graphicsprocessingunit,GPU)的渲染方法加速标量或矢量场的绘制,直观地分析海量海洋水文环境要素的空间特征,提升了数据分析时交互的速度。
由于海洋数据是由多个相互关联的变量组成的多场数据集,出现了一些基于平行坐标分析多变量关系的可视分析系统。例如,GuoHQ等人[5]提出了一种针对多变量体数据的可视分析系统,利用平行坐标图和基于多维比例尺图对多变量体数据进行可视化和交互分析,实验证明,该系统对不同大小和不同属性的数据集的可视分析具有较高的可扩展性。YanoM等人[6]提出了一个三维可视化系统,利用平行坐标图对全球多个模态水域的多元属性(温度、密度和盐度)进行对比分析,以发现模态相似的水域。RochaA等人[7]提出了一个用于分析仿真模型中多个海洋标量、矢量间相关性的可视分析系统,以不同的可视化形式同时叠加多个变量的可视化显示,支持灵活的用户交互和多变量切换显示,以满足用户多层次的分析需求。但基于平行坐标的可视分析系统存在线条重叠和视觉混乱的问题,因此又出现了一些带有聚合功能的平行坐标图的新设计。总之,相比传统的可视化分析方法,多元时空数据可视分析系统提供了更多的交互探索和可视化新设计,可在不同程度上提升数据分析的质量和效率。
2.2海洋结构(现象)的可视分析
大规模海洋数据中隐含着与复杂海洋过程相关的多种结构或现象,这里笔者主要以海洋锋和涡旋等重要海洋结构识别与检测、时空特征分析和演化两个方面介绍相关可视分析系统。
2.2.1海洋结构(现象)的识别与检测
在海洋中,各种现象/结构时时刻刻都会发生变化,并且每种现象都有其自身的物理特征,因此产生了多种特有结构的检测和分析方法。海洋锋的检测方法主要有梯度法、直方图法、熵方法、Canny边缘算子方法[8]等。常用的涡旋检测方法有3种[9]:第一种是基于几何的方法,该方法利用流场中流线的几何形状确定涡旋;第二种是基于阈值的方法,代表性的阈值法是基于Okubo-Weiss参数检测涡旋;第三种是结合几何法与阈值法的混合检测方法,该方法可以提高涡流检测的准确性和从海平面高度异常识别涡旋多核结构的能力。此外,通过Okubo-Weiss参数阈值法识别涡旋,并将其作为训练集,然后通过卷积神经网络(convolutionalneuralnetwork,CNN)进行特征学习,可实现基于深度学习的涡旋检测[10]。
2.2.2海洋结构(现象)的时空特征和演化
由于海洋数据规模变大,海洋结构(现象)通常涉及多个变量在空间、时间和多个尺度上的变化,这加大了海洋结构(现象)时空特征及演化分析的难度。MatsuokaD等人[9]提出了一种涡旋检测、跟踪、事件检测和可视化的新方法,分析涡旋演化过程中的合并和分叉,以及涡旋和洋流之间的相互作用等事件。WoodringJ等人[11]开发了一个全球海洋涡旋系统,利用折线图、直方图等常见的图表对涡旋的大小、深度进行可视化,还利用大量的高分辨率时空建模数据对涡旋进行多尺度的空间探索分析。可视分析技术确实在时空模式发现和演化分析的效率和质量方面有显著的促进作用,但是在海洋领域应用可视分析技术的研究目前还处于起步阶段,如何应用可视分析技术更好地提升复杂海洋数据分析的能力,值得进一步探索和研究。
3海洋领域的可视分析技术
3.1海洋数据及预处理
通常,海洋数据来自观测设备(如卫星、船舶或传感器等),或来自计算机仿真(如海洋大气模型)。海洋和大气在循环系统中相互耦合,因此这里的海洋数据主要指各种海洋环境要素,包括海洋水文数据和海洋气象数据。海洋水文数据包含水深、水温、盐度、水流、波浪、水色、透明度、海冰和海洋光等。海洋气象数据包含气温、压力、湿度、风速、降水、云、雾等[12]。
相关知识推荐:大数据论文投稿核心期刊
单个时间步长的观测数据和模拟数据全部由空间场数据组成,该空间场数据的每个网格点处都由多个变量组成。因此,各种时间序列的空间场数据构成了海洋数据集(观测数据集或仿真集)。随着观测技术和计算机模拟技术的不断发展,海洋数据的获取量正在以不可预测的速度迅速增长。同时,海洋数据包含强大的时空过程,涉及多尺度结构之间的复杂相互作用。海洋数据具有异构性高、维度高、体积大、时空变化大以及多种海洋数据属性之间耦合相关的特点。因此,在收集到海洋数据后,首先要进行数据清洗,以消除重复性数据、缺失数据等;其次要进行数据精简,例如过滤/采样(如简单随机采样、等距抽样、分层抽样等)、降维、分组聚合和模型拟合等[12-13]。
3.2海洋领域的可视分析技术
3.2.1海洋领域常用的可视化方法
海洋领域的可视分析系统通常采用科学可视化技术,信息可视化技术用得较少,但信息可视化技术在以挖掘信息和获取知识为目标的大数据分析中尤为重要[1]。早期,多维海洋环境要素(如水温、盐度等标量和流场矢量)可视化的常用方法是使用二维点、线、面、粒子、标记符和3D体进行绘制。对于空间数据可视化,2D地图或基于地球上的投影展示通常是地理分布的首选,同时还需要考虑投影、比例尺和视觉编码设置;对于时间序列数据可视化,通常用时间序列图展示海洋变量或现象的变化趋势。当对象的时空信息维度较高时,三维展示也存在局限性,因此通常还需要结合高维数据可视化方法,如散点图、热图/相关矩阵、投影、平行坐标图以及集成的平行坐标散点图等常用的可视化方式[13]。但是在大数据环境下,平行坐标图会遇到线条密集、重叠覆盖的问题,根据线条的聚合特征可以对平行坐标图进行简化,减少视觉混淆[1]。
3.2.2海洋领域常用的交互方法
在大数据可视分析的界面中,还需要提供相应的交互组件以及合适的交互方式来帮助用户使用和管理分析过程。目前,信息可视化中的人机交互技术主要可以分为5类:动态过滤技术、整体+详细技术、平移+缩放技术、焦点+上下文技术、多视图关联协同技术[1]。但对于一个具体的海洋领域可视分析系统而言,往往需要依据其特定的分析任务和用户习惯来设计更恰当的交互方式。
常用的交互方式有选择、探索、抽象/具象、过滤、重配置、编码、连接等。选择是海洋数据可视分析系统中最常见的交互技术,允许用户在很多显示项目中标记感兴趣的特定项目,选择这些项目并跟踪它们;探索允许用户通过更改视图来查看无法在视口或显示屏上可视化的项目;抽象/具象可以帮助用户查看不同级别的详细信息,例如执行各种聚合和汇总,实现对海洋数据的多尺度、多分辨率分析;过滤允许用户查看指定范围或条件的数据子集;重配置允许用户更改可视化的空间排列,如排序、重对齐、重布局等常见交互类型,可查看多变量数据集在不同视角下的呈现,以获得更全面的认识;编码允许用户选择不同的视觉通道(如颜色、大小、形状等)来编码多变量数据集的不同数据属性,通过多种可视化的呈现获得对数据的洞察;连接允许用户查看海洋数据项之间的关联和关系,或显示与特定显示项目相关的隐藏项,例如多视图中的刷取和高亮显示,以及与单视图中的高亮选中项关联的其他条目[13]。但就目前海洋研究者日常使用的海洋数据分析工具来看,上述许多交互方式的实际使用率有待提升。
3.2.3海洋领域常用的分析方法
可视分析技术很好地融合了高效的计算分析方法和专家的经验知识,因而能更好地提高分析的效率和质量。笔者基于海洋研究者日常不同的分析任务,阐述海洋领域的常用计算分析方法。对于多种海洋环境要素特征分析以及多变量之间相关性分析,一方面,采用各种聚类、降维等数据约减的方法来降低数据的维度,如在海洋数据可视分析中经常使用k均值聚类、自组织映射、主成分分析和多维尺度变换等降维方法;另一方面,回归分析在探索数据变量的多元关系方面已经显示出良好的潜力,回归和相关分析已经与平行坐标图集成一种新技术——多维数据浏览器[13]。此外,可以基于改进的Pearson相关系数和互信息相关性分析(mutualinformationcorrelationanalysis)方法分别检测多变量间的线性和非线性相关性[12]。
对于海洋结构(现象)识别与跟踪的任务,通常需要根据海洋结构自身的物理特征进行不同的检测和使用不同的跟踪算法。第一类方法使用聚类来实现对海洋结构边缘位置的识别,但聚类的簇数设置会直接影响检测结果的准确性[14];第二类方法基于正交经验模式分解、主成分分析、小波分析等常用的时空模式检测方法;第三类方法使用机器学习的决策树和类比较等自动数据挖掘技术进行数据驱动的复杂时空模式检测和分析[15]。此外,FranzK等人[10]提出了一种深度学习的涡旋检测和跟踪框架,该框架结合卷积神经网络的特征学习和特定的图像处理工具,可以更客观、更可靠地检测和跟踪涡旋。可见,结合机器学习和深度学习进行时空模式检测正在成为大数据时代复杂数据分析的一个重要方向。
4可视分析技术在海洋领域
的应用笔者尝试在海洋领域使用可视分析技术分析复杂的海洋时空数据,主要包括多元海洋时空数据可视分析、海洋结构(现象)可视分析,并在此基础上总结了海洋数据可视分析的基本框架。
4.1多元海洋时空数据可视分析
多元海洋时空数据可视分析通常研究多个不同的属性值在时间和空间上的变化规律以及多变量间的相关性。
4.1.1海洋水文数据可视分析
为了探索海表温度、盐度、流速场以及海面高度等多元海洋要素的时空特征以及相关性,笔者设计了一个多元海洋数据时空特征及相关性分析系统,系统包括用于数据导入、筛选和参数阈值设置的交互面板,海洋标量颜色映射和二维箭头矢量地图,成对的标量属性统计散点图,某网格点的垂向深度和时间上的属性变化趋势折线图,展示多元海洋要素相关性的平行坐标图。除此之外,该系统还包括选择、导航、编码、视图切换、抽象/具象、过滤和关联等交互方式。
选取特定海域数据集进行分析,利用该系统多个视图交互联动的探索,分析海面高度与海平面速度矢量、海表温度与海平面速度矢量、不同水深下盐度场与海平面速度矢量的时空分布特征,以及海面高度与海温、盐度的相关性。分析发现:海表温度与速度矢量的关系比海面高度与速度矢量的关系弱,并且随着水深的增加,速度矢量的分布并没有太剧烈的变化;而盐度场分布变化却出现明显的跳变(跃层),此处也是海水流动相对剧烈的地方。此外,海表温度和海面高度大体呈正相关的线性关系,而海面高度和盐度的相关性不明显。通过大量的案例研究,进一步证明了该系统在探索多个海洋要素的相关性及其时空变化特征方面都有不错的性能。——论文作者:解翠1,李明悝2,陈萍1,李孝天1,宋键1,董军宇1,赵佳萌1
SCISSCIAHCI