发布时间:2021-08-07所属分类:免费文献浏览:1次
摘 要: 信息技术
《基于海上无人平台的低功耗实时智能监测系统》论文发表期刊:《信息技术》;发表周期:2021年03期
《基于海上无人平台的低功耗实时智能监测系统》论文作者信息:作者简介: 宋罡(1994-) ,男,硕士研究生,研究方向为人工智能系统的软硬件实现。 * 通讯作者: 蒋乐天(1975-) ,男,博士,副教授,研究方向为嵌入式系统、软件可靠性和可用性。
摘要: 针对海上无人值守的监测平台对功耗、实时性、识别率等方面的要求,设计并实现了基于人工智能技术的综合目标识别系统。该系统提出了目标框定预处理算法,大大降低了神经网络的输入数据量; 通过神经网络模型优化降低了计算复杂度,并能适应不同尺寸的输入图片。该系统具有良好的性能功耗比,能较好地满足实际应用场景的需求。
关键词: 海上无人平台; 智能监测; 目标框定预处理算法; 低功耗神经网络
Abstract: Aiming at the requirements for power consumption, realtime performance and recognition rate of offshore unmanned platform, a comprehensive target recognition system based on artificial intelligence tech-nology is proposed and implemented. A preprocessing algorithm of target framing is proposed to greatly reduce the amount of input data for neural network; the neural network model is optimized to reduce the computational complexity and adapt to different sizes of input images. The system provides good performancel power ratio, and can better meet the needs of practical applications.
Key words: offshore unmanned platform; intelligent surveillance; pre processing algorithm of target framing; low power neural network
0 引 言
随着国家对海洋开发和海洋国土安全的日益重视,基于海上无人平台( 无人船、无人机、浮标等) 的智能监测识别系统引起了越来越多的关注。这种系统一方面对海上目标的识别率和处理实时性有很高的要求; 另一方面受到载荷的制约,
对功耗、体积、重量等方面有着严格的限制。而现有的人工智能算法对算力要求很高,而且往往基于 CPU/GPU 的架构实现,存在功耗高、体积大的问题,很难直接部署于海上无人平台。
针对上述问题,本文提出了一种创新性的综合目标识别系统,并进行了基于 FPGA 的硬件实现。针对海上光学设备往往具有非常广的画面视角以及非常高的图像分辨率( 4K 及以上) 的特点,设计了自适应的目标框定算法进行预处理,大大降低了后端神经网络的数据处理量和算力要求。同时对YOLOv4神经网络模型进行了优化调整",进一步降低了系统的计算复杂度,而且能够实时适应前端预处理提供的不同尺寸的框定图片。测试结果表明,该系统对各类海上目标的识别率达到了98%,对4K分辨率图片的处理速度大于10FPs,同时整体功耗小于20瓦、不到目前同类系统的1/10.1目标框定预处理算法
海上智能监测识别系统的待测目标包括浮标、船只、礁石、海面飞行物等,目标种类多、速度差异大,而且容易受到海面波浪及反光的干扰。另一方面,海上识别背景相对单一,待测目标相对尺寸小且目标之间分布离散。针对上述特点,本系统设计了如图1所示的目标框定预处理算法,对图像中的可疑目标进行快速预检,既可以有效降低后端神经网络的数据处理量,也抑制了波浪及反光的干扰。该算法同时进行定向运动的目标监测和基于轮廓的目标监测,然后将两者的结果进行信息融合并通过目标框定将可疑目标框出。
1. 1 定向运动目标监测
背景差分和帧间滤波模块提取出图像当前帧与背景帧之间的运动信息并滤除掉其中无规律的随机运动( 一般为海面波浪运动造成的随机反光、岸边树叶的晃动、成像系统的底噪等情形) ,得到具有固定方向的运动信息( 一般为速度较快的飞机、鸟类、船只等) ,从而得到运动可疑目标的大致位置。
该帧间滤波模块的算法创新点是:将描述运动的最小单元分解为8 x8pixels尺寸的cells,对连续帧的cells做空间滑动皮尔逊相关2,通过空间滑动找到一个最相关的位置(dx,dy)I min(pra其中d,dy即对应了该cell的运动信息:通过连续12帧的比较,滤除无规则的运动信息并保留同一个方向的运动信息息。
1.2 基于轮廓目标检测
利用海上目标和背景之间、海面和天空之间一般都具有较为明显轮廓的特点,通过基于FP-GA的快速canny算子[、提取出画面中的像素梯度变化剧烈处的信息,从而得到具有明显轮廓可疑目标的大致位置。同时,通过海平面轮廓线的识别,可以使得系统能够掌握海面与天空的区域划分,从而为后端神经网络的目标识别进行辅助判断。
1.3 目标框定
将信息融合之后得到的可疑目标所在位置以预设大小的方形框出,保证框选结果之间无重叠,作为后端神经网络的输入。假设预设方形框的大小为a xaPixels,根据后端神经网络的输入特性,将a设为32的倍数,即有:
该目标框定预处理算法的最终效果如图2所示,该算法大大降低了输入后端神经网络的图片数据量。如果按图像中每帧平均存在 1 个 320 ×320大小的可疑目标框估算,可以将后端神经网络模型的平均计算量降低到原先的1.33%,从而使得系统实时处理4K分辨率的视频流成为可能。实验结果表明,相对于直接将4K分辨率的图像输入神经网络,加入该算法之后,系统的查全率从98.8%下降为98.0%,损失不到1%;而系统的处理速率从0.06帧/秒提升至5.1帧/秒,速度提高了75倍。
2神经网络模型优化
海上智能监测识别系统的目标识别任务由深度卷积神经网络实现。采用YOLOv3.YOLOv4等神经网络模型可以达到较高的识别准确率,但是算力要求过高,在资源受限的海上无人平台上很难达到实时处理的要求。结合海上目标监测的具体场景,本系统对YOLOv4模型进行针对性的结构优化,力图在保留YOLOv4网络特性的同时有效降低网络模型的规模和计算复杂度:为了与目标框定预处理算法的动态输出相匹配,网络输入可以自适应接收不同尺寸的图片。优化之后的神经网络模型如图3所示。其中CBL即Convolution.BatchNormal,LeakyRelu层的串联,CSP*X表示由x个残差块构成的CSP结构。
2. 1 BackBone 优化
结合海上智能监测的识别目标和背景的特点,对YOLOv4中的CSPNet进行网络宽度和深度的缩减[]。相比于YOLOv4,模型总深度从161层降至67层,网络模型平均宽度从326.1降至102.4,但是不同于通用的YOLOv4Tiny简化网络,保留了YOLOv4中的CSPNet和残差结构,从而尽可能保持网络深度。
2.2 Neck优化
考虑到海上待测目标尺寸较小(95%的目标尺寸分布在8-260pixels区间内),优化了YOLOv4的输出尺度金字塔架构,从原本的三组不同尺度输出变为两组。同时尽可能地保留YOL0v4中的新特性,如PANet和SPP结构等62.3 激活函数选择考虑到系统采用基于FPGA的硬件实现架构,将YOLOv4中被大量使用的Mish激活函数全部改为硬件实现简单的LeakyRelu函数,在大大减少FPGA硬件资源开销的同时只有约0.4%的mAP指标下降。
优化模型与其他网络的性能对比如表1所示。实验采用480 ×480分辨率的海上目标数据集进行测试,实现平台为NVIDIA RTX2070.通过表1可以看出,本文改进模型的识别准确率(mAP@0.5)仅次于YOLOv3和YOLOv4网络,好于其他轻量级网络;每秒处理帧数是YOLOv4的5. 2 倍,是所有算法中最快的。因此,本文改进模型在精度和速度上都有良好的表现,能够满足海上目标监测的场景需求。
3 系统实现和性能分析
海上智能监测识别系统由海上无人平台和地面总控站两部分组成,系统整体结构如图 4 所示。海上无人平台实现本地化的海面视频智能监测与识别,通过 4G 通信模块将处理后的视频流和实时预警信息远程发送至地面总控站。地面总控站同时接收来自多个海上无人平台的上传结果并实时展示,可以远程控制海上无人平台的工作状态并更新其中的算法模型。
海上无人平台的硬件核心模块基于Xilinx Zynq Ultrascale + MPSoC XCZU15EG芯片实现,采用ARM +FPGA的片上系统(SoC)硬件方案。
3.1 FPGA侧实现
FPGA侧进行目标框定预处理和神经网络模型推断。所有子模块采用流水线架构并通过AXI-Stream总线互联,实现高吞吐率性能。优化模型采用INT8方式量化回,便于FPGA实现并进一步缩小了参数量。
专门设计了一个类似于DPU的通用卷积神经网络计算架构[:其中PE模块目前已完成卷积层、批量归一化层、Relu、LeakyRelu、平均池化层、最大值池化层、通道拼接、上采样层等各层算子实现,覆盖了本文优化模型中的所有操作。为了自适应接收不同尺寸的图片,创新性地
设计了图像帧头解析模块。该模块根据输入图片尺寸的变化,实时调整片上缓存对于模型权值与各层激活值的临时存取策略。
3.2 ARM侧实现
基于ARM架构的CPU连接FPGA,eMMC Flash.DDRA4等外围设备,组成嵌入式系统。嵌入式系统对智能识别结果进行后处理与视频叠加,并形成实时预警信息。
采用本文算法输入4K分辨率的海上实际数据,使用不同硬件平台实现的性能对比如表2所示。从表2可以看出,本文使用的FPGA硬件平台的性能和处理速度接近现有的CPU/GPU处理平台,但是功耗不足20瓦,具有远超CPU/GPU的性能功耗比,非常适合部署在海上无人平台。
4 结束语
本文设计了一种用于海上无人平台的高性能
功耗比的智能监测识别系统。该系统提出目标框
定预处理算法并优化了YOLOv4神经网络模型,可以实时处理高分辨率的视频流。系统基于FP-GA实现并在海上无人船上通过了实场测试,结果表明,该系统在识别率、实时性、功耗等方面均
达到了良好的性能。后续可以考虑对神经网络模型进行深度剪枝量化等优化操作,进一步提升系
统的性能功耗比和实用价值。
参考文献:
[1]Bochkovskiy A,Wang C Y,Liao H Y M.YOLOv4:optimal speed and accuracy of object detection[].arXiv Preprint,2004:109342020
[2]Rodgers J L,Nicewander W A.Thirteen ways to look at the correlation coefficient[J].The American Statistician,1988,42(1):59-66.
[3]Canny J.A computational approach to edge detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1986,8(6):679-698.
[4] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, realtime object detection [J]. ar Xiv,2015,506:02640.
[5] Wang C Y, Liao H Y M, Wu Y H, et al. CSPNet: a new backbone that can enhance leaming capability of cnn[]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshop (CVPR Workshop), 2020:1571 -1580.
[6] Liu Shu, Qi Lu, Qin Hai-fang, et al. Path aggregation network for instance segmentation [C]. CVPR, 2018: 8759-8768
[7]AlexeyAB.Yolo v4,v3 and v2 for Windows and Linux [EB/OL].(2020-08-23)[202049-01].
[8]Zynq UltraScale + MPSoC Data Sheet:Overview(DS891)[M].Xilinx,2019:1-3.
[9]Jacob B,Kligys S,Chen B,et al.Quantization and training of neural networks for efficient integer-arithmetic-only inference[C].CVPR,2018:2704-2713.
[10]Zyng DPU v3.2 Product Guide(PG338)[M].Xilinx,2020:6-7.
SCISSCIAHCI