一、引言
近年來,海洋信息處理技術蓬勃發展,水下目標探測技術的應用也日益廣泛,涉及海底光纜的鋪設、水下石油平臺的建立與維修、海底沉船的打撈、海洋生態系統的研究等領域。水下光學圖像分辨率較高,信息量較為豐富,在短距離的水下目標探測任務中具有突出優勢。然而,由于受水下特殊成像環境的限制,水下圖像往往存在噪聲干擾多、紋理特征模糊、對比度低及顏色失真等諸多問題。因此,水下目標探測任務面臨諸多挑戰,如何在圖像可視性較差的情況下,精確、快速、穩定地檢測識別和跟蹤水下目標物體是亟待解決的問題。
根據水下目標探測任務的執行步驟,將基于光學圖像的水下目標探測關鍵技術分為圖像預處理和目標探測兩部分。其中,水下目標探測特指水下目標檢測、識別與跟蹤。近年來,國內外研究人員對基于光學圖像的水下目標探測關鍵技術進行了大量研究,水下目標探測技術取得了迅速發展,一些研究人員總結了關鍵技術的發展現狀。Sahu等總結了一系列水下圖像增強算法,Han等對水下圖像智能去霧和色彩還原算法進行了綜述,Kaeli等概述了一組用于水下圖像顏色校正改進的算法,郭繼昌等對水下圖像增強和復原算法進行了系統歸納并通過實驗對比了不同算法,Moniruzzaman等梳理了近年來深度學習在水下圖像分析中的應用。然而,這些綜述僅總結了水下目標探測某一關鍵技術的研究成果,目前仍缺少對水下目標探測關鍵技術的系統概述。
本文從水下圖像預處理和水下目標檢測、識別、跟蹤技術入手,詳細歸納了水下目標探測關鍵技術的研究現狀。根據是否需要構建模型,將水下圖像預處理分為圖像增強和圖像復原,并重點分析了水下圖像增強的各類方法(基于直方圖處理、基于Retinex理論、基于圖像融合和基于深度學習的方法)的優缺點。由于水下目標跟蹤技術的相關研究論文較少,本文主要從傳統方法和深度學習兩個角度討論了水下目標檢測與識別相關算法,并簡要介紹了常用的水下圖像數據集。在上述基礎上指出了水下光學圖像中的目標探測技術亟待解決的問題,討論了解決思路和進一步發展方向。
二、水下圖像預處理
與大氣光學成像技術相比,水下光學成像技術深受水體光吸收和散射的影響,可見光在水體中傳播的波長依賴性使得水下圖像呈現藍綠色調,水體中的雜質微粒對光的散射導致圖像細節模糊以及表面霧化。為解決上述問題,研究人員提出了大量水下圖像預處理算法,分為基于非物理模型的圖像增強方法和基于物理模型的復原方法。
1.水下圖像增強
圖像增強不需要構建模型,通過主觀處理消除水下圖像的畸變和噪聲,加強感興趣的目標物體特征,削弱不相關的背景特征。通過對現有水下圖像增強方法的調研得出常用的水下圖像增強方法有基于直方圖處理、基于Retinex理論、基于圖像融合和基于深度學習的水下圖像增強,如表1所示。
表1 水下圖像增強方法對比
⑴基于直方圖處理的水下圖像增強
高對比度的圖像通常呈現灰度細節豐富且動態范圍較大的特點,基于直方圖處理的水下圖像增強方法通過改善圖像像素值的分布范圍提高對比度,如直方圖均衡化方法和直方圖拉伸方法。直方圖均衡化方法利用概率密度函數和分布函數拉伸和均衡直方圖,對比度受限的自適應直方圖均衡化(CLAHE)算法是較為成熟的直方圖均衡化算法,能夠較好地改善水下圖像的對比度,但會引入噪聲。Qiao等將CLAHE算法與小波域濾波相結合,最大限度地消除了圖像處理過程中產生的噪聲和圖像自身帶有的噪聲。直方圖拉伸方法利用變換函數將像素值從一個區間變換到另一個區間,與直方圖均衡化方法相比,計算復雜度較低。考慮到水下圖像存在色偏現象,許多研究人員在不同的顏色空間(RGB、HSV、Lab)中對水下圖像進行直方圖拉伸,有效地提高了水下圖像的對比度,但盲目地使用全局直方圖拉伸容易使圖像丟失細節信息,且出現過度增強現象。
⑵基于Retinex理論的水下圖像增強
人眼接收到的圖像由照射光圖像和物體的反射屬性組成。Retinex圖像增強是從圖像中去除照射光的影響獲得物體的反射屬性,通常采用中心環繞函數與原圖像卷積的方式估計照射光圖像,高斯函數作為中心環繞函數具有明顯的優勢。但單個標準差的選取無法同時保證圖像的動態范圍壓縮和亮度一致性,多尺度Retinex(MSR)選取多個標準差,并通過加權疊加實現動態范圍壓縮和亮度一致性之間的權衡。有學者將雙邊濾波、三邊濾波與高斯核相結合緩解邊緣過度平滑,或利用多尺度同態濾波代替高斯濾波估計照射光,但卷積運算的計算成本隨著卷積次數的增加而顯著增加,頻繁的卷積操作會嚴重影響處理速度,改進的MSR顏色保護(IMSRCP)算法采用多次下采樣和無限脈沖響應高斯濾波提高了處理速度。
⑶基于融合的水下圖像增強
多尺度融合水下圖像增強,即利用不同的融合權重提取輸入圖像的對比度、顏色、細節紋理等信息,并將其融合到輸出圖像中。針對水下圖像存在色偏和對比度低的問題,輸入圖像常為水下退化圖像顏色校正和對比度增強后的圖像。然而深水環境中水體對光的波長選擇性衰減使得直接應用顏色校正算法易出現紅色偽影,有學者根據水下可見光的衰減特性采用光補償的方式校正色偏,提升圖像的對比度并補償圖像細節信息,有效地解決了水下圖像顏色失真、對比度低的問題,但處理后的圖像存在局部亮度偏大的問題。多尺度融合過程中融合權重的設計也至關重要,具有高權重值的像素在輸出圖像中更具代表性。常用的權重如對比度權重、飽和度權重、顯著性權重、曝光度權重及亮度權重等,考慮了如何提取紋理和邊緣信息,區分平滑區域和變化快的區域,每個像素及其鄰域像素之間的關系,如何在突出顯著性較強區域的同時保證與非顯著性區域間差值不能過大等。權重的設計并不是對所有水下圖像都有較好的結果,這取決于水下圖像的退化類型、時間復雜度和期望的結果等因素。
⑷基于深度學習的水下圖像增強
隨著深度學習網絡在多個領域的成功應用,基于深度學習的水下圖像增強方法也逐漸取得了國內外研究人員的關注。目前,學者們主要將有監督的深度學習方法應用于水下圖像增強,這需要大量的訓練集,包括水下退化圖像及其對應的真值圖像。
由于受特殊成像環境的限制,水下真值圖像很難獲得,若采用傳統算法處理后的清晰圖像作為真值圖像,難以突破傳統算法處理效果的限制。有學者從多種傳統算法處理結果中選取最佳圖像作為真值圖像,或通過估計水下成像的隨機參數合成水下圖像,但合成的水下圖像存在假設不準確、場景單一等問題,與真實水下圖像相差甚遠,由合成水下圖像訓練的深度網絡在真實水下環境中的圖像增強能力也遠不如人意。
用于水下圖像增強的深度網絡主要有生成對抗網絡(GAN)和卷積神經網絡(CNN)。GAN的核心思想是通過使用對抗訓練過程,生成一個足以以假亂真的生成圖像替代真實圖像。CNN方法能夠更好地提高圖像的峰值信噪比,GAN方法在圖像顏色校正方面具有更好的效果。但這些方法的魯棒性和泛化能力與傳統的最先進的算法相比仍有一定差距。
2.水下圖像復原
基于增強的方法是在特定意義上提高圖像質量,可有效地提高圖像的視覺效果,但由于沒有考慮物理退化原理,忽略了退化程度與場景深度的關系,增強結果不能正確反映場景的真實色彩特征。相反,基于復原的方法使用構建的水下成像模型逆轉退化過程,需估計未知參數,其難點在于如何保證在降低計算模型復雜度的前提下準確估計參數,使恢復后的圖像更接近真實場景。
有學者采用大氣散射模型描述水下圖像的退化過程,但未考慮水下光衰減的波長依賴性,其研究僅適用于清澈的淺水域。簡化的水下成像模型中融入了水體吸收光的波長選擇特性,受多數學者的青睞,但并未考慮到衰減系數隨環境因素的變化;修正的水下成像模型在簡化模型的基礎上進一步完善,但其復雜度較高,不能得到廣泛應用。
常用的場景系數估計方法有基于改進暗通道先驗理論(DCP)的方法和基于深度學習的方法,如表2所示。基于改進DCP的方法多數基于特定的假設,在特定環境中能很好地校正色偏和去霧,但一些假設忽略了前向散射的影響,并不適用于所有的水下環境,魯棒性不強,且易受非均勻光照的影響。
表2 水下場景系數估計方法對比分析
基于深度學習的方法,如用于學習透射率圖的水下殘卷積神經網絡(URCNN)、水下圖像復原網絡(UIRNet)及水下圖像實時顏色校正的無監督生成對抗網絡(WaterGAN)等,通過有效的網絡訓練在一定程度上降低了基于DCP假設方法的估計誤差,但在水質較為渾濁的情況下,URCNN出現曝光過度的現象。此外,網絡越深,參數越多越復雜,給網絡訓練帶來一定的影響。
三、水下目標探測
無論是對水下壩基裂縫的檢測、水下管道電纜的鋪設與檢修等工程應用領域,還是對魚類等水生生物種群的海洋生態監測領域,水下目標探測都具有重要的研究意義。本文的水下目標探測特指水下目標檢測、識別與跟蹤。從概念上說,水下目標檢測是在給定目標物體的前提下,根據其特征和先驗知識確認水下圖像中是否存在該目標物體;水下目標識別是在給定一幅圖像的情況下,通過提取圖像中的特征信息,并將其進行分類,進而識別圖像中的目標物體;水下目標跟蹤是在目標檢測的基礎上對目標的狀態進行連續估計的過程。檢測和識別間并沒有非常分明的界限,多數文獻也將檢測和識別的概念混在一起,因此,本文對水下目標檢測和識別并不加以嚴格區分。
1.水下目標檢測與識別
近年來,國內外研究機構及學者對水下目標檢測與識別算法進行了大量研究,水下目標檢測與識別技術發展迅速,根據目標類型可將其分為基于傳統特征的水下目標檢測識別和基于深度學習網絡的水下目標檢測識別。
⑴基于傳統特征的水下目標檢測與識別
水下機器人在執行工程任務時需檢測識別的目標物體多數為管道、電纜等具有規則形狀的人造目標物體,特征明顯。基于傳統特征的水下目標檢測與識別方法通過特征描述符刻畫水下目標物體,具有方法簡單、實時性好的優點,但也受目標物體尺寸變化、旋轉、被遮擋和拍攝角度變化、物種類別變化的影響。常用的水下圖像特征有顏色特征、形狀特征、紋理特征等,圖1歸納了傳統的水下圖像特征提取的主要方法。
圖1傳統的水下圖像特征提取的主要方法
①顏色特征
雖然水下光學圖像存在色偏現象,使得顏色信息在水下目標探測中應用時,存在一定的局限性,但顏色本身固有的對尺度變化、目標位置變化及局部遮擋的魯棒性,使得顏色成為一個簡單且非常可靠的信息特征。由于HSV顏色空間可分離圖像的顏色信息和光強度,顏色特征的提取通常在HSV顏色空間中進行,通過設置特定的顏色閾值分割目標和背景環境,但易受相同顏色的背景物體的干擾。有學者結合水下顏色恒常性問題,檢測給定物體顏色的相容色,直接對原始數據進行處理,所需計算機資源少,實時性好,且對局部遮擋、目標位置和尺度變化具有很強的魯棒性,但未能考慮水下較暗的顏色和光學成像模型中的后向散射分量。此外,顏色直方圖也是采用顏色特征進行目標檢測的一種常用方法,但直方圖基于統計特性,缺少空間分布信息。
②形狀特征
形狀特征具有較好的魯棒性,在水下環境中抗干擾能力強,且典型的水下人造目標物體,如管道、電纜等,均具有規則的形狀,因此常通過形狀特征提取檢測識別水下目標。形狀特征的提取方法主要有邊緣檢測算子、霍夫(Hough)變換、形狀特征描述符法等。Hough變換是檢測直線的最好工具之一,LIN等將Hough變換用于識別物體的線性或中心特征,Fatan等采用Hough變換檢測水下電纜和管道。雖然Hough變換可檢測直線,但不能提供線段長度等完整性信息,且計算量大,耗費存儲空間。尺度不變特征轉換(SIFT)是較為可靠的特征描述符,包括尺度空間的極值檢測、關鍵點定位、方向分配、生成關鍵點描述符四個步驟。加速穩健特征(SURF)對SIFT進行了優化,采用box濾波器替代計算高斯拉普拉斯函數的過程來檢測感興趣點,并增加了兩個新的概念減少運算時間,描述符向量的長度也減少了一半。
③紋理特征
紋理特征是一種全局特征,包含信息多且復雜,描述圖像或其中小塊區域的空間顏色分布和光強分布,通過像素及其周圍空間鄰域的灰度分布來表現,抗噪能力強,具有旋轉不變性,不會因局部偏差導致無法成功匹配。灰度共生矩陣(GLCM)常用來描述圖像的紋理特征,Li等同時利用GLCM和分形維數描述圖像視覺紋理特征,Cheng等采用GLCM提取水下模糊圖像的紋理細節信息捕捉圖像的模糊度。雖然GLCM能夠很好地提取圖像的紋理特征,但也存在一些缺點,如計算量大,耗時較長,且有時會對不同結構模式產生相同的二進制碼。
局部二進制模式(LBP)根據局部結構特征對紋理進行結構描述和統計描述,具有計算簡單、效率高、紋理識別性能好等特點,但LBP算子的不足在于當鄰
域數增加時,特征向量的維數變得很高,Z⊙TZLBP通過減少特征向量的維數降低了LBP的計算復雜度,成功用于珊瑚圖像的分類中。
④多特征結合
單個特征難以完全描述目標物體的特性,一些顏色和輪廓特性構建塊特征描述符;Rizzini等根據水下圖像的顏色均勻性和輪廓的銳度搜索目標物體。多特征結合的方法能夠更加準確地描述水下目標物體,檢測成功率普遍有了提升,但也存在計算復雜度增加的不足。
傳統的水下目標檢測與識別方法預先指定了目標物體的特征,這些特征采用常用的低層圖像特征描述符,能夠很好地識別簡單目標物體。然而在監測魚類等水生生物種群信息時,由于魚類的巨大多樣性,為特定物種設計的一組特征并不能保證對其他物種也具有良好的適應性。此外,人工選擇的特征也可能導致物體的識別性能不佳。
⑵基于深度學習的水下目標檢測與識別
在2012年的ImageNet大尺度視覺識別挑戰賽中,CNN方法顯示出更高的圖像分類精度。隨著GPU等硬件系統的發展日趨成熟,深度學習面臨的數據量異常龐大,訓練時間冗長的問題得到了有效解決,基于深度學習的目標檢測與識別技術發展迅速。
①水下目標檢測識別算法
許多機器視覺任務中,深度學習網絡從像素級原始數據到抽象的語義概念逐層提取信息,使其在提取圖像的全局特征和上下文信息方面具有突出的優勢,與傳統方法相比,表現更好。研究人員通過實驗對比了深度學習網絡和傳統分類算法的性能,發現傳統方法分類的準確率明顯更低。為了進一步提高深度網絡在水下特殊環境中的目標檢測識別精度,許多學者將深度神經網絡與其他算法相結合,如表3所示,充分發揮了各算法的優勢,在水下目標檢測時降低了大量訓練數據的需求,提高了檢測精度及適應性。Cao等將人工提取的特征與CNN提取的特征相結合,也達到了比單獨應用CNN更高的精度。
表3 深度神經網絡用于水下目標檢測與識別的對比分析
隨后,CNN出現了很多變體,如R-CNN、FastR-CNN、YOLOCNN、YOLOv2CNN、YOLOv3CNN等。li等將高精度的FastR-CNN應用于復雜的水下環境中進行魚類的檢測與識別,與可變形部件模型(DPM)相比,FastR-CNN的平均精度(mAP)提高了11.2%,達到了81.4%,并且在單個魚圖像上檢測速度比R-CMM快80倍。Mandal等將FastR-CNN與三種分類網絡相結合,用于魚類物種的檢測和識別。
Lu等所提出的深度卷積濾波網絡(FDCNet)的分類精度比一些經典的分類方法,如AlexNet、GoogLeNet、ResNet50和ResNet100,分別提高了1.8%,2.9%,2.0%和1.0%。Christensen等提出了一種基于光學的魚類檢測網絡OFDNet,利用水下攝像機獲取的視覺數據進行魚類檢測、定位和物種分類。針對水下視頻魚類檢測的實時性問題,Sung等提出了一種基于YOLO的卷積神經網絡,使用真實環境下的魚類視頻圖像對該方法的可靠性和準確性進行評價,分類準確率為93%。Pedersen等對YOLOv2CNN和YOLOv3CNN進行了調整,并用于水下目標檢測。通過端到端訓練的學習任務,深度學習可實現多層非線性變換,將底層特征有效地組合成一個更加抽象的高層表示屬性,當存在目標遮擋,目標尺寸較小時也能成功檢測,但由于深度神經網絡結構復雜,這使其應用到特定環境中時需調整大量參數。
②用于水下目標檢測與識別的水下圖像數據集有效的訓練集數據是提高基于深度學習的水下目標檢測與識別精度的關鍵。通常,用于水下目標檢測與識別的水下圖像數據集應包含以下特點:水下場景環境的多樣性,不同程度和不同類型的圖像質量退化,以及目標種類、目標物體姿態的多樣性等。fish4knowledge數據集以復雜的珊瑚礁環境為背景,包含豐富的運動生物,如游動的魚類、海葵、生長的藻類、漂動的水生植物等,是應用最為廣泛的水下圖像數據集。Brackish數據集包含了不同能見度的咸水中的魚、蟹和海星圖像序列及其對應帶注釋的圖像序列。同時,有關文獻中也詳細總結了用于魚類、底棲生物檢測和海洋環境監測的J-EDI、Croatian Fish Dataset、QUT Fish Dataset、HabCam、Benthoz-15、Tasmania Coral PointCount、The Moorea Labeled Corals、Eilat Fluorescence、Mouss、AFSC、MBARI和NWFSC數據集。此外,還有用于場景識別和目標檢測的SUN Dataset中的水下圖像,用于海洋自主機器人的MARTS Dataset等。
2.水下目標跟蹤
水下目標跟蹤過程中會存在各種問題,如目標形變、目標遮擋、目標與背景中相似的物體特征、陰影問題、光照的變化、背景景物的運動和跟蹤實時性與準確性的平衡問題等。常用的水下目標跟蹤方法如表4所示。
表4 水下目標跟蹤方法對比
光流法和均值偏移法常被用于基于視覺的跟蹤過程中。光流法通過計算兩個連續幀中的流速估計圖像點的位置,需要大量精確的圖像特征點,當圖像存在模糊問題時,圖像特征點提取困難,進而影響跟蹤效果。均值偏移法能夠非常有效地跟蹤非剛性物體,對距離變化具有魯棒性,但圖像中存在兩個互相重疊的物體時,無法跟蹤到目標。Wang等采用自適應均值偏移算法跟蹤魚類,通過對尺度的估計,利用背景和目標區域的顏色直方圖,處理魚姿態的變化和光照不均勻性,很好地克服了上述不足。
Zheng等提出了一種自適應的基于邊緣的均值偏移(MS)跟蹤算法,該算法可有效地跟蹤灰度變化目標,但嚴重的漂移會導致目標區域的擴展和目標位置的不精確。Chuang等采用基于顏色、紋理特征和HOG特征的均值漂移算法有效地估計核運動,然后與DPM相結合,提出了基于可變形多核的跟蹤算法,不僅利用了基于內核的跟蹤的低計算成本,而且利用了DPM檢測目標定位的魯棒性。
近年來,深度學習的興起為視覺跟蹤領域提供了新的方向。然而,超長的離線訓練時間和深度學習所需的大量圖像極大地阻礙了學習的進展,CNT不需要大量輔助數據進行離線訓練,簡單的兩層前向卷積網絡就足以學習圖像特征來進行魯棒的視覺跟蹤。
CNT的第一層卷積網絡由一組濾波器定義的簡單單元特征圖構成,其中每個濾波器用K-means算法從第一幀中提取歸一化圖像塊;第二層將簡單單元特征圖疊加成復雜單元特征圖作為目標表示,對目標的局部結構和幾何布局信息進行編碼,采用軟收縮策略對目標表示進行降噪。此外,CNT還采用一種有效的在線方案更新目標表示,以適應跟蹤過程中目標外觀的變化,但CNT的不足在于跟蹤目標時存在漂移現象。Fast-CNT算法采用自適應K值代替K-means算法中的固定K值,省略了CNT中使用的背景濾波器,在不影響性能的前提下節省了計算時間,平均計算性能提高了2~10倍,SURF特征點與粒子濾波的結合解決了CNT中存在的漂移問題。Huang等在跟蹤前采用GMM提取每個包含運動目標(魚)的區域,并識別包含魚的相應區域,再采用Fast-CNT網絡進行水下多目標跟蹤,即使魚的姿態有很大的變化,該方法仍然能夠成功跟蹤多條魚,但一條魚被另一條完全遮擋時,會出現跟蹤失敗的情況。
四、結束語
水下目標探測關鍵技術在海洋信息處理中具有很大的應用前景和發展潛力,受到越來越多學者的關注,經過幾十年的發展取得了很多成果,但目前對水下目標探測關鍵技術的研究現狀仍缺乏統一歸納。對近年來國內外水下圖像預處理、水下目標檢測識別與跟蹤的研究進展進行了調研總結,為科研人員提供了參考和依據。雖然基于光學圖像的水下目標探測關鍵技術取得了許多研究成果,但仍存在一些問題需要進一步探討,可以從以下幾個方面入手。
⑴提高水下圖像預處理方法的有效性、實時性以及魯棒性、自適應性。
目前針對水下圖像增強、復原技術的研究較多,且大部分算法是解決色偏、對比度低、非均勻光照的問題,與此同時還要兼顧算法的有效性、實時性以及魯棒性、自適應性,在這些方面還有許多工作要做。目前的預處理算法幾乎都僅作用于單幅圖像,而水下目標探測任務中視頻的作用較大,針對水下視頻預處理算法,幀間一致性的問題仍需考慮。
⑵深度學習在水下目標探測各關鍵技術中的應用。
深度學習的動機在于建立、模擬人腦的機制進行分析學習并處理數據。基于深度學習的水下目標探測關鍵技術可以顯著提高算法的性能,但該算法存在可解釋性差的問題,應用到目標探測各關鍵技術中時也有一些問題。首先,現有的水下圖像預處理方法很少采用深度學習算法,原因在于采用深度學習方法對水下圖像預處理時需要大量的真值圖像,由于受特殊成像環境的限制,水下真值圖像很難獲得,若采用傳統算法處理后的清晰圖像作為真值圖像,又難以突破傳統算法處理效果的限制。其次,將深度學習應用于水下目標探測算法中時,也存在訓練樣本繁多、訓練過程漫長、網絡結構復雜、在普通設備上的應用受到限制等問題。如何解決這些問題對以后的研究提出了很高的要求。此外,由于非監督深度網絡無需真值圖像,可以完美解決水下真值圖像難以獲得的問題,但目前還沒有基于非監督的深度學習網絡應用到水下目標探測關鍵技術中的相關研究。
⑶仿照水下生物視覺的信息處理模式進行水下目標探測。
在水下圖像中檢測、識別、跟蹤目標物體時都會進行圖像預處理以提高成功率,這勢必會增加處理時間,在實時性要求較高的應用中很難滿足要求。水下生物能夠在復雜多變的水下環境生存,它們擁有各自特殊的視覺系統,仿照水下生物視覺的信息處理模式進行水下目標檢測、識別與跟蹤也是一個可以考慮的目標探測研究方向。
⑷將陸上目標探測算法遷移到水下環境中。
由于受水下特殊光學環境的限制,陸上目標探測算法的研究遙遙領先于水下目標探測算法。目前,研究較為先進的陸上目標檢測算法有RetinaNet、Mask R-CNN、RefineDet、M2Det等,克服水下環境的特殊限制,將這些算法遷移到水下環境中,對推動水下目標探測技術的發展具有重要意義。