復雜場(chǎng)景下視頻監控的準確率
來(lái)源:數字音視工程網(wǎng) 編輯:merry2013 2015-12-11 06:26:45 加入收藏 咨詢(xún)

所在單位: | * |
姓名: | * |
手機: | * |
職位: | |
郵箱: | * |
其他聯(lián)系方式: | |
咨詢(xún)內容: | |
驗證碼: |
|
視頻監控進(jìn)入網(wǎng)絡(luò )化、高清化之后,智能化已經(jīng)成為安防技術(shù)競爭熱點(diǎn)。視頻監控前后端的智能分析正在安防行業(yè)得到逐步的應用,但鑒于二維建模分析原理的局限性,智能分析的準確度受限于應用場(chǎng)景的復雜程度及芯片處理器的性能等條件。很顯然,在技術(shù)領(lǐng)域的垂直研發(fā)能力要解決現有的問(wèn)題,并不是一件容易的事。那么,如果從二維的建模思維跳躍到三維的立體空間建模,會(huì )不會(huì )帶來(lái)智能分析技術(shù)領(lǐng)域革新性的發(fā)展?北京格靈深瞳信息技術(shù)有限公司聯(lián)合創(chuàng )始人兼CTO趙勇認為,基于三維深度視覺(jué)信號處理技術(shù)的視覺(jué)傳感器網(wǎng)絡(luò ),對于智能分析在場(chǎng)景應用中的準確率將從本質(zhì)上得到提升,并解決用戶(hù)對場(chǎng)景監控環(huán)境中獲得人的軌跡行為的迫切需求。
a&s:目前二維的智能算法在場(chǎng)景應用中存在哪些問(wèn)題?
趙勇:安防監控在過(guò)去的發(fā)展歷程中主要是鋪設備和提升攝像機的分辨率,但是這個(gè)過(guò)程給用戶(hù)帶來(lái)了巨大的痛苦——大多數安防監控的數據量更大了,而行為分析的能力沒(méi)有得到提升。很多客戶(hù)需要更智能的產(chǎn)品,那就是不需要人去監看,或者需要人去看的數據很少,所以這里蘊藏著(zhù)非常強的市場(chǎng)需求,就是對人的行為的分析。我們知道,安防監控有很多的目標,但最重要的目標是人,很多客戶(hù)希望行為分析里面能把人的行為看得很清楚。
人的行為分很多層次,有些是微觀(guān)行為,比如人有沒(méi)有在桌上拿走一張錢(qián),或者他的眉毛有沒(méi)有皺一下,這種非常細的行為,這樣的行為分析目前還沒(méi)有做。當前行業(yè)做的行為分析是基于人的軌跡進(jìn)行分析,比如在銀行里,有兩種需求:第一種需求是在銀行的營(yíng)業(yè)廳里面,客戶(hù)想知道秩序怎么樣,每個(gè)人在干什么,有沒(méi)有排隊,有沒(méi)有移動(dòng)過(guò)快,有沒(méi)有異常的接近、跌倒或其他激烈的動(dòng)作。實(shí)踐證明,如果在人群比較擁擠,人與人有遮擋等復雜的情況下,用二維的智能算法去做分析,精度非常差。
第二種需求是在銀行內部的操作空間——敏感的現金區、ATM加鈔間和金庫。在這些地方客戶(hù)有非常強的業(yè)務(wù)需求,比如在加鈔間的款箱被打開(kāi)的時(shí)候,監控畫(huà)面要確保有兩名工作人員來(lái)完成操作;在金庫里面,人去了哪些地方,停留了多久……這些業(yè)務(wù)要求需要對人的行為進(jìn)行檢查和跟蹤,再者如果人蹲了下去,或者人被遮擋了,攝像機還能精確檢測到這個(gè)人是誰(shuí),那就要求對智能分析算法的精度比較高。當前傳統的基于二維的智能算法,還不能滿(mǎn)足這些具體的業(yè)務(wù)需求。
a&s:三維比二維的智能分析算法有哪些優(yōu)勢?
趙勇:要從根本上、光學(xué)上徹底解決二維智能算法準確率不高的難題,可以從三維計算機視覺(jué)去尋求突破。三維計算機視覺(jué)是采用了革命性的三維視覺(jué)傳感器和三維視覺(jué)算法,實(shí)時(shí)捕捉和分析場(chǎng)景的三維信息,解決了傳統二維圖像中的相互遮擋、影隨人動(dòng)、比例混淆等問(wèn)題,使得更高精確度和復雜度的智能分析成為現實(shí)。
相互遮擋的問(wèn)題
我們知道,現在行業(yè)用的攝像機是二維的,成像原理是通過(guò)鏡頭達到小孔成像的原理,然后投影到一個(gè)二維的平面上,以前的平面是膠卷,現在是半導體芯片的數碼相機。這個(gè)成像的過(guò)程本質(zhì)是沒(méi)有改變的,一個(gè)三維的世界,壓扁之后放在一個(gè)平面上,從智能算法的角度分析,這個(gè)過(guò)程是造成準確度下降的核心。比如當兩個(gè)人前后有遮擋時(shí),那么在二維圖形里面要把這兩個(gè)人分開(kāi)來(lái),難度比較大。而三維的攝像機,首先傳感器是不一樣的,它捕捉的是三維圖像,每一個(gè)像素都是有顏色的,還有這個(gè)像素代表的物體到相機的絕對距離。格靈深瞳現在研發(fā)出來(lái)的皓目攝像機有點(diǎn)像雷達,除了被動(dòng)的成像,還向外主動(dòng)的發(fā)射微波的微觀(guān)紅外圖像,相當于在場(chǎng)景里發(fā)射出一束激光,打在物體上返回時(shí)攜帶了物體的幾何信息。攝像機通過(guò)這種方式得到了立體的圖像,知道什么東西在什么地方,它的結構是怎么樣的。這種數據從本質(zhì)上講,給出了更豐富的信息,可以讓攝像機去處理更復雜的場(chǎng)景,比如擁擠的場(chǎng)所,即使一個(gè)人被擋住了,他露出的部分,還是可以非常清晰地在圖像里分析出來(lái),這也是為什么在復雜的場(chǎng)景,三維的智能分析對人的跟蹤遠遠比二維的要好。
影隨人動(dòng)的問(wèn)題
其實(shí),三維對光影變化的處理抗噪性特別的好,在視覺(jué)領(lǐng)域,有一個(gè)現象叫“影隨人動(dòng)”,當物體的影子比較強烈的時(shí)候,在二維的圖像里面,影子會(huì )隨著(zhù)人的移動(dòng)而跟著(zhù)移動(dòng),所以要把影子與人分開(kāi)很難,影子容易被誤當做人。但是這個(gè)過(guò)程有一點(diǎn)是確定的,那就是影子始終是投影在背景上的,三維的傳感器既然可以捕捉到物體的深度信息,所以即使有一個(gè)影子在背景上,攝像機也可以通過(guò)計算該影子與到相機的距離來(lái)分辨其是否在背景上,對整體的分析沒(méi)有造成干擾。
比例混淆的問(wèn)題
在圖像里面,物體的大小與其實(shí)際大小并沒(méi)有關(guān)系,因為它還取決于這個(gè)物體到攝像機的距離。但是在三維圖像里面,可以很精確地知道,這個(gè)物體在什么地方,它有多大多小。三維的攝像機有一個(gè)絕對尺度的計算,有了絕對尺度之后,就可以做到大小、距離、加速度的測量等。但在二維相機里,沒(méi)有絕對的尺度,所有的都是相對尺度,所以所有的測量都是相對的。因此三維攝像機對人的行為可以進(jìn)行更精確的測量,比如人走了多少距離,速度多快,身高多少,在三維分析里面都有非常準確的測量。
a&s:三維攝像機在研發(fā)過(guò)程中有什么難題
趙勇:這個(gè)問(wèn)題分兩個(gè)方面,首先從硬件上講,這是一個(gè)更復雜的產(chǎn)品,看皓目產(chǎn)品,表面上看是有三個(gè)攝像機,其實(shí)是兩個(gè)攝像機加一個(gè)投影儀。投影儀是把紅外激光的影像進(jìn)行投影。另外的兩個(gè)攝像機,一個(gè)是色彩攝像頭,一個(gè)是紅外攝像頭,紅外攝像頭就與投影儀相互配合,進(jìn)行深度算法分析。
其次,從軟件上分析,相比二維更為復雜,表現在對人的暴力程度、跌倒行為需要有更深度、精確的算法分析。運算量越大,消耗的就越多。
另外,當前的產(chǎn)品應用,主要在室內,室外的產(chǎn)品也在研發(fā)當中,室內與室外最大的差別在于成像原理,格靈深瞳第一代的產(chǎn)品,是基于紅外結構光譜基礎成像,發(fā)出的紅外光如果在室外,就容易被太陽(yáng)光沖淡?,F在的產(chǎn)品在陰晴的氣候環(huán)境下也可以工作,但在強光下就無(wú)法工作,所以要在室外工作,必須要在成像原理上做突破。
a&s:三維攝像機的芯片處理能力如何?
趙勇:三維攝像機的智能分析核心是在前端進(jìn)行人的軌跡跟蹤分析,同時(shí)在后端也開(kāi)放了SDK,將SDK里面的內容傳到后臺的服務(wù)器,客戶(hù)可以根據業(yè)務(wù)需求在SDK的基礎上進(jìn)行二次開(kāi)發(fā)。
皓目芯片處理器是英偉達(NVIDIA)的TK1芯片(處理能力屬于因特爾i3級別),除了四核的處理器外,它還擁有GPU處理器(192個(gè)平行處理器),所以這個(gè)產(chǎn)品高度的聯(lián)合使用了CPU與GPU的功能特點(diǎn),這款芯片雖然比傳統的芯片貴很多,但是在這么大的芯片上,通過(guò)不到十幾瓦的功率,擁有總共加起來(lái)196個(gè)處理器的處理能力?,F在這款產(chǎn)品的功耗是在12瓦以下,取決于監控場(chǎng)景的復雜程度。
a&s:三維攝像機的建模是怎樣的?
趙勇:三維攝像機產(chǎn)品模型是三維模型,一種是三維的背景模型,在使用的場(chǎng)景中,熱點(diǎn)和熱區都是屬于三維的,以前二維只能是在平面上畫(huà)一個(gè)禁區,問(wèn)題是有時(shí)候人根本沒(méi)有進(jìn)入禁區,但是當人遮擋禁區的時(shí)候就會(huì )產(chǎn)生誤報,三維的背景模型可以設一個(gè)球形、立方形,只要物體沒(méi)有進(jìn)入這個(gè)立方形的幾何邊界,它就不會(huì )報警。
第二個(gè)是前景建模,就是對所看到的物體進(jìn)行形態(tài)的分析,比如一個(gè)人拉著(zhù)一個(gè)箱子或者推著(zhù)一個(gè)車(chē),三維攝像機看到的每個(gè)物體都會(huì )用深度學(xué)習判斷這個(gè)東西到底是不是人。英偉達(NVIDIA)為了訓練出一個(gè)深度可靠的模型,調用了上百萬(wàn)個(gè)人的圖像樣本,通過(guò)深度神經(jīng)網(wǎng)絡(luò ),對人的神態(tài)、發(fā)型、方向、光照條件、手勢等進(jìn)行判斷。
a&s:在構建數據結構化、云計算方面如何?
趙勇:三維攝像機未來(lái)應該是一個(gè)數據結構化的產(chǎn)品,在錄像中每個(gè)人從影像出來(lái)的軌跡,都會(huì )變成結構化的數據存儲到后臺的服務(wù)器,而后臺服務(wù)器的架構是標準的云計算的架構。事實(shí)上格靈深瞳的三維攝像機里面都使用了云計算的容器系統Docker,每個(gè)攝像機自身就是一個(gè)云的Docker,三維攝像機安裝在銀行時(shí),由于銀行都使用了標準的服務(wù)器結構,運營(yíng)起來(lái)不會(huì )有問(wèn)題。而對于零售機構的后臺服務(wù)器,因為直接可以部署在云端,所以在開(kāi)始設計時(shí),就是按照兼容云的結構去研發(fā)。
a&s:未來(lái)三維攝像機的應用將朝什么方向發(fā)展?
趙勇:平安城市或者智慧城市建設,就是希望把單個(gè)攝像機所產(chǎn)生的非結構化數據進(jìn)行鏈接起來(lái)。格靈的三維攝像機有一個(gè)功能“活地圖”,比如一個(gè)地方有一百個(gè)攝像機,擁有一百個(gè)畫(huà)面。我們不是給他們看一百個(gè)畫(huà)面,而是給他看一個(gè)畫(huà)面。里面每一個(gè)人的存在和移動(dòng)都變成了一個(gè)小點(diǎn),客戶(hù)只要看一張圖就可以知道這個(gè)場(chǎng)所發(fā)生了什么事情——人都在哪些地方,哪些地方人多、人少,白天的時(shí)候,客戶(hù)就可以利用這些信息對流量進(jìn)行精確的控制;夜晚的時(shí)候,就是安全需求,當有任何人闖進(jìn)空間時(shí),客戶(hù)就可以對闖入者的位置、行為進(jìn)行監控。這就是我們近期追求的目標,把海量的視頻數據查閱轉變成看一張圖。更長(cháng)遠的目標是進(jìn)行人的識別——身份識別和人臉識別。
三維攝像機的身份識別,要做到當一個(gè)人離開(kāi)一個(gè)攝像機進(jìn)入另外一個(gè)攝像機時(shí),三維攝像機能把他識別出來(lái),也就是要判斷和確定兩個(gè)攝像機里面出現的是同一個(gè)人。而在人臉識別方面,雖然當前的安防監控行業(yè)在人臉識別中有了初級的應用,但是深度的識別還沒(méi)有成功。
評論comment