圖像識別技術(shù)的具體行業(yè)應用
來(lái)源:數字音視工程網(wǎng) 編輯:merry2013 2015-07-07 06:54:54 加入收藏 咨詢(xún)

所在單位: | * |
姓名: | * |
手機: | * |
職位: | |
郵箱: | * |
其他聯(lián)系方式: | |
咨詢(xún)內容: | |
驗證碼: |
|
近一兩年來(lái),人工智能領(lǐng)域得到了媒體界、產(chǎn)業(yè)界和學(xué)術(shù)界等前所未有的關(guān)注,大家一致認為智能化時(shí)代正在到來(lái),機器正在越來(lái)越多的取代人類(lèi)特有的優(yōu)勢和技能,而其中最為重要的可能就是圖像識別技術(shù)。
1、圖像識別是重要的人工智能分支
圖像識別是計算機對圖像進(jìn)行處理、分析和理解,以識別各種不同模式的目標和對像的技術(shù)。簡(jiǎn)單來(lái)說(shuō),就是讓機器能夠通過(guò)對感知信息的處理像人類(lèi)一樣讀懂圖片的內容,而不是只看到像素。目前,伴隨著(zhù)圖片成為互聯(lián)網(wǎng)中的主要信息載體,難題隨之出現。當信息由文字記載時(shí),我們可以通過(guò)關(guān)鍵詞搜索輕易找到所需內容并進(jìn)行任意編輯,而當信息是由圖片記載時(shí),我們卻無(wú)法對圖片中的內容進(jìn)行檢索,從而影響了我們從圖片中找到關(guān)鍵內容的效率。圖片給我們帶來(lái)了快捷的信息記錄和分享方式,卻降低了我們的信息檢索效率。在這個(gè)環(huán)境下,計算機的圖像識別技術(shù)就顯得尤為重要。
計算機視覺(jué)有著(zhù)廣泛應用,其中包括,醫療成像分析被用來(lái)提高疾病的預測、診斷和治療;人臉識別被Facebook用來(lái)自動(dòng)識別照片里的人物;在安防及監控領(lǐng)域被用來(lái)指認嫌疑人;在購物方面,消費者現在可以用智能手機拍攝下產(chǎn)品以獲得更多購買(mǎi)選擇。
我們在圖像識別領(lǐng)域的研究有著(zhù)眾多突破性進(jìn)展,Facebook人工智能負責人YannLeCun發(fā)明的卷積神經(jīng)網(wǎng)絡(luò )促使整個(gè)人工智能領(lǐng)域在近期出現了快速發(fā)展,而其最重要的應用就是圖像識別和語(yǔ)音識別。2012年一支由吳恩達領(lǐng)導的谷歌團隊展示了一個(gè)無(wú)監督學(xué)習的機器對數百萬(wàn)張YouTube視頻圖像的分析。這個(gè)機器學(xué)會(huì )了給它見(jiàn)過(guò)的常見(jiàn)物體進(jìn)行分類(lèi),包括人類(lèi)面孔和(供網(wǎng)民娛樂(lè )的)貓,包括網(wǎng)上隨處可見(jiàn)的各種動(dòng)作:睡著(zhù)的、跳躍的、玩滑板的。人類(lèi)沒(méi)有在這些視頻上標明包含「面孔」或「貓」的字眼。相反,機器在看了每個(gè)物體不計其數的例子后簡(jiǎn)單斷定,它們表現出來(lái)的統計模式已經(jīng)具備了足夠的普遍性,從而可以將這些物體進(jìn)行分類(lèi)。斯坦福大學(xué)Andrej Karpathy和李飛飛發(fā)表的論文描述了一個(gè)計算機視覺(jué)系統可以標出一個(gè)給定圖像的特殊部分。例如給它看一個(gè)早餐桌子,它可以識別出餐叉、香蕉片、一杯咖啡和桌子上的花以及桌子本身。它甚至可以在場(chǎng)景中用自然英語(yǔ)做出描述——盡管這項技術(shù)還不是特別完美。
2、應用場(chǎng)景決定著(zhù)圖像識別技術(shù)的普及程度
MIT 宇宙學(xué)家Max Tegmark說(shuō),人工智能的運作已處于走出實(shí)驗室進(jìn)入社會(huì )的階段了。我們目前確實(shí)看到甚至使用到了許多人工智能服務(wù)和產(chǎn)品,比如說(shuō)更好的搜索引擎服務(wù),語(yǔ)音助手等等。在和圖像識別技術(shù)有關(guān)的細分領(lǐng)域,這樣的服務(wù)和產(chǎn)品也非常多,比如說(shuō)以圖搜圖、圖像對比、人臉識別、圖像自動(dòng)分類(lèi),等等。但我們雖然看到了如此多的產(chǎn)品或功能,但卻沒(méi)有發(fā)現將圖像識別進(jìn)行通用化的應用。許多國內外的創(chuàng )業(yè)公司,甚至是科技巨頭在圖像識別領(lǐng)域也沒(méi)有找到最具爆發(fā)性和發(fā)展前景的應用方向。這其中的原因就在于應用場(chǎng)景的缺失。
人工智能的發(fā)展和成熟取決于三個(gè)要素,算法、大數據和應用場(chǎng)景。不論是創(chuàng )業(yè)公司,還是科技巨頭,他們都會(huì )在算法上給予足夠多的重視,會(huì )花費大量人力和財力進(jìn)行算法和模型和研發(fā)。其次,得益于互聯(lián)網(wǎng)、社交媒體、移動(dòng)設備和廉價(jià)的傳感器,這個(gè)世界產(chǎn)生的數據量急劇增加。隨著(zhù)對這些數據的價(jià)值的不斷認識,用來(lái)管理和分析數據的新技術(shù)也得到了發(fā)展。大數據是人工智能發(fā)展的助推劑,這是因為有些人工智能技術(shù)使用統計模型來(lái)進(jìn)行數據的概率推算,比如圖像、文本或者語(yǔ)音,通過(guò)把這些模型暴露在數據的海洋中,使它們得到不斷優(yōu)化,或者稱(chēng)之為“訓練”——現在這樣的條件隨處可得。
百度科學(xué)家吳恩達曾把算法和數據比作火箭的發(fā)動(dòng)機和燃料,只有這兩者實(shí)現良好互補,人工智能這架火箭才能升空。這也是目前所有人工智能領(lǐng)域內公司所重點(diǎn)關(guān)注的兩大方面,但是,大家容易忽略對人工智能起決定性作用的第三個(gè)因素——應用場(chǎng)景。主要的原因在于,我們對于人工智能終極目標是創(chuàng )造出一個(gè)在綜合智力水平方面能夠媲美人類(lèi)的機器,但這樣一個(gè)略帶科幻色彩的目標很難用來(lái)指導我們的具體工作,甚至可能會(huì )影響該領(lǐng)域的健康發(fā)展。當回歸到人工智能的具體應用時(shí),我們應該忘掉那個(gè)終極目標,尊重一種循序漸進(jìn)的發(fā)展過(guò)程,注重人工智能技術(shù)的階段性進(jìn)步和各個(gè)行業(yè)的細分化應用。而目前的科技巨頭在互聯(lián)網(wǎng)時(shí)代都是以面向大眾的通用型產(chǎn)品為主,比如說(shuō)搜索引擎,或者操作系統,等等。因此,他們在一定程度上缺乏某些具體行業(yè)的積累和經(jīng)驗,很難發(fā)掘出特定行業(yè)的潛在需求和人工智能技術(shù)在此領(lǐng)域的具體應用。同時(shí),相較于隱藏在背后的行業(yè)解決方案,將人工智能技術(shù)應用在普遍的民用產(chǎn)品能夠起到更好的推廣效果和教育意義。
3、圖像識別技術(shù)的引爆點(diǎn)在于具體行業(yè)的解決方案
上文提到,大多數公司對應用場(chǎng)景的忽視影響了人工智能技術(shù)在各個(gè)領(lǐng)域的普及,而對于圖像識別技術(shù)來(lái)說(shuō)更是如此,該技術(shù)作為一種認知計算技術(shù),需要特定的應用環(huán)境作為支撐,我們希望機器像人類(lèi)一樣看懂外部世界,來(lái)代替我們做出決策,這和機器所處的具體環(huán)境密切相關(guān),因此,在特定行業(yè)積累了豐富經(jīng)驗,深入了解該行業(yè)的需求,然后再利用圖像識別技術(shù)來(lái)解決這些需求,將先進(jìn)的技術(shù)作為整體解決方案的一部分,這樣才能真正拓展圖像識別技術(shù)的應用范圍,真正解決我們的具體問(wèn)題,而不是僅作為一個(gè)轉瞬即逝的噱頭。
不管是在人工智能領(lǐng)域,還是在細分化的圖像識別領(lǐng)域,在從技術(shù)向實(shí)際應用的轉化過(guò)程中有兩個(gè)路徑,第一是走通用化路線(xiàn),即這項技術(shù)能夠滿(mǎn)足各個(gè)行業(yè)個(gè)各種用戶(hù)的需求,比如說(shuō),IBM推出的Watson開(kāi)放計劃,目前已經(jīng)將這臺智能計算機應用在了金融、醫療和客戶(hù)管理等方面。許多圖像識別領(lǐng)域的科技巨頭和創(chuàng )業(yè)公司也旨在將圖像識別技術(shù)落地到通用型應用中。這是人工智能一種自上而下的應用路徑。這樣的趨勢不可更改,未來(lái)任何機器和智能設備都需要「視覺(jué)」,但問(wèn)題在于,目前的圖像識別技術(shù)可能還沒(méi)有達到這樣一個(gè)「奇點(diǎn)」。這也就是目前大多數圖像識別技術(shù)公司沒(méi)有找到最佳的應用方向的原因之一。這就引出來(lái)第二條路徑,即根據現有的圖像識別技術(shù)水平,結合具體行業(yè)的應用場(chǎng)景,從解決行業(yè)的需求出發(fā),來(lái)實(shí)現需求和技術(shù)良好結合的最佳狀態(tài)。比如說(shuō),自動(dòng)駕駛汽車(chē)、機器人廚房、刷臉支付、遠程人臉認證辦理銀行和證券業(yè)務(wù),等等。
從這方面來(lái)說(shuō),某些在特定行業(yè)有著(zhù)深厚積累的公司反而具備了一定優(yōu)勢。比如說(shuō)位于蘇州的科達公司,該公司自十幾年前進(jìn)入了安防監控領(lǐng)域,與面向大眾的互聯(lián)網(wǎng)科技公司相比,其可能不為人熟知,看起來(lái)也沒(méi)有那么酷。但該公司自2006年就開(kāi)始了對圖像識別技術(shù)的布局和研發(fā)。而他們切入圖像識別技術(shù)領(lǐng)域的原因是在于他們在安防領(lǐng)域的客戶(hù)提出的越發(fā)智能化的需求。正是這種行業(yè)積累和公司基因決定了他們能夠站在特定行業(yè)的最前沿,然后將圖像識別技術(shù)應用在用戶(hù)的具體需求上。
2014年底,科達推出了一種全新攝像機品類(lèi)——感知型攝像機,通過(guò)他們的產(chǎn)品案例,我們可以大體了解到圖像識別技術(shù)和具體行業(yè)需求相結合的重要性。
影像技術(shù)的出現幫我們極大提到了采集信息和存儲信息的效率,但同時(shí)卻嚴重影響了我們分析信息的效率,當無(wú)法從海量數據中提取出有價(jià)值的東西時(shí),就失去了我們當初采集數據的意義。而圖像識別技術(shù)的出現就是要解決這個(gè)矛盾。對于安防監控領(lǐng)域來(lái)說(shuō)同樣如此,我們布置了越來(lái)越多的攝像頭才采集信息,但最終卻發(fā)現,雖然我們看似獲得了海量數據,但是數據處理能力,我們從海量數據中發(fā)掘出有價(jià)值的信息的能力,卻依然取決于監控屏后面的人類(lèi)視覺(jué),而這種矛盾催生了視頻分析和智能監控的出現。而由于成本的原因,對視頻的智能分析技術(shù)也逐漸從服務(wù)器遷移到了攝像頭端,這被稱(chēng)為智能攝像頭。目前市場(chǎng)上的智能攝像頭主要定位于警戒線(xiàn)、區域看防等報警類(lèi)應用不同,而科達感知型攝像機(Intelligent IPC)能夠基于視頻的智能分析,識別出監控畫(huà)面中的內容,并對其進(jìn)行語(yǔ)義描述和最佳圖片抓拍,同時(shí)基于后端的大數據平臺進(jìn)行更加深入的數據挖掘。
下面將通過(guò)具體的三種智能攝像機來(lái)說(shuō)明一下應用場(chǎng)景:
1)特征分析攝像機
主要是針對視野范圍較大場(chǎng)景中人、車(chē)、物混行場(chǎng)景的運動(dòng)目標識別與抓拍。中國國情下的城市道路與路口,是人、機動(dòng)車(chē)、非機動(dòng)混行的復雜環(huán)境,同時(shí)又是公共安全的防治重點(diǎn)。特征分析攝像機正是為這一場(chǎng)景所設計,它能綜合性識別人車(chē)分類(lèi)、顏色、方向等基本特征信息,再開(kāi)展圖像識別的專(zhuān)業(yè)應用,最典型的就是將這些信息提供給大數據庫平臺進(jìn)行車(chē)或人的以圖搜圖與分析判斷,以進(jìn)一步鎖定相似的犯罪嫌疑人與車(chē)輛。
2)人員卡口攝像機
識別人員及細節信息,包括人臉及全身(正面與背面)、性別、年齡、服裝、行走方向、顏色。應用場(chǎng)景為:嫌疑犯已被鎖定,并確定藏匿在某小區。公安傳統的偵查手段是派若干警力在該小區人工蹲守,對每一個(gè)進(jìn)出人員進(jìn)行辨認與判斷是否嫌疑人?,F在,人員卡口攝像機就可以完全代替警方人工蹲守——它自動(dòng)識別每個(gè)人的臉部與全身信息并抓拍最佳照片提交給平臺,平臺實(shí)時(shí)即可自動(dòng)進(jìn)行比對分析,然后按相似度百分比將嫌疑人排名并發(fā)出警告,嫌疑人信息均實(shí)時(shí)傳送至現場(chǎng)待命警察,現場(chǎng)進(jìn)一步明確后即實(shí)施抓捕。
3)車(chē)輛卡口攝像機
識別車(chē)輛細節信息,包括車(chē)牌、車(chē)型、車(chē)標、車(chē)身顏色、行駛方向、速度。典型應用是:30起連環(huán)盜竊案,作案車(chē)輛在不同地點(diǎn)使用不同假車(chē)牌。車(chē)輛卡口攝像機記錄下每個(gè)案發(fā)地所有車(chē)輛細節信息并抓拍最佳照片,再向大數據平臺分別提供文字描述類(lèi)的結構化數據和視頻、照片類(lèi)非結構化數據。平臺會(huì )對這幾百萬(wàn)甚至上千萬(wàn)條結構化數據進(jìn)行比對分析,并將碰撞出30個(gè)案發(fā)地外形相似的所有車(chē)輛,提供這些車(chē)輛的詳細信息并關(guān)聯(lián)相應的照片與視頻。
上文提到,人工智能的發(fā)展需要算法、大數據和應用場(chǎng)景的共同支撐,科達除了具有圖像識別技術(shù)的感知攝像頭之外,還擁有后端的大數據分析平臺。拿和安防監控密切相關(guān)的智慧城市來(lái)說(shuō),在公共安全和智能交通領(lǐng)域,海量的視頻數據是最主要的行業(yè)特征,于是,大數據,成為這兩大行業(yè)視頻應用中最急需引入的技術(shù)。通過(guò)與智慧城市大數據平臺的結合,科達感知型攝像機(Intelligent IPC)已經(jīng)在智慧城市中取得了眾多的應用,主要包括實(shí)時(shí)布控、基于語(yǔ)義的智能搜索、高危人員比對、人臉照片搜索、全身像搜索、人像多點(diǎn)碰撞、車(chē)輛以圖搜圖、車(chē)輛多點(diǎn)碰撞,等等。
擁有感知能力的Intelligent IPC,相當于物聯(lián)網(wǎng)中的一個(gè)一個(gè)視覺(jué)傳感器,大量攝像機感知的海量信息,進(jìn)入大數據和云計算平臺,使我們不僅能從單個(gè)攝像機中識別內容作出判斷,還能從海量的監控數據中,作出深度分析和挖掘,從而對社會(huì )管理產(chǎn)生深遠的影響??七_感知型攝像機正是配合后端大數據平臺開(kāi)展實(shí)際應用:感知型攝像機在前端采集、分析、識別、提交有效數據至后端,大數據平臺以云的方式對這些數據進(jìn)行存儲、二次深度分析、預測判斷結果。至此,形成一個(gè)視頻數據采集、識別、感知、思考、行動(dòng)的完整閉環(huán)。
就像科達總經(jīng)理陳衛東所說(shuō),感知型攝像機是智慧城市大數據應用的關(guān)鍵,大數據時(shí)代,感知型攝像機才是視頻監控的未來(lái)。
科達的感知攝像機可能離我們普通用戶(hù)比較遠,看起來(lái)也沒(méi)有那些科技巨頭和創(chuàng )業(yè)公司所做的和圖像識別等人工智能技術(shù)有關(guān)的產(chǎn)品和功能那么炫酷,但這才是圖像識別技術(shù)的最佳應用。而科達公司深耕某個(gè)行業(yè),再從行業(yè)的具體需求出發(fā),將圖像識別技術(shù)應用于該行業(yè),并解決該行業(yè)的具體問(wèn)題的人工智能技術(shù)實(shí)施路徑也為其他人工智能公司提供了一條有價(jià)值的參考路徑。
評論comment