DAV首頁(yè)
數字音視工程網(wǎng)

微信公眾號

數字音視工程網(wǎng)

手機DAV

null
null
null
卓華,
招商,
null
null
null
快捷,
null

我的位置:

share

??低暎汉A咳四槇D片檢索技術(shù)

來(lái)源:數字音視工程網(wǎng)        編輯:追憶    2014-11-03 15:38:58     加入收藏    咨詢(xún)

咨詢(xún)
所在單位:*
姓名:*
手機:*
職位:
郵箱:*
其他聯(lián)系方式:
咨詢(xún)內容:
驗證碼:
不能為空 驗證碼錯誤
確定

  傳統針對海量圖片的檢索系統中,由于采用單節點(diǎn)架構,面對海量圖片數據檢索時(shí)存在檢索速度慢、并發(fā)性差等諸多問(wèn)題。本文提出了一種海量圖片檢索方法,將...

  傳統針對海量圖片的檢索系統中,由于采用單節點(diǎn)架構,面對海量圖片數據檢索時(shí)存在檢索速度慢、并發(fā)性差等諸多問(wèn)題。本文提出了一種海量圖片檢索方法,將圖片檢索技術(shù)與并行計算框架相結合,在分布式文件系統里存儲人臉圖像模型,計算節點(diǎn)采用分布式存儲調度算法,增強對多數據的并發(fā)處理能力,同時(shí)對計算后的數據進(jìn)行壓縮處理。首先采用??低?/a>自主開(kāi)發(fā)的人臉識別算法從人臉圖片里提取出人臉特征形成模型數據,然后采用多線(xiàn)程運算方式與海量圖片庫進(jìn)行模型的逐一對比,采用統一排序節點(diǎn)接收各并行計算函數任務(wù)的計算結果,并按相似度大小進(jìn)行排序,最后根據排序結果找到最優(yōu)檢索結果。實(shí)驗結果表明,該方法在處理大數據圖像檢索時(shí),與單節點(diǎn)檢索系統相比,能夠有效降低檢索時(shí)間,提高檢索速度。同時(shí),由于存儲在分布式文件系統內,能夠保證人臉圖片文件的高冗余性,避免丟失數據。

  海量人臉圖片檢索技術(shù)簡(jiǎn)介

  圖片檢索是直接根據初始查詢(xún)圖片的視覺(jué)特征,在海量圖片庫找出與之相似的圖像,類(lèi)似的應用叫做“以圖搜圖”。利用圖片自身去檢索圖片,快速有效地提高了圖片檢索的性能,但在圖片檢索的過(guò)程中需要消耗大量的機器硬件資源,尤其是CPU資源。隨著(zhù)計算機科學(xué)技術(shù)和數字圖像采集技術(shù)的迅速發(fā)展以及互聯(lián)網(wǎng)的普及應用,每天從各行各業(yè)都產(chǎn)生出大量的多媒體數據,這些數據大部分是以圖片和視頻等形式表現的,傳統基于單節點(diǎn)架構的圖片檢索系統存在檢索速度慢、并發(fā)性差,實(shí)時(shí)性和穩定性無(wú)法保障等諸多問(wèn)題,不能滿(mǎn)足人們對于檢索性能的要求。因此一種基于內容的實(shí)現圖片快速檢索、并行處理、及時(shí)響應方法成為了研究熱點(diǎn)。云計算可以將任務(wù)分配到各個(gè)工作節點(diǎn)共同完成任務(wù),具有分布式、并行處理能力,為海量人臉圖片檢索提供了一種新的研究思路。

  ??低暡捎梅植际郊軜嫎嫿ǖ暮A繄D片檢索系統依賴(lài)于自主開(kāi)發(fā)的分布式計算平臺。該平臺擁有高容錯性、高可靠性、高效性、可擴展的軟件體系,適合將各種資源、數據部署在廉價(jià)的機器上,進(jìn)行分布式存儲和分布式管理,讓用戶(hù)輕松支持上千個(gè)節點(diǎn)以及PB級數據量的運算。

  系統總體設計

  本文所介紹的系統的設計目標是實(shí)現海量、異構、分布的圖片資源的快速檢索和及時(shí)響應。系統采用分布式構架,由上而下分別由表現層、業(yè)務(wù)邏輯層以及數據及數據處理層組成,整體框架如下圖所示。

  圖1 整體架構圖

  前端用戶(hù)通過(guò)Internet獲取服務(wù),用來(lái)上傳示例圖片和接收Web服務(wù)器的處理結果。在服務(wù)器端,業(yè)務(wù)邏輯層主要根據用戶(hù)檢索請求執行相應業(yè)務(wù)處理。數據及數據處理層包括分布式文件系統的存儲和管理模塊,海量圖片數據導入、請求模塊。數據處理層是系統最核心的部分,負責人臉圖片數據的分塊、人臉特征的提取、匹配以及結果的返回等。

  本系統所采用的分布式文件系統采用Master/Slave這樣的管理者/工作者模式的架構,即一個(gè)管理者和多個(gè)工作者方式。當用戶(hù)通過(guò)客戶(hù)端發(fā)出請求對文件進(jìn)行讀寫(xiě)操作時(shí),集群通過(guò)管理者和工作者的交互實(shí)現讀寫(xiě)操作。管理者是整個(gè)分布式文件系統的核心,用于管理數據節點(diǎn)和客戶(hù)端對文件的訪(fǎng)問(wèn),管理文件系統的命名空間,維護整個(gè)文件系統的數據結構,記錄和保存系統中所有的文件和元數據。這些信息以備份文件的形式保存在管理者節點(diǎn)計算機上,該管理者計算機又有多臺備份節點(diǎn),一旦管理者節點(diǎn)計算機出現異常,備份計算機立即將所有的元數據信息讀入內存,承擔起管理者角色。當集群中的某一節點(diǎn)數據丟失造成任務(wù)失敗后,管理者節點(diǎn)會(huì )自動(dòng)重新部署計算任務(wù)。工作者是文件系統的工作節點(diǎn),根絕需要負責存儲或檢索數據庫,各數據快的存儲位置隨系統的調整而改變。管理者節點(diǎn)會(huì )自動(dòng)搜集分布式文件系統內的目錄信息、磁盤(pán)空間信息、備份因子、空閑的節點(diǎn)數目等信息。

  對于大數據量的計算,通常采用的處理手法就是并行計算。首先要將一個(gè)邏輯上完整的大任務(wù)分解城若干個(gè)子任務(wù),系統根據任務(wù)的信息采用適當的策略把不同的任務(wù)分配帶不同資源節點(diǎn)上去運行,當所有子任務(wù)處理結束,則完成整個(gè)大任務(wù)的一次處理,最后將處理結果傳給用戶(hù)。

  系統實(shí)現關(guān)鍵技術(shù)

  海量人臉圖片檢索系統處理的數據可以支持PB級以上的數據,這是傳統的單節點(diǎn)計算無(wú)法達到的。通過(guò)對較大的圖片進(jìn)行分塊處理,采用分布式存儲調度算法,將系統提升到支持多數據的并發(fā)處理,同時(shí)采用壓縮存儲對多數據進(jìn)行處理。

  本系統在處理大塊人臉圖片文件時(shí)采用的是分塊存儲的方法,即將一大塊文件分塊處理成若干塊小的數據分塊,并將這些屬于同一大文件的數據分塊以一個(gè)文件的形式存儲,利用分布式存儲調度算法,將分塊后的所有數據存儲在不同的存儲節點(diǎn)上,并實(shí)施相應的備份機制。圖片存儲是人臉圖片檢索的基礎,是一個(gè)數據密集型計算過(guò)程。經(jīng)過(guò)算法建模生成的模型值最終被存儲在基于列式的分布式數據庫中,當數據庫內的數據集非常大時(shí),掃描搜索整個(gè)表要花費比較長(cháng)的時(shí)間,為了減少檢索圖片的時(shí)間和提高檢索效率,可以將所有的數據讀入內存,這樣可以在檢索時(shí)減少磁盤(pán)的I/O操作,進(jìn)而提高檢索速度。

  并行計算框架參照MPI計算模型,實(shí)現了并行計算函數和統一排序函數。并行計算函數的功能是負責將數據分散處理,統一排序函數的功能是負責將處理后的中間結果進(jìn)行聚集。在整個(gè)并行計算過(guò)程中,通過(guò)調用一個(gè)并行計算函數方法對每一個(gè)鍵值對進(jìn)行處理,并將處理后的中間結果寫(xiě)入到內存,最后保存到本地文件系統里。統一排序函數實(shí)現了對所有節點(diǎn)處理信息的匯總、排序、輸出。本系統采用的并行計算框架負責在圖片檢索過(guò)程中對圖片匹配及人臉相似度的計算,人臉相似度計算依賴(lài)??低曌灾鏖_(kāi)發(fā)的人臉識別算法。通過(guò)調用算法庫匹配模型值,將匹配處理結果按照相似度從高到低的順序返回給用戶(hù)。通過(guò)算法庫獲取圖片中出現的人臉圖片并對該人臉進(jìn)行建模,然后由工作者節點(diǎn)將該模型傳送至各任務(wù)計算節點(diǎn)進(jìn)行運行,接著(zhù)每個(gè)節點(diǎn)分別返回計算結果并匯總到某一節點(diǎn),最后由該計算節點(diǎn)匯總數據后按照相似度從高到低的順序返回用戶(hù)設定的若干條匹配人臉圖片及相關(guān)信息?! ?strong>實(shí)驗結果及分析

  本系統搭建了一個(gè)實(shí)驗集群,該實(shí)驗集群由四臺普通的2U服務(wù)器組成,1個(gè)Master節點(diǎn),3個(gè)Slave節點(diǎn)。每臺機器的配置如下:CPU Intel E5,內存DDR3 32GB,以太網(wǎng)卡100Mb/s,操作系統是Centos 6.2。

  為了測試集群系統的性能,我們使用了不同數據級別的人臉圖片數據對系統進(jìn)行測試,實(shí)驗結果如下圖所示。

  圖2 集群測試數據圖

  測試數據樣本數量級分別為10萬(wàn)、50萬(wàn)、100萬(wàn)、500萬(wàn)、1000萬(wàn)、5000萬(wàn)、1億、2億,這8個(gè)級別的人臉圖片、基本信息及模型數據。

  4臺機器的總內存數量是128GB,其中操作系統需要占用大約4GB/臺,Master節點(diǎn)上分布式框架服務(wù)需要占用4GB,Slave節點(diǎn)上分布式框架協(xié)同管理服務(wù)需要占用2GB/臺,4臺機器剩余的可用內存一共有102GB,每張人臉圖片的大小為10K,模型值為6K,其余人臉描述信息是4K,一共每條人臉信息需要20K,加上三份備份原則,所以102GB一共可以讀取800萬(wàn)數據到內存。從上面數據圖可以看出,當所有數據都在內存中時(shí)讀取速度非常的快,每次檢索都能控制在3秒鐘以?xún)?。隨著(zhù)數據量的增大,到1000萬(wàn)時(shí)檢索耗時(shí)上升到10秒左右,原因是需要從分布式數據庫里讀取數據用于檢索,這樣增加了磁盤(pán)I/O消耗。當數據量達到2億的頂峰時(shí),檢索耗時(shí)也達到了頂峰的2分鐘,雖然看起來(lái)耗時(shí)增長(cháng)很多,但是與傳統架構相比還是具有相當大的速度優(yōu)勢。

  從實(shí)驗可以得出,當集群內存足夠大時(shí),可以把所有的數據讀入內存,這樣可以保證快速檢索、快速結果呈現,同時(shí)也能做到數據的動(dòng)態(tài)容災備份。

  本文總結

  本文介紹的海量人臉圖片檢索系統將大數據集圖像檢索任務(wù)進(jìn)行分解,通過(guò)與分布式文件系統和并行計算框架相結合的應用模式,實(shí)現各節點(diǎn)協(xié)同完成圖片檢索任務(wù)。通過(guò)基于若干個(gè)不同數量級別的圖片數據測試,將實(shí)驗結果進(jìn)行對比驗證,表明隨著(zhù)數據量的快速增長(cháng)本系統不會(huì )受到太大的性能沖擊,沒(méi)有出現單節點(diǎn)擊器的速度慢、并發(fā)性差等問(wèn)題,有效提高了圖片檢索速度、并發(fā)性以及處理海量數據的能力。

  未來(lái)的工作重點(diǎn)將放在如何快速地從海量視頻文件中搜索出指定的人臉圖片,并對搜索出來(lái)的圖片進(jìn)行相關(guān)性數據挖掘,通過(guò)對海量數據分析為公安機關(guān)等特定部門(mén)提供更豐富的技術(shù)手段,減少人工過(guò)濾視頻的苦惱。

免責聲明:本文來(lái)源于網(wǎng)絡(luò )收集,本文僅代表作者個(gè)人觀(guān)點(diǎn),本站不作任何保證和承諾,若有任何疑問(wèn),請與本文作者聯(lián)系或有侵權行為聯(lián)系本站刪除。(原創(chuàng )稿件未經(jīng)許可,不可轉載,轉載請注明來(lái)源)
掃一掃關(guān)注數字音視工程網(wǎng)公眾號

相關(guān)閱讀related

評論comment

 
驗證碼:
您還能輸入500
    国产av福利久久精品can动漫|2021精品国产自在现线|亚洲无线观看国产高清|欧洲人妻丰满av无码久久不卡|欧美情侣性视频