意圖搜索及其在安防領(lǐng)域的應用
來(lái)源:《中國安防》 作者:??低?周明耀 編輯:SHAN90 2015-05-05 16:35:39 加入收藏 咨詢(xún)

所在單位: | * |
姓名: | * |
手機: | * |
職位: | |
郵箱: | * |
其他聯(lián)系方式: | |
咨詢(xún)內容: | |
驗證碼: |
|
一、意圖搜索起源
意圖搜索最早起源于互聯(lián)網(wǎng)行業(yè)搜索引擎工具,隨著(zhù)互聯(lián)網(wǎng)信息量的不斷增加,能夠快速、準確地查找信息越來(lái)越困難,主要原因是搜索引擎不能理解用戶(hù)的真實(shí)查詢(xún)意圖,因而機器學(xué)習如遺傳算法、BP神經(jīng)網(wǎng)絡(luò )法等在這方面的應用研究快速地被引起關(guān)注。Lam Wai 就利用基于事例的機器學(xué)習和查詢(xún)反饋技術(shù)實(shí)現了文本的自動(dòng)分類(lèi)并用于文本檢索, 實(shí)驗證明了其優(yōu)越性。Mandala Rila 采用加權方法從多類(lèi)信息中實(shí)現查詢(xún)擴展 , 以及Chakrabarti 探討的基于矩陣代數的主題提取算法、組合詞匯和索引文本等特征提取都是這方面的努力。但目前最有前景的是Doug Lenat 研制的搜索系統, 通過(guò)建立常識庫和推理機來(lái)與用戶(hù)交談, 進(jìn)而實(shí)現對用戶(hù)真正意圖的理解。知識工程之父Feigenbaum稱(chēng)贊他開(kāi)創(chuàng )了查詢(xún)的“語(yǔ)義時(shí)代”(TheAge of Semantics)。但前提是要建立一個(gè)龐大的百科全書(shū)常識庫, 這是非常困難的, 而且也不分析用戶(hù)的潛在意圖。構造龐大知識庫的一種方法是從網(wǎng)絡(luò )上自動(dòng)構造, Craven 和Lesser 提出了信息獲取的系統原理, 知識庫的結構和實(shí)現方法。Choi 則實(shí)現了一種具體的自動(dòng)構造系統,其可從網(wǎng)上發(fā)現文本并歸入本地數據庫供查詢(xún), 它相當于智能代理。Alsaffa 做了類(lèi)似的探索, 利用專(zhuān)家系統在用戶(hù)喜歡的表達和系統要求的表達之間實(shí)現自動(dòng)轉換。意圖搜索正在基于這些技術(shù)之上實(shí)現了智能化的自動(dòng)搜索。雖然意圖搜索起源于互聯(lián)網(wǎng)行業(yè),但是目前已經(jīng)被廣泛用于其它行業(yè),例如在安防行業(yè)與物聯(lián)網(wǎng)技術(shù)緊密結合。
二、意圖搜索在互聯(lián)網(wǎng)行業(yè)的發(fā)展
互聯(lián)網(wǎng)行業(yè)最早由搜索引擎起步,目前數據也都是通過(guò)搜索引擎實(shí)現數據交換和傳遞過(guò)程。用戶(hù)之所以會(huì )產(chǎn)生搜索行為,往往是在解決任務(wù)時(shí)遇到自己不熟悉的概念或者問(wèn)題,由此產(chǎn)生了對特定信息的需求,之后用戶(hù)會(huì )在頭腦中逐步形成秒速需求的查詢(xún)詞,將查詢(xún)提交給搜索引擎,然后對搜索結果進(jìn)行瀏覽,如果發(fā)現搜索結果不能完全解決用戶(hù)的信息需求,則會(huì )根據搜索結果的啟發(fā),改寫(xiě)查詢(xún),以便更精確地描述自己的信息需求,之后重新構造新的查詢(xún)需求,提交搜索引擎,如此形成用戶(hù)和搜素引擎交互的閉合回路,直到搜索結果已經(jīng)解決了自己的需求或嘗試幾次無(wú)果而終。從上述過(guò)程可以看出,從用戶(hù)產(chǎn)生信息需求到最終形成用戶(hù)查詢(xún),中間有很大的不確定性,用戶(hù)未必能夠一開(kāi)始就找到合適的查詢(xún)詞,即使是找到了,也可能存在查詢(xún)詞不能完全描述信息需求的情形,即在形成查詢(xún)的過(guò)程中存在信息丟失的問(wèn)題。所以后續循環(huán)中的查詢(xún)改寫(xiě)就是用戶(hù)逐步澄清搜索需求的一個(gè)過(guò)程。
用戶(hù)發(fā)出的每個(gè)搜索請求背后都隱含著(zhù)潛在的搜索意圖,如果搜索引擎能夠根據查詢(xún)詞匯自動(dòng)找出背后的用戶(hù)搜索意圖,然后針對不同的意圖,提供不同的檢索方法,將更符合用戶(hù)意圖的搜索結果排在前列,無(wú)疑會(huì )增加搜索引擎用戶(hù)的搜索體驗。目前搜索引擎已經(jīng)部分實(shí)現了這種搜索模式,比如用戶(hù)搜索“北京 天氣”的時(shí)候會(huì )主動(dòng)將當天的氣溫等情況列在搜索結果最前面。
意圖搜索是基于目前internet上信息的無(wú)組織、異構、分布和動(dòng)態(tài)的特點(diǎn)以及現有搜索的不足而提出的,用于解決現有信息檢索系統所面臨的“信息過(guò)載”、“資源迷向”和搜索結果個(gè)性化需求等實(shí)際問(wèn)題,實(shí)現Internet信息個(gè)性化主動(dòng)服務(wù)。搜索引擎在強化“智能化”方向的理念之上,在自動(dòng)分類(lèi)、自動(dòng)聚類(lèi)的基礎上推出智能導航、概念搜索、個(gè)性化搜索功能,使搜索引擎充分領(lǐng)會(huì )用戶(hù)意圖的進(jìn)行搜索,這是意圖搜索在搜索引擎方面的落地應用模式。
當前大多數搜索引擎是通過(guò)用戶(hù)注冊及用戶(hù)個(gè)性化配置(利用cookie機制、為用戶(hù)建立配置文件等)來(lái)提高對用戶(hù)搜索請求的精度和命中率,實(shí)現一定程度上的個(gè)性化搜索服務(wù)。這種方式需要用戶(hù)在服務(wù)器上登記個(gè)人信息,但這可能造成用戶(hù)某些隱私信息的泄露。目前比較公認的搜索引擎意圖搜索方法是采用特征獲取方法。特征獲取方法分為兩類(lèi),第一類(lèi)方式可以稱(chēng)為事先方法,這種方法在查詢(xún)被提交給搜索引擎以前,利用查詢(xún)本身的特征來(lái)表示查詢(xún),比如表示特定需求的特征詞匯、詞與詞之間關(guān)系、詞的詞性以及詞的選擇優(yōu)先性、在語(yǔ)料集中的統計信息等等;第二類(lèi)方法可以稱(chēng)為事后方法,這種方法利用查詢(xún)被提交給搜索引擎以后的相關(guān)數據來(lái)獲取查詢(xún)的特征。
意圖搜索分為意圖分析和分析擴展兩個(gè)部分。意圖分析是解決“信息過(guò)載”和“資源迷向”問(wèn)題的有效途徑,通過(guò)對用戶(hù)所需的信息資源進(jìn)行搜集、加工、整理,可以梳理和有序化網(wǎng)絡(luò )上的專(zhuān)業(yè)信息資源,向用戶(hù)提供智能化的信息服務(wù)。意圖分析和分析擴展的具體步驟如下所述:
(1)意圖分析。①根據用戶(hù)對問(wèn)題的回答, 檢索知識庫中的相關(guān)信息, 以提供直接的回答。②對輸入的原始查詢(xún)根據其概念內容進(jìn)行組織和安排, 以析取相關(guān)的概念信息和范疇知識。然后, 通過(guò)語(yǔ)義聯(lián)想等意圖推理修改查詢(xún)向量。③將查詢(xún)向量交由用戶(hù)交互確認、編輯。④根據用戶(hù)的編輯結果可以再次意圖推理, 直到用戶(hù)滿(mǎn)意為止。⑤將此次意圖推理的結果記入知識庫中,以備以后的意圖推理。
(2)分析擴展。根據意圖分析的結果, 更新原始查詢(xún)向量, 形成新的查詢(xún)向量。方法是將應用領(lǐng)域知識和索引、相關(guān)性、估計和查詢(xún)表達相結合來(lái)實(shí)現查詢(xún)擴展, 即查詢(xún)索引還包括不在用戶(hù)查詢(xún)中出現的查詢(xún)詞部分。查詢(xún)擴展所需要的查詢(xún)詞的選擇策略有:①非獨立類(lèi)。非獨立詞指的是和查詢(xún)詞具有較大相關(guān)性的詞。查詢(xún)擴展通過(guò)知識庫推理從知識庫中找出相關(guān)性詞、短語(yǔ)、句子、段/篇章。②交互式選擇。用戶(hù)從通過(guò)上述策略得出的待選詞中決定最后的查詢(xún)詞。
三、意圖搜索與安防行業(yè)的結合
2014年發(fā)生的震驚全球的“馬航失聯(lián)”事件牽動(dòng)了無(wú)數中國人的心,泛太平洋各國均提供了大量幫助用于搜索失聯(lián)航班,但是由于搜索方式千奇萬(wàn)種、信息達到海量級別、信息來(lái)源不連續性等多種問(wèn)題,導致搜索遲遲沒(méi)有結果。仔細分析搜索方式,可以發(fā)覺(jué)這類(lèi)型的搜索形式其實(shí)與互聯(lián)網(wǎng)行業(yè)的搜索引擎意圖搜索有相似之處,相似點(diǎn)在于都需要對數據進(jìn)行收集、甄別、過(guò)濾、分類(lèi)、整合,都不是一個(gè)單一的行動(dòng),而是一整套連貫的過(guò)程。
物聯(lián)網(wǎng)行業(yè)本身由于傳感器的多種多樣導致數據形式多樣性、信息海量性等特征,如果大數據環(huán)境下還是采用過(guò)去的全文檢索方式進(jìn)行單一化搜索,未來(lái)一定無(wú)法滿(mǎn)足用戶(hù)的智能化需求。針對這一挑戰,2014中國大數據峰會(huì )上中國工程院吳曼青院士發(fā)表了名為“存在就有痕跡,聯(lián)系就有信息,反恐環(huán)境下大數據的意圖搜索”的專(zhuān)題演講,吳院士以眾多美國案例為引,描述了新時(shí)代反恐行動(dòng)應用的特性:法律保障、以人為核心、高技術(shù)手段、國際合作,通過(guò)構建虛擬空間信息社會(huì )雷達的方式將意圖搜索引用到反恐活動(dòng)中,提升反恐能力。
基于“存在就有痕跡,聯(lián)系就有信息”的基本理念,構建網(wǎng)絡(luò )空間中行為事件、思想事件等模型,在實(shí)體空間和虛擬空間中全面收集人的存在痕跡和聯(lián)系信息,關(guān)注人物或事件間聯(lián)系鏈,從而實(shí)現網(wǎng)絡(luò )空間中存在的各種意圖,完成對意圖產(chǎn)生源頭、傳播途徑和發(fā)展趨勢的全方位描述,達到對個(gè)人和組織的所思所想行為所在的全面搜索和分析。物聯(lián)網(wǎng)行業(yè)擁有海量的視頻、音頻、圖片數據,通過(guò)相應智能算法可以從中提取出可供分類(lèi)的結構化信息,通過(guò)這些結構化信息與意圖搜索技術(shù)相結合可以幫助用戶(hù)快速預判事物、事件發(fā)生概率和趨勢。
因國內反恐形勢嚴峻,大數據搜索需要積極應對新時(shí)期恐怖主義威脅,立足恐怖主義存在和意圖特征,運用大數據技術(shù)進(jìn)行深入關(guān)聯(lián)分析,實(shí)現對恐怖分子的準確識別和暴恐事件的提前預警,有力提升反恐維穩核心能力。??低?/a>作為安防行業(yè)的龍頭,物聯(lián)網(wǎng)概念提出之處就已經(jīng)開(kāi)始涉及其中,相信在不遠的將來(lái),意圖搜索應用可能就在??低暵氏嚷涞?。
四、結語(yǔ)
本文首先針對意圖搜索的來(lái)源、基本概念作了一些解釋?zhuān)S后針對產(chǎn)生意圖搜索概念的互聯(lián)網(wǎng)行業(yè)具體發(fā)展過(guò)程、應用模式及技術(shù)等做了一些討論,最后對安防行業(yè)與意圖搜索技術(shù)相結合的具體形式進(jìn)行了探討,通過(guò)馬航失聯(lián)事件的預測性分析告訴讀者意圖搜索如何在安防、反恐等領(lǐng)域發(fā)揮自己的作用,如何與物聯(lián)網(wǎng)緊密結合。
評論comment