9月8日,2023中國(廈門)安防人工智能創(chuàng)新峰會(huì)上,科達(dá)首席科學(xué)家章勇博士發(fā)表了《從感知智能到?jīng)Q策智能—AI技術(shù)在安防領(lǐng)域的變革》的主題演講,重點(diǎn)聚焦安防+AI,大模型技術(shù)落地安防行業(yè)的廣闊前景與科達(dá)實(shí)踐。
從深度學(xué)習(xí)技術(shù)到近兩年興起的大模型技術(shù),近十年,人工智能技術(shù)加速演進(jìn),引領(lǐng)各行各業(yè)加速向智能化躍升。
章勇博士表示,現(xiàn)代人工智能的發(fā)展,為像科達(dá)這樣的安防廠商帶來了全新的活力和機(jī)遇。在人工智能領(lǐng)域,科達(dá)已有9年技術(shù)積累。2014年,科達(dá)就推出業(yè)內(nèi)首款感知型攝像機(jī),使攝像機(jī)具備目標(biāo)檢測(cè)、屬性分析等感知能力,推動(dòng)平安城市智能分析實(shí)現(xiàn)規(guī)模化部署和應(yīng)用;2020年,科達(dá)率先提出了AI像素級(jí)推理,發(fā)布AI超微光攝像機(jī),為解決低照成像的難題帶來新范式,目前已在上海、武漢等20多個(gè)城市落地,有效改善了光污染,實(shí)戰(zhàn)優(yōu)勢(shì)明顯。
目前,采用感知智能技術(shù)的多種產(chǎn)品和解決方案已在安防領(lǐng)域成功落地,成熟發(fā)展,持續(xù)優(yōu)化。另一方面,在認(rèn)知智能領(lǐng)域,傳統(tǒng)的深度學(xué)習(xí)模型無法很好的完成感知信息的深度理解和自然語言信息的深度理解兩大主要任務(wù),迫切需要新的人工智能范式來引領(lǐng)解題。
著眼于大模型技術(shù)與安防行業(yè)實(shí)際應(yīng)用場(chǎng)景,科達(dá)給出了面向未來的對(duì)策——大模型KD-GPT。KD-GPT包含了三類大模型,分別是多模態(tài)大模型、行業(yè)大模型和AIGC大模型。科達(dá)大模型的生成式、多任務(wù)、行業(yè)化的優(yōu)點(diǎn),將給安防行業(yè)的認(rèn)知智能方向上的飛躍提供強(qiáng)有力的武器。
人工智能的時(shí)代仍在推進(jìn),在大模型的加持下會(huì)朝著決策智能的方向繼續(xù)前進(jìn),但另一方面,大模型仍有很多關(guān)鍵技術(shù)有待攻克,安防行業(yè)進(jìn)入決策智能的時(shí)代任重道遠(yuǎn),科達(dá)將不斷強(qiáng)化自身技術(shù),加速智能創(chuàng)新發(fā)展,與行業(yè)伙伴攜手共同迎接智能新時(shí)代的到來。
了解更多干貨,詳見章勇博士的演講全文(共3038個(gè)字,約需15分鐘)
從感知智能到?jīng)Q策智能
AI技術(shù)在安防領(lǐng)域的變革
人工智能技術(shù),從上世紀(jì)五十年代提出以來,已經(jīng)經(jīng)歷了七十多年的發(fā)展。但人工智能成為全社會(huì)各行業(yè)進(jìn)行產(chǎn)業(yè)化升級(jí)的基礎(chǔ)技術(shù),進(jìn)而成為全球各國極為重視的關(guān)鍵戰(zhàn)略發(fā)展方向,還是最近這十年的事情。
現(xiàn)代人工智能的出現(xiàn),從基于深度學(xué)習(xí)技術(shù)的感知智能開始,我們稱為AI 1.0時(shí)代。所謂感知智能,是讓機(jī)器真正具備像人一樣的視覺、聽覺、觸覺等感知能力。這也是人工智能在安防領(lǐng)域最為成功的落地應(yīng)用,比如特定目標(biāo)的檢測(cè)與分析。另一方面,人們顯然不滿足于人工智能只是看到、聽到、加工信息,而是希望機(jī)器能像人一樣進(jìn)行學(xué)習(xí)、思考和推理,這就進(jìn)入了認(rèn)知智能的領(lǐng)域。近兩年來,隨著大模型的興起,人工智能技術(shù)邁向認(rèn)知智能的步伐已大大加快,有了突飛猛進(jìn)的發(fā)展。AI 2.0是一道分界線,2.0以下我們認(rèn)為傳統(tǒng)深度學(xué)習(xí)模型占據(jù)主導(dǎo)地位,而2.0之后的人工智能發(fā)展,更多的大模型技術(shù)將不斷涌現(xiàn)。再往前看,展望未來,我們希望人工智能技術(shù)能真正成為人工大腦,代替人類進(jìn)行決策判斷,這是我們稱之為AI 3.0的決策智能時(shí)代,對(duì)人工智能技術(shù)來說,還有很長(zhǎng)的一段路要走。
現(xiàn)代人工智能的發(fā)展,為像科達(dá)這樣的安防廠商帶來了全新的活力和機(jī)遇。回望蘇州科達(dá)的人工智能發(fā)展歷史,我們從2014年就推出了第一臺(tái)感知型攝像機(jī),代表著我們從感知智能進(jìn)入了現(xiàn)代人工智能賽道,這九年人工智能技術(shù)的沉淀,為我們公司的安防產(chǎn)品、業(yè)務(wù)服務(wù),解決方案帶來了極大收益,涌現(xiàn)了一個(gè)又一個(gè)明星產(chǎn)品,比如科達(dá)的車輛二次分析系統(tǒng)、大規(guī)模的人像分析平臺(tái)、視綜產(chǎn)品、AI超微光攝像機(jī)等等,產(chǎn)生了巨大的經(jīng)濟(jì)效益和社會(huì)效益。
AI 1.0:基于深度學(xué)習(xí)的感知智能
感知智能是指將物理世界的信號(hào)通過攝像頭、麥克風(fēng)或者其他傳感器采集設(shè)備,借助語音識(shí)別、圖像識(shí)別等前沿技術(shù),映射到數(shù)字信息世界,將多元數(shù)據(jù)結(jié)構(gòu)化,并用人類熟悉的方式去溝通和互動(dòng)。人們希望機(jī)器不是簡(jiǎn)單的采集信息,而是能夠像人一樣去感知信息,這一愿望最終成為現(xiàn)實(shí),完全得益于十年前出現(xiàn)的深度學(xué)習(xí)算法,帶來了我們稱之為AI 1.0的技術(shù)革命。
在安防監(jiān)控行業(yè),最先得到應(yīng)用的深度學(xué)習(xí)算法的就是對(duì)人、車、物等感興趣目標(biāo)的分析,比如,與人相關(guān)的人臉識(shí)別、人體識(shí)別、衣著檢測(cè)、手勢(shì)識(shí)別和行為分析等;與車輛相關(guān)的車型、車標(biāo)、車牌、車色識(shí)別、車輛壞損分析、以及非機(jī)動(dòng)車的識(shí)別和屬性分析;以及其它物體,如船舶、動(dòng)物等等。
當(dāng)前,這些基于深度學(xué)習(xí)的感知智能算法已經(jīng)成為了安防領(lǐng)域各個(gè)應(yīng)用中必不可少的工具,不僅大大減輕了人類的工作量,而且AI也看得更準(zhǔn)更清楚,因此成為在各個(gè)安防應(yīng)用中占據(jù)主導(dǎo)地位,為用戶帶來極大價(jià)值的功能。有關(guān)這些算法的優(yōu)化工作也一直在持續(xù)。
AI 2.0:大模型驅(qū)動(dòng)的認(rèn)知智能
人們希望AI為我們做更多的事情,不僅僅滿足于對(duì)一個(gè)感興趣目標(biāo)進(jìn)行分析,而是對(duì)場(chǎng)景具備一定的理解和學(xué)習(xí)能力,也就是希望機(jī)器能具備初步的認(rèn)知智能。
認(rèn)知智能是以人類認(rèn)知體系為基礎(chǔ),以模仿人類核心能力為目標(biāo),以信息的理解、存儲(chǔ)、應(yīng)用為研究方向,以感知信息的深度理解和自然語言信息的深度理解為突破口的新一代理論、技術(shù)及應(yīng)用系統(tǒng)的技術(shù)科學(xué)。
認(rèn)知智能的兩大方向,感知信息的深度理解和自然語言信息的深度理解,在安防領(lǐng)域都有直接的應(yīng)用。首先我們來看在安防領(lǐng)域中對(duì)感知信息的深度理解,有別于AI 1.0時(shí)代對(duì)人、車、物等特定目標(biāo)的分析,在安防領(lǐng)域還有非常多的泛監(jiān)控應(yīng)用,比如在交通、政法、城管、校園、工地等場(chǎng)景下的人群態(tài)勢(shì)、安全事件、數(shù)據(jù)參量甚至衛(wèi)生環(huán)境分析。這些應(yīng)用,更多的強(qiáng)調(diào)了場(chǎng)景中目標(biāo)與目標(biāo),目標(biāo)與周圍環(huán)境的相互關(guān)系,因此需要人工智能具有一定的理解和辨識(shí)能力。我們稱之為場(chǎng)景圖像理解,一些典型的例子包括交通事件分析(如行人穿越、障礙物檢測(cè)、非法停車);道路安全事件分析(如淹水、積雪、大霧、火焰);人員聚集、市域治理類事件分析(如占道經(jīng)營、亂丟垃圾、黑煙車)。
用傳統(tǒng)深度學(xué)習(xí)算法來完成這些場(chǎng)景理解任務(wù)是非常困難的,由于這些場(chǎng)景的多樣性和任務(wù)的多變性,帶來了數(shù)據(jù)難以采集、標(biāo)注困難、標(biāo)注成本高、算法泛化性能差、魯棒性不足、算法交付時(shí)間長(zhǎng)、可擴(kuò)展性差等諸多問題,這些問題不解決,認(rèn)知智能的第一個(gè)突破口就無法攻克。
另一個(gè)在安防領(lǐng)域中的認(rèn)知智能方向,是基于自然語言信息的行業(yè)知識(shí)理解,對(duì)于安防廠商提供的行業(yè)解決方案,就必須要考慮行業(yè)知識(shí)的應(yīng)用。傳統(tǒng)上,這部分的應(yīng)用是由知識(shí)圖譜來完成的,如公安知識(shí)圖譜,通過數(shù)據(jù)分析、文本語義分析等手段,抽取出人、物、地、機(jī)構(gòu)、虛擬身份等實(shí)體,并根據(jù)其中的屬性、時(shí)空、語義、特征、位置聯(lián)系等建立相互關(guān)聯(lián),構(gòu)建一張多維多層的、實(shí)體與實(shí)體、實(shí)體與事件的關(guān)系網(wǎng)絡(luò)。
如司法的知識(shí)圖譜,將法律領(lǐng)域中的實(shí)體、屬性和關(guān)系進(jìn)行體系化梳理,并建立邏輯關(guān)聯(lián),通過知識(shí)圖譜技術(shù)進(jìn)行數(shù)據(jù)挖掘、輔助決策、洞察知識(shí)領(lǐng)域動(dòng)態(tài)發(fā)展規(guī)律。
但是,知識(shí)圖譜構(gòu)建與應(yīng)用,有非常多的挑戰(zhàn),很難推廣。首先,構(gòu)建知識(shí)圖譜需要大規(guī)模自動(dòng)化知識(shí)獲取,知識(shí)圖譜需要大量的知識(shí)作為基礎(chǔ)。知識(shí)來源包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù),手工從知識(shí)來源中提取的方法滿足不了大規(guī)模的構(gòu)建需求;其次,需要建立高質(zhì)量的知識(shí)圖譜構(gòu)建模式,需要定義清晰的實(shí)體和關(guān)系,使用合適的數(shù)據(jù)源和知識(shí)表示方式;此外,需要持續(xù)更新迭代知識(shí)圖譜,知識(shí)本身不是封閉的,而是在不斷的擴(kuò)展和變化,知識(shí)圖譜難以處理不完整或是動(dòng)態(tài)變化的知識(shí)。
那么,對(duì)于認(rèn)知智能的這些問題,我們的對(duì)策是什么呢?這就是大模型,我們推出了KD-GPT,包含了三類大模型,分別是:多模態(tài)大模型、行業(yè)大模型,和AIGC大模型。
KD-GPT是生成式的AI模型,有非常多的優(yōu)點(diǎn),這里就不一一贅述了。下面說說KD-GPT大模型兩個(gè)最基本的優(yōu)點(diǎn),首先大模型是多任務(wù)的,以前的深度學(xué)習(xí)模型,是一個(gè)模型對(duì)應(yīng)一個(gè)任務(wù),而現(xiàn)在大模型,則是一個(gè)模型可以應(yīng)對(duì)多個(gè)下游任務(wù);其次,KD-GPT大模型的網(wǎng)絡(luò),初步具備了信息的檢索和思考理解能力,當(dāng)然這是和大模型基于Transformer的結(jié)構(gòu)分不開的。
下面我們就來看看科達(dá)的多模態(tài)大模型,這個(gè)大模型可以解決所有數(shù)據(jù)難問題,比如我們要檢測(cè)一幅圖片中是否有煙霧出現(xiàn),我們只要輸入提示語:“煙霧”和待檢測(cè)的圖片,大模型就可以直接輸出檢測(cè)結(jié)果,無需成千上萬張的煙霧圖片進(jìn)行訓(xùn)練。
科達(dá)的行業(yè)大模型,則采用了通用大模型+行業(yè)數(shù)據(jù)+訓(xùn)練調(diào)優(yōu)的思路,使得這個(gè)大模型可以輕松解決原來構(gòu)建行業(yè)知識(shí)圖譜需要完成的若干任務(wù),在做好知識(shí)推理和質(zhì)量評(píng)估之后;行業(yè)大模型就可以完全替代行業(yè)知識(shí)圖譜的功能。
科達(dá)的另一類大模型,AIGC圖像大模型,是為了生成大量的訓(xùn)練數(shù)據(jù)而服務(wù)的,限于篇幅,這里就不作介紹了。
AI 3.0:未來的決策智能
從認(rèn)知智能到?jīng)Q策智能需要在數(shù)據(jù)、學(xué)習(xí)、多模態(tài)數(shù)據(jù)處理、決策樹模型和個(gè)性化算法等方面取得重要進(jìn)展,這將會(huì)助力數(shù)字經(jīng)濟(jì)和智能化時(shí)代的到來。
大模型是實(shí)現(xiàn)決策智能的重要工具之一,因?yàn)樗鼈兙哂懈咝У臄?shù)據(jù)處理能力和強(qiáng)大的特征工程能力,可以這么說,有了大模型,人們才真正看到了決策智能、人工大腦的曙光。
但是,我們也必須認(rèn)識(shí)到大模型存在的若干問題:
公正性:如何不被大量的訓(xùn)練數(shù)據(jù)帶偏?如何不被提示(prompt)帶偏?
透明性:如何對(duì)大模型的決策過程進(jìn)行評(píng)估?又如何對(duì)大模型的決策過程進(jìn)行監(jiān)督?
普惠性:大模型的訓(xùn)練和調(diào)優(yōu),往往是昂貴的;對(duì)于像科達(dá)這樣中等的安防公司怎么做大模型?同樣,大模型的使用價(jià)格也不菲,對(duì)于科達(dá)的客戶,怎樣才能得到人人可用的大模型?
友善性:如何保護(hù)知識(shí)產(chǎn)權(quán)(人類的或是某個(gè)大模型的)不被其它大模型侵犯?如何避免大模型提供錯(cuò)誤信息甚至引誘犯罪?
總之,大模型的出現(xiàn),被稱之為AI的第二次革命。但在技術(shù)成熟度的曲線上,大模型還離成熟期很遠(yuǎn)。不僅如此,安防領(lǐng)域要實(shí)現(xiàn)真正的決策智能,大模型也不會(huì)是唯一的關(guān)鍵技術(shù),還需要人工智能持續(xù)進(jìn)行創(chuàng)新性發(fā)展,是一個(gè)任重道遠(yuǎn)的征途。