近日,2018中國“ai+”創(chuàng)新創(chuàng)業(yè)峰會在廣東·佛山舉辦。這場由人工智能學術界和產(chǎn)業(yè)界聯(lián)手打造的行業(yè)盛會,匯聚了全國人工智能領域的專家學者、產(chǎn)業(yè)精英以及科技企業(yè)代表。深醒科技聯(lián)合技術創(chuàng)始人史震云女士現(xiàn)場做了主題演講,對自己正在從事的機器視覺的行業(yè)應用進行了回顧,并對未來發(fā)展中遇到的關鍵問題進行了分析。
以下是演講主要內容:
深醒主要是在做機器視覺,目前在人工智能領域落地的應用很多,主要是從打造安全社會及智慧和諧社會出發(fā)。目前我們在人臉識別、物體識別、圖像搜索還有智能監(jiān)控這些領域有比較大的進展,在行業(yè)里面算是顛覆性的應用及改進。
從核心技術來說,我們現(xiàn)在主要做的是五個主要的關鍵技術點,分別是目標檢測、目標跟蹤、目標識別、行為識別以及目前同樣重要的圖像增強技術。
關鍵技術-目標檢測
在目標檢測中新的算法層出不窮,比如在gpu上用的mtcnn,把檢測和定位做到一起;中科院提出的cpu上實時的人臉檢測方法faceboxes,速度和精度都有一定的保證。在基于深度學習的視頻分析中,主要涉及到要把檢測對象非常準確地從背景噪音數(shù)據(jù)中檢測出來,現(xiàn)在應用多的是在安防場景,無論對車、對人還是對物。
在一個大場景中,比如這個會場一眼望過去數(shù)百人,在200萬的攝像頭中,前排的人臉稍微大一些,人臉大小能達到100x130像素點;后排的人臉非常小,可能是30x30像素點。計算機視覺首先需要通過目標檢測確定是人、是水瓶、還是桌子……所以精度是位的。
第二是效率問題。現(xiàn)在我們一般還是用回歸算法,一般回歸算法會用單回歸和雙回歸,現(xiàn)在實際應用場景當中為了提率,一般用單回歸的算法來實現(xiàn)快速的檢測。
在技術研發(fā)上,我們一方面要考慮效率問題,另一方面考慮精度問題,這兩者之間的權衡也是在產(chǎn)品中需要主要考慮的問題。當然現(xiàn)在隨著硬件對我們的支撐作用越來越好,這個領域的落地性逐步得到增強。
關鍵技術-目標跟蹤
在目標檢測之后,有些情況下要做目標跟蹤,有些情況可以直接進行目標識別。目標跟蹤是指在給定某視頻序列初始幀的目標大小與位置的情況下,預測后續(xù)幀中該目標的大小與位置,為了提高運算精度,往往會對某個特定物體進行持續(xù)的跟蹤。
現(xiàn)在判別式跟蹤方法用的比較多一些,終是在有限算力的情況下,實現(xiàn)一個的目標識別。
在標準數(shù)據(jù)集中,人臉識別往往都號稱能做到識別精度在99%以上,那么在實際應用場景中精度是沒有這么高的。以安防領域為例,拿人臉識別這個單項來說,我們在真實的場景中由于有各種各樣的光線變化和局部的遮擋等原因,實際識別率能夠達到80%到90%就非常好了?,F(xiàn)階段人工智能在實際應用中更多實現(xiàn)的是一個輔助決策,在實際運用中的確需要人工進一步的判斷。
創(chuàng)新技術-足跡分析
有經(jīng)驗的刑偵專家,可以將每個人的足跡特征,包括磨損以及重心分布等,大概判斷出該人員的性別、年齡、身高、體態(tài),甚至一些步態(tài)習慣。現(xiàn)在我們用人工智能技術通過對各類特征的分解以及小批量的數(shù)據(jù)訓練,能夠通過足跡圖像自動識別出該人員的一些屬性特點。目前這個軟件能達到接近80%左右的精度,這個比例實際上已經(jīng)高于很多有經(jīng)驗的刑偵人員的判斷精度了。但實際上使用的訓練集非常小,大概只有不到1萬對的數(shù)據(jù)。
行業(yè)應用-智慧安防
目前世界范圍內都在建設智慧城市,包含以下幾個主要的分支。是從安全的角度,泛指大的智慧安防。智慧安防核心的視頻智能應用包含人臉、人像、車輛識別以及行為識別,以云計算為基礎,加上視頻監(jiān)控的整個系統(tǒng)。此外包括社交網(wǎng)絡、智能家居、虛擬現(xiàn)實和自動駕駛等更廣闊的民用領域。大數(shù)據(jù)運用往往可以把以上的系統(tǒng)模塊串聯(lián)起來。
在公共安全方面,核心的是基于監(jiān)控視頻,把人、車、物的所有行為軌跡與時間經(jīng)過擁擠分析,得到一個輔助決策的指令。一方面保障社會治安,一方面提高民眾的生活舒適度。像現(xiàn)在機場安檢、酒店入住、軌道交通包括網(wǎng)吧上網(wǎng)大家應該都有一些感受。
公共安全中對黑名單的安全布控,可能普通民眾很難感受到他的存在。以我國接近14億的人口基數(shù),為了保障公民的安全,公安隊伍普遍勞動強度非常大。人工智能出來以后大的好處,就是它可以把海量的視頻數(shù)據(jù)快速進行過濾處理。現(xiàn)在中國有數(shù)以億計的攝像頭投放在路面上,但是這個視頻數(shù)據(jù)數(shù)量實在太巨大了,以人工有限的時間是過濾不完所有視頻信息的?,F(xiàn)在人工智能很有效地把這些人車物數(shù)據(jù)提取出來,得到一個簡單的分析統(tǒng)計數(shù)據(jù)。這個分析統(tǒng)計數(shù)據(jù)的正確率在人口基數(shù)當中可能只有百分之八九十,但是可以大幅度的提高民警的工作效率,提供輔助決策指令給到民警。
以黑名單人員的有效發(fā)現(xiàn)率為例,我們之前做過一個測試,在一個地級市放了不到20路的系統(tǒng),把幾個常規(guī)出入口的攝像頭接入后臺的服務器進行實時檢索,看看路面上到底走了多少全國在逃犯。就這么一個系統(tǒng),我們只運行了不到一個月的時間,抓獲的全國在逃犯比過去一年還要多。
行業(yè)應用-學校
現(xiàn)在社會面都比較關注平安校園,這幾年出的事也挺多,主要關注校園內是否有外來人員的入侵、內部人員管理是否合理,包括現(xiàn)在可能有些中學、大學也關注教學質量的評估等等。一般現(xiàn)在平安校園會把包括視頻在內的多類型數(shù)據(jù)全部接進來,對多類型的數(shù)據(jù)進行檢索,比如出入口管理、宿舍管理、家長和學校之間的聯(lián)動、課堂點名、外圍監(jiān)控,這里面常用到的技術包括人臉人像識別、區(qū)域管理以外,還有一些動作行為識別,比如是否有人在打架斗毆等等,這些都是可以通過數(shù)據(jù)監(jiān)控,后通過人工智能來實現(xiàn)的。
這些在學校的應用部分比較成熟,但是一些較新的技術還處于相對早期。比如剛剛說到的一些行為分析,比如是否進行踢打、勒脖子等等行為,這個還處于相對早期的階段,容易產(chǎn)生很多誤識別,這個實際是由于人類動作和意圖間的差異導致的,有些朋友間的打鬧和打架從動作上看可能差異不大。這就涉及到一方面需要通過技術優(yōu)化,一方面考慮是否需要和其它類型的數(shù)據(jù)進行交互,終在實際應用中將它的誤識率降下去。
行業(yè)應用-住宅小區(qū)
現(xiàn)在國內的小區(qū)開始逐步推進網(wǎng)格化管理,現(xiàn)在有一個職位叫網(wǎng)格員,其實他們大的作用不僅僅是保障民眾的安全,同時也是提高民眾的生活質量。在這類智慧小區(qū)的系統(tǒng)中,系統(tǒng)可以通過對人的行為軌跡和行為規(guī)律進行分析。比如說有一個孤寡老太太,網(wǎng)格員登記了她住在哪,什么生活軌跡,基于這個模型分析,在發(fā)現(xiàn)老太太出現(xiàn)*偏差于模型的情況下,判斷她是不是出事了。模型會自動觸發(fā),然后把結論數(shù)據(jù)給到網(wǎng)格員,網(wǎng)格員就可以上門去查看是什么情況。
創(chuàng)新研究-情緒感知
此外,更多類型的動作行為分析、人臉情緒感知等等的技術大家也都在研究。以情緒識別這個需求為例,目前主要用的還是神經(jīng)網(wǎng)絡,這里面又涉及到技術和應用之間的gap,很多情況,比如一個人大哭和大笑的時候,表情可能非常相似,這時候對表情的識別就會出現(xiàn)很大問題。現(xiàn)在來說表情識別還處于比較前期的推廣階段,精度不會特別高。