近日,眾安信息技術(shù)服務(wù)有限公司(以下簡稱“眾安科技”)數(shù)據(jù)科學(xué)實驗室的兩篇論文分別被國際多媒體圖像分析峰會(以下簡稱“ICMR”)和第24屆國際模式識別大會(以下簡稱“ICPR”)錄用,獲得國際認(rèn)可。
深度學(xué)習(xí)進入視頻學(xué)習(xí)時代
論文“Dense Dilated Network for Few Shot Action Recognition”(《基于密集擴展網(wǎng)絡(luò)的少樣本視頻動作識別》)被ICMR錄用,這是深度學(xué)習(xí)在視頻分類領(lǐng)域的創(chuàng)新應(yīng)用,在駕駛行為分析、視頻檢索等領(lǐng)域有重要的業(yè)務(wù)價值。
深度學(xué)習(xí)是機器學(xué)習(xí)中一種基于對數(shù)據(jù)進行表面特征的方法,其概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。目前,深度學(xué)習(xí)的主要素材來源于文字、圖片,而隨著智能手機等設(shè)備的發(fā)展,視頻沉淀了大量深度學(xué)習(xí)素材。近年來人工智能、神經(jīng)網(wǎng)絡(luò)的發(fā)展更是促進了視頻的分類、識別的研究。
和其他網(wǎng)絡(luò)架構(gòu)相比,眾安科技的這款神經(jīng)網(wǎng)絡(luò)架構(gòu)利用每層與之前所有層相連的方式,可以得到從最初局部特征到總體視頻的所有特征信息。而每層網(wǎng)絡(luò)使用了擴張卷積(dilated convolution),相比原始的卷積方式,可以更加充分利用時空信息。因此不需要很深的層數(shù),在少量數(shù)據(jù)下就可以訓(xùn)練效果較好的網(wǎng)絡(luò)。
以目前動作類別數(shù)、樣本數(shù)較多的數(shù)據(jù)庫之一UCF101為例,眾安科技在此數(shù)據(jù)庫的通用視頻數(shù)據(jù)集上進行了大量實驗,在僅有20%的訓(xùn)練數(shù)據(jù)時(模擬對新任務(wù)的快速學(xué)習(xí)),利用該神經(jīng)網(wǎng)絡(luò)架構(gòu),機器仍然可以學(xué)到每類視頻的高層語義特征。
保險理賠進入人工智能時代
論文“CG-DIQA: No-reference Document Image Quality Assessment Based on Character Gradient”(《基于字符梯度的無參考文本圖像質(zhì)量評估》)被ICPR錄用,ICPR是人工智能和模式識別領(lǐng)域頂級盛會,每2年舉辦一屆,迄今已有45年歷史。
隨著智能手機的普及,在業(yè)務(wù)流程智能化服務(wù)中上傳手機拍攝的文本照片成為一種趨勢。然而,有些用戶拍攝的文本照片過于模糊,后續(xù)的字符識別(OCR)算法基本無法識別照片中的文本,會大大降低業(yè)務(wù)處理速度。
針對實際業(yè)務(wù)的特點,數(shù)科室團隊模擬人眼視覺認(rèn)知照片質(zhì)量的過程,設(shè)計了一種基于字符梯度的算法,在文本照片質(zhì)量的評估過程中重點關(guān)注有實際意義的字符,忽略其它干擾信息,能更好的預(yù)測文本照片模糊程度。該方法與字符識別精度的線性相關(guān)性系數(shù)(國際通用評價指標(biāo))達到0.9841(數(shù)值越接近1表示算法性能越好),遠(yuǎn)超其它國際同行(目前最好水平0.935)。該算法應(yīng)用于保險理賠等業(yè)務(wù)流程中,可以自動評估手機拍攝上傳的圖像質(zhì)量,避免用戶上傳低質(zhì)量的理賠文檔資料,進而降低人工審核成本,提升業(yè)務(wù)流程處理效率。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!