文:劉志剛@互聯(lián)網(wǎng)江湖主編
如果說近二十年來有哪一項科技成果能夠媲美上個世紀電腦的發(fā)明,那么這份榮譽一定屬于基于深度學習算法的AI技術,因為學習算法的誕生,才使得信息時代海量信息與數(shù)據(jù)第一次能夠完整的為人們提供可商業(yè)化的價值,并將由此開啟人類的“人工智能”時代。
但踏入人工智能時代的人們在獲取諸多技術革新成果的同時也付出了自己的代價:在這個數(shù)據(jù)即生產(chǎn)力的時代,與互聯(lián)網(wǎng)時刻鏈接的我們正在數(shù)據(jù)AI的時代中不停地“裸奔”。
AI智能,算法,和數(shù)據(jù)
如今,隨處可見的智能手機、街頭監(jiān)控、地鐵安檢等設備都不同程度上集成了AI技術,而事實上,當下的“AI智能”只是在線性規(guī)劃法則下算法對大數(shù)據(jù)的高效“檢索”的結果,并通過深度學習不斷完善“檢索模式”和“反饋模式”,不具備真正獨立思考能力,因而也被稱為“弱人工智能”或者“輕人工智能”。
然而,即便是不具備思考能力的AI,在海量數(shù)據(jù)的分析與處理上相比人力而言仍然具有“革命性”的優(yōu)勢。而數(shù)據(jù)、算法、算力作為數(shù)據(jù)驅動的“準人工智能”的三大要素則決定著AI的能力上限以及價值空間,其中,算法、算力是數(shù)據(jù)載體,如果將AI算法比作是一臺引擎,那么數(shù)據(jù)本身則是AI的“燃料”。
對于大數(shù)據(jù),百度百科這樣定義:“指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。”IBM則通過5V來表示大數(shù)據(jù)的特點,即:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
AI與數(shù)據(jù)的聯(lián)系尤為緊密,一方面,大數(shù)據(jù)為AI提供數(shù)據(jù)資源,使其不斷成長進化,另一方面,AI通過數(shù)學模型分析,對龐大的數(shù)據(jù)庫進行分析檢索,充分發(fā)掘數(shù)據(jù)背后的潛在價值。維克托.邁爾-舍恩伯格在《大數(shù)據(jù)時代》中這樣描述道:“大數(shù)據(jù)提供的不是最終答案,只是參考答案,為我們提供暫時的幫助,以便等待更好的方法和答案出現(xiàn)。這也提醒我們在使用這個工具的時候,應當懷有謙恭之心,銘記人性之本。”
“數(shù)據(jù)AI”與個人隱私的“二元對立”
毫無疑問的是,如今已經(jīng)逐步應用的“數(shù)據(jù)AI”技術已經(jīng)很大程度上為我們的生活創(chuàng)造了巨大的便利,如線下人臉識別支付系統(tǒng)的便捷性體驗、安防領域的AI人臉識別應用有效提高安檢效率,基于用戶數(shù)據(jù)畫像的數(shù)字化營銷等?;?ldquo;數(shù)據(jù)AI”人們得以實現(xiàn)有效的風險管控以及行為預測,而伴隨著“數(shù)據(jù)AI”的商業(yè)化應用,人們在享受便利的同時也在承擔著隱私泄露的風險和擔憂。
試想一下,在數(shù)據(jù)的世界里,最了解你家庭和你社交關系的可能是你習慣性使用的社交軟件,最了解你財務狀況的可能是你常用的支付軟件,而知道你購物習慣和消費你能力的則是你常常網(wǎng)購的平臺,如果將這些數(shù)據(jù)綜合起來,則是一個完整、精確的數(shù)據(jù)畫像,這些數(shù)據(jù)一旦泄露,將使你“*”完完全全暴露在數(shù)據(jù)的世界中,被陌生人窺視,甚至被用于非法的商業(yè)交易。
此前據(jù)《華爾街日報》報道,一位英國某集團子公司CEO接到“老板”電話,要求其必須在一個小時內轉賬給某“供應商”,成功被使用AI語音克技術的犯罪分子騙取22萬歐元,
不僅AI語音存在著隱私以及安全性問題,事實上,AI視頻換臉也同樣有著隱私安全漏洞。以最近刷屏的AI換臉APP:ZAO為例,隨著熱度的飆升,其廣為詬病的用戶協(xié)議以及換臉合成視頻的隱私安全問題也使其陷入輿論的漩渦。究其本因是因為換臉合成視頻觸及了人們心中的隱私紅線:當視頻也可偽造之時,還有什么樣的證據(jù)辨別真實?
目前AI技術的發(fā)展需要人們開放數(shù)據(jù),而另一方面,在現(xiàn)實中個人數(shù)據(jù)開放必然會導致數(shù)據(jù)泄露的風險。目前,大多公司通過其軟件搜集用戶信息必須通知用戶和取得用戶同意,而據(jù)一份調查統(tǒng)計顯示,如果要充分閱讀隱私條款則意味著每年消費者需要多花花費200個小時以上的時間,顯然沒有人愿意在這件事情上浪費自己的時間。
從本質上來看,數(shù)據(jù)開放與隱私保護二者之間原本就是二元對立的雙方,一方的收益必定意味著另一方的風險和損失,而就現(xiàn)階段來看來,并沒有一種有效的“數(shù)據(jù)黑盒”機制來保證個人數(shù)據(jù)的絕對安全。而對于剛進入人工智能時代的人們來說,數(shù)據(jù)的開放也成為一種“趨勢”,在數(shù)據(jù)生產(chǎn)力的時代中,由數(shù)據(jù)整合、流通、數(shù)據(jù)反饋等為主體的“數(shù)據(jù)價值創(chuàng)造”將帶來飛躍式的效率提升。
數(shù)據(jù)價值與隱私權利的動態(tài)均衡“妥協(xié)”
人們對于數(shù)據(jù)的泄露的擔憂源自于對切身利益的擔憂,事實上,開放數(shù)據(jù)的人們也同樣可以獲得AI帶來的便利服務,一份調查顯示,在對自身沒有任何影響,且能保證數(shù)據(jù)絕對安全的情況下,還是有相當一部分人愿意分享涉及隱私的相關數(shù)據(jù)。
另一方面,對于一些不愿意分享自身數(shù)據(jù)的人來說,路人無意識的行為也可在AI技術下造成個人數(shù)據(jù)泄露的可能,比如說在廣場上牌照的人可能會拍到一些路人的面部數(shù)據(jù),而在人臉識別技術下這些路人會被識別,數(shù)據(jù)會被儲存,對于他們來說,未知意愿下創(chuàng)造的數(shù)據(jù)就決定了其在未來有數(shù)據(jù)泄露的風險。
另外,數(shù)據(jù)本身的價值也成為數(shù)據(jù)泄露的原因之一,事實上基于智能手機的信息采集要比其它方式更加容易,通過智能手機的后門軟件,可以采集你的手機號,通訊錄等信息。如果用戶沒有足夠的安全意識,很多軟件安裝都默認采集各種信息的,通過智能手機唯一標識信息很容易做到數(shù)據(jù)的整合與身份信息定位。
由于AI時代的數(shù)據(jù)資源屬性,大量的用戶數(shù)據(jù)是企業(yè)機構廣告投放優(yōu)化的關鍵,因而數(shù)據(jù)開放則意味著巨大的商業(yè)價值,巨頭們在生態(tài)布局下,通過全鏈式數(shù)據(jù)通路可獲得精準、完整的用戶畫像,而巨頭們在數(shù)據(jù)的商業(yè)化上也更加容易。
對于AI技術的提供者而言,數(shù)據(jù)價值導向下使得數(shù)據(jù)搜集是非常必要的,在初期,人們會因為數(shù)據(jù)被第三方使用而感到不安,從而主張自身的隱私權,實際上,如果數(shù)據(jù)本身的應用并沒有給用戶造成困擾,并且為其帶來便利的服務,那么此時會有部分用戶樂于接受分享數(shù)據(jù),因而對于數(shù)據(jù)價值的商業(yè)化應用上,AI技術的提供者應該持有更謹慎的態(tài)度。
在筆者看來,AI數(shù)據(jù)時代中,數(shù)據(jù)的商業(yè)化價值和用戶的隱私權利之間需要達到一種動態(tài)均衡,即在法律范圍的臨界點內,數(shù)據(jù)搜集方與用戶之間需要有一種連接機制,以確保在數(shù)據(jù)產(chǎn)生者的掌控下,有限度的使用數(shù)據(jù)的商業(yè)價值發(fā)掘,在隱私保護與AI技術的便利之間達成妥協(xié)。而對于當前隱私法、物權法等相關法律并沒有對數(shù)據(jù)歸屬權益等明確立法的現(xiàn)狀下,有限度的使用數(shù)據(jù)仍然需要依靠企業(yè)的意識自覺。
數(shù)據(jù)算法偏差下的“AI歧視”
在大數(shù)據(jù)時代,數(shù)據(jù)有著極底的儲存成本,這也意味著在數(shù)據(jù)驅動的AI時代,一旦有數(shù)據(jù)生成便很難徹底消除,在數(shù)據(jù)儲存成本的規(guī)模遞減效應下,徹底刪除數(shù)據(jù)的成本反而更高,因而,數(shù)據(jù)存在的時間更長,甚至超過創(chuàng)造數(shù)據(jù)者本身的壽命。而隨著儲存成本的進一步降低,在不久的將來個人數(shù)據(jù)可能會實現(xiàn)無限期的儲存。
大數(shù)據(jù)的意義在于不必深究事物“規(guī)律性”的同時對于數(shù)據(jù)分析結論的直接應用,因而大數(shù)據(jù)常常被用于結果預測,而事實上,基于數(shù)據(jù)的預測結果也具有時效性,而時效性失效的結果則是基于數(shù)據(jù)分析的AI交互失真。
也就是說,如果采集的數(shù)據(jù)本身就具有某種傾向性,則由此訓練而來的AI也自然帶有這樣的傾向性。一項來自于美國的調查研究證明了這一點,在一項基于數(shù)據(jù)分析的族群預測算法中,算法在預測族群時,通常會把那些身處有歧視歷史地區(qū)的人預測為黑人,而事實上,并非如此。
又如在一則STEM(科學、技術、工程、數(shù)學)領域招聘廣告投放中,廣告商發(fā)現(xiàn),則這廣告很少投放給女性,而事實上廣告商則希望這則廣告是性別中立的。而在“雙曲貼現(xiàn)”效應下數(shù)據(jù)的時效性問題導致數(shù)據(jù)“失準”,進一步引發(fā)“算法歧視”的問題。
雙曲貼現(xiàn)又稱為非理性折現(xiàn),是行為經(jīng)濟學的一個概念,這個現(xiàn)象描述折現(xiàn)率并不是一個不變量,具體是指人們在對未來的收益評估其價值時,傾向于對較近的時期采用更低的折現(xiàn)率,對較遠的時期采用更高的折現(xiàn)率。
比如,大多數(shù)人可能傾向于選擇今天收益60元,而不是一年后拿到100元,因為今天這60元收入可能更有價值,而如果讓人們選擇一年后拿到60元或者兩年后拿到100元,則大多數(shù)人會選擇兩年后拿到100元。即人們會因為收益時間上的差異從而做出不同的決策。
因而,在雙曲貼現(xiàn)的情況下,人們短期決策行為所產(chǎn)生的數(shù)據(jù)將會導致數(shù)據(jù)本身失準,從而更加容易導致在數(shù)據(jù)偏差引發(fā)的算法偏差后,在應用層面的“算法歧視”。因此,對于數(shù)據(jù)型AI的使用者而言,在算法的應用層面上也需多一份謹慎和細心。
結尾:
無論是數(shù)據(jù)AI時代的個人隱私問題還是數(shù)據(jù)偏差下的“算法歧視”,都是大數(shù)據(jù)AI發(fā)展之路上不可避免的問題,對于人們來說,不論是數(shù)據(jù)采集端的隱私侵犯,還是AI應用層面的“算法歧視”都是有悖道德甚至法律的邊緣試探。而對于如今尚處“幼年”中的AI技術而言,如何正確的引導、影響其發(fā)展,在符合人類價道德觀念以及道德標準之下創(chuàng)造更大的價值,則是“AI造物主”們值得深思的問題。
科技自媒體劉志剛,訂閱號:互聯(lián)網(wǎng)江湖,微信號:13124791216,轉載保留作者版權信息,違者必究。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!