大數(shù)據(jù):看密西根大學(xué)如何化解數(shù)據(jù)科研中的倫理和不確定性問題-智醫(yī)療網(wǎng)近年來,大數(shù)據(jù)已然成為強(qiáng)大的工具,密西根大學(xué)緊隨這一科技大趨勢,努力學(xué)習(xí)并開展大數(shù)據(jù)研究。
大學(xué)研究院副院長Jack Hu在2015年一次聲明中表示,大數(shù)據(jù),即通過大量分析表明趨勢和關(guān)聯(lián)的數(shù)據(jù),正在“對各學(xué)科研究進(jìn)行大規(guī)模改革。”
密西根大學(xué)證實,該校在數(shù)據(jù)科學(xué)領(lǐng)域上的投資物有所值。學(xué)校在過去五年間對該項目(Data Science Initiative – DSI)資助了100萬美元,一些多學(xué)科和交叉學(xué)科領(lǐng)域的教研人員也參與到數(shù)據(jù)計算分析和管理研究中心的建設(shè)中。“我們的目標(biāo)是在校園點(diǎn)燃創(chuàng)新研究,并取得數(shù)據(jù)科學(xué)本身的進(jìn)步。”
Hu在2015年說道。大數(shù)據(jù)已成為醫(yī)學(xué)項目和疾病研究的核心,諸如巴拿馬文件泄密事件等國際貪腐丑聞的曝光和世界性的經(jīng)濟(jì)技術(shù)發(fā)展也離不開大數(shù)據(jù)。例如,田徑運(yùn)動相關(guān)的大量數(shù)據(jù)可以預(yù)測運(yùn)動員受傷情況;授課分析可以開發(fā)更好的教學(xué)模式;還有大量患者信息可以用于診斷預(yù)測并分析健康情況。
密西根大學(xué)數(shù)據(jù)研究中心作為DSI項目的一部分,自成立兩年間得到了快速發(fā)展,已成為多學(xué)科、跨學(xué)院的數(shù)據(jù)研究。DSI項目下的另兩個子項目分別是先進(jìn)研究算法(統(tǒng)計咨詢和技術(shù)服務(wù))和計算分析研究。醫(yī)學(xué)和生物信息算法領(lǐng)域的教授Brian Athey稱,大數(shù)據(jù)的創(chuàng)新使用需求還在持續(xù)增長。
在大數(shù)據(jù)浪潮到來之前,密西根大學(xué)的研究人員就已經(jīng)利用大量數(shù)據(jù)分析并預(yù)測引發(fā)疾病的病因、加強(qiáng)計算機(jī)科學(xué)的研究。先進(jìn)研究算法負(fù)責(zé)人大學(xué)副校長Eric Michielssen說,要解決現(xiàn)實具體問題,首先需要‘海量’的數(shù)據(jù),基于此他與Athey重申了大數(shù)據(jù)四個‘V’重要概念。
除了數(shù)據(jù)量(the volume of data)之外,研究人員還考慮到數(shù)據(jù)速度(velocity),即接收前所未有的大量數(shù)據(jù)的能力。接收的數(shù)據(jù)中還需要考慮到數(shù)據(jù)格式的多樣性(variety),數(shù)據(jù)格式不僅僅是常見的工作簿數(shù)據(jù),最后一個‘v’是數(shù)據(jù)準(zhǔn)確性(veracity),即數(shù)據(jù)的不確定性和有效性。
Michielssen稱,高效的日常數(shù)據(jù)收集和匯總– 尤其社交網(wǎng)絡(luò)和商業(yè)交易產(chǎn)生的大量數(shù)據(jù)通過無線技術(shù)、傳感器和復(fù)雜的網(wǎng)絡(luò)系統(tǒng)快速傳播 – 這要求研究人員重新考慮如何利用數(shù)據(jù)惠及社會和科學(xué)發(fā)展,這就是大數(shù)據(jù)的創(chuàng)新應(yīng)用。
Michielssen說,“社會方方面面,各個領(lǐng)域的科研和教學(xué)都會受此影響,即大數(shù)據(jù)現(xiàn)象的影響。” 在Athey看來,數(shù)據(jù)科學(xué)的重要性在大學(xué)層面上– 尤其對擁有優(yōu)秀科研資源的大學(xué)而言 – 可以從該校的科研史上可見一斑,看看大學(xué)是否在機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、統(tǒng)計計算等學(xué)科發(fā)展方面已為今天的方法論做好研究準(zhǔn)備。
“密西根大學(xué)提供一個理想環(huán)境”,根據(jù)摩爾定律,隨時間計算能力提高同時成本降低,Athey說,“大科學(xué)和大數(shù)據(jù)正重塑社會和高等教育。”MIDAS行政總監(jiān)Kevin Smith博士稱,現(xiàn)在的數(shù)據(jù)科學(xué)家不必受過時的計算機(jī)規(guī)律的約束。相反,現(xiàn)代的數(shù)據(jù)管理需要MIDAS三層合作 –即一所大學(xué)作為學(xué)術(shù)中心、CSCAR咨詢等數(shù)據(jù)科學(xué)服務(wù)以及高性能計算平臺。“這是一個數(shù)據(jù)整合與有效應(yīng)用的全局思考,你可以對任何待解決的科學(xué)問題或商業(yè)問題進(jìn)行數(shù)據(jù)探索,通過分析、可視化,驗證你的做法是否正確。”
交通運(yùn)輸與科技
Michielssen說,在數(shù)據(jù)科學(xué)研究上,大學(xué)側(cè)重實際結(jié)果,因此必然更注重應(yīng)用而不是理論方法,尤其對政策、教育和基建方面的應(yīng)用更是如此。“從方法論上,我們把這種大數(shù)據(jù)在其他領(lǐng)域中的應(yīng)用當(dāng)作發(fā)展大數(shù)據(jù)的絕佳機(jī)會。”Smith補(bǔ)充道。例如,MIDAS的數(shù)據(jù)運(yùn)輸研究中心(Data-Driven Transportation Research)和數(shù)據(jù)密集性學(xué)習(xí)分析中心(Data-Intensive Learning Analytics)的研究人員利用大數(shù)據(jù)改善車輛使用模式、提高交通效率,并開發(fā)檢驗學(xué)習(xí)過程的新工具。
密西根大學(xué)交通研究院的副研究員Carol Flannagan說,他的團(tuán)隊利用大數(shù)據(jù)分析司機(jī)行為,仿真交通規(guī)則、交通系統(tǒng)下的司機(jī)行為。“交通數(shù)據(jù)變化快,對現(xiàn)辦法的創(chuàng)新應(yīng)用,甚至擴(kuò)展現(xiàn)辦法或研發(fā)新方法,在交通運(yùn)輸領(lǐng)域都大有用武之地。”
除了為交通分析提供大量數(shù)據(jù)外,F(xiàn)lannagan團(tuán)隊在車禍調(diào)研方面也取得了成果,已開發(fā)了躲避車禍的技術(shù)應(yīng)用。這些技術(shù)應(yīng)用可以轉(zhuǎn)化為乘車人保護(hù)措施,而不是避免車禍。
團(tuán)隊通過可視化工具和交通事故數(shù)據(jù)分析,提出了一系列車輛在車禍中抵御自身損害的措施,尤其在車輛設(shè)計、乘車人行為措施、道路設(shè)計等方面,為政策制定部門和基建設(shè)計單位提供新的可能性,通過優(yōu)化設(shè)計、制定更好的制度避免不必要的傷亡。
從安全的全局出發(fā),做出預(yù)測、制定交規(guī),這需要研究者、政府其他機(jī)構(gòu)共同努力。Flannagan說,一個阻礙就是數(shù)據(jù)共享性和數(shù)據(jù)快速訪問。他指出,“我們必須遵守數(shù)據(jù)分析中三思而后行的要求,只是,這個要求是極為苛刻的。”因為,大科學(xué)研究必定伴隨著大量挑戰(zhàn),尤其對大數(shù)據(jù)需求還不斷變化的情況下更具挑戰(zhàn)。
社會科學(xué)與挑戰(zhàn)
2014年5月份,前總統(tǒng)奧巴馬公布了白宮官方報告,陳述了在數(shù)字時代個人信息安全、負(fù)責(zé)任的教育制度、以及公共來源的數(shù)據(jù)使用的重要性。“如果處理妥善,大數(shù)據(jù)將成為社會進(jìn)步的重要推動力量,讓我們國家長治久安、經(jīng)濟(jì)繁榮。”報告稱。此后,大數(shù)據(jù)在國家范圍內(nèi)的使用一直飽受爭議,最近圍繞著2016年總統(tǒng)選舉中的大數(shù)據(jù)應(yīng)用更是鬧得沸沸揚(yáng)揚(yáng)。起初,大數(shù)據(jù)被視為總統(tǒng)選舉結(jié)果的整體預(yù)測,盡管一些人認(rèn)為現(xiàn)任總統(tǒng)特朗普起初否認(rèn)大數(shù)據(jù)僅僅是為了掩蓋農(nóng)村的投票信息。
Michael Traugott教授就可以還原未受社交和新聞媒體影響的公眾意愿。Traugott教授團(tuán)隊聯(lián)合民意調(diào)查機(jī)構(gòu)(Gallup)和喬治城大學(xué)(Georgetown University)收集數(shù)據(jù)驗證2016年總統(tǒng)競選期間政治話題。利用計算機(jī)軟件檢索成千上萬投票者對選舉的關(guān)鍵話題,研究人員可以得出公眾對媒體宣傳后產(chǎn)生的主流觀點(diǎn)。
公眾的主流觀點(diǎn)與9家主流報紙進(jìn)行內(nèi)容對比分析,與記者微博的內(nèi)容對比分析,另一個指標(biāo)是媒體報道對公眾情感的影響。Traugott說,“競選初期媒體對參選人的性格分析報道讓我驚訝不已,特朗普受到了不成比例的關(guān)注度。我們希望追蹤一些對候選人好感度不產(chǎn)生影響的媒體新聞以及公眾提及的話題。”Traugott利用數(shù)據(jù)判斷傳統(tǒng)的預(yù)設(shè)主題的報告方法是否在社交媒體環(huán)境下依然適用。
由于大數(shù)據(jù)可以影響政治,產(chǎn)生對抗性社會氛圍,華盛頓郵報呼吁:利用大數(shù)據(jù)代表各種可能性時,需要更深層的私人思考和技術(shù)政策。另外,由于數(shù)據(jù)收集階段就會存在內(nèi)在偏倚– 無論大小 – 都會對結(jié)果產(chǎn)生影響,導(dǎo)致危險或者負(fù)面的結(jié)果。
研究人員每天面對公眾對隱私性和保密性的擔(dān)憂,這是意料外的阻礙。數(shù)據(jù)傳遞、醫(yī)療記錄以及社交信息是需要保障信息安全的三大領(lǐng)域。Michielssen說,“研究人員用軟件在聯(lián)網(wǎng)環(huán)境中進(jìn)行研發(fā),因此需要同時保障研究人員自身的信息安全。”Athey稱,人們對未知領(lǐng)域的態(tài)度既害怕又復(fù)雜,就像人們用大數(shù)據(jù)研究死亡的態(tài)度既恐懼又搖擺不定。
“大數(shù)據(jù)可以促進(jìn)社會進(jìn)步,或者直白的說,可以為不同社會團(tuán)體所利用。”Athey接著說,“那些知道方法、有計算能力、可以獲取數(shù)據(jù)的人相比一般人擁有特殊優(yōu)勢,可以做好事也可以做壞事。”他解釋道,‘數(shù)據(jù)文盲’就會處于不利地位。“如果你對數(shù)據(jù)科學(xué)缺乏知識,不會實踐,就有可能成為一個受害者。這就是我們生活的社會 – 谷歌和其他數(shù)據(jù)時代產(chǎn)物都不會消失。”Smith也注意到全球云數(shù)據(jù)倫理問題。“一個公司或許可以利用大數(shù)據(jù)獲取某種競爭優(yōu)勢,我想這就是我們的社會演變和進(jìn)化的過程。”
電子工程和計算機(jī)科學(xué)教授H.V. Jagadish開設(shè)了許多在線公開課程來檢驗數(shù)據(jù)科學(xué)的倫理問題。Jagadish教授的目的就是在線公開課程融入到數(shù)據(jù)科學(xué)培訓(xùn)的課程之中,希望可以教數(shù)據(jù)科學(xué)家們‘恰當(dāng)?shù)臄?shù)據(jù)科學(xué)。
Jagadish說,除了隱私性之外,數(shù)據(jù)科學(xué)還面臨其他的問題,比如算法的不精確、算法鑒別與偏倚。算法根據(jù)代入的數(shù)據(jù)會發(fā)生意外得出不需要的結(jié)果。然而,Jagadish也相信,盡管有諸多問題,人們會逐步控制、解決這些問題,最終達(dá)到數(shù)據(jù)科學(xué)規(guī)則方面的共識。“我們利用數(shù)據(jù)科學(xué)為我們自己做決策,或者利用多種來源的數(shù)據(jù)侵犯他人隱私,但我想說,雖不是所有人,但大多數(shù)人都愿意做有益的事情。我們所要做的就是充分探討并對正確的事情上取得共識。”
對未來數(shù)據(jù)的誤解
大數(shù)據(jù)可以預(yù)測社會變化或預(yù)測疾病發(fā)展。然而無奈的是,這門科學(xué)本身的發(fā)展卻是不可預(yù)測的。“因為這個學(xué)科發(fā)展太快,變化太快。”Michielssen說。分析工具的計算平臺的升級、分析技術(shù)的改進(jìn)、方法論的變化依然是主要創(chuàng)新領(lǐng)域。這些創(chuàng)新并沒有在最近的互聯(lián)網(wǎng)大數(shù)據(jù)浪潮之中停滯不前。“一個誤區(qū)可能是所有老科學(xué)將會過時,數(shù)據(jù)科學(xué)將會取代所有過去十年間研發(fā)改良的成熟科技。”Michielssen認(rèn)為這種觀點(diǎn)大錯特錯。“數(shù)據(jù)科學(xué)將強(qiáng)化現(xiàn)有技術(shù),它是一個工具,只是科學(xué)家和工程師必備的重要工具,與其他工業(yè)分支一樣。但不會取代現(xiàn)有技術(shù)。”