china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网

公眾號
關注微信公眾號
移動端
創頭條企服版APP

我是一名數據科學家,但我對大數據持懷疑態度

5215
網絡大數據 2019-08-09 15:40 搶發第一評
都說未來是數據時代。數據說明一切,數據不會騙人。數據是羅塞塔之石,可破譯一切人類代碼。現實果真如此嗎?紐約大學數據科學教授Andrea Jones-RooyJuly不同意這種說法。

都說未來是數據時代。數據說明一切,數據不會騙人。數據是羅塞塔之石,可破譯一切人類代碼。現實果真如此嗎?紐約大學數據科學教授Andrea Jones-RooyJuly不同意這種說法。因為數據并不是客觀的現實,它也是由人來定義的,會存在各種偏差。所以我們需要仔細甄別,周全考慮。 原文標題是:I’m a data scientist who is skeptical about data

?

?

幾千年來,我們一直都在靠軼事、直覺以及老太太的故事來做為我們觀點的證據,今天我們大多數人都要求大家要用數據來支持自己的論點和想法。無論是治愈癌癥,解決職場的不平等,還是贏得選舉,數據現在都被認為是羅塞塔石,幾乎可以破譯人類所有現存的代碼。

但在這一片狂熱當中,我們已經將數據與真相混為一談。這種認知,對我們理解、解釋以及改進我們所關心的事物的能力,會產生危險的影響。

我這么講對自己是有風險的。我是紐約大學數據科學教授和企業的社會科學顧問,我為他們進行定量研究,幫助他們理解和改進多樣性。我靠數據謀生,但我卻總發現不管我跟學生還是客戶交談時,我都要提醒他們數據其實并不是現實的完美體現:數據這東西基本上是人類的杜撰,因此會受制于偏見和局限,以及其他隨之而來的不完美。

這種誤解最清晰的表現是從會議室到教室都能聽到的問題,當好心人試圖弄清楚棘手問題的真相時:

“數據是怎么說的?”

數據什么都沒說。說話的是人類。他們說的是數據當中他們注意到的或者要尋找的東西,數據從一開始之所以存在,是因為人類選擇去收集它們,并且利用了人類制造的工具去收集數據。

數據說明不了問題的任何東西,它的作用不會大過可以造房子的錘子或者做馬卡龍的杏仁粉。數據是發現的必要因素,但是你需要有人來選擇它,塑造它,然后把它變成洞察。

因此,數據的有用程度只能跟它的質量以及掌握它的人的技能一樣。(如果你曾經試過制作馬卡龍就知道我說的了。我就試過。我們只能說那種數據肯定不符合法國糕點店的標準。)

因此,如果數據本身不能做任何事情或者說明不了任何東西的話,那數據是什么?

數據是什么?

在某個時間和地點,數據是這個世界某個方面不完美的相似物。(我知道,這個定義遠不如我們所希望的那么性感。)這是當人們想要了解關于某個東西的一些東西,試圖去測量它,然后以特定方式去組合這些測量值時的結果。

以下是我們會把不完美引入到數據當中的四種主要方法。

隨機偏差 系統偏差 測量選擇偏差 排除偏差

但是,這些錯誤并不意味著我們應該拋棄所有數據,意味著一切都是不可知的。而是意味著要深思熟慮地進行數據收集,問問我們自己可能錯過了什么,并對收集更多數據表示歡迎。

這種觀點不是反科學或反數據。相反,這兩者的優勢來自于清楚我們自身工作的局限性。意識到可能會出現的錯誤可令我們的推斷更加強大。

首先是隨機偏差。隨機錯誤發生在當人類決定要去測量某些東西之時,由于設備損壞或他們自己的錯誤,導致記錄的數據是錯誤的。其形式可以是將溫度計掛在墻上測量溫度,或者用聽診器來計算心跳。如果溫度計壞了,它可能無法告訴你正確的度數。聽診器可能沒壞,但是計數的人可能會錯過一次心跳。

隨機錯誤會對我們的余生造成很大的影響(當我們沒有勤勉地記錄溫度和心跳時),其形式之一是醫療篩檢中的誤報。例如,乳腺癌的誤報意味著篩檢結果說患有癌癥,但其實沒有。發生這種情況的可能原因有很多,其中大部分可歸結為在將關于世界的事實(是否患有癌癥)轉化為數據(通過乳房X線照片和人得出數據)的過程中的失誤。

這種錯誤造成的后果也是非常真實的。研究表明,誤報可導致出現多年負面的心理健康的后果,哪怕患者的身體狀況良好。從好的方面來說,對誤報的恐懼也會導致對篩查更加小心謹慎(......這會進一步增加誤報的可能性,算了不說了,這離題了)。

一般來說,只要我們的設備沒壞并且我們努力做到了最好,我們希望這些錯誤在統計上是隨機的,因此會隨著時間的推移而慢慢被中和掉——盡管如果你的醫療篩查是錯誤之一的話,這并不算一個很大的安慰。

其次是系統偏差。系統誤差是指這樣一種可能性,即某些數據以犧牲其他數據為代價不斷進入到你的數據集,從而可能導致你對世界做出錯誤的結論。這可能是由于許多不同的原因而導致的:你抽樣誰,什么時候抽樣,或者加入你的研究或填寫你的調查的人是誰。

選擇偏差就是一種常見的系統誤差。比方說,用來自Twitter推文的數據來理解公眾對特定問題的情緒如何,這種作法是有瑕疵的,因為我們大多數人都不會發推文——而且那些發推的人并不總是將自己的真實感受示于人。相反,來自Twitter的數據集就是:一種了解方式,通過它可以知道選擇了參與到該特定平臺的部分人跟世界分享了什么東西,僅此而已。

2016年的美國總統大選就是例子,一系列的系統誤差可能導致了民意調查錯誤地偏向于希拉里·克林頓。人們很容易得出結論認為其實一切民意調查都是錯誤的——也許是,但跟我們平時想象的可能不一樣。

有一種可能性是選民不太可能會報告說自己將投票給特朗普,因為大家認為這是不受歡迎的選擇。我們稱之為社會期望偏差。停下來思考一下這個問題很有幫助,因為如果我們事先對這種偏差更加警惕的話,我們可能就會將它植入到我們的模型里面,從而更好地預測選舉結果。

令人遺憾的是,醫學研究的系統偏差也到處可見:醫學研究的對象往往是那些已經生病并且有手段找醫生或者參加臨床試驗的人。作為克服這一缺點的辦法之一,可穿戴技術的發展稍微令人有點興奮。比方說,如果有Apple Watch的每個人都可以將他們的心率和每天的步數發送到云端,那么我們就會擁有更多的數據,而且偏差更小。但這可能也會引入一種全新的偏差:現在的數據有可能會偏向西方世界的富裕成員。

第三是選擇測量內容選擇偏差。當我們以為我們正在測一樣東西,但事實上測的卻是其他東西時就會發生這種情況。

有很多公司對想辦法做出更客觀的招聘和晉升決策都比較感興趣,我跟他們有過合作。為此他們往往會求助于技術:我們如何給經理提供更多的數據,好讓他們做出更好的決策?我們怎么才能應用正確的篩選條件來確保招聘人員能找到最優秀的人才?

但很少有人會停下來問一下自己在測量的數據是不是他們想要測量的東西。比方說,如果我們正在尋找頂尖的求職者,我們可能更青睞那些上名牌大學的人。但這可能并非衡量人才的手段,而是衡量社交網絡成員不僅僅是衡量人才的標準,它可能只是衡量你是否具備某些社交網絡成員資格的一種標準,這種資格能為某些人提供一系列“合適”的機會,讓他們得以能進入一所優秀的大學。一個人的GPA成績可能是衡量一個人選擇自己能勝任的課程的能力很好手段,而他們的SAT成績可能是他們父母在請私教方面的財力的一種可愛的表達。

企業以及我的學生對最前沿的方法論如此癡迷,以至于他們都忽略了一個更深層次的問題:為什么我們要用這種方式去衡量這個?還有沒有可以更徹底去了解人的方式?而且,根據我們手上的數據,我們如何對過濾器進行調整才能減少這種偏差?

最后一個,是排除偏差。當數據集里面系統性地忽略了某個群體時就會發生這種情況,而這就會為進一步的排除創造出先例。

比方說,現在女性比男性更容易死于心臟病,這被認為主要是因為大多數心血管數據都是基于男性的,而男性經歷的癥狀與女性的不同,從而導致診斷的不正確。

關于白人女性在美國競選政治職位時的表現的數據目前有很多,但是有色人種的就不是很多,相對于競選過程當中的白人女性,她們會面臨著不同的偏差。在我們進行這些研究之前,我們就會試圖從有關橙子的數據推斷出蘋果——但其結果要比一盆不均衡的水果沙拉要糟糕得多。

選擇去研究一樣東西還可以激勵對該專題進行進一步的研究,這本身就是一種偏差。由于根據現有數據集做東西要比創建自己的數據集更容易,因此研究人員經常會圍繞著某些主題展開研究——比如參與競選的白人女性或男性的心血管健康——而犧牲了其他人。如果你反復多次如此這般,突然之間的男性就成了默認的心臟病研究對象,而白人女性就成了默認的政治參與研究對象。

其他的例子比比皆是。衡量“領導力”可能會激勵大家在會議中表現得更加積極,從長遠來看這會破壞溝通。給SAT中增加“逆境”分可能會慫恿父母搬到不同的社區,以便讓他們的得分更高。

我看到這在多元化領域也產生了影響:DiversityInc等嘗試蘋果公司多樣性的組織已經選擇若干用來獎勵公司的指標——比方說,“領導認可”的衡量標準是是否設有首席多元化官(Chief Diversity Officer)。為了給這個方框打勾,它可能會刺激一些并無任何實際用途的行為,比如任命一個沒有實權的CDO。

為什么我們仍然需要相信數據

在反智主義、假新聞以及另類事實和偽科學橫行的時代,我其實非常不愿意這么說。有時我感覺我們科學家幾乎都沒有堅持下去。但我相信數據和科學之所以有用,并不是因為它是完美的和完整的,而是因為我們認識到我們自身努力的局限性。就像我們想要用統計數據和算法對事情進行仔細分析一樣,我們也需要仔細地收集數據。我們有多謙卑,對自身局限性的認識有多深,我們自己就有多強。

這并不意味著要拋棄數據。這意味著當我們的分析中包含有證據時,我們應該考慮影響其可靠性的偏差。我們不應該僅僅去問“它說明了什么?”而且還要問,“ 數據是誰收集的?他們是怎么做的?那些決定是如何影響結果的?”

我們需要去質疑數據,而不是僅僅因為我們已經把一個數字分配給某個東西,就假設那個東西突然之間就變成冰冷的真相。當你遇到一項研究或一個數據集時,我懇請你問問自己:這幅圖中可能缺了什么?還有沒有其他辦法可以去考慮究竟發生了什么?這個特定的衡量手段包含了什么,排除了什么,激勵了什么?

我們需要對數據考慮周全,因為我們正在開始關注統計數據,算法和隱私。只要數據被認為是冰冷、確切、絕對可靠的事實,對我們周圍的世界,我們就有可能產生并且強化許多不準確的理解的風險。

原文鏈接:https://qz.com/1664575/is-data-science-legit/

譯者:boxi。

來源:36氪神譯局

分享到:0收藏

上一篇:拯救數據科學的“半貝葉斯人” PartiQL:一種用于所有數據的查詢語言下一篇:

聲明:該文章版權歸原作者所有,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請在30日內與本網聯系。
您閱讀這篇文章花了0
轉發這篇文章只需要1秒鐘
喜歡這篇 0
評論一下 0
凱派爾知識產權全新業務全面上線
相關文章
評論
試試以這些內容開始評論吧
登錄后發表評論
凱派爾知識產權全新業務全面上線
寧波城市站
金華城市站
×
#熱門搜索#
精選雙創服務
歷史搜索 清空

Tel:18514777506

關注微信公眾號

創頭條企服版APP

china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网
国产一区二区看久久| 欧美日韩一级片网站| 欧洲人成人精品| 国产午夜亚洲精品理论片色戒| 国产一本一道久久香蕉| 91成人免费电影| 欧美激情在线看| 美国av一区二区| 欧美日韩精品二区第二页| 国产精品乱码久久久久久| 久久国产三级精品| 日本韩国一区二区三区视频| 日韩欧美在线观看一区二区三区| 7777精品伊人久久久大香线蕉 | 久久亚洲欧美国产精品乐播| 亚洲女同一区二区| 国产**成人网毛片九色| 欧美电影免费观看高清完整版| 欧美精品一区二区三| 亚洲国产精品人人做人人爽| 99在线视频精品| 国产欧美日韩在线看| 极品少妇xxxx偷拍精品少妇| 欧美一区二区三区日韩| 偷拍一区二区三区| 91豆麻精品91久久久久久| 综合电影一区二区三区| 成人免费高清在线| 国产欧美日韩精品a在线观看| 一区二区三区精品视频在线| 成人97人人超碰人人99| 国产女人18毛片水真多成人如厕| 亚洲一区二区中文在线| 成人丝袜高跟foot| 久久久久国产精品人| 激情都市一区二区| 精品久久久网站| 久久97超碰色| 精品国内片67194| 久久国产夜色精品鲁鲁99| 欧美变态凌虐bdsm| 久久精品国产精品亚洲红杏| 欧美一区二区三区视频| 老司机精品视频线观看86| 精品毛片乱码1区2区3区 | 国产毛片精品视频| 日韩一区二区三区三四区视频在线观看 | 色一情一乱一乱一91av| 中文字幕 久热精品 视频在线 | 精品在线你懂的| 精品久久久久久久久久久久包黑料| 亚洲欧美一区二区久久| 成人av网站在线观看| 国产精品视频一二三区| 99r国产精品| 洋洋av久久久久久久一区| 精品视频123区在线观看| 天堂蜜桃一区二区三区 | 精品国内二区三区| 美日韩黄色大片| 久久夜色精品国产噜噜av| 国产精品一卡二| 欧美经典一区二区| 处破女av一区二区| 亚洲婷婷在线视频| 欧美在线小视频| 日本三级亚洲精品| 精品欧美乱码久久久久久| 国产高清精品久久久久| 国产精品黄色在线观看| 日本大香伊一区二区三区| 午夜精品久久久久久久久| 日韩视频免费观看高清完整版 | 石原莉奈一区二区三区在线观看 | 日韩三级在线观看| 黄色日韩三级电影| 日本一区二区三区久久久久久久久不| 亚洲国产综合91精品麻豆| 欧美日韩成人综合在线一区二区 | 国产久卡久卡久卡久卡视频精品| 在线视频一区二区免费| 亚洲国产毛片aaaaa无费看| 制服丝袜在线91| 久久福利视频一区二区| 国产精品欧美一级免费| 色猫猫国产区一区二在线视频| 欧美精品一区男女天堂| 国产成人av一区二区三区在线 | 一区二区三区欧美亚洲| 欧美性大战久久久| 蜜桃av噜噜一区二区三区小说| 91成人在线观看喷潮| 日韩va欧美va亚洲va久久| 欧美电影免费观看高清完整版在线 | 91色婷婷久久久久合中文| 亚洲成人午夜影院| 精品久久久久久无| 成人精品免费视频| 午夜影院久久久| 久久久五月婷婷| 在线观看视频91| 精品一区二区三区免费视频| 国产精品国产三级国产普通话三级| 国产一区二区三区在线看麻豆| 欧美日韩激情在线| 久久精品国产77777蜜臀| 国产精品福利av| 91精品国产一区二区三区蜜臀| 亚洲成人动漫av| 久久久亚洲午夜电影| 欧美日韩久久一区二区| 国产成人av电影在线| 亚洲观看高清完整版在线观看 | 欧美一区二区在线播放| 国产一区二区福利| 亚洲尤物视频在线| 久久免费视频一区| 在线免费观看不卡av| 国产一区 二区 三区一级| 亚洲国产综合在线| 中文字幕精品一区二区三区精品 | 欧美欧美欧美欧美首页| 国产一区二区三区在线观看免费| 日韩一级免费一区| 91在线观看地址| 精品一区二区在线观看| 一区二区三区免费网站| 国产亚洲精品精华液| 欧美精品在欧美一区二区少妇| 中文字幕视频一区| 国产sm精品调教视频网站| 视频在线观看国产精品| 亚洲三级在线观看| 久久精品欧美日韩精品| 91精品国产综合久久小美女| 色婷婷亚洲婷婷| 成人黄色在线视频| 国产一区二区视频在线播放| 日本中文字幕一区二区视频| 亚洲精品国产视频| 久久久五月婷婷| 日韩欧美的一区| 欧美日韩一区二区在线观看视频 | 精品视频一区三区九区| 成人性视频网站| 麻豆精品在线看| 石原莉奈在线亚洲三区| 夜夜精品浪潮av一区二区三区| 欧美性生活大片视频| 成人app下载| 国产高清精品在线| 国内不卡的二区三区中文字幕 | 亚洲综合小说图片| 久久久精品欧美丰满| 欧美一区二区三区视频在线观看| 国产一区二区影院| 日产欧产美韩系列久久99| 一区二区三区中文字幕| 亚洲品质自拍视频网站| 中文字幕av一区二区三区免费看 | 久久久影院官网| 日韩写真欧美这视频| 这里只有精品免费| 欧美亚日韩国产aⅴ精品中极品| 久久精品国产久精国产| 亚洲v精品v日韩v欧美v专区| 亚洲精品一二三| 亚洲欧美偷拍三级| 亚洲欧美日韩国产手机在线| 中文字幕一区二区三区不卡| 国产精品女主播在线观看| 国产精品欧美综合在线| 国产精品乱人伦| 国产精品电影一区二区三区| 国产日韩欧美a| 久久蜜桃av一区二区天堂| 久久久噜噜噜久久人人看 | 国产精品一区2区| 国产一区二区不卡在线 | 国产suv一区二区三区88区| 国产精选一区二区三区| 国模大尺度一区二区三区| 久久99国内精品| 国产麻豆精品久久一二三| 国产成人亚洲综合a∨婷婷| 国产白丝精品91爽爽久久| 成人av动漫在线| 色综合天天综合网天天狠天天| 免费精品视频在线| 五月综合激情网| 日韩av中文字幕一区二区三区| 日韩美女视频一区二区 | 秋霞电影一区二区| 日韩av一二三| 青娱乐精品视频| 韩国欧美国产一区| 福利一区福利二区| 91蝌蚪porny| 欧美精品v国产精品v日韩精品 | 国产精品888|