china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网

公眾號
關注微信公眾號
移動端
創頭條企服版APP

拯救數據科學的“半貝葉斯人”

5088
網絡大數據 2019-08-09 15:40 搶發第一評
一位科學家在他的論文中寫道: "人類知識的大部分是圍繞因果關系而不是概率關系組織的,而概率微積分的語法并不足以描述這些關系 正因如此,我認為自己只是半個貝葉斯人 "。

一位科學家在他的論文中寫道:"人類知識的大部分是圍繞因果關系而不是概率關系組織的,而概率微積分的語法并不足以描述這些關系......正因如此,我認為自己只是半個貝葉斯人"。

?

?

或許一場關于自然語言處理的精彩辯論可以告訴我們何謂“半個貝葉斯人”,讓我們把時光撥回到幾年前。

一場精彩的辯論

辯論的雙方分別是:號稱“現代語言學之父”Noam Chomsky、身為谷歌研發總監的Peter Norvig。他們分別是自然語言處理領域的舊派和新派代表。

當談到該領域的發展方向時,Chomsky說到:

“想象一下,有人說他想要消滅物理系并轉而使用‘正確’的方式。所謂‘正確’的方式是將真實世界發生的事情錄制成無數錄像帶,然后將這數十億字節的數據輸入最大、最快的計算機,并進行復雜的統計分析 - 你知道的,對所有東西都用一下貝葉斯方法 - 你就能對接下來會發生的事情做一些預測。事實上,你做的預測會比物理學家能給出的好得多?!叭绻晒Α欢x為對大量混亂的未分析數據的合理近似,那么這樣做的結果比物理學家的更接近‘成功’。顯而易見,這樣一來,諸如絕對光滑平面之類的思想實驗就不復存在了。但這樣做,你將不會得到科學所一直致力于達到的那種理解水平 - 你所得到的只是對正在發生的事情的近似。”

Chomsky在許多其他場合也強調了這種觀點:當前對‘成功’自然語言處理的定義 —— 即預測準確性 —— 并不科學。將“一些巨大的語料庫”投入到“復雜的機器”,僅僅是“未分析數據的近似處理”簡直就像撞大運,并不能使我們“真正理解”語言。

他認為,科學的首要目標是發現關于系統實際運作的“解釋性原理”,而實現目標的“正確方法”則是“讓理論引導數據”:通過精心設計的實驗抽離掉“不相關干擾”,以此來研究系統的基本性質 - 就像自伽利略以來的現代科學研究方法一樣。簡而言之:“只處理待分析的混亂數據不太可能讓你明白任何原理,就算你是伽利略也不行?!?/p>

Norvig隨后以一篇長文回應了Chomsky的主張,這篇文章挑戰了Chomsky在科學上的‘成功’的觀念,并為使用概率模型象征人類語言處理進行了辯護。Norvig指出,語言處理中幾乎所有主要的應用領域 - 搜索引擎、語音識別、機器翻譯和問答 - 都是由訓練有素的概率模型主導,因為它們比基于理論/邏輯規則的舊工具表現得更好。

他認為,Chomsky關于科學上的“成功”的標準 - 強調找到原因而忽視方法的重要性 – 是誤入歧途,這可以引用Richard Feynman的話加以說明:“沒有論證,物理學可以進步;但沒有事實,我們寸步難行。”

說起來其實還挺low的,Norvig順帶提了一句 - 概率模型“每年創造數萬億美元的收入,而Chomsky理論的產物幾億美元都不到。” (注:數據來自在亞馬遜上Chomsky著作的銷售額)

Norvig揣測,Chomsky對“對一切應用貝葉斯方法”的蔑視實際上來自于Leo Breiman所描述的統計模型中兩種文化之間的分裂。

1)數據建模文化,它假設自然是一個內部變量隨機聯系的黑箱,建模者的任務就是確定最符合這些聯系的模型;

2)算法建模文化,它假設黑箱中的關聯太復雜而不能用簡單模型來描述,此時建模者的任務就是使用能最好地用輸入量估計輸出量的算法,而不再期望黑箱內變量真正的潛在聯系可以被理解。

Norvig認為Chomsky可能對概率模型(數據建模文化)本身并沒有什么意見,他只是針對具有“億萬參數”且難以解釋的算法模型,因為它根本無法解決“為什么”的問題。

Norvig屬于2號陣營,他們認為像語言這樣的系統過于復雜、隨機,很難用一小組參數來表示;抽離出復雜性就類似于制造一個實際上不存在的、“完全符合永恒領域的神秘設施”,因此“忽略了語言是什么以及它是如何工作的?!?/p>

Norvig在另一篇論文中重申,“我們應該停止以創造完美理論為目的的行為。我們應當擁抱系統復雜性、并接受數據就是有用的這一特點?!?。他指出,在語音識別、機器翻譯甚至是幾乎所有使用網頁數據的機器學習應用中,例如基于數百萬計具體特征的n-gram統計模型或線性分類器的這些簡單模型,比試圖發現普遍規律的精美模型表現更好。

這次辯論最讓人們受觸動的不是Chomsky和Norvig的分歧,而是他們的共識:他們都同意,不試圖去理解變量就用統計學習方法分析大量數據往往會產生比試圖給變量之間的關系建模更好的預測效果。

而且我們也并非唯一被這一現象困擾的人:那些被訪談過許多的具有數學科學背景的人也認為這是違反直覺的 - 最符合事物基本結構關系的方法難道不應該也是預測得最為準確的嗎?我們怎么能在不知道事物如何實際運作的情況下做精準的預測呢?

預測與因果推論

即使在經濟學和其它社會科學等學術領域,預測能力和解釋能力的概念也通常被混為一談 - 顯示出高解釋力的模型通常被認為是具有高度預測性的。但是,構建最佳預測模型的方法與構建最佳解釋模型的方法完全不同,建模決策通常要考慮兩個目標之間的權衡。為了說明這兩種方法上的差異,下面是“An Introduction to Statistical Learning”(ISL,統計學習導引)中一段關于預測和推理建模的簡短摘要。

預測建模

預測模型的基本原理相對簡單,使用一組已知的輸入X來估計Y。如果X的誤差項平均為零,則可以使用以下方法預測Y:

?

?

其中?是由X提供的關于Y的系統信息,當給定X時,它給出結果?(Y的預測)。只要能準確地預測Y,?的確切函數形式通常是不重要的,它被視為“黑箱”。

這種模型的準確度可以分解為兩部分,可減少的誤差和不可減少的誤差:

?

?

為了提高模型的預測準確性,模型主要目標是通過使用最合適的統計學習技術來使可減少的誤差最小,從而估計?。

推理建模

當我們的目標是理解X和Y之間的關系,比如Y是如何作為X的函數而變化時,?不能被視為“黑箱”,因為我們無法在不知道函數形式的情況下理解X對Y的影響?。

幾乎總是如此,在推理建模時,使用參數化方法來估計?。參數化是指通過假設參數形式的?并通過假設的參數來簡化對?的估計的方法。這種方法有兩個一般步驟:

假設?的函數形式。最常見的假設是?是關于X的線性函數:

?

?

使用數據擬合模型,也即找到參數值β0、β1、...、βp,使得:

?

?

最常用的擬合模型的方法是普通最小二乘法(OLS)。

靈活性/可解釋性的權衡

你可能已經在想:我們怎么知道?是否具有線性形式?因為?的真實形式是未知的,我們也不知道,如果我們選擇的模型與真實的?相差太遠,那么估計就會有偏差。那為什么我們要先做出如此肯定的假設呢?這是因為模型的靈活性和可解釋性之間存在內在的權衡。靈活性是指模型可以生成的用以適應?的多種不同的可能函數形式的形狀范圍,因此模型越靈活,它產生的形狀就能符合得越好,預測精度就越高。但是更靈活的模型通常更復雜并且需要更多參數來擬合,并且?的估計通常變得太復雜以至于任何預測因子的關聯都難以解釋。另一方面,線性模型中的參數相對簡單且可解釋,即使它在準確預測方面做得不是很好。這是ISL中的一張圖表,它說明了不同統計學習模型中的這種靈活性-可解釋性之間的權衡:

?

?

正如你所看到的,具有更好預測精度、同時也更靈活的機器學習模型(例如支持向量機和Boosting方法)的可解釋性非常低。對?的函數形式進行較肯定的假設使模型更具解釋性,推理建模在這個過程中也放棄了對預測準確性的追求。

因果識別/反事實推理

但是,請等一等!即使用了能很好符合并且高度可解釋的模型,你仍然不能將這些統計數據用作證明因果關系的獨立證據。這是因為,“相關性不是因果關系”啊!這里有一個簡單的例子:假設你有一百個旗桿及其陰影的長度和太陽位置的數據。你知道陰影的長度是由桿的長度和太陽的位置決定的,但是即便你將桿的長度設置為因變量而把陰影長度作為自變量,你的模型仍然會十分符合統計顯著性系數。顯然,你不能說桿子的長度受陰影長度影響。這就是為什么我們不能僅通過統計模型進行因果推理,我們還需要背景知識和理論來證明我們的結論。因此,因果推理的數據分析和統計建模通常要受到理論模型的嚴格指導。

即使你確實有一個堅實的理論依據說X導致Y,確定因果關系仍然非常棘手。這是因為,評估因果效應涉及要識別在沒有發生X的“反事實世界“里會發生什么,這顯然是你觀察不到的。這還有另一個簡單的例子:設想一下你要確定維生素C對健康的影響。你有某人是否服用維生素的數據(如果他們這樣做則X = 1;否則為0),以及一些二元化的健康狀況(如果他們健康則Y = 1;否則為0),如下所示:

?

?

Y1代表服用維生素C的人的健康狀況,Y0代表那些不服用維生素C的人的健康狀況。為了確定維生素C對健康的影響,我們要估計平均治療效果:

分享到:0收藏

上一篇:使用 TiDB 進行實時數據分析 我是一名數據科學家,但我對大數據持懷疑態度下一篇:

聲明:該文章版權歸原作者所有,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請在30日內與本網聯系。
您閱讀這篇文章花了0
轉發這篇文章只需要1秒鐘
喜歡這篇 0
評論一下 0
凱派爾知識產權全新業務全面上線
相關文章
評論
試試以這些內容開始評論吧
登錄后發表評論
凱派爾知識產權全新業務全面上線
寧波城市站
金華城市站
×
#熱門搜索#
精選雙創服務
歷史搜索 清空

Tel:18514777506

關注微信公眾號

創頭條企服版APP

china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网
欧美一区日本一区韩国一区| 1区2区3区欧美| 国产精品女人毛片| 亚洲一二三四在线| 国产风韵犹存在线视精品| 欧美日韩成人高清| 中文字幕一区二区三区四区| 精品影院一区二区久久久| 欧美色涩在线第一页| 国产精品女同一区二区三区| 精品夜夜嗨av一区二区三区| 欧美精三区欧美精三区| 一区二区三区在线影院| 成人av第一页| 国产欧美日韩三区| 狠狠色丁香婷婷综合| 欧美一区二区二区| 亚洲成人www| 色综合激情久久| 国产精品久久久久7777按摩| 国产一区二区精品久久| 欧美电视剧免费观看| 日精品一区二区| 欧美综合一区二区三区| 亚洲视频在线一区| caoporm超碰国产精品| 日本一区二区综合亚洲| 国产一区二区影院| 日韩欧美一区中文| 日本系列欧美系列| 在线电影欧美成精品| 午夜视频在线观看一区二区| 欧美亚洲综合一区| 亚洲综合色视频| 欧洲激情一区二区| 一级精品视频在线观看宜春院| eeuss影院一区二区三区| 国产精品久久久久影视| 成人手机在线视频| 国产精品嫩草99a| 成人黄色国产精品网站大全在线免费观看| 久久日韩精品一区二区五区| 国模一区二区三区白浆| 久久免费午夜影院| 国产成人综合视频| 国产精品女同一区二区三区| av不卡免费在线观看| 自拍偷拍欧美精品| 91视频在线看| 一区二区三区av电影| 欧美日韩一区成人| 日本在线观看不卡视频| 日韩一区二区三区免费观看| 青娱乐精品视频| 欧美成人精品1314www| 激情欧美一区二区三区在线观看| 久久香蕉国产线看观看99| 国产成人精品免费| 1024精品合集| 欧美性感一区二区三区| 午夜精品久久久久久久久| 日韩欧美精品在线| 国产精品白丝jk黑袜喷水| 国产精品免费久久久久| 91麻豆免费观看| 午夜一区二区三区在线观看| 日韩一区二区影院| 国产成人免费视频网站高清观看视频| 国产精品网曝门| 在线视频国内一区二区| 日本欧美在线看| 久久久精品免费网站| 99精品视频一区二区三区| 伊人开心综合网| 欧美精品久久久久久久多人混战| 六月丁香婷婷色狠狠久久| 国产亚洲一区二区三区| 99在线精品观看| 亚洲电影激情视频网站| 欧美成人猛片aaaaaaa| 不卡大黄网站免费看| 亚洲国产欧美日韩另类综合| 精品日产卡一卡二卡麻豆| 丰满白嫩尤物一区二区| 一区二区久久久| 欧美一级日韩不卡播放免费| 国产成a人亚洲精| 一个色综合网站| 久久综合色天天久久综合图片| 99久久99久久久精品齐齐| 首页欧美精品中文字幕| 国产亚洲精品久| 91成人在线免费观看| 精品无人码麻豆乱码1区2区| 亚洲欧美在线aaa| 欧美乱熟臀69xxxxxx| 国产精品一区不卡| 亚洲午夜久久久久中文字幕久| 精品粉嫩超白一线天av| 91浏览器打开| 免费不卡在线观看| 中文字幕在线不卡一区| 7777女厕盗摄久久久| 国产成人精品综合在线观看| 亚洲成人精品影院| 日本一区二区电影| 91精品国产高清一区二区三区| 不卡av在线免费观看| 麻豆国产精品一区二区三区 | 久久免费偷拍视频| 91国偷自产一区二区开放时间| 看片网站欧美日韩| 亚洲精品免费在线观看| 久久这里只有精品首页| 在线观看日韩一区| 成人综合在线网站| 免费久久99精品国产| 亚洲女同一区二区| 久久久久久夜精品精品免费| 欧美三级日韩在线| 成人黄色免费短视频| 九色综合狠狠综合久久| 亚洲高清一区二区三区| 国产精品萝li| 欧美精品一区二区三| 欧美伦理视频网站| 一本大道久久a久久精二百| 国产iv一区二区三区| 久久精品国产精品亚洲红杏| 亚洲一区免费观看| 国产精品久线观看视频| 欧美成人艳星乳罩| 欧美精品日韩精品| 日本乱人伦一区| 不卡一区在线观看| 国产精品原创巨作av| 免费人成在线不卡| 亚洲va欧美va人人爽| 亚洲精品高清在线观看| 中文字幕一区在线观看视频| 欧美精品一区二区蜜臀亚洲| 欧美一级免费观看| 欧美日本精品一区二区三区| 91免费精品国自产拍在线不卡| 国产69精品久久久久毛片| 韩国成人在线视频| 久久精品国产久精国产爱| 天天综合色天天| 亚洲成人精品一区二区| 一区二区三区中文免费| 亚洲欧洲成人精品av97| 国产精品色婷婷| 国产日韩欧美不卡在线| 久久综合狠狠综合久久综合88| 日韩一卡二卡三卡| 91精品国产91久久久久久一区二区 | 色综合久久综合| 国产精品中文有码| 国产一级精品在线| 韩国成人福利片在线播放| 精彩视频一区二区| 黑人巨大精品欧美一区| 激情欧美一区二区三区在线观看| 另类小说色综合网站| 毛片av中文字幕一区二区| 蜜臀精品一区二区三区在线观看| 日韩成人一级大片| 日本va欧美va欧美va精品| 美女mm1313爽爽久久久蜜臀| 久久精品国产第一区二区三区| 久久国产精品无码网站| 精品一区二区免费视频| 国产一区日韩二区欧美三区| 国产伦精一区二区三区| 国产福利精品导航| 国产不卡在线视频| 白白色 亚洲乱淫| 91视频在线观看| 热久久一区二区| 一区二区三区在线看| 国产精品久久精品日日| 中文字幕在线不卡视频| 免费成人av在线播放| ●精品国产综合乱码久久久久| 久久一夜天堂av一区二区三区| 日韩美女一区二区三区四区| 欧美一级久久久| 精品欧美一区二区久久| 精品国产污污免费网站入口 | 日韩一二三区不卡| 欧美日韩一区二区在线观看| 成人av资源在线| 成人激情校园春色| av不卡免费在线观看| 色欧美日韩亚洲| 欧美精品日韩一区| 欧美va日韩va| 久久青草国产手机看片福利盒子| 国产蜜臀97一区二区三区| 国产精品国产三级国产aⅴ无密码 国产精品国产三级国产aⅴ原创 |