china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网

公眾號
關注微信公眾號
移動端
創頭條企服版APP

盲目崇拜數據,是因為還不曾真正了解數據

4614
網絡大數據 2019-09-11 07:52 搶發第一評
本文將深入淺出地介紹數據收集、統計、利用的全過程,幫助大家克服「數據崇拜癥」。
我們正處于數據驅動的人工智能浪潮中,在折服于數據的強大力量的同時,有些同學會對數據望而生畏,盲目崇拜。本文將深入淺出地介紹數據收集、統計、利用的全過程,幫助大家克服「數據崇拜癥」。

盡管人腦中存儲的數據還有待進一步開發和探索,但不可否認,我們的感官感覺到的一切都是數據!好記性不如爛筆頭,將這些數據寫下來貌似會更可靠一些,特別是將它們寫入電腦。如果我們將這些筆記組織地很好,我們就可以將它們稱為「數據」(盡管我也看到有人把一些寫得亂七八糟的近乎于涂鴉的文件也命名為「數據」)。說實話,我不知道為什么有些人會把數據看做很高大上的東西,對其敬畏有加。

為什么要盲目崇拜數據呢?

我們需要學會面對數據采取一種平常心的實用主義態度,所以本文旨在幫助初學者了解數據背后的秘密,并幫助從業人員向那些有「數據崇拜癥」的新人解釋數據的基本知識。

?

?

感知和感官

在開啟數據之旅時,如果你直接使用從網上購買的數據(http://bit.ly/gcp-publicdata),你很有可能會忘記這些數據是從何而來。在本文中,我將從頭開始向大家展示數據產生的過程,讀者可以在任何時間、任何地點創建自己的數據。

如下圖所示,地板上擺放著我的食物儲藏柜中常年儲備的「彈藥」。

?

本文作者簡直堪稱酵母醬代言人。圖中有三種尺寸的酵母醬。

?

實際上,這張圖片本身就是數據——我們將其作為信息存儲下來,而你的設備則使用它向你展示豐富的色彩。(如果你想知道,當你可以看到圖像的數字矩陣時,圖像的存儲形式是怎樣的,請參閱本文作者關于監督學習的簡介:http://bit.ly/quaesita_slkid)

讓我們來梳理一下我們看到的信息吧!至于你想要關注什么、記住什么信息,我們有無數種選擇。下圖是我在觀察這張圖片時,所看到的東西。

?

?

以克為單位的重量并不一定是最值得注意的信息。我們可以選擇容量、價格、原產國或者其它任何我們關注的信息作為數據的內容。

如果閉上你的眼睛,你還能記得剛才你看到的每一個細節嗎?是不是記不太清了?這正是我們需要收集數據的重要原因。如果我們能在腦海中完美地記住并且處理它,那就沒有必要收集數據了。互聯網就像是隱居在山洞里的世外高人,以上帝視角記錄著人類所有產生的數據,并且可以將這些數據完美地呈現出來。

好記性不如爛筆頭

由于人類的記憶就像是一個漏斗,如果我們就像在學校里修統計學的「原始年代」中一樣將信息都記錄下來,將會是很有幫助的。是的,朋友們,我們可以把信息直接記錄在紙上。

?

這就是數據。所以,告訴我為什么我們要崇拜數據呢?數據往往是為了迎合它的人類作者的喜好而對現實進行的經過「加工」之后的描述。這里面充滿了微妙的選擇,我們應該記錄物體的干重還是濕重?如何處理容量的單位?而且,我們還可能在創建數據時犯錯。如果你繼承并使用我的數據,那么你就不能只相信你所看到的,除非你知道在數據收集的過程中發生了什么。

?

記錄在紙上的數據(相較于存儲在我的海馬體重的記憶,或者放在地板上的食物)要好得多,它更加耐用、更可靠。

人類的記憶是一個漏斗。

我們認為進行「記憶革命」是理所應當的,這種革命早在幾千年前就開始了,那時商人需要一種可靠的方式記錄下「誰向誰賣了多少蒲式耳的東西」。不妨體會一下,擁有一個能夠比我們的大腦更好地存儲數字的通用書寫系統是一件多么棒的事情。當我們記錄數據時,我們可能會對我們已經形成的對于現實世界的充分感知的一種破壞。但是在那之后,我們可以通過完全無損的方式將數據的副本傳遞出來。將數據記錄下來的力量是驚人的!只有很少的思想和記憶會被遺漏。

當我們分析數據時,我們正在訪問別人的記憶。

你會擔心機器智能超越人腦嗎?現在看來,僅憑紙張也可以做到這一點。要讓你的大腦記住這 27 個小數字并非易事,而如果你將它們記錄在紙上,那就可以長期保存該信息。

盡管數據的持久性得到了保證,但使用紙張處理數據會讓人產生很多煩惱。例如,如果我突發奇想,想要把這些數字從大到小重新排列一遍,那該怎么辦呢?難道我們要祈求魔法的幫助,念出「紙啊!請給我一個更好的排序吧!」這樣的咒語嗎?這太荒謬了。

計算機和魔法咒語

你知道計算機軟件最神奇的地方是什么嗎?它能讓上面的咒語成為現實!所以,現在讓我們從使用紙張工作進化到使用電腦處理數據。

?

?

電子表格是計算機初學者們接觸到的第一個數據處理軟件。如果你很早就接觸過電子表格,會因為熟悉而對它們倍感親切。不過,電子表格的功能相當有限,這也是數據分析師更喜歡用 Python 或 R 語言來處理數據的原因。

我覺得電子表格還是弱了一點。與當前流行的數據科學工具相比,它們的功能相當有限。我更喜歡使用 R 和 Python 語言的組合,那么這次讓我們重點了解一下 R 語言。你可以在你的瀏覽器中使用 Jupyter 開發環境執行下面的步驟(http://bit.ly/jupyter_try):

(1)點擊「with R」(http://bit.ly/jupyter_try);

(2)點幾下剪刀圖標,直到所有的內容都被刪除掉;

(3)恭喜你,你只需要花 5 秒鐘復制粘貼下面的代碼片段,然后按下「Shift+Enter」來運行它們。

weight <- c(50, 946, 454, 454, 110, 100, 340, 454, 200, 148, 355, 907, 454, 822, 127, 750, 255, 500, 500, 500, 8, 125, 284, 118, 227, 148, 125) weight <- weight[order(weight, decreasing = TRUE)] print(weight)

如果你是初學者,你會認為 R 語言中的排序「咒語」并沒有那么明顯。

然而,「咒語」本身就是這樣,電子表格軟件中的菜單也是這樣。你只知道這些是因為你接觸過它們,而不是因為它們本身就是普遍概率。要使用計算機進行工作,你需要向資深「占卜師」們請教這些「魔法咒語/手勢」,然后勤加練習。而「互聯網」則是我最崇敬的「圣人」,它的洞曉世間的一切。

?

?

在瀏覽器的 Jupyter 開發環境下運行代碼片段的結果。我在代碼中加入了一些注釋,用來解釋每一行的作用。

為了加速的你學習「魔法」的進程,不要僅僅復制粘貼這些「咒語」,不妨試著對它們進行修改,看看會發生什么。例如,如果將上面代碼片段中的「TURE」改成「FALSE」,會發生什么變化?

你很快就可以得到答案,是不是很神奇!?我非常熱愛編程,其中一個原因就是,它是「魔法咒語」和「樂高積木」的混合體。

如果你希望自己能夠成為神奇的「魔術師」,那就學著去寫代碼吧。

簡單地說,這種編程模式就是:在互聯網上查詢如何做某件事,利用你剛剛學到的「魔術咒語」,看看如果你對其進行調整會發生什么,然后把它們像樂高積木一樣堆在一起,執行你的命令。

數據分析和總結

實際上,就算這 27 個數字被排好了序,對我們也沒有多大的意義!當我們閱讀這一串數字時,我們會忘記剛剛讀過的內容。人類的大腦就是這樣,給定排好序的一百萬個數字的列表,我們最多只能記住最后幾個數。我們需要一種快速的方法對數據進行排序和總結,這樣我們就會對我們在看的數據有很好的掌握。

這就是數據分析(http://bit.ly/quaesita_datasci)的作用!

median(weight)

使用了正確的「咒語」后,我們就可以馬上知道重量的中位數是多少。

?

?

對電影的品味和我一樣的人就能看懂這張圖(http://bit.ly/fish_called_wanda)

這個問題的答案是 248g。誰不喜歡這種馬上就能得到結果的函數呢?!有很多可以用來進行總結的函數可供選擇:min(),max(),mean(),median(),mode(),variance()...不妨把這些函數都試試。你也可以試著使用下面這個神奇的函數,看看會發生什么:

summary(weight)

順便說一下,這里得到的東西被稱為統計量。計算統計量會破壞你的原始數據。這不是統計學領域的內容,有興趣的讀者可以觀看下面這個 8 分鐘的學科介紹視頻:http://bit.ly/quaesita_statistics。

?

?

繪圖和數據可視化

本節關注的是通過圖片對數據進行總結。事實證明,一圖勝千言,每個數據點都可以通過一張圖代表,也可以用圖片代表很多的數據點。(在本例中,我們會制作一張只包含 27 個重量數據的圖)。

?

?

小費罐可以看作自然形成的條形圖,它的高度越高意味著服務越受歡迎。除了類別是安排好的,直方圖與它幾乎是相同的東西。

如果我們想知道我們數據中的重量是是如何分布的,例如,是否有更多的項介于 0 到 200g 之間,還是有更多的項介于 600g 到 800g 之間?那么直方圖是我們的首選。

?

?

自然界中的「直方圖」

直方圖是總結和顯示我們的示例數據的方法之一。直方圖中的數據塊更高代表這種數據出現的更頻繁。

將條形圖和直方圖看做是人氣比賽。

要想在電子圖表軟件中制作直方圖,「魔法咒語」是點擊一長串的不同的菜單。而在 R 語言中,這個過程要快得多:

hist(weight)

下面是我們通過這行代碼得到的結果:

?

?

這是一個看起來很「丑」的直方圖,但是我已經習慣了生活中美好的事務,而且知道你可以通過幾行 R 語言代碼讓它變得更漂亮(http://bit.ly/histogram_tutorial)。拋開美觀性不談,這張圖可以很好地說明基本的知識。

我們需要關注什么?

在橫軸上,我們有幾個「桶」。我們默認以 200g 為一個「桶」的寬度,但是我們很快就可以改變這個寬度。在縱軸上的刻度是計數:在數據中,我們有多少次看到重量是在 0g 到 200g 之間?直方圖中顯示的是 11 次。那么 600g 到 800g 之間有多少次呢?只有 1 次。(食鹽的重量)。

我們可以自己選擇「桶」的寬度,在不對代碼進行修改的默認情況下,我們得到的是寬度為 200g 的「桶」,但是也許我們也應該改用寬度為 100g 的「桶」。沒問題!訓練中的「魔術師」可以改進我們的「咒語」來發現它是如何起作用的。

hist(weight, col = "salmon2", breaks = seq(0, 1000, 100))

運行結果如下:

?

?

現在我們可以清楚地看到,最常見的類別是 100-200 和 400-500。真的有人在乎這個結果嗎?也許并有。但我們只是想告訴大家我們可以這么做。另一方面,一個真正的數據分析師,應該擅長快速查看數據,并且掌握尋找有趣的信息的藝術。如果他們業務精湛(http://bit.ly/quaesita_analysts),那就價值連城了。

什么是數據分布?

如果我們繼續使用這 27 條數據(http://bit.ly/quaesita_popwrong),我們也可以使用剛才的直方圖來表示人口分布。

這差不多就是一個數據分布的樣子:如果你針對整體的人口(所有你關注的信息,http://bit.ly/quaesita_statistics)數據,而不是針對某個示例(你現在恰好擁有的數據)應用「hist()」函數,你得到的直方圖就可以表示數據的分布。

?

?

數據分布可以為你提供關于整體人口統計數據的「人氣比賽」結果。它基本上就是人口直方圖。橫軸:人口數據值。縱軸:相對頻率。

如果我們將人口都看做包裝食品,那么分布就會像所有食品重量的直方圖一樣。這種分布只是我們腦海中的一種理論上的概念——一些包裝食品已經消失在時間的迷霧中了。即使我們想要,我們也不能生成這個數據集,所以我們能做的最好的事情就是使用一個好的樣本來估計它。

何為數據科學?

這個問題的答案眾說紛紜,但我贊成的定義是:「數據科學(http://bit.ly/quaesita_datasci)是使數據變得有用的學科」。它的三個子領域包括:

(1)挖掘大量信息,從而獲得啟發(數據分析,http://bit.ly/quaesita_analysts)

(2)根據有限的信息明智地做出決策(數據統計,http://bit.ly/quaesita_statistics)

(3)使用數據中的模式自動化任務(機器學習/人工智能,http://bit.ly/quaesita_emperor)

所有的數據科學都可以歸結為:知識就是力量。

宇宙間充斥著各種各樣的信息,它們有待于人們發掘并好好利用。雖然我們的大腦在引導我們完成現實任務的方面具有驚人的能力,但它們并不擅長存儲和處理某些非常有用的信息。

這也就是為什么我們人類一開始采用泥版文書的方式記錄數據,之后用紙張,再之后用硅芯片來記錄數據。我們開發了迅速查看信息的軟件,現在知道如何使用它的人將自己稱作數據科學家或數據分析師。而那些開發出這些工具,并且讓從業者更好、更快地掌握信息的人,才是真正的幕后英雄。順便說一下,即使是互聯網也是一種分析工具(我們很少這么想,因為即使是小朋友也能做這種「數據分析」)。

?

?

升級你的記憶

我們所感知到的一切都會被存儲在某個地方(至少是暫時存儲)。數據并沒有什么神奇的(除了將它寫下來比用大腦來管理更加可靠)。有些信息是有用的,有些信息是誤導性的,其它信息都沒有太大意義。數據也是如此。

我們都是數據分析師,一直都是。

我們認為我們具有的驚人的生物能力是理所應當的,并且夸大了我們信息處理能力和機器輔助的各種系統之間的差距。這種不同之處在于持久性、處理速度和規模...但相同的常識規則同時適用于二者。為什么這些規則在方程的第一個符號出現時就被忽視了呢?

?

?

你還在盲目崇拜數據嗎?

我很高興能夠將數據作為人類科學進步的燃料,但盲目崇拜數據,把它奉為神秘的東西是沒有意義的。我們最好能夠簡單地討論數據,因為從某種意義上說,人人都是數據分析師,一直如此! 雷鋒

分享到:0收藏

上一篇:當面孔成為大數據“養料”,你的臉還好嗎? 制定機器學習訓練數據策略的6個技巧下一篇:

聲明:該文章版權歸原作者所有,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請在30日內與本網聯系。
您閱讀這篇文章花了0
轉發這篇文章只需要1秒鐘
喜歡這篇 0
評論一下 0
凱派爾知識產權全新業務全面上線
相關文章
評論
試試以這些內容開始評論吧
登錄后發表評論
凱派爾知識產權全新業務全面上線
寧波城市站
金華城市站
×
#熱門搜索#
精選雙創服務
歷史搜索 清空

Tel:18514777506

關注微信公眾號

創頭條企服版APP

china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网
91麻豆swag| 久久欧美中文字幕| 久久免费电影网| 亚洲免费高清视频在线| 久久99精品久久久久久国产越南 | 精品一区二区在线播放| 色婷婷av一区| 亚洲国产精品99久久久久久久久| 日本亚洲欧美天堂免费| 91九色02白丝porn| 国产精品免费丝袜| 国产尤物一区二区| 日韩欧美国产午夜精品| 亚洲风情在线资源站| a级精品国产片在线观看| 国产夜色精品一区二区av| 久久精品国产亚洲5555| 欧美一区在线视频| 午夜精品久久久久| 欧美亚洲综合另类| 亚洲精品国产无天堂网2021 | 一区二区中文视频| 国产精品亚洲一区二区三区在线 | 日本一区二区三区久久久久久久久不| 日本最新不卡在线| 欧美男同性恋视频网站| 亚洲一区二区精品视频| 色域天天综合网| 亚洲日本乱码在线观看| 99这里只有精品| 亚洲欧洲国产日韩| 99riav久久精品riav| 国产精品久久久久久户外露出| 福利视频网站一区二区三区| 国产日韩视频一区二区三区| 国产美女精品人人做人人爽| 2021国产精品久久精品| 国产精品小仙女| 久久九九99视频| 国产成人在线视频网址| 国产日韩欧美精品一区| 国产凹凸在线观看一区二区| 亚洲国产精品黑人久久久| 粉嫩av一区二区三区粉嫩| 国产蜜臀97一区二区三区| 成人免费看的视频| 亚洲日本一区二区三区| 欧美在线影院一区二区| 午夜欧美2019年伦理| 欧美日韩久久不卡| 日韩和欧美一区二区三区| 欧美一二三四区在线| 久久成人精品无人区| 精品理论电影在线观看| 国内精品免费在线观看| 国产亚洲精品资源在线26u| 丁香六月久久综合狠狠色| 成人免费视频在线观看| 日本丰满少妇一区二区三区| 午夜婷婷国产麻豆精品| 日韩午夜av一区| 国产美女久久久久| 中文字幕日本不卡| 欧美午夜精品一区二区蜜桃| 日韩国产高清在线| 久久久久88色偷偷免费| 99re成人精品视频| 樱桃视频在线观看一区| 4438x亚洲最大成人网| 国内精品免费**视频| 国产精品美女久久久久久久网站| 91视频在线观看| 日日噜噜夜夜狠狠视频欧美人| 欧美电影免费观看高清完整版在线 | 91在线精品一区二区三区| 一区二区三区欧美日| 6080日韩午夜伦伦午夜伦| 免费高清成人在线| 欧美国产在线观看| 91国偷自产一区二区三区成为亚洲经典| 午夜亚洲国产au精品一区二区| 日韩一区二区电影网| 国产成人自拍在线| 亚洲乱码中文字幕综合| 欧美午夜精品久久久| 久久精品国产亚洲高清剧情介绍| 777xxx欧美| 国产精品18久久久久久vr| 欧美—级在线免费片| 欧美综合在线视频| 激情偷乱视频一区二区三区| 中文字幕日本不卡| 日韩一区国产二区欧美三区| 国产91精品露脸国语对白| 亚洲一区在线视频观看| 精品日韩一区二区三区| 99久久久国产精品免费蜜臀| 日韩高清中文字幕一区| 日本一区二区动态图| 69堂国产成人免费视频| 成人福利视频网站| 日韩国产精品久久久| 国产精品区一区二区三| 51午夜精品国产| kk眼镜猥琐国模调教系列一区二区 | 午夜a成v人精品| 国产午夜精品一区二区三区嫩草| 色丁香久综合在线久综合在线观看| 伦理电影国产精品| 亚洲美腿欧美偷拍| 久久亚区不卡日本| 欧美日韩一区二区欧美激情| 国产suv一区二区三区88区| 日韩精品高清不卡| 中文字幕一区av| 精品国产乱码91久久久久久网站| 日本高清视频一区二区| 丰满少妇久久久久久久| 奇米精品一区二区三区在线观看 | 国产成人在线视频网址| 天堂成人免费av电影一区| 国产精品福利在线播放| 欧美变态凌虐bdsm| 欧美日韩在线播放| aaa欧美色吧激情视频| 韩国欧美国产1区| 偷拍日韩校园综合在线| 亚洲欧洲综合另类| 国产日韩欧美激情| 精品少妇一区二区三区在线播放 | 国产亚洲精品aa| 日韩欧美中文字幕制服| 欧美日韩三级一区| 色婷婷亚洲综合| 成人精品视频一区二区三区| 久久99精品国产麻豆婷婷洗澡| 亚洲成人tv网| 一区二区三区不卡视频在线观看| 国产精品无遮挡| 久久精品视频免费| 精品久久久久久久久久久院品网| 欧美疯狂做受xxxx富婆| 欧美色网站导航| 色琪琪一区二区三区亚洲区| av电影一区二区| 丁香啪啪综合成人亚洲小说 | 久久精品一级爱片| 精品精品欲导航| 日韩片之四级片| 91精品国产色综合久久不卡电影 | 一个色综合网站| 亚洲色图欧洲色图| 亚洲欧洲日产国码二区| 国产精品欧美一区二区三区| 国产欧美一区二区精品性| 久久婷婷国产综合国色天香| 精品精品欲导航| 精品国产不卡一区二区三区| 欧美一级高清片在线观看| 777奇米成人网| 91麻豆精品91久久久久久清纯| 欧美日韩免费观看一区二区三区 | 日韩精品专区在线影院重磅| 欧美一区二区三区啪啪| 91精品国产黑色紧身裤美女| 51精品国自产在线| 91精选在线观看| 日韩一二三区视频| 日韩午夜小视频| 精品国产一区二区三区不卡| 精品欧美久久久| 久久麻豆一区二区| 国产午夜三级一区二区三| 国产欧美一区二区三区在线看蜜臀| 久久九九国产精品| 中文成人综合网| 日韩美女精品在线| 一区二区三区四区不卡视频| 亚洲午夜精品17c| 日韩vs国产vs欧美| 久久疯狂做爰流白浆xx| 国内精品伊人久久久久av一坑| 国产剧情一区在线| 成人免费不卡视频| 色综合天天综合| 欧美日韩一区二区欧美激情| 欧美一区二区三区免费视频| 欧美白人最猛性xxxxx69交| 久久久噜噜噜久久人人看 | av在线一区二区三区| 色综合色狠狠综合色| 欧美视频完全免费看| 日韩欧美在线网站| 国产三级精品视频| 亚洲婷婷在线视频| 亚洲va韩国va欧美va精品| 久久精品久久99精品久久| 高清成人免费视频| 在线观看日韩电影| 日韩精品一区二区在线观看|