china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网

公眾號
關注微信公眾號
移動端
創頭條企服版APP

數據分析常用的18個概念

5252
網絡大數據 2019-10-10 16:42 搶發第一評
大多數情況下,數據分析的過程必須包括數據探索的過程。

大多數情況下,數據分析的過程必須包括數據探索的過程。數據探索可以有兩個層面的理解:

一是僅利用一些工具,對數據的特征進行查看;

二是根據數據特征,感知數據價值,以決定是否需要對別的字段進行探索,或者決定如何加工這些字段以發揮數據分析的價值。字段的選取既需要技術手段的支撐,也需要數據分析者的經驗和對解決問題的深入理解。

?

?

01 數值類型

在進行數據分析時,往往需要明確每個字段的數據類型。數據類型代表了數據的業務含義,分為3個類型:

1. 區間型數據(Interval)

數值型數據的取值都是數值類型,其大小代表了對象的狀態。比如,年收入的取值,其大小代表了其收入狀態。

2. 分類型數據(Categorical)

分類型數據的每一個取值都代表了一個類別,如性別,兩個取值代表了兩個群體。

3. 序數型數據(Ordinal)

和分類型數據非常相似,每個取值代表了不同的類別。但是,序數型的數據還有另外一層含義就是每個取值是有大小之分的。比如,如果將年收入劃分為3個檔次:高、中、低,則不同的取值既有類別之分,也有大小之分。

如果不了解字段的實際業務含義,數據分析人員可能會出現數據類型判斷失誤。比如字段的取值為“1”“2”“3”等,并不意味著是一個數值類型,它的業務含義還可以是一個分類型的字段,“1”“2”“3”分別代表了一個類別,其大小沒有任何含義。所以,充分了解字段的含義是很重要的。

很多的數據分析工具會根據數據中的字段的實際取值,做出類型的自動判斷:如字符型的數據,一般都認定為分類型數據;如某個字段的所有取值只有“1”“2”“3”,則判斷其為分類型變量,然后經過用戶的再次判斷,其很可能是序數型變量。

不同的數據類型,在算法進行模型訓練時,處理和對待的方式是不同的。區間型數據是直接進行計算的;分類型數據是先將其轉換為稀疏矩陣:每一個類別是一個新的字段,然后根據其取值“1”“0”進行計算。

在很多場景下,人們習慣將分類型數據和序數型數據統稱為分類型數據,即數據類型可以是兩個:數值型數據(區間型數據)和分類型數據(分類型數據和序數型數據)。

?

02 連續型數據的探索

連續型數據的探索,其關注點主要是通過統計指標來反映其分布和特點。典型的統計指標有以下幾個:

4. 缺失值

取值為空的值即為缺失值。缺失值比例是確定該字段是否可用的重要指標。一般情況下,如果缺失率超過50%,則該字段就完全不可用。

在很多情況下,我們需要區別對待null和0的關系。Null為缺失值,0是有效值。這個區別很重要,要小心區別對待。例如,某客戶在銀行內的某賬戶余額為null,意味著該客戶可能沒有該賬戶。但是如果將null改為0,則是說用戶有該賬戶,且賬戶余額為零。

5. 均值(Mean)

顧名思義,均值即平均值。其大小反映了整體的水平。一個數學平均成績是95分的班級,肯定比平均成績是80分的班級的數學能力要好。

6. 最大值和最小值

最大值和最小值即每個數據集中的最大數和最小數。

7. 方差

方差反映各個取值距平均值的離散程度。雖然有時兩組數據的平均值大小可能是相同的,但是各個觀察量的離散程度卻很少能相同。方差取值越大,說明離散程度越大。比如,平均成績是80分的班級,其方差很小,說明這個班級的數學能力比較平均:沒有多少過高的成績,也沒有多少過低的成績。

8. 標準差

標準差是方差的開方,其含義與方差類似。

9. 中位數(Median)

中位數是將排序后的數據集分為兩個數據集,這兩個數據集分別是取值高的數據集和取值低的數據集。比如,數據集{3,4,5,7,8}的中位數是5,在5之下和5之上分別是取值低和取值高的數據集。數據集{2,4,5,7}的中位數應當是(4 + 5)/2=4.5。

10. 眾數(Mode)

眾數是數據集中出現頻率最高的數據。眾數最常用的場景是分類型數據的統計,但是其也反映了數值型數據的“明顯集中趨勢點的數值”。

均值、中位數、眾數的計算方式各有不同,假設有一組數據:

1,2,2,3,4,7,9 均值:(1 + 2 + 2 + 3 + 4 + 7 + 9)/7=4 中位數:3 眾數:2

11. 四分位數(Quartile)

四分位數,即用三個序號將已經排序過的數據等分為四份,如表2-2所示。

?

?

表2-2 四分位的例子

第二四分位數(Q2)的取值和中位數的取值是相同的。

12. 四分位距(Interquartile Range,IQR)

四分位距通過第三四分位數和第一四分位數的差值來計算,即IQR=Q3-Q1。針對上表,其IQR=61-34=27。

四分位距是進行離群值判別的一個重要統計指標。一般情況下,極端值都在Q1-1.5×IQR之下,或者Q3 + 1.5×IQR之上。著名的箱形圖就是借助四分位數和四分位距的概念來畫的,如圖2-1所示。

?

?

圖2-1 箱形圖及IQR

箱形圖中的上下兩條橫線,有可能是離群值分界點(Q3 + 1.5×IQR或Q1-1.5×IQR),也有可能是最大值或最小值。這完全取決于最大值和最小值是否在分界點之內。

13. 偏斜度(Skewness)

偏斜度是關于表現數據分布的對稱性的指標。如果其值是0,則代表一個對稱性的分布;若其值是正值,代表分布的峰值偏左;若其值是負值,代表分布的峰值偏右。在圖2-2中給出了偏斜度的示例。

?

?

圖2-2 Skewness的含義

Skewness的絕對值(不論是正值還是負值)如果大于1是個很明顯的信號,你的數據分布有明顯的不對稱性。很多數據分析的算法都是基于數據的分布是類似于正態分布的鐘型分布,并且數據都是在均值的周圍分布。如果Skewness的絕對值過大,則是另一個信號:你要小心地使用那些算法!

不同的偏斜度下,均值、中位數、眾數的取值是有很大不同的:

?

?

圖2-3 眾數、均值及中位數在不同分布下的比較

由圖2-3可見,在數據取值范圍相同的情況下,中位數是相同的。但是均值和眾數卻有很大的不同。所以,除了偏斜度指標可以直接反映分布特征外,還可以通過中位數和均值的差異來判斷分布的偏斜情況。

中位數<均值:偏左分布 中位數、均值相差無幾:對稱分布 中位數>均值:偏右分布

14. 峰態(Kurtosis)

標準正態分布的峰態的值是3,但是在很多數據分析工具中對峰態值減去3,使得:0代表是正態分布;正值代表數據分布有個尖尖的峰值,高于正態分布的峰值;負值代表數據有個平緩的峰值,且低于正態分布的峰值。

峰態指標的主要作用是體現數值分布的尾巴厚度,尖峰對應著厚尾,即Kurtosis大于0時,意味著有一個厚尾巴。尖峰厚尾也就是說,在峰值附近取值較集中,但在非峰值附近取值較分散。圖2-4所示為一個峰態的例子。

?

?

圖2-4 峰態的例子

在連續型數據的探索中,需要重點關注的指標首先是缺失率,然后是均值、中位數等指標,這些指標能幫助數據分析者對數據的特征有很好的了解。偏斜度是另外一個非常重要的指標,但其絕對值接近1或大于1時,必須對其進行log轉換才能使用,否則該指標的價值將大打折扣。

Python Pandas中DataFrame的describe方法默認只統計連續性字段的最大值、最小值、均值、標準差、四分位數,如果想獲取其他的特征值,需要調用相應的函數來獲得。下面是一段示例代碼,其運行結果通過表2-4來展示。

?

▲表2-4 連續型變量數據探索示例代碼的運行結果

03 分類型數據的探索

分類型數據的探索主要是從分類的分布等方面進行考察。常見的統計指標有以下幾個:

15. 缺失值

缺失值永遠是需要關心的指標,不論是連續型數據,還是分類型數據。過多的缺失值,會使得指標失去意義。

16. 類別個數

依據分類型數據中類別的個數,可以對指標是否可用有一個大致的判斷。例如,從業務角度來看,某指標應當有6個類別,但實際樣本中只出現了5個類別,則需要重新考慮樣本的質量。再如,某個分類型變量只有一個類別時,對數據分析是完全不可用的。

17. 類別中個體數量

在大多數情況下,如果某些類別中個體數量太少,如只有1%的比例,可以認為該類別是個離群值。關于分類型變量離群值的研究比較多,但是如果脫離業務來談分類型變量的離群值,是不妥當的。

不平衡數據就是一個典型的與業務有關的例子。比如,從業務角度來看,購買黃金的客戶只占銀行全量客戶的很小的一個部分,如果采取簡單隨機抽樣的方式,“是否購買”列的值將只有極少的“是”的取值。

但是,不能將“是”直接判斷為離群值,反而“是”有極其重要的業務含義。所以,數據分析者需要靈活地認識和對待類別中個體數量的問題。

18. 眾數

和連續型數據的含義一樣,眾數是數據集中出現頻率最高的數據。比如,針對某個分類型取值A、B、C、D中C的出現次數最多,則C就是眾數。

以下是一段分類型變量數據探索示例代碼,其運行結果通過表2-5來展示。

bank.describe(include=[np.object])

?

?

表2-5 分類型變量數據探索示例代碼的運行結果

應用Python Pandas的相關函數能夠非常容易得到分類型變量的探索結果,表2-5所示就是數據探索示例代碼的運行結果。 來源:THU數據派

分享到:0收藏

上一篇:大數據發展的8個要點 辨析BI、數據倉庫、數據湖和數據中臺內涵及差異點下一篇:

聲明:該文章版權歸原作者所有,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請在30日內與本網聯系。
您閱讀這篇文章花了0
轉發這篇文章只需要1秒鐘
喜歡這篇 0
評論一下 0
凱派爾知識產權全新業務全面上線
相關文章
評論
試試以這些內容開始評論吧
登錄后發表評論
凱派爾知識產權全新業務全面上線
寧波城市站
金華城市站
×
#熱門搜索#
精選雙創服務
歷史搜索 清空

Tel:18514777506

關注微信公眾號

創頭條企服版APP

china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网
日韩欧美www| 天堂va蜜桃一区二区三区漫画版| 夜夜嗨av一区二区三区中文字幕 | 亚洲国产一区在线观看| 国产福利精品一区| 日韩一区二区三区四区| 亚洲免费伊人电影| 国产综合色视频| 91麻豆精品久久久久蜜臀| 中文字幕在线播放不卡一区| 精品一区二区三区免费视频| 欧美亚洲高清一区二区三区不卡| 国产精品欧美综合在线| 国产曰批免费观看久久久| 制服丝袜日韩国产| 亚洲一区二区成人在线观看| 99久久er热在这里只有精品15| 久久亚洲捆绑美女| 久草中文综合在线| 91精品国产全国免费观看| 亚洲一区二区精品久久av| 色综合天天狠狠| 国产精品久久久久一区二区三区 | 日本亚洲电影天堂| 在线观看网站黄不卡| 中文字幕一区二区三区在线播放| 国产传媒久久文化传媒| 久久先锋影音av鲁色资源网| 久久99国产精品免费| 在线综合亚洲欧美在线视频 | 欧美日韩中文精品| 亚洲欧美二区三区| 成人aaaa免费全部观看| 中文字幕av一区二区三区高| 国产精品亚洲一区二区三区在线| 欧美精品一区二区三| 美女视频黄a大片欧美| 56国语精品自产拍在线观看| 性做久久久久久免费观看| 欧美做爰猛烈大尺度电影无法无天| 亚洲视频一区二区免费在线观看| 成人免费黄色大片| 亚洲国产精品高清| av在线不卡观看免费观看| 中文字幕在线一区| aaa欧美色吧激情视频| 日韩伦理免费电影| 99re8在线精品视频免费播放| 亚洲桃色在线一区| 91成人在线免费观看| 亚洲一区二区黄色| 欧美巨大另类极品videosbest | 久久99精品久久久久久动态图 | 国产精品美女www爽爽爽| 波多野洁衣一区| 最新不卡av在线| 色综合 综合色| 亚洲二区视频在线| 欧美一区2区视频在线观看| 九一九一国产精品| 国产欧美一区二区精品忘忧草| 成人一二三区视频| 亚洲精品国产一区二区三区四区在线 | 99这里都是精品| 亚洲欧美日韩一区| 欧美性生活久久| 日本亚洲天堂网| 久久综合中文字幕| av亚洲精华国产精华精华| 亚洲欧美区自拍先锋| 欧美日韩亚洲另类| 激情另类小说区图片区视频区| 国产日产欧美一区二区视频| 91色在线porny| 午夜精品一区二区三区电影天堂 | 日韩不卡一区二区| 久久亚洲一区二区三区四区| 成人精品视频一区二区三区| 亚洲精品一卡二卡| 91精品国产综合久久国产大片| 国产在线播放一区三区四| 亚洲图片激情小说| 3d动漫精品啪啪1区2区免费| 国产一本一道久久香蕉| 亚洲视频免费看| 91精品国产免费久久综合| 国产一区二区三区蝌蚪| 亚洲欧美视频在线观看视频| 欧美一区二区视频在线观看2022| 国产精品主播直播| 一区二区三区四区在线播放| 日韩精品影音先锋| 99re成人在线| 久久疯狂做爰流白浆xx| 亚洲日本护士毛茸茸| 日韩欧美的一区二区| 99re8在线精品视频免费播放| 免费人成精品欧美精品| 国产精品沙发午睡系列990531| 欧美人与性动xxxx| 岛国一区二区三区| 日韩经典一区二区| 国产精品激情偷乱一区二区∴| 欧美精品乱码久久久久久| 国产suv一区二区三区88区| 午夜精品一区二区三区三上悠亚 | 国产一区二区不卡| 一区二区三区免费在线观看| 亚洲精品在线观看网站| 91精品1区2区| 国产精品一二二区| 日韩国产精品91| 亚洲视频1区2区| 亚洲精品一线二线三线| 欧美自拍偷拍午夜视频| 国产成人午夜精品5599| 日韩在线一区二区| 亚洲人一二三区| 久久女同精品一区二区| 欧美日韩成人综合天天影院| 成人午夜私人影院| 久久超碰97中文字幕| 亚洲国产视频直播| 中文字幕日本乱码精品影院| 精品久久久久久最新网址| 欧美性大战久久久| 不卡的av网站| 国产精品自拍在线| 美女一区二区久久| 亚洲动漫第一页| 亚洲私人黄色宅男| 国产欧美精品国产国产专区| 日韩精品一区二区三区中文不卡| 欧美三级电影在线看| av在线这里只有精品| 国产一区二区精品久久99| 免费人成精品欧美精品| 亚洲成人7777| 伊人夜夜躁av伊人久久| 国产精品无遮挡| 久久久久久9999| 欧美mv日韩mv国产网站app| 欧美日韩一二三区| 91久久人澡人人添人人爽欧美| 成人性色生活片免费看爆迷你毛片| 精品一区免费av| 美女视频网站黄色亚洲| 日韩极品在线观看| 亚洲成人动漫一区| 亚洲一区二区三区中文字幕| 亚洲男人都懂的| 日韩毛片在线免费观看| 国产精品久久久久久久久免费桃花| 久久久久国产精品麻豆| 精品福利av导航| 精品国一区二区三区| 精品乱码亚洲一区二区不卡| 日韩欧美在线影院| 欧美一级免费大片| 欧美一级午夜免费电影| 欧美久久久久久蜜桃| 欧美精品日韩精品| 51精品久久久久久久蜜臀| 4438成人网| 日韩欧美激情四射| 日韩久久久久久| 精品国产一区二区三区忘忧草| 欧美成人欧美edvon| 精品少妇一区二区三区在线播放| 日韩三级在线观看| 欧美成人a∨高清免费观看| 欧美成人video| 久久蜜桃av一区二区天堂 | 久久国产视频网| 久久国产精品免费| 国模大尺度一区二区三区| 国产精品亚洲а∨天堂免在线| 国产精品一线二线三线| 国产a视频精品免费观看| 成人久久久精品乱码一区二区三区| 成人免费视频app| 色悠悠亚洲一区二区| 欧洲视频一区二区| 欧美日韩国产一级片| 91精品啪在线观看国产60岁| 欧美一区二区啪啪| 26uuu欧美日本| 亚洲国产高清在线| 亚洲免费观看高清在线观看| 亚洲国产综合91精品麻豆| 偷窥少妇高潮呻吟av久久免费| 免费欧美高清视频| 国产精品一区二区视频| 99久久久精品免费观看国产蜜| 在线视频欧美精品| 欧美一级二级在线观看| 久久久av毛片精品| 亚洲人成影院在线观看| 亚洲第一综合色| 久久精品国产999大香线蕉|