數(shù)據(jù)科學(xué)是近幾年最受歡迎的概念。我相信很多人都在尋找進入該行業(yè)的入口,最近剛讀了一篇文章,其中列出了一些對大家可能有幫助的數(shù)據(jù)科學(xué)書籍。因此,我在本文中進行了總結(jié),同時還對書籍進行了簡要介紹,以便可以選擇要閱讀的書籍。部分可以在網(wǎng)上找到一些數(shù)據(jù)科學(xué)書籍,文中給出了鏈接。但其中大多數(shù)可能需要在亞馬遜上才能找到。
目錄
第一部分:數(shù)據(jù)科學(xué)家的核心技能
?? Data Science ???Math ???Probability and Statistics ???Machine Learning ???Data Mining ???SQL ???R ???Python ???Data Scientist Interview ???Algorithm ???Handbook ???Web Scraping and Data Wrangling ???Data Visualization and Storytelling ???A/B Testing
第二部分:數(shù)據(jù)科學(xué)高級技能
???Neural Network and Deep Learning ???Information Theory ???Causal Inference ???Sampling ???Convex ???Growth Analytics ???Text Mining and Natural Language Processing ???Anomaly Detection ???Recommender Systems ???Social Network Analysis ???Time Series Analysis and Forecasting ???Reinforcement Learning and Artificial Intelligence
第三部分:休閑閱讀
第一部分:數(shù)據(jù)科學(xué)家的核心技能
數(shù)據(jù)科學(xué) Data Science
1. The Data Science Handbook:25位出色的數(shù)據(jù)科學(xué)家的建議和見解
?
?
該手冊中有25位業(yè)內(nèi)專家給出了一些建議,對初學(xué)者非常有幫助。
2.Data Science for Business:需要了解的有關(guān)數(shù)據(jù)挖掘和數(shù)據(jù)分析思維的知識
?
?
商業(yè)數(shù)據(jù)科學(xué)由著名的數(shù)據(jù)科學(xué)專家Foster Provost和Tom Fawcett撰寫,介紹了數(shù)據(jù)科學(xué)的基本原理,并引導(dǎo)您完成從收集的數(shù)據(jù)中提取有用的知識和業(yè)務(wù)價值所必需的“數(shù)據(jù)分析思維”。本指南還可以幫助您了解當(dāng)今使用的許多數(shù)據(jù)挖掘技術(shù)。
3.Doing Data Science:Straight Talk from the Frontline
?
?
在許多這些長達(dá)一章的講座中,來自Google,Microsoft和eBay等公司的數(shù)據(jù)科學(xué)家通過展示案例研究和它們使用的代碼來共享新的算法,方法和模型。如果您熟悉線性代數(shù),概率和統(tǒng)計,并且具有編程經(jīng)驗,那么這本書是數(shù)據(jù)科學(xué)的理想入門。
數(shù)學(xué)Math
4.多元微積分Multivariate Calculus
?
?
5.線性代數(shù) Linear Algebra
?
?
https://ocw.mit.edu/courses/mathematics/18-06sc-linear-algebra-fall-2011/index.htm
概率統(tǒng)計Probability and Statistics
6. Introduction to Probability, Statistics, and Random Processes
?
?
這本書向?qū)W生介紹了概率,統(tǒng)計和隨機過程。工程,各種科學(xué),金融和其他相關(guān)領(lǐng)域的學(xué)生和實踐者都可以使用它。它為這些主題提供了清晰直觀的方法,同時保持了數(shù)學(xué)準(zhǔn)確性。您還可以在線查找課程和視頻。
https://www.probabilitycourse.com
7. OpenIntro Statistics
?
?
OpenIntro項目成立于2009年,旨在通過生產(chǎn)可免費使用和易于修改的出色書籍和教學(xué)工具來提高教育質(zhì)量和可用性。而其首創(chuàng)成果是OpenIntro Statistics。相應(yīng)的課程和視頻可以在以下網(wǎng)址找到:https : //www.openintro.org
8.Statistical Inference
?
?
這是許多大學(xué)應(yīng)屆畢業(yè)生的教科書。
討論理論統(tǒng)計和理論發(fā)展的實際應(yīng)用。包括大量涵蓋理論和應(yīng)用的練習(xí)。
9.Applied Linear Statistical Models
?
?
“Applied Linear Statistical Models”是長期建立的領(lǐng)先權(quán)威文獻(xiàn),也是統(tǒng)計建模的參考。第五版在不犧牲概念或嚴(yán)格性的前提下,在整個過程中增加了對計算和圖形分析的使用。通常,5e在示例和練習(xí)中使用較大的數(shù)據(jù)集,并且可以在軟件內(nèi)自動進行方法而又不會失去理解的情況下,這樣做就可以了。
10.An Introduction to Generalized Linear Models
?
?
內(nèi)容歸納為標(biāo)題。廣義線性模型簡介。
11.All of Statistics: 統(tǒng)計推斷簡明課程
?
?
本書適用于希望快速學(xué)習(xí)概率和統(tǒng)計信息的人。它適合計算機科學(xué),數(shù)學(xué),統(tǒng)計學(xué)和相關(guān)學(xué)科的研究生或高等本科生。
12.Computer Age Statistical Inference: 算法,證據(jù)和數(shù)據(jù)科學(xué)
?
?
Efron和Hastie通過本書向我們?nèi)娼榻B了大數(shù)據(jù)時代的統(tǒng)計數(shù)據(jù)。
13.Statistics in a Nutshell: 桌面快速參考
?
?
標(biāo)題中的快速參考
14.Bayes' Rule: 貝葉斯分析教程簡介
?
?
15. Think Bayes:Python中的貝葉斯統(tǒng)計
?
?
簡要介紹如何使用Python進行貝葉斯統(tǒng)計
http://www.greenteapress.com/thinkbayes/thinkbayes.pdf
16.黑客的貝葉斯方法
?
?
有關(guān)如何使用Python進行貝葉斯統(tǒng)計的高級教程
https://github.com/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers
17.Practical Statistics for Data Scientists: 50個基本概念
?
?
該實用指南說明了如何將各種統(tǒng)計方法應(yīng)用于數(shù)據(jù)科學(xué),告訴您如何避免它們的誤用,并為您提供關(guān)于重要和不重要的建議。
您可以在這里找到它:https : //github.com/andrewgbruce/statistics-for-data-scientists
機器學(xué)習(xí)Machine Learning
18.An Introduction to Statistical Learning:R中的應(yīng)用
?
?
毫無疑問,這是一本好書,該領(lǐng)域的每個人都應(yīng)該聽說過。
http://www-bcf.usc.edu/~gareth/ISL/
https://lagunita.stanford.edu/courses/HumanitiesSciences/StatLearning/Winter2016/about
19.Applied Predictive Modeling
?
?
應(yīng)用預(yù)測建模涵蓋了整個預(yù)測建模過程。面試或工作前必讀。
20. Python機器學(xué)習(xí)
?
?
Python Machine Learning Second Edition現(xiàn)在包括流行的TensorFlow深度學(xué)習(xí)庫。scikit-learn代碼也已完全更新,以包括對該通用機器學(xué)習(xí)庫的最新改進和添加。
21.預(yù)測數(shù)據(jù)分析的機器學(xué)習(xí)基礎(chǔ):算法,可行的示例和案例研究
?
?
全面介紹了預(yù)測數(shù)據(jù)分析中使用的最重要的機器學(xué)習(xí)方法,涵蓋了理論概念和實際應(yīng)用。
22.Real-World Machine Learning 現(xiàn)實世界的機器學(xué)習(xí)
?
?
本書告訴您如何使用機器學(xué)習(xí)來解決實際問題。強烈建議所有數(shù)據(jù)科學(xué)家在實習(xí)或工作之前閱讀它
23.Learning From Data
?
?
解釋了許多書中沒有提到的許多機器學(xué)習(xí)理論,例如VC維。
https://work.caltech.edu/telecourse.html
24.The Elements of Statistical Learning: 數(shù)據(jù)挖掘,推理和預(yù)測,第二版
?
?
本書在一個通用的概念框架中描述了各個領(lǐng)域的重要思想,例如醫(yī)學(xué),生物學(xué),金融和市場營銷。很棒的ESL,我認(rèn)為它很適合翻閱和摘錄。
25.Pattern Recognition and Machine Learning
?
?
數(shù)據(jù)挖掘Data Mining
26.數(shù)據(jù)挖掘原理 Principles of Data Mining
?
?
數(shù)據(jù)挖掘的基本介紹,討論了很多關(guān)聯(lián)規(guī)則。
27.數(shù)據(jù)挖掘概論Introduction to Data Mining
?
?
數(shù)據(jù)挖掘概論介紹了那些初次學(xué)習(xí)數(shù)據(jù)挖掘的人的基本概念和算法。
28. Data Mining Techniques: 用于營銷,銷售和客戶關(guān)系管理
?
?
通過實際示例介紹如何使用數(shù)據(jù)挖掘從客戶那里賺錢。
SQL
29. SQL Cookbook:數(shù)據(jù)庫開發(fā)人員的查詢解決方案和技術(shù)
?
?
本菜譜提到了SQL查詢中的許多陷阱,并給出了每個流行數(shù)據(jù)庫的查詢代碼。
R
30.R in Action
?
?
本書從介紹R語言(包括開發(fā)環(huán)境)開始。著重于實際解決方案,該書還提供了實際統(tǒng)計方面的速成課程,并介紹了使用R的功能處理混亂和不完整數(shù)據(jù)的優(yōu)雅方法。
31. R for Data Science
?
?
32. R Packages
?
?
33. Advanced R
?
?
由Hadley Wickham教授撰寫。
R for Data Science與Garrett Grolemund一起,介紹了使用R進行數(shù)據(jù)科學(xué)的關(guān)鍵工具。R軟件包使用捆綁,文檔化和測試代碼的軟件包,教導(dǎo)了R的良好軟件工程實踐。
高級R幫助您將R掌握為編程語言,并教會您如何使R打勾。
Python
34.Think Python
?
本指南逐步指導(dǎo)使用該語言,從基本的編程概念開始,然后再進行功能,遞歸,數(shù)據(jù)結(jié)構(gòu)和面向?qū)ο蟮脑O(shè)計。適合初學(xué)者
35.Fluent Python
?
?
作者Luciano Ramalho帶領(lǐng)您學(xué)習(xí)Python的核心語言功能和庫,并向您展示如何使代碼同時更短,更快和更易讀。
36. Python for Probability, Statistics, and Machine Learning
?
?
本書涵蓋了在這些領(lǐng)域中使用Python模塊說明的將概率,統(tǒng)計數(shù)據(jù)和機器學(xué)習(xí)聯(lián)系起來的關(guān)鍵思想。
37. Python數(shù)據(jù)科學(xué)手冊 Python Data Science Handbook
?
?
一本非常全面的手冊介紹了如何使用Python解決數(shù)據(jù)科學(xué)問題。
https://github.com/jakevdp/PythonDataScienceHandbook
數(shù)據(jù)科學(xué)家訪談Data Scientist Interview
38.Data Science Interviews Exposed
?
?
數(shù)據(jù)科學(xué)面試提供數(shù)據(jù)科學(xué)的職業(yè)建議和REAL面試問題,以幫助您獲得六位數(shù)的薪水工作!
39.Cracking the PM Interview: 如何找到產(chǎn)品經(jīng)理在技術(shù)領(lǐng)域的工作
?
?
在美國,許多數(shù)據(jù)科學(xué)家都與產(chǎn)品密切相關(guān),甚至其中一些人被聘為產(chǎn)品經(jīng)理,因此這本書的PM訪談對數(shù)據(jù)科學(xué)家具有參考價值。
算法Algorithm
40. Grokking Algorithms:面向程序員和其他好奇者的插圖指南
?
?
《 Grokking算法》是一本完整而友好的指南,它教您如何將常見算法應(yīng)用于程序員每天面對的實際問題。
41.使用Python解決算法和數(shù)據(jù)結(jié)構(gòu)問題 Problem Solving with Algorithms and Data Structures Using Python
?
?
算法和數(shù)據(jù)結(jié)構(gòu)的研究對于理解計算機科學(xué)的意義至關(guān)重要。這些就是本書的全部內(nèi)容。
電子版:http : //interactivepython.org/runestone/static/pythonds/index.html
42.Algorithms in a Nutshell:實用指南
?
?
快速查看的算法指南。
Handbook
43.數(shù)據(jù)科學(xué)手冊 The Data Science Handbook
?
?
數(shù)據(jù)科學(xué)的全面概述,涵蓋了掌握該學(xué)科所需的分析,編程和業(yè)務(wù)技能
Web Scraping and Data Wrangling
44. Web Scraping with Python: 從現(xiàn)代Web收集數(shù)據(jù)
?
?
通過本實用指南,您將學(xué)習(xí)如何使用Python腳本和Web API一次收集和處理數(shù)千個甚至數(shù)百萬個Web頁面中的數(shù)據(jù)。實際上,僅使用 Octoparse 即可滿足您的Web抓取需求。
45. Data Wrangling with Python: 簡化生活的提示??和工具
?
?
本書教您如何清除凌亂的原始數(shù)據(jù)。將其整理成您想要的方式。
46. Regular Expressions Cookbook
?
?
盡管正則表達(dá)式很煩人,但您必須面對它。您可以使用本書來檢查所需的正則表達(dá)式。
數(shù)據(jù)可視化和故事Data Visualization and Storytelling
47.Communicating Data with Tableau: 設(shè)計,開發(fā)和交付數(shù)據(jù)可視化
?
?
本實用指南向您展示如何使用Tableau Software將原始數(shù)據(jù)轉(zhuǎn)換為引人入勝的數(shù)據(jù)可視化效果,以提供洞察力或允許查看者自己瀏覽數(shù)據(jù)。
48. Interactive Data Visualization for the Web: D3設(shè)計簡介
?
?
此完全更新和擴展的第二版將帶您了解D3的基本概念和方法,D3是最強大的JavaScript庫,用于在Web瀏覽器中直觀地表達(dá)數(shù)據(jù)。
49.使用Python和JavaScript進行數(shù)據(jù)可視化:抓取,清理,瀏覽和轉(zhuǎn)換數(shù)據(jù)
?
?
在本動手指南中,作者Kyran Dale教您如何使用一流的Python和JavaScript庫(包括Scrapy,Matplotlib,Pandas,F(xiàn)lask和D3)構(gòu)建基本的dataviz工具鏈,以構(gòu)建引人入勝的基于瀏覽器的可視化。
50.Storytelling with Data: 業(yè)務(wù)專業(yè)人員的數(shù)據(jù)可視化指南
?
?
本書演示了如何超越常規(guī)工具來獲取數(shù)據(jù)的根源,以及如何使用數(shù)據(jù)來創(chuàng)建一個引人入勝,內(nèi)容豐富,引人入勝的故事。
A / B測試
51. A / B Testing:將點擊轉(zhuǎn)化為客戶的最強大方法
?
?
52.Designing with Data: 通過A / B測試改善用戶體驗
?
?
第二部分:數(shù)據(jù)科學(xué)高級技能
第三部分:休閑閱讀
請在關(guān)注更新
by Paul Black 來源:bigdatanews 原文:https://www.bigdatanews.datasciencecentral.com/profiles/blogs/80-best-data-science-books-that-are-worthy-reading








