數據科學項目為初學者在該領域開啟職業生涯提供了一個方法。不僅可以通過應用它來學習數據科學,還可以在簡歷上展示你的項目經歷!
如今,越來越多的數據相關工作招聘要求要有相關的經驗。如果你沒有任何東西可以展示給他們,那么你很有可能就會錯過這個工作。下面是來自不同領域的各種數據集和項目處理方法。
我們將這個列表分為三個層次,即:
初級水平:這個水平由數據集組成,使用起來相當容易,不需要復雜的數據科學技術。可以使用基本的回歸或分類算法來解決它們。而且,這些數據集有足夠的開放教程,可以幫助入門。在這個列表中,我們還提供了一些教程來幫助入門。你也可以查看AV的“數據科學入門”課程。
中級水平:這一水平包含了更具挑戰性的數據集。它由中、大型數據集組成,這些數據集需要一定的模式識別技能。
高級水平:這個水平是最適合的人誰了解先進的主題,如神經網絡,深度學習,推薦系統等,高維數據集也在這里。同時,這也是一個富有創造力的時期。看看最好的數據科學家是如何把創造力帶到他們的工作和代碼中的。
?
Beginner Level
1.Iris數據集
問題:根據可用屬性預測花的類。
獲取數據:https://archive.ics.uci.edu/ml/datasets/Iris
教程:http://www.slideshare.net/thoi_gian/iris-data-analysis-with-r
2. Loan Prediction Dataset
貸款的預測數據集
問題:預測貸款是否會被批準。
獲取數據:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/
教程:https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/
3.Bigmart銷售數據集
問題:預測商店的銷售額。
獲取數據:https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/
教程:https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/
4. 波士頓住房數據集
預測業主自有住房的中位數。
獲取數據:https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html
教程:https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/
5. 時間序列分析數據集
預測一種新的交通方式的交通流量。
獲取數據:https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/
教程:https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS_101+TS_term1/about
6. 葡萄酒質量數據集
預測葡萄酒的質量。
獲取數據:https://archive.ics.uci.edu/ml/datasets/Wine+Quality
教程:https://web.stanford.edu/~ilker/doc/wine_Stats315A.pdf
7.Turkiye 學生評價數據集
使用分類和聚類技術來處理數據。
獲取數據:https://archive.ics.uci.edu/ml/datasets/Wine+Qualityhttps://archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation
教程:https://sanghosuh.github.io/research/LA_EdMining_SanghoSuh.pdf
8.身高和體重數據集
預測一個人的身高或體重。
獲取數據:http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights
教程:https://www3.nd.edu/~steve/computing_with_data/2_Motivation/motivate_ht_wt.html
Intermediate Level
1. 黑色星期五的數據集
預測營業額
獲取數據:https://datahack.analyticsvidhya.com/contest/black-friday/
教程:https://discuss.analyticsvidhya.com/t/black-friday-data-hack-reveal-your-approach/5986
2. 活動識別數據集
預測一個人的活動類別。
獲取數據:http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones
教程:https://rstudio-pubs-static.s3.amazonaws.com/291850_859937539fb14c37b0a311db344a6016.html
3.文本挖掘數據集
根據文檔的標簽對文檔進行分類。
獲取數據:http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html#siam-competition2007
教程:https://wtlab.um.ac.ir/images/e-library/text_mining/Survey%20of%20Text%20Mining%202%20.pdf
4. 訪問歷史數據集
預測用戶的類別,來自美國的一個自行車共享服務。
獲取數據:http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/
教程:https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/
5. 歌曲數據集
預測歌曲的發行年份。
獲取數據:http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD
教程:http://www-personal.umich.edu/~yjli/content/projectreport.pdf
6. 人口普查和收入數據集
預測美國人口和收入。
獲取數據:http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/
教程:https://cseweb.ucsd.edu/~jmcauley/cse190/reports/sp15/048.pdf
7. 電影鏡頭數據集
向用戶推薦新電影。
獲取數據:http://grouplens.org/datasets/movielens/1m/
教程:https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/
8. Twitter分類數據集
識別哪些是仇恨推文,哪些不是。
獲取數據:https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/
教程:https://github.com/abdulfatir/twitter-sentiment-analysis
Advanced Level
1、圖像識別數據集
從圖像中識別數字。
獲取數據:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/
教程:https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/
2. 城市合理的分類
獲取數據:https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/
教程:https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/
3.Vox名人數據集
從音頻中分類聲音的類型。
獲取數據:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/
教程:https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf
4. ImageNet數據集
要解決的問題取決于您下載的圖像類型。
獲取數據:http://image-net.org/download-imageurls
教程:http://image-net.org/download-imageurls
5. 芝加哥犯罪數據集
預測犯罪類型。
獲取數據:https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2
教程:http://nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf
6. 印度演員年齡數據集
檢測演員的年齡。
獲取數據:http://image-net.org/download-imageurls
教程:http://image-net.org/download-imageurls
7. 推薦引擎的數據集
根據用戶的當前狀態預測解決問題所需的時間。
獲取數據:https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2
教程:http://nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf
8. VisualQA數據集
使用深度學習技術來回答關于圖像的開放式問題。
獲取數據:http://www.visualqa.org/
教程:https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/








