数据科学(机器学习)项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学,还可以在自己的简历上展示一些项目! 如今,招聘人员通过他/她的工作来评估应聘者的潜力,而不是将重点放在认证上。如果你没有什么东西可以告诉他们,那也没关系!这是大多数人挣扎和错过的地方。 你以前可能曾处理过几个问题,但是如果你无法使其表现得那么好且易于解释,那么究竟有什么人会知道你的能力呢?这些项目将为你提供帮助。想想你将花费在这些项目上的时间,例如培训课程。练习花费的时间越多,你就会变得更好! 我们确保为你提供不同领域的各种问题。我们认为,每个人都必须学习如何巧妙地处理大量数据,因此其中包括大型数据集。另外,我们确保所有数据集都是开放的并且可以自由访问。 为了帮助你确定从何处开始,我们将该列表分为3个级别,即: 这可能是模式识别文献中最通用、最简单、资源最丰富的数据集。没有什么比虹膜数据集学习分类技术更简单的了。如果你是全新的数据科学学习生,这将成为你的起点。数据只有150行4列。 问题:根据可用属性预测花朵的类别。 开始:获取数据:https://archive.ics.uci.edu/ml/datasets/Iris 教程:http://www.slideshare.net/thoi_gian/iris-data-analysis-with-r 让我们看一下Iris数据,并在下面的“实时编码”窗口中构建一个Logistic回归模型。 https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills
在所有行业中,保险领域是分析和数据科学方法最大的用途之一。该数据集使你可以从保险公司的数据集中进行操作,那里面临着哪些挑战,使用了什么策略,哪些变量影响了结果等等。这是一个分类问题。数据有615行和13列。 问题:预测贷款是否会获得批准。 开始:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/ 教程:https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/ 让我们看一下“贷款”数据并在下面的“实时编码”窗口中构建一个Logistic回归模型。 https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills
零售是另一个广泛使用分析来优化业务流程的行业。使用数据科学技术可以巧妙地处理诸如产品放置,库存管理,自定义报价,产品捆绑等任务。顾名思义,该数据包含销售商店的交易记录。这是一个回归问题。数据具有12个变量的8523行。 问题:预测商店的销售额。 开始:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/ 教程:https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/ 让我们看一下Big Mart销售数据,并在下面的“实时编码”窗口中构建线性回归模型。 https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills
这是模式识别文献中另一个流行的数据集。数据集来自美国波士顿的房地产行业。这是一个回归问题。数据具有506行和14列。因此,这是一个相当小的数据集,你可以在其中尝试任何技术而不必担心笔记本电脑的内存被过度使用。 问题:预测业主占有的房屋的价值中值。 开始:获取数据:https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html 教程:https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/
时间序列是数据科学中最常用的技术之一。它具有广泛的应用程序——天气预报,预测销售,分析逐年趋势等。此数据集特定于时间序列,而此处的挑战是以一种运输方式预测交通量。数据具有行和列。 问题:以新的运输方式预测交通量。 开始:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/ 教程:https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS_101+TS_term1/about
这是数据科学初学者中最受欢迎的数据集之一。它分为2个数据集。你可以对此数据执行回归和分类任务。它将测试你在不同领域的理解能力——异常检测,特征选择和不平衡数据。该数据集中有4898行和12列。 问题:预测葡萄酒的质量。 开始:获取数据:https://archive.ics.uci.edu/ml/datasets/Wine+Quality 教程:https://web.stanford.edu/~ilker/doc/wine_Stats315A.pdf
该数据集基于学生针对不同课程填写的评估表。它具有不同的属性,包括出勤率,难度,每个评估问题的得分等。这是一个无监督的学习问题。数据集有5820行和33列。 问题:使用分类和聚类技术来处理数据。 开始:获取数据:https://archive.ics.uci.edu/ml/datasets/Wine+Qualityhttps://archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation 教程:https://sanghosuh.github.io/research/LA_EdMining_SanghoSuh.pdf
这是一个相当简单的问题,非常适合刚开始使用数据科学的人们。这是一个回归问题。数据集具有25,000行和3列(索引,高度和权重)。 问题:预测一个人的身高或体重。 开始:获取数据:http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights 教程:https://www3.nd.edu/~steve/computing_with_data/2_Motivation/motivate_ht_wt.html
该数据集包含在零售商店捕获的销售交易。这是一个经典的数据集,可从多种购物体验中探索和扩展你的特殊工程技能以及日常理解能力。这是一个回归问题。数据集具有550,069行和12列。 问题: 预测购买金额。 开始:获取数据:https://datahack.analyticsvidhya.com/contest/black-friday/ 教程:https://discuss.analyticsvidhya.com/t/black-friday-data-hack-reveal-your-approach/5986
该数据集是从通过嵌入式智能惯性传感器启用的智能手机捕获的30个人物的记录中收集的。许多机器学习课程将这些数据用于教学目的。轮到你了。这是一个多分类问题。数据集有10,299行和561列。 问题:预测人类的活动类别。 开始:获取数据:http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones 教程:https://rstudio-pubs-static.s3.amazonaws.com/291850_859937539fb14c37b0a311db344a6016.html 该数据集最初来自2007年举行的暹罗文字采矿比赛。该数据包含描述某些飞行中出现的问题的航空安全报告。这是一个多分类的高维问题。它具有21,519行和30,438列。 问题:根据文档的标签对文档进行分类。 开始:获取数据:http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html#siam-competition2007 教程:https://wtlab.um.ac.ir/images/e-library/text_mining/Survey%20of%20Text%20Mining%202%20.pdf 该数据集来自美国的自行车共享服务。此数据集要求你锻炼专业数据处理技能。该数据从2010年第四季度开始按季度提供。每个文件有7列。这是一个分类问题。 问题:预测用户类别。 开始:获取数据:https://www.capitalbikeshare.com/trip-history-data 教程:https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/
你知道数据科学也可以用于娱乐行业吗?自己动手吧!该数据集提出了回归任务。它由5,15,345个观测值和90个变量组成。但是,这只是大约一百万首歌曲的原始数据数据库的一小部分 。 问题:预测歌曲的发行年份。 开始:获取数据:http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD 教程:http://www-personal.umich.edu/~yjli/content/projectreport.pdf 这是一个不平衡的分类,是一个经典的机器学习问题。你知道,机器学习已广泛用于解决不平衡的问题,例如癌症检测,欺诈检测等。现在是时候自己动手了。数据集具有48,842行和14列。 问题:预测美国人口的收入等级。 开始:获取数据:http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/ 教程:https://cseweb.ucsd.edu/~jmcauley/cse190/reports/sp15/048.pdf
你是否已建立推荐系统?这是你的机会!该数据集是数据科学行业中最受欢迎和引用最多的数据集之一。它有各种尺寸。在这里,我使用了相当小的尺寸。它在4,000部电影中获得6,000名用户的100万收视率。 问题:向用户推荐新电影。 开始:获取数据:http://grouplens.org/datasets/movielens/1m/ 教程:https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/
使用Twitter数据已成为情感分析问题不可或缺的一部分。如果你想在这一领域为自己开拓一片天地,那么你将很乐于应对该数据集带来的挑战。数据集大小为3MB,具有31,962条推文。 问题:识别哪些是仇恨推特,哪些不是。 开始:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/ 教程:https://github.com/abdulfatir/twitter-sentiment-analysis
该数据集使你可以研究,分析和识别图像中的元素。这就是相机使用图像识别来检测你的脸的方式!现在轮到你构建和测试该技术了。这是一个数字识别问题。该数据集包含7,000张28 X 28大小的图像,总计31MB。 问题:识别图像中的数字。 开始:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/ 教程:https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/
当你开始机器学习之旅时,你会遇到简单的机器学习问题,例如泰坦尼克号生存预测。但是,对于现实生活中的问题,你仍然没有足够的练习。因此,此练习问题旨在向你介绍常规分类情况下的音频处理。该数据集包含10个类别的8,732个城市声音的声音摘录。 问题:从音频中分类声音的类型。 开始:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/ 教程:https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/ 音频处理正迅速成为深度学习的重要领域,因此这是另一个具有挑战性的问题。此数据集用于大规模的说话人识别,包含从YouTube视频中提取的名人所说的单词。这是用于分离和识别语音的有趣用例。数据包含1,251位名人所说的100,000次讲话。 问题:找出声音属于哪个名人。 开始:获取数据:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/ 教程:https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf ImageNet提供了各种问题,包括对象检测,定位,分类和屏幕解析。所有图像均可免费获得。你可以搜索任何类型的图像并围绕该图像构建项目。截止到目前,该图像引擎已经拥有超过1500万张多种形状的图像,大小高达140GB。 问题:要解决的问题取决于你下载的图像类型。 开始:获取数据:http://image-net.org/download-imageurls 教程:http://image-net.org/download-imageurls
如今,每位数据科学家都希望能够处理大型数据集。当公司在整个数据集上具有计算能力时,他们不再喜欢使用样本。该数据集为你提供了在本地计算机上处理大型数据集所需的实际经验。问题很容易,但是数据管理才是关键!该数据集具有600万个观测值。这是一个多分类问题。 问题:预测犯罪类型。 开始:获取数据: https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2 教程:http://nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf
对于任何深度学习爱好者来说,这都是一个吸引人的挑战。数据集包含数千个印度演员的图像,你的任务是确定他们的年龄。手动选择所有图像,并从视频帧中裁剪所有图像,这导致了比例,姿势,表情,年龄,分辨率,遮挡和化妆具有高度的可变性。训练集中有19,906张图像,测试集中有6,636张图像。 问题:预测演员的年龄。 开始:获取数据:http://image-net.org/download-imageurls 教程:https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/
这是一个高级推荐系统的挑战。在这个实践问题中,将为你提供程序员的数据和他们先前已解决的问题,以及他们解决该特定问题所花费的时间。作为数据科学家,你建立的模型将帮助在线评委决定下一级的问题推荐给用户。 问题:根据用户的当前状态,预测解决问题所需的时间。 开始:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-recommendation-engine/ VisualQA是一个数据集,其中包含有关图像的开放式问题。这些问题需要有对计算机视觉和语言的理解。这个问题有一个自动的评估指标。数据集包含265,016张图像,每张图像3个问题,每个问题10个真实答案。 问题:使用深度学习技术回答有关图像的开放性问题。 开始:获取数据:http://www.visualqa.org/ 教程:https://arxiv.org/abs/1708.02711 在上面列出的24个数据集中,你应该首先找到一个与你的技能组匹配的数据集。如果你是机器学习的初学者,请避免从一开始就使用高级数据集。不要咬一个超过你咀嚼能力的东西,不要对仍然要做的事情感到不知所措。相反,应专注于逐步取得进展。介绍
有用的信息
目录
初级
1.虹膜数据集
2.贷款预测数据集
3. Bigmart销售数据集
4.波士顿住房数据集
5.时间序列分析数据集
6.葡萄酒质量数据集
7. Turkiye学生评估数据集
8.身高和体重数据集
中级
1.黑色星期五数据集
2.人类活动识别数据集
3.文本挖掘数据集
4.行程历史数据集
5.百万首歌曲数据集
6.人口普查收入数据集
7.电影镜头数据集
8. Twitter分类数据集
高级
1.确定你的位数数据集
2.城市声音分类
3. Vox名人数据集
4. ImageNet数据集
5.芝加哥犯罪数据集
6.印度演员年龄数据集
7.推荐引擎数据集
8. VisualQA数据集
尾注