Python机器学习:适合新手的8个项

news2025/9/17 20:13:04

7b4305d26d4e2950b385d850441c1525.jpeg

再多的理论也不能代替动手实践。

教科书和课程会让你误以为精通,因为材料就在你面前。但当你尝试去应用它时,可能会发现它比看起来更难。而「项目」可帮助你快速提高应用的 ML 技能,同时让你有机会探索有趣的主题。

此外,你可以将项目添加到你的投资组合中,从而更轻松地找到工作,找到很酷的职业机会,甚至协商更高的薪水。

在这篇文章中,我们将为初学者介绍 8 个有趣的机器学习项目。你可以在一个周末完成其中的任何一个,或者如果你很喜欢它们,可以将它扩展为更长的项目。

1、机器学习角斗士

我们亲切地称其为「机器学习角斗士」,但它并不新鲜。这是围绕机器学习建立 实用 直觉的最快方法之一。

目标是采用开箱即用的模型并将其应用于不同的数据集。这个项目很棒有 3 个主要原因:

首先,你将建立模型与问题拟合的直觉。哪些模型对缺失数据具有鲁棒性?哪些模型可以很好地处理分类特征?是的,你可以翻阅教科书来寻找答案,但是通过实际操作您会学得更好。

其次,这个项目将教你快速制作原型的宝贵技能。在现实世界中,如果不简单地尝试它们,通常很难知道哪种模型表现最好。

最后,本练习可以帮助你掌握模型构建的工作流程。例如,你将开始练习……

导入数据

清理数据

将其拆分为训练/测试或交叉验证集

预处理

转型

特征工程

因为你将使用开箱即用的模型,你将有机会专注于磨练这些关键步骤。

查看 sklearn (Python) 或 caret (R) 文档页面以获取说明。你应该练习回归、 分类和聚类算法。

教程

• Python: sklearn  – sklearn包 的官方教程

• 使用 Scikit-Learn 预测葡萄酒质量——训练机器学习模型的分步教程

• R: caret  – 由 caret 包的作者提供的网络研讨会

数据源

• UCI 机器学习存储库 ——350 多个可搜索的数据集,涵盖几乎所有主题。您一定会找到您感兴趣的数据集。

• Kaggle 数据集——Kaggle 社区上传的 100 多个数据集。这里有一些非常有趣的数据集,包括 PokemonGo 产卵地点和圣地亚哥的墨西哥卷饼。

• data.gov ——美国政府发布的开放数据集。如果您对社会科学感兴趣,可以去看看。

2、玩钱球

在《点球成金》一书中 ,奥克兰 A 队通过分析球员球探彻底改变了棒球运动。他们建立了一支有竞争力的球队,而只花费了洋基队等大型市场球队支付薪水的 1/3。

首先,如果你还没有读过这本书,你应该去看看。这是我们的最爱之一!

幸运的是,体育界有大量数据可供使用。球队、比赛、比分和球员的数据都可以在线跟踪和免费获取。

对于初学者来说,有很多有趣的机器学习项目。例如,您可以尝试……

• 体育博彩……根据每场新比赛前的可用数据预测盒子得分。

• 人才球探…… 使用大学统计数据来预测哪些球员将拥有最好的职业生涯。

• 综合管理...... 根据他们的优势创建球员集群,以建立一个全面的团队。

体育也是练习数据可视化探索性分析的绝佳领域。你可以使用这些技能来帮助您决定要在分析中包含哪些类型的数据。

数据源

• 体育统计数据库 ——体育统计和历史数据,涵盖了许多职业运动和一些大学运动。干净的界面使网页抓取更容易。

• Sports Reference  – 另一个体育统计数据库。界面更杂乱,但可以将单个表格导出为 CSV 文件。

• cricsheet.org – 国际和 IPL 板球比赛的逐球数据。提供 IPL 和 T20 国际比赛的 CSV 文件。

3、预测股票价格

对于任何对金融感兴趣的数据科学家来说,股票市场就像是糖果乐园。

首先,您有多种类型的数据可供选择。您可以找到价格、基本面、全球宏观经济指标、波动率指数等……不胜枚举。

其次,数据可能非常精细。您可以轻松获取每家公司按天(甚至按分钟)的时间序列数据,从而让您创造性地思考交易策略。

最后,金融市场通常具有较短的反馈周期。因此,您可以快速验证您对新数据的预测。

你可以尝试的一些适合初学者的机器学习项目示例包括……

• 量化价值投资…… 根据公司季度报告的基本面指标预测 6 个月的价格走势。

• 预测…… 在隐含波动率和实际波动率之间的差值上构建时间序列模型,甚至是循环神经网络。

• 统计套利…… 根据价格走势和其他因素找到相似的股票,并寻找价格出现分歧的时期。

明显的免责声明:建立交易模型来练习机器学习很简单。让他们盈利是极其困难的。这里没有任何财务建议,我们不建议交易真钱。

教程

• Python: sklearn for Investing – 将机器学习应用于投资的 YouTube 视频系列。

• R: Quantitative Trading with R – 使用 R 进行量化金融的详细课堂笔记。

数据源

• Quandl  – 提供免费(和优质)金融和经济数据的数据市场。例如,您可以批量下载3000 多家美国公司的日终股票价格 或美联储的经济数据。

• Quantopian – 量化金融社区,为开发交易算法提供免费平台。包括数据集。

• US Fundamentals Archive – 5000 多家美国公司的 5 年基本面数据。

4、教神经网络阅读笔迹

神经网络和深度学习是现代人工智能的两个成功案例。它们在图像识别、自动文本生成甚至自动驾驶汽车方面取得了重大进展。

要涉足这个令人兴奋的领域,您应该从可管理的数据集开始。

MNIST手写数字分类挑战赛是经典的切入点。图像数据通常比「平面」关系数据更难处理。MNIST 数据对初学者很友好,并且小到可以放在一台计算机上。

手写识别会挑战你,但它不需要高计算能力。

首先,我们建议使用下面教程中的第一章。它将教你如何从头开始构建神经网络,以高精度解决 MNIST 挑战。

教程

• 神经网络和深度学习(在线书籍) ——第 1 章介绍了如何在 Python 中从头开始编写神经网络,以对来自 MNIST 的数字进行分类。作者还对神经网络背后的直觉给出了很好的解释。

数据源

• MNIST  – MNIST 是美国国家标准与技术研究院收集的两个数据集的修改子集。它包含 70,000 个带标签的手写数字图像。

5、调查安然

安然丑闻和倒闭是历史上最大的 企业崩溃之一。

2000 年,安然是美国最大的能源公司之一。然后,在因欺诈而被揭露后,它在一年内螺旋式下降到破产。

幸运的是,我们拥有安然电子邮件数据库。它包含 150 名前安然员工(主要是高级管理人员)之间的 50 万封电子邮件。它也是唯一一个真实电子邮件的大型公共数据库,这使得它更有价值。

事实上,数据科学家多年来一直在使用这个数据集进行教育和研究。

您可以尝试的初学者机器学习项目示例包括……

• 异常检测…... 按小时绘制和接收电子邮件的分布图,并尝试检测导致公共丑闻的异常行为。

• 社交网络分析…… 在员工之间建立网络图模型以找到关键影响者。

• 自然语言处理……结合电子邮件元数据分析正文消息,以根据电子邮件的目的对电子邮件进行分类。

数据源

• 安然电子邮件数据集 ——这是由 CMU 托管的安然电子邮件存档。

• 安然数据描述 (PDF) – 对安然电子邮件数据的探索性分析,可以帮助您获得基础。

6、从头开始编写 ML 算法

从头开始编写机器学习算法是一种出色的学习工具,主要有两个原因。

首先,没有更好的方法来建立对他们机制的真正理解。您将被迫考虑每一步,这将导致真正的掌握。

其次,您将学习如何将数学指令转换为工作代码。在从学术研究中调整算法时,您将需要这项技能。

我们建议选择不太复杂的算法。即使是最简单的算法,您也需要做出许多微妙的决定。在您熟悉构建简单算法后,尝试扩展它们以获得更多功能。例如,尝试通过添加正则化参数将普通逻辑回归算法扩展为套索/岭回归。

最后,这是每个初学者都应该知道的提示:不要气馁,因为您的算法不如现有软件包中的算法快或花哨。这些软件包是多年发展的成果!

教程

• Python:从零开始的逻辑回归

• Python:从零开始的 k-最近邻

• R:从零开始的逻辑回归

7、挖掘社交媒体情绪

由于用户生成的内容数量庞大,社交媒体几乎已成为「大数据」的代名词。

挖掘这些丰富的数据可以证明以前所未有的方式来掌握观点、趋势和公众情绪。Facebook、Twitter、YouTube、微信、WhatsApp、Reddit……这个名单还在继续。

此外,每一代人在社交媒体上花费的时间都比他们的前辈多。这意味着社交媒体数据将与营销、品牌和整个业务更加相关。

虽然有许多流行的社交媒体平台,但Twitter 是练习机器学习的经典切入点。

使用 Twitter 数据,您可以获得数据(推文内容)和元数据(位置、主题标签、用户、转发推文等)的有趣混合,为分析开辟了几乎无穷无尽的路径。

教程

• Python:挖掘 Twitter 数据——如何对 Twitter 数据进行情绪分析

• R:使用机器学习进行情感分析——简短而甜蜜的情感分析教程

数据源

• Twitter API  – twitter API 是流数据的经典来源。您可以跟踪推文、主题标签等。

• StockTwits API  – StockTwits 就像交易者和投资者的推特。 您可以通过使用时间戳和股票代码将其连接到时间序列数据集来以许多有趣的方式扩展此数据集 。

8、改善医疗保健

由于机器学习,另一个正在经历快速变化的行业是全球健康和医疗保健。

在大多数国家,成为一名医生需要多年的教育。这是一个要求高、工作时间长、风险高、进入门槛更高的领域。

因此,最近在机器学习的帮助下减轻医生的工作量并提高医疗保健系统的整体效率做出了重大努力。

用例包括:

• 预防性护理…… 预测个人和社区层面的疾病爆发。

• 诊断护理...... 自动对图像数据进行分类,例如扫描、X 射线等。

• 保险……根据公开的风险因素调整保险费。

随着医院继续对患者记录进行现代化改造,并且随着我们收集更细化的健康数据,数据科学家将有大量唾手可得的机会来发挥作用。

教程

• R:为疾病预测构建有意义的机器学习模型

• 医疗保健中的机器学习——微软研究院的精彩演讲

数据源

• 大型健康数据集——大型健康相关数据集的集合

• data.gov/health – 美国政府提供的与健康和医疗保健相关的数据集。

• 健康营养和人口统计——世界银行提供的全球健康、营养和人口统计数据。

59f786120723776723fe0ed170ea01cc.jpeg ⬇️点击「阅读原文」

 免费报名 数据分析训练营

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/412163.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java mysql高校教学成果管理系统dzkfY3程序

1.用户管理模块: 该模块包括注册用户管理和系统用户管理,系统用户主要是普通管理员,对用户信息进行管理,只有注册用户才可在该系统上进行相应的操作。用户对个人信息可进行修改;管理员可对自己的个人信息进行维护&…

Java线程系列详解

一,基本概念 进程: 程序是计算机指令的集合,它以文件形式存储在磁盘上,而进程就是一个执行中的程序,而每一个进程都有其独立的内存空间和系统资源。线程: 线程运行在进程中,不能独立存在。线程…

2019年 团体程序设计天梯赛——题解集

前言: Hello各位童学大家好!😊😊,茫茫题海你我相遇即是缘分呐,或许日复一日的刷题已经让你感到疲惫甚至厌倦了,但是我们真的真的已经达到了我们自身极限了吗?少一点自我感动&#xf…

城乡供水一体化信息化系统-城乡供水一体化

建设方案 城乡供水一体化信息化系统是运用云计算、大数据等信息化手段,借助在线监测设备,并依托“供水信息化平台”,实时感知供水系统的运行状态,实现对农村供水工程远程监控、在线监测、实时预警、智慧监管。 系统功能 水源地监测…

【 初识 Spring MVC 程序开发 】

文章目录一、什么是 Spring MVC二、什么是 MVC三、MVC 和 Spring MVC 的关系四、为什么要学 Spring MVC五、怎么学 Spring MVC六、Spring MVC 创建和连接一、什么是 Spring MVC Spring Web MVC 是基于 Servlet API 构建的原始 Web 框架,从⼀开始就包含在 Spring 框…

搜索算法(一) 深度优先搜索 dfs

一、搜索算法 包括深度优先搜索算法和广度优先搜索算法,用于树或图等结构中进行搜索。 二、深度优先搜索 深度优先算法会尽可能深地搜索树的分支。当节点v的所在边都己被探寻过,搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源…

全网最详细,Jmeter性能测试-性能基础详解,终成测试卷王(一)

目录:导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜)前言 发起请求 发起HTTP…

电脑自动录屏软件哪个好用 电脑自动录屏怎么设置

录屏是很多工作都需要进行的操作,很多会议、培训课程、PPT等都可能需要通过屏幕录制的方式来进行分享。但是目前市面上的录屏软件很多,想找到使用便捷且高效的软件并不容易。今天就来分享一下电脑自动录屏软件哪个好用,电脑自动录屏怎么设置。…

条码控件Aspose.BarCode入门教程(5):用Java 生成和扫描二维码

Aspose.BarCode for .NET 是一个功能强大的API,可以从任意角度生成和识别多种图像类型的一维和二维条形码。开发人员可以轻松添加条形码生成和识别功能,以及在.NET应用程序中将生成的条形码导出为高质量的图像格式。 Aspose API支持流行文件格式处理&am…

学习数据结构第4天(线性表的顺序表示)

线性表的顺序表示顺序表的定义顺序表的基本操作顺序表的定义 线性表的顺序存储又称顺序表。顺序表是在计算机内存中以数组的形式保存的线性表,线性表的顺序存储时指用一组地址连续的存储单元,依次存储线性表中的各个元素。因此线性表中任一数据元素都可…

60行代码出炫酷效果之 python语音控制电脑壁纸切换

前言 大家早好、午好、晚好吖 ❤ ~欢迎光临本文章 电脑大家有吧!手大家有吧!今天!! 就由我带领大家用区区60行代码打造一款语音壁纸切换器程序!!! 单纯的桌面有时候会让人觉得单调&#xff0c…

vue.js实现带表情评论功能前后端实现(仿B站评论)

文章目录学习链接效果图后台建表评论表(重要)用户表实体类CommentUserCommentDTO(重要)WebConfig配置配置跨域和静态资源文件夹Mybatisplus相关类MyBatisPlusConfig 配置分页插件CommentMapperCommentMapper.xml(非常重…

git 将其它分支的文件检出到工作区

主要是使用如下命令&#xff1a; git checkout [-f|--ours|--theirs|-m|--conflict<style>] [<tree-ish>] [--] <pathspec>…​覆盖与 pathspec 匹配的文件的内容。当没有给出<tree-ish> (通常是一个commit)时&#xff0c;用 index 中的内容覆盖工作树…

高频电流探头示波器电流探头的功能检验和消磁操作

高频电流探头运用了成熟的霍尔效应技术并与示波器接口相结合。主要特点包括&#xff1a;分芯结构&#xff0c;简便地连接电路&#xff1b;AC / DC测量能力&#xff1b;精度1%5mV&#xff1b;连接的仪器上直接显示读数。 功能检验&#xff1a; 1、探头连接示波器&#xff1b; 2…

OpenAI Embedding:基于人工智能的搜索新篇章

theme: orange 本文正在参加「金石计划」 Embedding模型在许多应用场景中都有广泛的应用。在OpenAI中&#xff0c;文本嵌入技术主要用于衡量文本字符串之间的相关性。 什么是Embedding 嵌入(Embeddings)是一种将离散变量表示为连续向量的方法。它在机器学习中起到了不可或缺的作…

字节分享的软件测试《面试笔记》文档,让我直呼卧槽卧槽

我有一个朋友&#xff08;真是朋友&#xff0c;不是我啊&#xff09;&#xff0c;前几年环境好的时候入的行&#xff0c;那时候软件测试的要求真的很低&#xff0c;他那时好像是报了个班&#xff0c;然后入门的&#xff0c;但学的都是些基础&#xff0c;自动化涉及了一点&#…

天坑,后悔进那外包啊......

关于计算机专业应届生毕业之后会遇到的就业问题&#xff0c;网上已经有许多的套路&#xff0c;实际上许多人在选择专业的时候并没有考虑到之后的就业方向&#xff0c;甚至于自己所学的专业面向的工作岗位都不是特别清楚。计算机专业毕业大概率是要做程序员的&#xff0c;而目前…

【Java EE】-多线程编程(九) 锁策略CAS锁优化

作者&#xff1a;学Java的冬瓜 博客主页&#xff1a;☀冬瓜的主页&#x1f319; 专栏&#xff1a;【JavaEE】 分享&#xff1a; 主要内容&#xff1a;乐观锁VS悲观锁、轻量级锁VS重量级锁、自旋锁VS挂起等待锁、互斥锁VS读写锁、公平锁VS非公平锁、可重入锁VS不可重入锁。CAS实…

docker 执行springboot 报数据源找不到

本地运行springboot项目完全正常&#xff0c;在docker中开启容器&#xff0c;报错&#xff0c;如下&#xff1a; 解决方案&#xff1a;特别简单&#xff08;经过摸爬滚打得出来的结论&#xff09; <resources><resource><directory>src/main/resources</d…

Hum Brain Mapp | 双语者语言控制的遗传基础:一项EEG研究

双语者似乎具有一种独特的能力&#xff0c;在使用一种语言时暂时“忽略”另一种语言&#xff0c;避免无关语言不必要的干扰。这种排除干扰的过程被称为语言控制。部分研究认为双语者的语言控制是通过调用一系列执行功能&#xff0c;如抑制、注意控制、更新、冲突监测和工作记忆…