成为数据科学家之路,第一部分:数学

news2026/4/3 2:56:22
原文towardsdatascience.com/roadmap-to-becoming-a-data-scientist-part-1-maths-2dc9beb69b27https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/492ae0fb35397ff6690bc9518f937530.png简介数据科学无疑是当今最迷人的领域之一。在大约十年前机器学习取得重大突破之后数据科学在技术社区中迅速流行起来。每年我们都见证了曾经看似不可思议的强大工具。诸如Transformer 架构、ChatGPT、检索增强生成RAG框架以及最先进的计算机视觉模型——包括GANs——对我们世界产生了深远的影响。然而随着工具的丰富和围绕 AI 的持续炒作确定在追求数据科学职业生涯时应该优先考虑哪些技能可能会令人不知所措——尤其是对于初学者来说。此外这个领域要求极高需要大量的投入和毅力。在本文中我的目标是呈现一个详细的路线图概述在开始数据科学之旅时需要关注的数学关键领域。本文将专注于开始数据科学职业生涯所需的数学技能。是否根据你的背景和其他因素选择这条道路是值得的将在另一篇文章中讨论。数据科学——外部视角在许多方面数据科学作为一个独特的领域脱颖而出因为它需要跨越多个学科的一系列技能。在我看来维恩图是展示数据科学真正包含内容的优秀视觉表示https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/03a6fc53b1e4d79678b2f7e2b1dc4be7.png展示关键数据科学组件的维恩图如我们所见数据科学位于三个关键领域的交汇点数学、计算机科学和商业专业知识。虽然这三个组成部分都是必不可少的但我建议初学者主要关注前两个。推荐这样做的原因是坚实的数学和计算机科学基础对于任何数据科学家角色都是必不可少的。同时数据科学被应用于广泛的领域包括银行、电子商务、供应链、医疗保健、自动驾驶汽车等。因此你工作的特定商业领域可能会在你整个职业生涯中频繁变化。虽然理解特定商业领域仍然很有价值但这个因素往往是可变的。因此我强烈建议优先考虑数学和计算机科学作为核心技能。这些领域将是本文系列的焦点。动机数学构成了所有机器学习算法的基础性构建块。没有对数学的扎实理解就无法掌握这些算法是如何工作的。你是否可以在完全不了解机器学习模型如何工作的情况下训练和使用这些模型是的你可以。有众多优秀的工具和库——例如 Scikit-Learn、TensorFlow、PyTorch 和 Gym——只需几行代码就能训练复杂的模型。那么在这种情况下为什么还要费心学习数学呢理解算法在底层是如何工作的有助于你在选择给定任务中最合适的算法时做出明智的决定。它还使你能够识别其范围更容易地进行调试和优化并选择更好的参数。此外有了这些宝贵的知识你可以修改原始算法以更好地满足你的特定需求。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/53c58d53f39f34e0b8541bad650d6460.png理解算法工作流程的优势此外许多算法都是建立在其他算法之上的因此掌握基本算法的基础知识将有助于理解更高级的算法。最后在数据科学职业生涯中经常需要回顾最新的科学出版物。一般来说机器学习文章和论文经常包含大量的数学符号和公式。为了完全理解它们的上下文坚实的数学基础是必不可少的。根据我概述的点我希望现在大家已经清楚地认识到学习数学的重要性。接下来让我们讨论作为有抱负的数据科学家需要培养的具体数学技能。01. 微积分微积分是一个庞大的领域包含了大量的美丽方程式、定理和概念。没有这些知识理解基本机器学习算法的内部工作原理几乎是不可能的。好消息是数据科学家不需要了解所有这些因为最重要的算法中只使用了少数几个关键概念。下面的图表展示了最初需要关注的必要知识https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/327e94028792f52153849f2f9c5560bd.png微积分路线图许多机器学习算法基于优化问题其目标是找到函数的最小值通常通过计算导数来实现。虽然积分在机器学习中并不常用但它们在统计学和概率论中仍然非常有用——这是我们将在本文稍后重点关注的另一个重要领域。简单来说积分是导数的逆运算。实际上积分和导数紧密相关许多定理都依赖于两者来证明关键概念。达到理解导数如何使用这一点将有助于你掌握随机梯度下降SGD算法这是大多数机器学习算法采用的基本方法。虽然算法不断进化许多科学论文依赖于高级数学概念但一旦你掌握了微积分基础它们就会容易得多。02. 线性代数线性代数是数学的另一个关键领域它专注于向量、向量空间和线性变换。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8f07e0c81d1fe31a6d54054ac9bcab52.png线性代数路线图在数据科学中数据可以以各种格式表示但最终它会被转换成数字向量这些向量被输入到预测模型中。向量也用于比较对象之间的相似性估计变量之间的相关性执行特征工程更新模型权重或编码单词的语义含义。鉴于其广泛的应用范围早期研究向量至关重要。下一个重要主题是矩阵它可以被视为将几个向量堆叠成表格的集合。矩阵用于表示表格数据或图。它们在神经网络中也得到广泛应用其中网络的一层可以表示为一个矩阵。这种矩阵表示使得计算更快因为许多数学方法都针对与矩阵更有效地工作进行了优化。矩阵的另一个重要应用是在解线性方程组。每个这样的系统都可以表示为一个矩阵方程Ax b。基于此有几种方法可以解这个方程基于矩阵的性质如乘法、求行列式或计算逆矩阵。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/4865c661db3d76ea67f1908787d49ca7.png矩阵分解左侧的大矩阵表示为两个较小矩阵的乘积最后矩阵不仅可以表示表格数据还可以通过矩阵分解来压缩数据。这个过程涉及将原始矩阵表示为几个较小矩阵的乘积。这种方法在推荐系统中特别受欢迎其中用户和产品之间的大量关系可以存储为几个较小、更有效的矩阵的组合。03. 统计学在数据科学中**探索性数据分析EDA**是数据分析的重要组成部分涉及数据的探索、异常检测、变量之间关系的假设制定以及研究它们对预测变量的影响。所有这些都需要坚实的统计学基础。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0c7624dda501a89926d3bda315c54ab9.png统计路线图为了有效地描述数据必须研究基本描述性统计和表示数据的方法。这是数学中最简单但最重要的领域之一。概率论是计算机科学许多领域出现的另一个基本构建块。在机器学习的背景下有许多用于评估算法质量的指标其中许多基于概率定义如精确度、召回率和ROC AUC。甚至还有概率模型如朴素贝叶斯算法用于分类任务。此外经典概率论包括各种类型的数据分布其中正态分布尤为重要。其重要性不容小觑因为它可以应用于描述广泛的现实世界过程。最后**中心极限定理和置信区间**的引入为理解统计学中的下一个重要主题假设检验提供了基础。A/B 测试基于假设检验是数据科学中的另一个重要主题。A/B 测试的目标是确定在两个最初基于特定标准划分的对象组之间给定指标是否存在显著差异。例如想象一家超市进行一项实验以确定向其客户发送短信是否会增加总收入。首先整个客户数据库被随机分成两组确保没有现有的偏差。这些组被标记为 A 和 B。然后开始营销活动超市向 A 组中的所有客户发送短信而 B 组中的客户则没有收到任何沟通。在最初定义的时期后计算两组的收入。如果两组之间的收入存在显著差异考虑到初始设置那么我们可以得出结论发送短信对产生的收入有影响。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5908c38c05e976e34dec0610ab084515.pngA/B 测试工作流程提供的例子相当简化因为 A/B 测试背后的实际科学要复杂得多。尽管如此假设检验是 A/B 测试的一个基本组成部分因为它解释了背后的逻辑并提供了在不同场景下进行 A/B 测试的各种方法。04. 离散数学https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/3e8031652ef51863f3b0e4c4c3fc6dc8.png离散数学路线图在我个人的经验中离散数学与之前的数学分支相比是最容易学习的。正如其名称所暗示的离散数学研究的是变量是离散的不是连续的数学结构。许多书籍和课程通过从集合论开始介绍离散数学这是有道理的因为集合几乎无处不在用于正式定义其他结构简洁地表达复杂的数学约束以及正式证明各种陈述和定理。此外集合论中使用的符号在机器学习论文中得到广泛采用如下面的示例所示https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/33e41b835c036dff6105c9f76226d264.png关于用于强化学习的 NICE 算法的论文的一部分。来源NICE通过强化学习引导的整数规划实现鲁棒调度下一个重要的分支是关系和函数它们研究集合元素之间的关系。虽然在实际数据科学问题中很少遇到关系理论的直接应用但其知识仍然很有价值。这是因为其他领域的许多证明尤其是在图论中可以通过应用关系概念和属性来简化。布尔代数它处理作用于二元变量的布尔函数是另一个关键领域。有趣的是没有布尔代数就无法想象现代计算机。实际上在底层计算机只使用 0 和 1 进行操作所有计算都是基于布尔代数原理进行的。了解布尔代数有助于理解代码中的逻辑条件和运算符使用逻辑运算符在 SQL 和其他语言中过滤数据优化查询以及执行数据处理。组合数学是数学的一个分支专注于在有限数据结构中对对象进行计数和排列。这种知识对于估计进行实验所需的样本或试验数量、优化采样技术、将对象划分为子集或计算图中可能路径的数量非常有用。虽然表格仍然是数据表示中最受欢迎的格式但它们不能直接存储对象之间的关系。这就是图发挥作用的地方。图是一种数据结构由代表对象的顶点和存储它们之间关系的边组成。根据边的类型它可以指示一对顶点之间关系的存在或不存在或者存储表示关系的强度或弱度的权重。这种看似简单的结构由一个名为图论的研究领域支撑。图论研究各种类型的图及其属性例如根据与其他顶点的连接性将顶点分组到组件中或者找到两个顶点之间的最短路径。图的一个明显应用是社交网络的分析。一群人可以被看作是一个图其中每个顶点代表一个人连接它的边指向这个人认识的其他人。虽然这是讨论图时最常用的例子但它们的应用范围非常广泛不仅限于社交网络还扩展到任何存在对象之间关系的领域。特别是图论在物流优化问题中得到广泛应用。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/dc23d87d86a77dfb9dd2d24372193772.png表示数据科学团队内部交互的图示例。顶点代表团队成员边表示他们之间的交互水平。我应该学习定理的证明吗这是在数学学习者中常见的疑问。我们讨论的四个数学块都包含大量经过严格证明的陈述和定理。挑战在于完全理解证明背后的逻辑往往需要相当多的时间。那么投资时间分析证明真的值得吗在我个人的经历中分析和深入参与证明在我的大学学习期间发挥了重要作用。一方面很明显毕业后我实际上并没有记住大多数那些证明——这是完全正常的因为我们的大脑倾向于忘记那些不经常回顾的信息。另一方面能够理解我在过去遇到的几乎所有数学定理背后的推理帮助我在面对新机器学习论文中的不熟悉陈述时不再感到害怕。这也激发了我探索那些陈述为何为真的欲望。此外这种方法促进了抽象思维这对于成为一名数据科学家来说非常重要。最后我的回答将是肯定的——你应该在学习基础数学时研究你遇到的数学定理的证明以成为一名数据科学家。在其他情况下*如果你没有太多时间学习*专注于最重要的证明或者只是尝试理解定理陈述背后的深层含义。*如果你根本不喜欢学习证明*问问自己你是否真的喜欢数学以及你是否确定要从事数据科学领域的工作。结论在本路线图中我们已经探讨了数据科学学习过程中最重要的四个数学分支。虽然文本和图表中展示的术语和概念列表可以进一步扩展但我专注于最基本的部分。需要认识到的是即使你对核心数学领域有很强的掌握仍然会遇到新的概念。这是完全正常的因为机器学习是不断发展的不可能详细涵盖所有内容。然而对基础数学概念有扎实的理解将使你能够更快地掌握新的方法和算法而这在当今的数据科学市场中才是真正重要的。在本系列的下一篇文章中我们将重点关注数据科学所需的软件工程和机器学习技能。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2e81c8871486c190ae5dd35c201e2850.png在接下来的文章中我们将探讨数据科学所需的软件工程和机器学习技能。资源NICE: 通过强化学习引导的整数规划实现鲁棒调度所有图片除非另有说明均为作者原创。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2477455.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…