成为数据科学家之路,第一部分:数学
原文towardsdatascience.com/roadmap-to-becoming-a-data-scientist-part-1-maths-2dc9beb69b27https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/492ae0fb35397ff6690bc9518f937530.png简介数据科学无疑是当今最迷人的领域之一。在大约十年前机器学习取得重大突破之后数据科学在技术社区中迅速流行起来。每年我们都见证了曾经看似不可思议的强大工具。诸如Transformer 架构、ChatGPT、检索增强生成RAG框架以及最先进的计算机视觉模型——包括GANs——对我们世界产生了深远的影响。然而随着工具的丰富和围绕 AI 的持续炒作确定在追求数据科学职业生涯时应该优先考虑哪些技能可能会令人不知所措——尤其是对于初学者来说。此外这个领域要求极高需要大量的投入和毅力。在本文中我的目标是呈现一个详细的路线图概述在开始数据科学之旅时需要关注的数学关键领域。本文将专注于开始数据科学职业生涯所需的数学技能。是否根据你的背景和其他因素选择这条道路是值得的将在另一篇文章中讨论。数据科学——外部视角在许多方面数据科学作为一个独特的领域脱颖而出因为它需要跨越多个学科的一系列技能。在我看来维恩图是展示数据科学真正包含内容的优秀视觉表示https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/03a6fc53b1e4d79678b2f7e2b1dc4be7.png展示关键数据科学组件的维恩图如我们所见数据科学位于三个关键领域的交汇点数学、计算机科学和商业专业知识。虽然这三个组成部分都是必不可少的但我建议初学者主要关注前两个。推荐这样做的原因是坚实的数学和计算机科学基础对于任何数据科学家角色都是必不可少的。同时数据科学被应用于广泛的领域包括银行、电子商务、供应链、医疗保健、自动驾驶汽车等。因此你工作的特定商业领域可能会在你整个职业生涯中频繁变化。虽然理解特定商业领域仍然很有价值但这个因素往往是可变的。因此我强烈建议优先考虑数学和计算机科学作为核心技能。这些领域将是本文系列的焦点。动机数学构成了所有机器学习算法的基础性构建块。没有对数学的扎实理解就无法掌握这些算法是如何工作的。你是否可以在完全不了解机器学习模型如何工作的情况下训练和使用这些模型是的你可以。有众多优秀的工具和库——例如 Scikit-Learn、TensorFlow、PyTorch 和 Gym——只需几行代码就能训练复杂的模型。那么在这种情况下为什么还要费心学习数学呢理解算法在底层是如何工作的有助于你在选择给定任务中最合适的算法时做出明智的决定。它还使你能够识别其范围更容易地进行调试和优化并选择更好的参数。此外有了这些宝贵的知识你可以修改原始算法以更好地满足你的特定需求。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/53c58d53f39f34e0b8541bad650d6460.png理解算法工作流程的优势此外许多算法都是建立在其他算法之上的因此掌握基本算法的基础知识将有助于理解更高级的算法。最后在数据科学职业生涯中经常需要回顾最新的科学出版物。一般来说机器学习文章和论文经常包含大量的数学符号和公式。为了完全理解它们的上下文坚实的数学基础是必不可少的。根据我概述的点我希望现在大家已经清楚地认识到学习数学的重要性。接下来让我们讨论作为有抱负的数据科学家需要培养的具体数学技能。01. 微积分微积分是一个庞大的领域包含了大量的美丽方程式、定理和概念。没有这些知识理解基本机器学习算法的内部工作原理几乎是不可能的。好消息是数据科学家不需要了解所有这些因为最重要的算法中只使用了少数几个关键概念。下面的图表展示了最初需要关注的必要知识https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/327e94028792f52153849f2f9c5560bd.png微积分路线图许多机器学习算法基于优化问题其目标是找到函数的最小值通常通过计算导数来实现。虽然积分在机器学习中并不常用但它们在统计学和概率论中仍然非常有用——这是我们将在本文稍后重点关注的另一个重要领域。简单来说积分是导数的逆运算。实际上积分和导数紧密相关许多定理都依赖于两者来证明关键概念。达到理解导数如何使用这一点将有助于你掌握随机梯度下降SGD算法这是大多数机器学习算法采用的基本方法。虽然算法不断进化许多科学论文依赖于高级数学概念但一旦你掌握了微积分基础它们就会容易得多。02. 线性代数线性代数是数学的另一个关键领域它专注于向量、向量空间和线性变换。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8f07e0c81d1fe31a6d54054ac9bcab52.png线性代数路线图在数据科学中数据可以以各种格式表示但最终它会被转换成数字向量这些向量被输入到预测模型中。向量也用于比较对象之间的相似性估计变量之间的相关性执行特征工程更新模型权重或编码单词的语义含义。鉴于其广泛的应用范围早期研究向量至关重要。下一个重要主题是矩阵它可以被视为将几个向量堆叠成表格的集合。矩阵用于表示表格数据或图。它们在神经网络中也得到广泛应用其中网络的一层可以表示为一个矩阵。这种矩阵表示使得计算更快因为许多数学方法都针对与矩阵更有效地工作进行了优化。矩阵的另一个重要应用是在解线性方程组。每个这样的系统都可以表示为一个矩阵方程Ax b。基于此有几种方法可以解这个方程基于矩阵的性质如乘法、求行列式或计算逆矩阵。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/4865c661db3d76ea67f1908787d49ca7.png矩阵分解左侧的大矩阵表示为两个较小矩阵的乘积最后矩阵不仅可以表示表格数据还可以通过矩阵分解来压缩数据。这个过程涉及将原始矩阵表示为几个较小矩阵的乘积。这种方法在推荐系统中特别受欢迎其中用户和产品之间的大量关系可以存储为几个较小、更有效的矩阵的组合。03. 统计学在数据科学中**探索性数据分析EDA**是数据分析的重要组成部分涉及数据的探索、异常检测、变量之间关系的假设制定以及研究它们对预测变量的影响。所有这些都需要坚实的统计学基础。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0c7624dda501a89926d3bda315c54ab9.png统计路线图为了有效地描述数据必须研究基本描述性统计和表示数据的方法。这是数学中最简单但最重要的领域之一。概率论是计算机科学许多领域出现的另一个基本构建块。在机器学习的背景下有许多用于评估算法质量的指标其中许多基于概率定义如精确度、召回率和ROC AUC。甚至还有概率模型如朴素贝叶斯算法用于分类任务。此外经典概率论包括各种类型的数据分布其中正态分布尤为重要。其重要性不容小觑因为它可以应用于描述广泛的现实世界过程。最后**中心极限定理和置信区间**的引入为理解统计学中的下一个重要主题假设检验提供了基础。A/B 测试基于假设检验是数据科学中的另一个重要主题。A/B 测试的目标是确定在两个最初基于特定标准划分的对象组之间给定指标是否存在显著差异。例如想象一家超市进行一项实验以确定向其客户发送短信是否会增加总收入。首先整个客户数据库被随机分成两组确保没有现有的偏差。这些组被标记为 A 和 B。然后开始营销活动超市向 A 组中的所有客户发送短信而 B 组中的客户则没有收到任何沟通。在最初定义的时期后计算两组的收入。如果两组之间的收入存在显著差异考虑到初始设置那么我们可以得出结论发送短信对产生的收入有影响。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5908c38c05e976e34dec0610ab084515.pngA/B 测试工作流程提供的例子相当简化因为 A/B 测试背后的实际科学要复杂得多。尽管如此假设检验是 A/B 测试的一个基本组成部分因为它解释了背后的逻辑并提供了在不同场景下进行 A/B 测试的各种方法。04. 离散数学https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/3e8031652ef51863f3b0e4c4c3fc6dc8.png离散数学路线图在我个人的经验中离散数学与之前的数学分支相比是最容易学习的。正如其名称所暗示的离散数学研究的是变量是离散的不是连续的数学结构。许多书籍和课程通过从集合论开始介绍离散数学这是有道理的因为集合几乎无处不在用于正式定义其他结构简洁地表达复杂的数学约束以及正式证明各种陈述和定理。此外集合论中使用的符号在机器学习论文中得到广泛采用如下面的示例所示https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/33e41b835c036dff6105c9f76226d264.png关于用于强化学习的 NICE 算法的论文的一部分。来源NICE通过强化学习引导的整数规划实现鲁棒调度下一个重要的分支是关系和函数它们研究集合元素之间的关系。虽然在实际数据科学问题中很少遇到关系理论的直接应用但其知识仍然很有价值。这是因为其他领域的许多证明尤其是在图论中可以通过应用关系概念和属性来简化。布尔代数它处理作用于二元变量的布尔函数是另一个关键领域。有趣的是没有布尔代数就无法想象现代计算机。实际上在底层计算机只使用 0 和 1 进行操作所有计算都是基于布尔代数原理进行的。了解布尔代数有助于理解代码中的逻辑条件和运算符使用逻辑运算符在 SQL 和其他语言中过滤数据优化查询以及执行数据处理。组合数学是数学的一个分支专注于在有限数据结构中对对象进行计数和排列。这种知识对于估计进行实验所需的样本或试验数量、优化采样技术、将对象划分为子集或计算图中可能路径的数量非常有用。虽然表格仍然是数据表示中最受欢迎的格式但它们不能直接存储对象之间的关系。这就是图发挥作用的地方。图是一种数据结构由代表对象的顶点和存储它们之间关系的边组成。根据边的类型它可以指示一对顶点之间关系的存在或不存在或者存储表示关系的强度或弱度的权重。这种看似简单的结构由一个名为图论的研究领域支撑。图论研究各种类型的图及其属性例如根据与其他顶点的连接性将顶点分组到组件中或者找到两个顶点之间的最短路径。图的一个明显应用是社交网络的分析。一群人可以被看作是一个图其中每个顶点代表一个人连接它的边指向这个人认识的其他人。虽然这是讨论图时最常用的例子但它们的应用范围非常广泛不仅限于社交网络还扩展到任何存在对象之间关系的领域。特别是图论在物流优化问题中得到广泛应用。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/dc23d87d86a77dfb9dd2d24372193772.png表示数据科学团队内部交互的图示例。顶点代表团队成员边表示他们之间的交互水平。我应该学习定理的证明吗这是在数学学习者中常见的疑问。我们讨论的四个数学块都包含大量经过严格证明的陈述和定理。挑战在于完全理解证明背后的逻辑往往需要相当多的时间。那么投资时间分析证明真的值得吗在我个人的经历中分析和深入参与证明在我的大学学习期间发挥了重要作用。一方面很明显毕业后我实际上并没有记住大多数那些证明——这是完全正常的因为我们的大脑倾向于忘记那些不经常回顾的信息。另一方面能够理解我在过去遇到的几乎所有数学定理背后的推理帮助我在面对新机器学习论文中的不熟悉陈述时不再感到害怕。这也激发了我探索那些陈述为何为真的欲望。此外这种方法促进了抽象思维这对于成为一名数据科学家来说非常重要。最后我的回答将是肯定的——你应该在学习基础数学时研究你遇到的数学定理的证明以成为一名数据科学家。在其他情况下*如果你没有太多时间学习*专注于最重要的证明或者只是尝试理解定理陈述背后的深层含义。*如果你根本不喜欢学习证明*问问自己你是否真的喜欢数学以及你是否确定要从事数据科学领域的工作。结论在本路线图中我们已经探讨了数据科学学习过程中最重要的四个数学分支。虽然文本和图表中展示的术语和概念列表可以进一步扩展但我专注于最基本的部分。需要认识到的是即使你对核心数学领域有很强的掌握仍然会遇到新的概念。这是完全正常的因为机器学习是不断发展的不可能详细涵盖所有内容。然而对基础数学概念有扎实的理解将使你能够更快地掌握新的方法和算法而这在当今的数据科学市场中才是真正重要的。在本系列的下一篇文章中我们将重点关注数据科学所需的软件工程和机器学习技能。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2e81c8871486c190ae5dd35c201e2850.png在接下来的文章中我们将探讨数据科学所需的软件工程和机器学习技能。资源NICE: 通过强化学习引导的整数规划实现鲁棒调度所有图片除非另有说明均为作者原创。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2477455.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!