大模型AI-入门-发展历程-机器学习
部分内容可能来自网络或者由AI生成。如有雷同纯属巧合仅供学习参考之用。机器学习ML机器学习是人工智能的核心分支其本质是让计算机系统从数据中自动学习规律并用于预测或决策。一、机器学习的三大核心阶段机器学习项目可抽象为以下三个阶段形成一个完整的“学习-应用”闭环阶段名称核心任务类比1记忆Memorize收集、清洗、理解数据“读万卷书”——积累经验2制定Formulate构建模型、训练参数、优化性能“总结规律”——提炼方法论3预测Predict应用模型对新数据做出预测或决策“学以致用”——解决实际问题 这一框架强调数据是燃料模型是引擎预测是价值输出。二、基础概念解析1. 数据、特征与数据点数据Data用于训练和测试模型的原始信息集合。特征Feature描述数据属性的变量是模型的输入。例如房屋的“面积”、“卧室数”。数据点Data Point又称样本Sample或实例Instance在结构化数据中每一行 一个数据点每一列 一个特征或标签三、线性回归最简单的监督学习模型1. 数学表达线性回归假设目标变量 $ y $ 与输入特征 $ x_1, x_2, …, x_n $ 之间存在线性关系yw_1x_1w_2x_2⋯w_nx_nby w\_1 x\_1 w\_2 x\_2 \cdots w\_n x\_n byw_1x_1w_2x_2⋯w_nx_nb其中$ y $目标变量因变量/标签如房价$ x_i $输入特征自变量如面积、房龄$ w_i $权重Weight表示特征对预测的贡献程度即“斜率”$ b $偏置Bias当所有特征为0时的基准预测值参数 权重 偏置是模型通过训练学习到的核心内容。2. 模型训练目标通过最小化预测值与真实值之间的误差如均方误差 MSE自动调整 $ w $ 和 $ b $使拟合直线尽可能贴近数据分布。3. 与大模型的联系线性回归仅有 $ n1 $ 个参数$ n $ 个权重 1 个偏置而像DeepSeek-671B这样的大语言模型拥有6710亿个参数即671B个权重与偏置更多参数 → 更强的非线性拟合能力 → 可捕捉复杂模式如语言、图像中的深层语义⚠️ 但参数越多 ≠ 效果越好需权衡过拟合风险、计算成本与数据规模。四、机器学习三大范式1. 监督学习Supervised Learning定义使用带标签的数据训练模型学习输入 → 输出的映射关系。特点有“教师指导”目标明确。主要类型回归Regression预测连续值如房价、温度分类Classification预测离散类别如垃圾邮件/非垃圾邮件、猫/狗类比不断给婴儿看“冰激凌”的图片并告诉它“这是冰激凌”之后让它判断新图片是否为冰激凌。优势准确性高可解释性强应用广泛医疗诊断、金融风控、推荐系统等2. 无监督学习Unsupervised Learning定义处理无标签数据目标是发现数据内在结构或模式。特点无教师指导靠“自主探索”。主要类型聚类Clustering将相似样本分组如客户细分、图像分割降维Dimensionality Reduction压缩特征维度保留关键信息如PCA、t-SNE生成模型Generative Models学习数据分布以生成新样本如GAN、VAE类比给婴儿一堆未标注的图片让它自己将“看起来像的”图片归为一类。应用场景探索性数据分析异常检测数据预处理如降维加速后续建模3. 强化学习Reinforcement Learning, RL定义智能体Agent在环境中通过试错Trial-and-Error学习策略以最大化长期累积奖励。核心要素Agent学习者如机器人Environment外部世界如迷宫ActionAgent可执行的操作Reward环境反馈的即时奖惩信号PolicyAgent的决策策略目标找到最优策略特点无需标签仅依赖奖励信号强调序列决策与长期收益广泛应用于游戏AIAlphaGo、自动驾驶、机器人控制五、特征工程模型性能的“隐形推手”“数据和特征决定了机器学习的上限而模型和算法只是逼近这个上限。” —— 吴恩达特征工程的核心任务任务说明示例数据清洗处理缺失值、异常值、噪声用均值填补空缺年龄特征选择保留对目标最有用的特征从10个房产特征中选出面积、地段、房龄特征提取从原始数据构造新特征从“出生日期”提取“年龄”CNN自动提取图像边缘特征转换改变特征表示形式归一化Min-Max、标准化Z-score编码类别将非数值特征转为数值性别{男,女} → One-Hot: [1,0], [0,1]比喻特征工程就像“厨师处理食材”——把生肉、蔬菜加工成适合烹饪的形式模型才能“消化吸收”。六、文本表示Token、向量化与Embedding在NLP和大模型中如何将文本转化为模型可理解的数字形式至关重要。1. Tokenization分词将文本切分为基本单元Token形式取决于任务需求粒度示例适用场景字符级“机器学习” → [“机”,“器”,“学”,“习”]拼写纠错、小语种子词级“unhappiness” → [“un”, “happi”, “ness”]BPE、WordPiece如BERT、LLaMA单词级“I love AI.” → [“I”, “love”, “AI”, “.”]传统NLP任务词组级“New York” → [“New York”]保留专有名词语义 每个 Token 会被映射为一个Token ID整数供模型内部使用。2. Vectorization向量化将 Token ID 转换为数值向量使模型能进行数学运算。传统方法One-Hot Encoding稀疏、高维、无语义Bag-of-Words (BoW)忽略词序TF-IDF衡量词的重要性❌ 缺陷无法捕捉语义相似性如“猫”和“狗”在One-Hot中完全无关3. Embedding嵌入一种低维、稠密、语义丰富的向量表示方法。核心思想语义相近的词其向量在空间中距离更近。代表方法Word2Vec通过上下文预测学习静态词向量 → “猫” ≈ “狗”远于“石头”BERT / Transformer-based动态上下文嵌入→ “苹果”在“吃苹果” vs “苹果手机”中向量不同 Embedding 是大模型理解语言的基础也是 Prompt Engineering、RAG 等技术的前提。七、总结构建完整的 ML 认知地图维度关键要点流程记忆数据→ 制定建模→ 预测应用范式监督有标签、无监督无标签、强化奖励驱动模型从线性回归简单到大模型复杂参数规模决定表达能力数据特征工程是提升效果的关键杠杆表示Token → ID → Vector → Embedding文本理解的基石
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2423997.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!