ModernBERT:用现代训练技术重塑经典BERT,实现性能与效率双提升

news2026/5/16 0:54:05
1. 项目概述为什么我们需要一个“现代”的BERT如果你在过去几年里深度参与过自然语言处理NLP项目那么对BERT这个名字一定不会陌生。作为Transformer架构在预训练领域的里程碑BERT彻底改变了我们处理文本任务的方式。然而技术迭代的速度快得惊人。原始的BERT模型诞生于2018年其架构和训练策略在今天看来已经显得有些“古典”了。这就引出了一个核心问题我们能否在保留BERT经典、简洁、高效架构精髓的同时为其注入最新的训练技术和优化思想让它重新焕发“现代”的竞争力AnswerDotAI开源的ModernBERT项目正是对这个问题的响亮回答。它不是要创造一个全新的、参数动辄千亿的庞然大物而是做了一次精妙的“老树新枝”式改造。其核心目标非常明确基于原始BERT的架构特别是bert-base-uncased通过应用一系列被证明有效的现代训练技术、优化策略和数据处理方法显著提升模型的性能同时保持其轻量、易部署、研究友好的特性。简单来说ModernBERT试图证明即使不改变模型骨架通过“炼丹”技艺的升级也能让经典模型达到甚至超越一些更大、更复杂模型的效果。这对于广大开发者和研究者意味着什么首先更低的部署与微调成本。你不需要为了追求几个百分点的提升就去折腾那些需要多张显卡才能跑起来的大家伙。其次更好的可复现性与可解释性。ModernBERT的改进是基于清晰、可追溯的技术点而非黑盒式的架构魔改这有利于社区理解和进一步创新。最后它为资源受限的场景提供了新的SOTA选择无论是在边缘设备、实时服务还是在学术研究中一个更强、更快的“基础款”BERT其价值不言而喻。2. 核心架构与训练技术深度解析ModernBERT的成功并非源于天马行空的创新而是对近年来深度学习特别是语言模型训练领域最佳实践的系统性整合与工程化实现。我们可以将其核心技术拆解为几个关键层面。2.1 训练基础设施与规模化优化原始BERT的训练受限于当时的硬件和软件生态。ModernBERT则完全构建在现代深度学习栈之上。1. 完全拥抱混合精度训练AMP与FlashAttentionModernBERT默认使用BF16或FP16混合精度训练。这不仅仅是节省显存更重要的是利用现代张量核心如NVIDIA的Tensor Cores实现数倍的训练加速。更关键的一步是集成了FlashAttention。对于BERT使用的Transformer架构注意力计算是内存和计算的主要瓶颈。FlashAttention通过精妙的IO感知算法将注意力计算的速度提升数倍同时显存占用从序列长度的平方级降至线性级。这使得ModernBERT能够以更低的成本处理更长的序列或进行更大幅度的批量训练。2. 先进的优化器与学习率调度告别了原始的AdamW配合线性预热衰减。ModernBERT采用了更为激进的优化策略组合Lion优化器这是DeepMind提出的一种新优化器其特点是符号化更新参数更新仅依赖于梯度的符号正负而非具体数值。论文和实践中都表明Lion在语言模型训练上往往比AdamW收敛更快最终效果更好且超参数更鲁棒。余弦退火调度配合Lion使用余弦退火学习率调度。它让学习率像余弦曲线一样从初始值平滑下降到接近零这种平滑下降有助于模型在训练末期更稳定地收敛到平坦的极小值通常能带来更好的泛化能力。注意从AdamW切换到Lion时需要重新调整学习率等超参数。Lion通常偏好更大的学习率例如可能是AdamW的3-10倍和更小的权重衰减。ModernBERT的代码库中提供了经过调优的默认配置这是项目价值的重要组成部分。3. 数据管道与词表现代化原始BERT使用的WordPiece分词器和预训练数据主要是BookCorpus和英文维基百科在今天看来已经不够“丰盛”。ModernBERT虽然保持了bert-base-uncased的架构和词表大小30522但在数据质量、多样性和预处理流程上做了大幅升级高质量数据源整合了更多样、更干净的大规模文本数据集可能包括经过筛选的网页数据、学术论文、代码等确保语言覆盖的广度和质量。更智能的掩码策略除了原始的随机Token掩码可能引入了如whole word masking整词掩码、phrase masking短语掩码等策略使预训练任务更具挑战性让模型学习到更丰富的语言结构信息。动态数据清洗与采样在训练过程中实时进行数据去重、毒性内容过滤并可能根据数据域进行加权采样平衡不同来源数据的影响。2.2 模型层面的针对性增强在架构不动的前提下ModernBERT通过一些“微创手术”提升了模型容量和训练稳定性。1. 前置层归一化Pre-LayerNorm原始BERT使用的是后置层归一化Post-LayerNorm即残差连接之后再进行层归一化。这在训练非常深的模型时容易导致梯度不稳定。ModernBERT很可能改用了前置层归一化Pre-LayerNorm即将层归一化层放在自注意力层和前馈网络层之前。这种结构已成为训练深层Transformer的事实标准如GPT、T5它能显著提升训练稳定性允许使用更大的学习率。2. 更高效的激活函数与初始化将原始的GELU激活函数替换为SwiGLU或GeGLU等门控线性单元变体。这些激活函数通过引入门控机制在不显著增加参数的情况下提升了前馈网络层的表达能力。同时模型的参数初始化方案也同步更新以适配新的架构和优化器确保训练初期的稳定性。3. 可选的模型缩放策略虽然核心是base尺寸但ModernBERT项目可能提供了清晰的缩放法则Scaling Laws指导。例如如何通过增加层数、隐藏层维度、注意力头数来获得large、xlarge等变体并且这些变体的训练超参数如学习率、批量大小有据可循减少了社区自己摸索的成本。3. 从零开始复现ModernBERT训练全流程理解了核心思想后我们来看看如何实际操作。假设我们想在一个类似的数据集上应用ModernBERT的训练方法或者单纯想复现其训练过程以加深理解。以下是基于其开源代码和现代深度学习实践梳理出的关键步骤。3.1 环境搭建与数据准备环境配置ModernBERT的训练强烈依赖现代深度学习框架的高阶特性。推荐使用PyTorch 2.0并确保CUDA驱动版本匹配。# 示例环境配置 conda create -n modernbert python3.10 conda activate modernbert pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install transformers datasets accelerate tensorboard lion-pytorch flash-attn pip install wandb # 可选用于实验跟踪数据预处理这是最繁重但至关重要的一步。你需要将原始文本数据转换为模型可接受的格式。数据收集与清洗准备你的纯文本语料库如.txt文件每行一个文档或段落。进行基础的清洗去除异常字符、规范化空白符、过滤过短/过长的文档。使用BERT Tokenizer分词虽然最终模型性能与数据相关但分词器需要与模型架构匹配。使用Hugging Facetransformers库中的BertTokenizer对应bert-base-uncased词表。生成训练样本实现动态掩码Dynamic Masking。与原始BERT在数据预处理时静态生成掩码不同现代做法是在每个训练步骤中在数据加载时随机生成掩码。这保证了模型在每个epoch看到的掩码样本都是新的提高了数据利用率。from transformers import BertTokenizer, DataCollatorForLanguageModeling from datasets import Dataset tokenizer BertTokenizer.from_pretrained(bert-base-uncased) # 假设 texts 是你的文本列表 def tokenize_function(examples): return tokenizer(examples[text], truncationTrue, max_length512) dataset Dataset.from_dict({text: texts}) tokenized_dataset dataset.map(tokenize_function, batchedTrue, remove_columns[text]) # 使用DataCollator实现动态掩码 data_collator DataCollatorForLanguageModeling( tokenizertokenizer, mlmTrue, mlm_probability0.15 # BERT标准的15%掩码率 ) # 在DataLoader中每个batch都会由collator动态生成掩码3.2 模型定义与训练循环配置模型定义你需要定义一个与bert-base-uncased配置一致但集成了前述改进如Pre-LayerNorm, SwiGLU的模型。ModernBERT项目应该提供了完整的模型定义代码modeling_modernbert.py。关键点在于修改BertLayer的实现。训练循环核心配置使用accelerate库可以轻松实现分布式训练和混合精度。from accelerate import Accelerator from torch.optim import AdamW from lion_pytorch import Lion from transformers import get_cosine_schedule_with_warmup # 初始化accelerator accelerator Accelerator(mixed_precisionbf16) # 使用BF16混合精度 # 初始化模型、优化器、调度器 model ModernBertForMaskedLM(config) # 使用Lion优化器注意调整学习率和权重衰减 optimizer Lion(model.parameters(), lr1e-4, weight_decay0.01) # 假设总训练步数为100000预热10% lr_scheduler get_cosine_schedule_with_warmup( optimizer, num_warmup_steps10000, num_training_steps100000 ) # 使用accelerate准备所有对象 model, optimizer, train_dataloader, lr_scheduler accelerator.prepare( model, optimizer, train_dataloader, lr_scheduler ) # 训练循环 model.train() for epoch in range(num_epochs): for batch in train_dataloader: inputs batch[input_ids] labels batch[labels] with accelerator.accumulate(model): # 梯度累积模拟更大批量 outputs model(inputs, labelslabels) loss outputs.loss accelerator.backward(loss) optimizer.step() lr_scheduler.step() optimizer.zero_grad() # 记录日志保存检查点...关键超参数经验值基于ModernBERT实践批量大小尽可能大受显存限制。可使用梯度累积来模拟大批量。目标批量大小真实批量x累积步数可能在256到2048之间。学习率使用Lion时base尺寸模型的学习率可能在1e-4到5e-4之间需要根据批量大小微调。权重衰减Lion通常需要比AdamW更小的权重衰减如0.01或0.02。序列长度得益于FlashAttention可以尝试更长的序列如512或更长以捕获更长的上下文依赖。3.3 监控、评估与保存监控使用TensorBoard或Weights Biases (WandB) 监控训练过程至关重要。需要跟踪的指标包括训练损失平滑后学习率变化梯度范数检查是否爆炸或消失验证集上的掩码语言模型准确率/困惑度Perplexity评估预训练期间定期在下游任务如GLUE基准测试的子集上进行零样本或少样本评估是衡量模型通用能力增长的最佳方式。这比单纯的MLM损失更能反映模型的实际效用。保存策略定期保存检查点每5000或10000步保存一次。保存最佳模型根据验证集困惑度或下游任务性能保存表现最好的模型。保存最终模型训练结束后使用accelerator.save_model()保存完整模型确保兼容Hugging Facetransformers库的加载方式。4. 下游任务微调实战与性能对比训练好的ModernBERT预训练模型其价值最终要体现在下游任务上。这里以文本分类任务如情感分析为例展示微调流程并与原始BERT进行对比。4.1 微调流程详解假设我们使用SST-2数据集斯坦福情感树库。from transformers import ModernBertForSequenceClassification, Trainer, TrainingArguments # 1. 加载预训练的ModernBERT模型 model ModernBertForSequenceClassification.from_pretrained( AnswerDotAI/ModernBERT-base, num_labels2 # 二分类 ) # 2. 加载并预处理数据 from datasets import load_dataset dataset load_dataset(glue, sst2) tokenized_datasets dataset.map(lambda e: tokenizer(e[sentence], truncationTrue, paddingmax_length, max_length128), batchedTrue) # 3. 定义训练参数 training_args TrainingArguments( output_dir./results_sst2, evaluation_strategyepoch, save_strategyepoch, learning_rate2e-5, # 微调学习率通常较小 per_device_train_batch_size32, per_device_eval_batch_size64, num_train_epochs3, weight_decay0.01, load_best_model_at_endTrue, metric_for_best_modelaccuracy, report_totensorboard, ) # 4. 定义评估函数 import numpy as np from sklearn.metrics import accuracy_score def compute_metrics(eval_pred): predictions, labels eval_pred predictions np.argmax(predictions, axis1) return {accuracy: accuracy_score(labels, predictions)} # 5. 使用Trainer API微调 trainer Trainer( modelmodel, argstraining_args, train_datasettokenized_datasets[train], eval_datasettokenized_datasets[validation], tokenizertokenizer, compute_metricscompute_metrics, ) trainer.train()4.2 性能对比分析与解读在相同的微调设置数据、超参数、随机种子下对比ModernBERT-base和原始BERT-base-uncased在多个GLUE任务上的表现可能会得到类似下表的趋势任务 (GLUE)原始BERT-baseModernBERT-base绝对提升备注CoLA (语法性)58.962.13.2衡量语言理解深度SST-2 (情感分析)92.793.50.8常见分类任务MRPC (释义识别)88.990.21.3句子对任务STS-B (语义相似度)89.590.81.3回归任务平均分数~85.0~86.5~1.5综合性能提升结果解读普遍性提升ModernBERT在所有任务上均显示出稳定提升这表明其预训练获得的语言表示质量更高、更通用。提升幅度差异在CoLA语言可接受性判断这类更依赖深层语法理解的任务上提升最大3.2。这很可能得益于更优质的训练数据、更长的上下文如果使用了更长序列以及改进的架构带来的更强建模能力。在SST-2这类相对“简单”的分类任务上提升幅度较小因为原始BERT在此类任务上已经表现很好。效率考量在推理速度上由于架构未变参数数量、层数相同ModernBERT与原始BERT的推理延迟几乎一致。主要的训练成本投入更好的优化器、更久的数据训练在部署阶段无需支付这是其巨大优势。实操心得在进行对比实验时务必控制变量。除了模型本身确保数据预处理流程、分词器、微调超参数尤其是学习率、训练轮数、随机种子完全一致。多次运行取平均结果以消除随机性影响。ModernBERT的提升是系统性的但可能对微调超参数更敏感建议进行小范围的超参数扫描例如学习率在1e-5到5e-5之间。5. 常见问题、避坑指南与扩展思考在实际使用和复现ModernBERT的过程中你可能会遇到以下典型问题。5.1 训练与复现相关问题Q1: 我自己尝试用ModernBERT的方法训练但损失不下降甚至爆炸怎么办A1: 这是最常见的问题。请按以下顺序排查学习率过大这是首要嫌疑犯。尤其是使用Lion优化器时如果直接从AdamW的常用学习率如5e-5开始很容易爆炸。建议从一个很小的值开始如1e-6进行短暂试跑观察损失曲线然后逐步增大。ModernBERT官方提供的配置是经过大量实验的起点。梯度裁剪即使学习率合适在训练初期也可能出现梯度尖峰。务必启用梯度裁剪torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm1.0)。数据问题检查数据中是否有大量空白、乱码或非文本内容。糟糕的数据会导致模型无法学习到有效模式。混合精度不稳定尝试将mixed_precision从‘bf16’切换到‘fp16’或暂时关闭混合精度进行调试。某些操作在低精度下可能不稳定。Q2: 我显存不够无法达到论文中提到的批量大小影响大吗A2: 有影响但可以通过梯度累积来有效缓解。核心目标是保持“有效批量大小”足够大。例如你的GPU只能放下批量大小为32的样本但目标有效批量大小是256。你可以设置梯度累积步数为8accelerator.accumulate(model)中的步数这样每8步才更新一次参数相当于用时间换空间模拟了批量大小256的效果。需要同步调整学习率通常有效批量大小翻倍学习率也应适当增加例如乘以1.4倍。Q3: 为什么我微调ModernBERT的效果有时候还不如原始BERTA3: 很可能是因为微调超参数未适配。更强的预训练模型有时对微调更“敏感”。学习率尝试比原始BERT更小的微调学习率。因为ModernBERT的起点更好太大的学习率可能会“破坏”已经学到的优质表示。训练轮数可能需要更少的训练轮数Epochs就能达到最佳性能防止过拟合。早停Early Stopping策略很重要。层解冻策略可以尝试先只微调分类头然后逐步解冻顶层Transformer层而不是一开始就全量微调。5.2 部署与应用扩展思考轻量化部署ModernBERT保持了与原始BERT相同的参数量因此所有适用于BERT的优化手段都可以直接使用ONNX Runtime / TensorRT将模型导出为ONNX格式利用推理引擎进行图优化、算子融合和内核调优可以获得显著的延迟降低和吞吐量提升。量化采用动态量化Post-Training Quantization或感知量化训练QAT将FP32模型转换为INT8模型大小减少至1/4推理速度提升1-2倍精度损失极小非常适合边缘部署。知识蒸馏你可以将更大的ModernBERT-Large作为教师模型蒸馏出一个更小的学生模型如TinyBERT架构在精度和速度间取得更好平衡。领域自适应预训练ModernBERT提供了一个强大的通用基础。对于医疗、金融、法律等垂直领域一个非常有效的策略是在ModernBERT预训练权重的基础上使用领域内的大量无标注文本继续进行掩码语言模型预训练即继续预训练Continued Pre-training。这通常比从零开始预训练或仅仅微调下游任务效果更好能让模型快速吸收领域知识。融入检索增强生成RAG系统ModernBERT作为双编码器Bi-Encoder中的上下文编码器性能优异。你可以用它来编码文档库和查询进行高效的语义检索。其改进的上下文理解能力能生成质量更高的文档向量提升RAG系统召回相关文档的准确率。这个项目最让我欣赏的一点是它的“务实”精神。它没有追逐参数量的军备竞赛而是聚焦于如何用更聪明的训练方法榨干经典架构的每一分潜力。在实际业务中这种思路往往比盲目上大模型更能带来性价比的提升。当你面临资源约束、对推理延迟敏感、又需要可靠性能时ModernBERT这类“现代化改造”的经典模型是一个非常值得放入工具箱的选项。它的成功也提醒我们在AI工程中数据和训练技巧的价值有时并不亚于模型架构本身的创新。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2616589.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…