AI智能爬虫:从规则驱动到意图驱动的数据采集革命

news2026/5/3 6:14:07
1. 项目概述当爬虫遇上AI一场数据采集的范式革命最近在折腾一个挺有意思的开源项目叫firecrawl/open-scouts。如果你也像我一样经常需要从各种网站、文档里抓取信息然后整理、分析那你肯定对传统爬虫的繁琐深有体会。写规则、处理反爬、清洗脏数据……一套流程下来时间都花在“伺候”工具上了。open-scouts的出现让我感觉数据采集这件事可能要变天了。它本质上是一个基于AI的智能网络爬虫框架核心思路是让AI来理解网页内容并按照你的自然语言指令去提取信息而不是让你去写复杂的XPath或CSS选择器。想象一下你只需要告诉它“帮我找出这个电商网站上所有价格超过1000元、且评分在4.5星以上的手机产品把名称、价格、评分和商品链接整理成表格。” 它就能自动去浏览页面理解页面结构识别出哪些是商品卡片哪些是价格标签然后精准地把你要的数据抓回来。这不再是简单的文本匹配而是让机器像人一样“看懂”网页并执行任务。这对于数据分析师、市场研究员、竞品分析师甚至是需要做知识库构建的开发者来说无疑是一个效率倍增器。它降低了非专业开发者的使用门槛也让专业开发者能从重复的规则编写中解放出来专注于更核心的数据应用逻辑。2. 核心架构与工作原理拆解要理解open-scouts的强大之处我们必须深入它的内部看看它是如何将AI与爬虫技术深度融合的。这不仅仅是“用AI辅助爬虫”而是一种架构层面的重构。2.1 从“规则驱动”到“意图驱动”的范式转变传统的爬虫是典型的“规则驱动”。开发者需要预先知道目标网页的DOM结构然后编写精确的选择器如div.product-list ul li:nth-child(2) span.price来定位数据。一旦网站改版选择器失效整个爬虫就瘫痪了需要人工重新分析页面、调整规则。这个过程脆弱、耗时且难以规模化。open-scouts采用的是“意图驱动”模型。你提供的是任务描述Intent而非定位规则。框架背后的AI模型通常是大型语言模型LLM负责理解你的任务并在实时浏览或解析的网页内容中自主决策如何完成这个任务。例如你的指令是“提取本文作者和发表日期”AI模型会扫描整个HTML或渲染后的文本识别出任何可能代表作者如“作者”、“By”、“撰稿人”和日期如“发布于”、“2023-10-01”、“October 1, 2023”的文本模式及其上下文然后将其提取出来。这种基于语义的理解对网页结构变化的容忍度要高得多。2.2 核心组件协同工作流一个典型的open-scouts任务执行流程可以分解为以下几个核心组件的协同任务规划与解析器接收用户用自然语言提交的爬取任务。例如“监控某科技博客抓取所有标题包含‘AI’且发布于最近一周的文章标题、摘要和链接。” 该组件会首先解析这个任务将其分解为可执行的子步骤确定目标网站、定义内容过滤器标题含“AI”、时间在一周内、指定输出字段。智能导航与获取器这不是一个简单的HTTP GET请求。为了应对现代大量使用JavaScript渲染的单页应用SPAopen-scouts很可能集成或基于无头浏览器如Puppeteer, Playwright。它能够执行点击、滚动、等待元素加载等交互操作以获取完整的动态内容。导航逻辑也可能由AI驱动例如当需要翻页时AI可以识别“下一页”按钮或滚动加载的触发条件。内容理解与提取引擎这是AI能力注入的核心环节。获取到网页的完整HTML或渲染后的文本/截图后引擎会将其送入LLM进行处理。这里有两种主流技术路径HTML语义分析将HTML结构标签、属性、文本节点连同任务描述一起提交给LLM。LLM利用其对HTML语义的理解知道h1通常是主标题article里是主体内容time datetime...是时间直接在DOM树中定位和提取信息。这种方式效率较高但依赖于模型对HTML的认知。视觉-语言模型VLM分析对于结构极其混乱或严重依赖视觉排版的页面可以将网页截图与任务描述一同提交给多模态大模型如GPT-4V, Claude 3。模型“看到”页面后根据你的指令在图像中框选、识别并提取文字信息。这种方式更接近人眼浏览抗结构变化能力最强但成本也更高。数据标准化与输出器从不同页面、以不同格式提取的原始数据可能是文本片段、数字、日期字符串需要被清洗和标准化。例如将“$1,299.99”和“1299美元”统一为数字1299.99将“2023年10月1日”和“Oct 1, 2023”统一为ISO格式2023-10-01。最后将结构化数据输出为JSON、CSV或直接写入数据库。注意在实际架构中为了平衡成本、速度和准确性可能会采用混合策略。例如对常见的、结构良好的网站使用基于HTML的轻量级提取对复杂或未知的网站启用VLM进行“重火力”解析。2.3 关键技术栈选型考量open-scouts作为一个开源项目其技术选型直接决定了它的能力边界和可用性。AI模型后端这是核心中的核心。项目可能会支持多种LLM API如OpenAI GPT系列、Anthropic Claude、开源Llama系列通过本地API。选择时需权衡闭源API如GPT-4能力强、理解准、支持多模态但需要API密钥有使用成本且数据需发送到第三方。开源模型本地部署如Llama 3, Qwen数据隐私性好无持续成本但对本地算力有要求且模型能力可能稍逊于顶级闭源模型。对于企业级敏感数据采集这是必选项。爬虫执行引擎为了处理动态网页集成无头浏览器是必须的。Playwright因其跨浏览器支持、自动等待机制和丰富的API成为当前综合体验最佳的选择。它比传统的Selenium更现代化比纯粹的Puppeteer仅限Chrome更通用。调度与并发管理工业级的数据采集需要任务队列、速率限制、IP代理池、失败重试等机制。open-scouts可能会利用像Celery或Dramatiq这样的分布式任务队列并结合asyncio实现高效的异步并发爬取同时遵守robots.txt和设置合理的请求间隔体现良好的网络公民意识。3. 实战演练从零构建一个智能竞品监控爬虫理论说得再多不如亲手跑一遍。我们假设你是一个SaaS产品的市场人员需要每天监控三个主要竞品官网的定价页面抓取它们各档位的价格、核心功能点和任何“限时优惠”信息。我们用open-scouts的思路来模拟实现这个需求。3.1 环境准备与初步配置首先你需要一个能运行Python的环境。假设项目使用Python并通过Poetry或pip管理依赖。核心依赖可能包括playwright用于浏览器自动化openai或litellm用于统一调用不同LLM API的SDK以及pydantic用于定义结构化数据模型。# 示例性的依赖安装 pip install playwright openai pydantic playwright install chromium # 安装浏览器驱动接下来是配置AI模型。如果你使用OpenAI API需要设置环境变量export OPENAI_API_KEYyour-api-key-here如果考虑隐私和成本可以选择在本地部署一个开源模型例如使用ollama运行llama3:8b然后open-scouts配置为连接本地http://localhost:11434的API端点。3.2 定义爬取任务与数据模型在“意图驱动”的范式下定义任务就是清晰地描述你的需求。我们可以将其程序化地定义为一个任务对象from pydantic import BaseModel from typing import List, Optional from datetime import date # 首先定义我们期望输出的结构化数据模型 class CompetitorPricePlan(BaseModel): competitor_name: str plan_name: str monthly_price: Optional[float] # 可能免费所以可选 annual_price: Optional[float] key_features: List[str] has_promotion: bool promotion_text: Optional[str] scraped_date: date # 然后定义爬取任务 scraping_task { name: daily_competitor_price_monitoring, instructions: 请浏览并分析以下竞品网站的定价页面 1. https://competitor-a.com/pricing 2. https://competitor-b.com/pricing 3. https://competitor-c.com/pricing 你的目标是找出页面上展示的所有定价套餐Plan。 对于每一个套餐请提取 - 套餐名称如“Starter”, “Pro”, “Enterprise” - 月费价格美元数字如果没有月费选项则留空 - 年费价格美元数字通常有折扣如果没有年费则留空 - 该套餐列出的核心功能点通常是一个带图标的列表提取每条功能的简短描述 - 当前是否有任何限时促销活动如“Save 20%”, “Limited Offer” - 如果有促销请记录促销标语文本 注意价格可能以“$X/month”或“$Y/year”的形式出现请只提取数字。功能点请简洁概括。 , output_model: CompetitorPricePlan # 告诉系统输出应符合此模型 }这个任务描述非常接近人类给助手布置工作的方式它没有涉及任何具体的HTML标签或类名。3.3 执行与结果处理将任务提交给open-scouts引擎后引擎会为每个URL执行以下自动化流程使用Playwright打开浏览器导航至目标URL。等待页面主要内容加载完成可能通过等待特定选择器或网络空闲判断。将完整的页面HTML内容或关键区域的HTML与你的任务指令一起发送给配置好的LLM。LLM分析HTML理解页面布局识别出所有符合“定价套餐”模式的区块。对每个套餐区块LLM根据指令提取对应字段的信息。引擎将LLM返回的非结构化文本尝试填充到CompetitorPricePlan模型中并进行数据清洗如转换货币、解析日期。最终生成一个List[CompetitorPricePlan]结果列表。你可以将结果保存为JSON文件或直接写入数据库如PostgreSQL, MongoDB甚至连接到一个BI工具如Metabase生成每日监控报表。# 伪代码处理结果 results: List[CompetitorPricePlan] await firecrawl.execute_task(scraping_task) for plan in results: print(f[{plan.competitor_name}] {plan.plan_name}: ${plan.monthy_price}/月) if plan.has_promotion: print(f 促销{plan.promotion_text}) # 保存到JSON import json with open(price_monitor.json, w) as f: json.dump([p.dict() for p in results], f, indent2, defaultstr)3.4 实操心得与配置技巧在实际部署和运行这类AI爬虫时有几个细节决定了成败指令的精确性是第一生产力给AI的指令要像给优秀实习生派活一样清晰、无歧义。避免“便宜的那个”这种模糊表述改用“价格最低的套餐”。明确指定输出格式比如“用JSON格式返回”。在指令中提供少量示例Few-shot Learning能极大提升模型解析的准确性。例如在指令中加入“例如如果你看到一个写着‘Pro Plan - $29 per user/month’的标题那么套餐名称是‘Pro Plan’月费是29。”成本控制与缓存策略每次调用LLM API尤其是GPT-4处理整个页面都可能很昂贵。一个重要的优化策略是内容预过滤。先用一个轻量级、快速的模型如GPT-3.5 Turbo或基于规则的初步筛选判断页面是否包含所需信息或者只将页面的关键部分如main区域发送给更强大的模型进行精细提取。另外对不变的页面如“关于我们”建立缓存避免重复分析。处理分页与交互对于列表页你需要告诉AI如何翻页。指令可以是“当前页面底部有一个‘Load More’按钮请点击它直到没有新内容加载然后从所有已加载的内容中提取信息。”open-scouts的浏览器引擎会执行这个点击操作。对于需要登录的页面你需要提前通过脚本完成登录流程并保存登录状态Cookies供后续爬取会话使用。设置合理的期望与验证AI不是神准确率不可能100%。对于价格、库存等关键数据必须设计验证机制。例如可以设置规则如果提取的价格数字超过某个合理范围如$99999则标记为可疑触发人工复核或二次提取。建立数据质量监控看板至关重要。4. 深入场景应对复杂与动态页面的高级策略open-scouts的真正威力体现在处理那些让传统爬虫束手无策的页面上。我们来看几个高级场景。4.1 征服JavaScript重度渲染的单页应用许多现代Web应用如React, Vue, Angular构建的在初始HTML中只有空壳内容全靠JS动态加载。传统爬虫只能拿到一个几乎空的div idroot。解决方案open-scouts集成的无头浏览器Playwright会完整执行页面上的JavaScript就像真实用户用浏览器访问一样。引擎会等待页面达到“网络空闲”或某个关键元素出现通过page.wait_for_selector的状态再将渲染完成后的完整DOM发送给LLM分析。这意味着只要是用户能在浏览器里看到的AI爬虫就能“看到”并理解。实操技巧设置合适的等待超时时间非常重要。对于加载缓慢的页面可以结合多种等待条件# 伪代码智能等待策略 await page.goto(url) # 等待主要容器加载 await page.wait_for_selector(.product-grid, timeout10000) # 额外等待2秒确保动态内容完全渲染 await page.wait_for_timeout(2000) # 或者等待特定数量的网络请求完成 await page.wait_for_load_state(networkidle)4.2 从非结构化文本与复杂文档中提取信息任务可能不是抓取列表而是从一篇长博客、一份PDF白皮书甚至一张信息图中提取特定信息。例如“从这篇行业报告PDF中找出所有提到‘市场规模预测’的段落并提取预测的年份、地区和金额。”解决方案这需要结合文档解析与LLM的阅读理解能力。流程是文档预处理对于PDF使用PyPDF2或pdfplumber提取文本对于图片使用OCR如Tesseract或直接交给多模态VLM识别文字。分块与上下文管理长文档可能超出LLM的上下文长度限制。需要将文档按章节或固定长度如1000字符切分成块并为每个块添加索引确保信息不丢失。迭代式查询先让LLM通览各块建立一个文档摘要和索引。然后针对具体问题定位到相关块进行精读和提取。open-scouts的框架可以管理这个复杂的多步问答流程。4.3 实现基于事件触发的自动化监控静态爬取一次很简单但业务需要的是持续监控。open-scouts可以作为一个后台服务运行结合定时任务如cron或Celery Beat。进阶场景监控招聘网站当出现“薪资范围高于30K”的“Python远程”职位时立即发通知。实现思路编写一个爬取任务指令为“抓取本页面所有招聘职位提取职位名称、公司、薪资范围月薪人民币、是否远程、发布日期。”将任务设置为每2小时执行一次。编写一个后处理脚本将新抓取的数据与上次的数据对比筛选出新增的职位。对新增职位应用业务规则过滤薪资30K包含“远程”。触发通知发送邮件、Slack消息或Webhook。这个流程将open-scouts从一次性工具升级为了一个实时的、智能的信息感知系统。5. 常见陷阱、性能优化与伦理考量即使技术再强大在实际运营中也会遇到各种坑。以下是我在类似项目中积累的一些经验。5.1 典型问题与排查指南问题现象可能原因排查步骤与解决方案AI提取结果为空或完全错误1. 指令模糊不清。2. 页面内容未成功加载动态渲染问题。3. 页面结构过于复杂AI无法理解。4. 输出格式与模型期望不符。1.简化并明确指令用最直接的语言重试。提供输出示例。2.检查页面加载手动用浏览器无头模式访问或让爬虫先截图保存查看是否渲染完整。3.切换提取策略尝试启用VLM模式如果支持或先让AI描述页面结构再针对性提取。4.使用结构化输出要求模型以指定JSON格式返回并验证JSON有效性。爬取速度极慢1. LLM API调用延迟高。2. 页面加载等待时间过长。3. 未使用并发。1.模型降级对简单页面使用更快、更便宜的模型如GPT-3.5 Turbo。2.优化等待策略用等待特定元素代替固定等待或networkidle。3.并发与异步对多个独立URL使用异步并发爬取。注意目标网站的承受能力设置速率限制。遇到反爬机制封IP、验证码请求频率过高或行为模式被识别为非人类。1.遵守robots.txt尊重网站规则。2.降低频率在请求间增加随机延迟如3-10秒。3.使用代理池轮换不同的IP地址发出请求。4.模拟人类行为随机化鼠标移动、滚动轨迹。对于验证码考虑接入第三方打码服务但这涉及成本和伦理需谨慎评估。数据格式不一致同一字段在不同页面表述方式多样如“$10/mo”, “10美元每月”, “每月十美元”。1.后处理清洗在LLM提取后使用正则表达式或专用库如price-parser进行标准化。2.在指令中明确格式要求“价格请统一为数字格式单位是美元/月”。3.使用Pydantic模型验证在数据入库前进行类型验证和转换。5.2 性能优化关键点内容切片与聚焦不要总把整个HTML可能好几MB扔给LLM。先用简单规则或轻量模型定位到包含目标信息的核心区域如idcontent的div只发送这部分内容能大幅减少Token消耗和提升速度。批量处理与上下文复用对于结构相似的多个页面如产品列表页可以尝试在一个LLM调用中处理多个页面的内容利用模型的上下文窗口进行批量提取比多次独立调用更经济。分级模型策略构建一个模型调用流水线。先用小模型快、便宜做路由和粗筛判断页面类型和内容相关性只有复杂页面才调用大模型强、贵进行精细提取。缓存一切可缓存的对URL进行哈希缓存其AI解析结果。如果页面内容未变通过ETag或Last-Modified判断直接使用缓存结果避免重复的AI调用和页面加载。5.3 必须重视的伦理与法律边界使用如此强大的工具时责任也随之增大。尊重版权与数据所有权抓取公开数据用于个人分析或研究通常问题不大但将大量抓取的数据用于商业盈利、直接复制内容或训练竞争性AI模型可能侵犯版权或违反网站的服务条款。务必审查目标网站的robots.txt和Terms of Service。隐私保护绝对不要尝试抓取需要登录的个人页面、非公开社交媒体信息或任何包含个人身份信息PII的数据。这不仅违法也严重违背道德。对目标网站友好设置合理的请求间隔避免在短时间内发起海量请求导致对方服务器瘫痪DoS攻击。你的爬虫行为代表了你的品牌形象。透明与告知如果你的监控行为可能对他人产生影响例如监控竞品价格保持商业道德的敏感性。在某些司法管辖区自动化收集数据可能需要告知数据主体。open-scouts这类工具将我们从繁琐的技术细节中解放出来让我们能更专注于数据背后的业务逻辑和洞察。它代表了一个趋势未来的数据获取将是人类用自然语言描述需求AI智能体负责理解和执行。然而能力越大责任越大。在享受技术红利的同时我们必须成为负责任的数据使用者在合法、合规、合乎道德的框架内让数据创造价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2577398.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…