白杨SEO:做AI搜索优化的DeepSeek、豆包、Kimi、百度文心一言、腾讯元宝、通义、智谱、天工等AI生成内容信息采集主要来自哪?占比是多少?

news2025/6/2 23:04:04

大家好,我是白杨SEO,专注SEO十年以上,全网SEO流量实战派,AI搜索优化研究者。

在开始写之前,先说个抱歉。

上周在上海客户以及线下聚会AI搜索优化分享说各大AI模型的联网搜索是关闭的,最开始上来确实是的。但这几天我去看,有些联网搜索默认是开启了,所以说下抱歉,如图。

白杨SEO的关注朋友,也可以去打开看看是不是这样?可以给我留言。

有些朋友可能会说,DeepSeek、豆包、Kimi、百度文心一言、腾讯元宝、通义、智谱、天工等AI大模型默认开不开启联网搜索有什么差别呢?

白杨SEO想说,这个差别大着呢。

我们做AI搜索优化,或者说叫GEO,如果不是联网搜索的情况下,我们很难快速优化进AI大模型结果里。因为AI大模型训练间隔比较久,而且费用也不便宜,要想了解实时性的东西,所以他们只要有,都加上了联网搜索功能。

而对于AI大模型的用户而言,他不可能在提问之前,先去打开联网搜索之类(只有少部分专业的人会去这么做)。

就像我们说做百度、抖音或微信搜一搜关键词搜索排名一样,用户默认会看全部排名,很少去点具体某个垂直下面结果一样,如图:

哈哈哈,看上图,才发现,微信搜一搜直接也把【AI搜索】放在TAG上了,你们看下有没有?

好,我们继续。

正因为大模型如果从原来不是默认开启联网搜索到现在默认开启,那么我们做AISEO即AI搜索优化,不管是做品牌曝光还是引流量还是营销,都有机会了是不是?当然,比如像通义现在还是默认没开启哈~

为什么今天想到分享要说下DeepSeek、豆包、Kimi、百度文心一言、腾讯元宝、通义、智谱、天工等AI生成内容信息采集主要来自哪这个事呢?

一是因为之前我在另外公号分享过《豆包、kimi、deepseek、百度文心一言、腾讯元宝等大模型它们生成内容的引用来源是哪?》这篇后很多人说感兴趣。

二是因为这次去上海做AI搜索优化(GEO)线下培训分享时,有分享了主流的DeepSeek、豆包、Kimi、百度文心一言的内容信息采集来源占比图,当然这只是某个行业的个例,其它可以再测。如图,

我在想不管是做AI搜索优化这行的转行的SEO或者其它行业同行,又或者是想做AI搜索优化的企业,他们是不是都想知道呢,这样更好做好AI搜索优化(GEO)。

所以,除了DeepSeek、豆包、Kimi、百度文心一言,我还加了腾讯元宝,通义(原通义千问,改名缩短了,PC和APP一致),智谱(智谱清言简称),天工(AI搜索引擎工具)等AI生成内容的。

好,我们就一个一个来说一下。

1、DeepSeek AI生成内容信息采集主要来源及占比参考

DeepSeek AI生成内容信息采集主要来源,按照DeepSeek自己的说法是开源数据(MIT协议允许自由使用)、强化学习生成数据、少量标注数据。

你可能没懂,简单说就是互联网上的内容以及它自己再生成的,以及非常少的标注的。但我们能优化的是开源数据。这个主要来源,来自白杨SEO朋友公司客户案例统计如图(他们的业务介绍PPT)

从上图看到主要来源是媒体,这个媒体主要指四大门户以及各种地方网站那种新闻媒体哈。占比第二的UGC平台比如知乎等也很大。第三则是搜索词官网或垂直网站。至于电商这个说一下,因为是行业不同,有些没有这个哈。

所以我们得出结论,要做好DeepSeek的AI搜索优化,主要做好媒体、UGC为主就可以了,当然官网也要发。具体怎么布局SEO搜索关键词之类,看我公众号历史文章有写哈,后续也会慢慢分享出来,不在本文讨论。

2、豆包 AI生成内容信息采集主要来源及占比参考

如图,豆包主要信息采集来源是字节系自己产品(抖音短视频,抖音百科,头条等),另外就是新闻媒体上发的,第三则是官网及其它。占比如图,这里不再详说了。这个也是某个行业哈,其它你可以搜索自己试试。

3、Kimi AI生成内容信息采集主要来源及占比参考

如图,KIMI有意思,70%的内容来源UGC,尤其你看那个知乎占比很大啊,哈哈哈。

为什么呢,你像kimi这类AI大模型平台,跟deepseek一样,他们是没有像百度、腾讯,抖音有自己内容生态源哈。话说回来,知乎也是一个知识宝库呢,哈哈哈。

虽然知乎也有自己的AI大模型【知乎直答】如图,但它的影响力,就如知乎在当下互联网的现状一样,有心无力的,可能比某度还尴尬,唉。

4、百度AI搜索、文心一言 AI生成内容信息采集主要来源及占比参考

百度AI搜索、文心一言,其实这是两个渠道。文心一言是百度AI大模型产品,有网页版,也有APP,APP叫文小言。而百度AI搜索是百度搜索里面AI搜索。虽然跟文心一言模型一致,同时还结合了deepseek的哈,如图。

所以参考百度文心一言的,其实是一样的。主要内容及来源占比如图,参考

所以如果我们要做百度AI搜索或文心一言,主要做百度产品,比如百家号,百科,以及像新媒发软文,以及垂直官网等就可以了。

5、腾讯元宝 AI生成内容信息采集主要来源及占比参考

腾讯元宝AI生成内容信息采集主要来源就是微信生态内容,如公众号文章,视频号内容等,再加上其它新闻媒体,网站内容等,如图。

如果说占比的话,公众号文章占比应该要到50%左右哈。

如果想知道在元宝或微信搜一搜里这个词流量大概有多少,可以看微信指数或腾讯广告里数据,相关看这两篇:

白杨SEO:想做微信搜一搜精准流量,你真正看懂微信指数了吗?

白杨SEO:工具推荐第十七期—搜一搜关键词搜索流量查询工具腾讯广告

6、通义(通义千问)、夸克AI生成内容信息采集主要来源及占比参考

如图,通义AI生成内容信息采集主要来源是各大新闻媒体平台(包含自媒体)比如网易号,腾讯企鹅号,搜狐网,新浪财经等,这类占比60%以上,其它就是官网之类。

当然,如果你搜索不同的词,比如电商类的之类,会来自一些垂直网站,比如站长之家,什么值得买等。当然,大多数还是阿里生态内数据,最近主要在增加这块,比如夸克搜索等。

当然,夸克那个AI跟通义逻辑一样,大家也要重点关注哦,它可能是国内目前AI搜索领域访问量TOP哦,如图。

7、智谱清言 AI生成内容信息采集主要来源及占比参考

智谱数据来源开源模型(如ChatGLM)、合作企业数据(如金融、政务领域)。占比推测:开源数据占40%,合作数据占50%等。如图,

除了合作的以外,另外就是一些第三方自媒体平台。因为智谱在国内AI大模型C端用户认知里不大,所以很多企业没有关注,正常。比如拿你来说,你手机里有下这个APP吗?

8、天工AI AI生成内容信息采集主要来源及占比参考

这个天工AI也是一样,白杨SEO里很多粉丝朋友可能第一次听说它吧?哈哈哈。它默认是联网的哈,如图。

话说它这整个智能体,没有积分还用不了,当然新用户还会送,这样它这个和之前爆火的manus有点像,不再是纯聊天大模型,更像是可以做任务的智能体了,你简单理解就是比大模型还进一步了。

当然这个渠道,以及智能体这种,我们后面再先。如果感兴趣看我之前写过《白杨SEO:一文告诉你智能体Agent是什么、有哪些、用在哪里、哪个好用及搭建流程【收藏】》参考。

今天这篇又快三千字了,希望看完对你做AI搜索优化或者GEO优化有一定帮助。如果你觉得这个分享有价值,请继续关注我,或者分享需要朋友,谢谢。

作者介绍:

白杨SEO,专注SEO研究十年+,全网SEO流量实战派,ai搜索优化研究者。前某公司市场总监,现自由职业,企业顾问。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2392356.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

显示docker桌面,vnc远程连接docker

目录 相关概念: 实现步骤: 1.启动docker容器 2.安装x11 3.Docker 容器中安装一个完整的图形桌面(XFCE)和 VNC 远程桌面服务器(TightVNC) 4.配置vncservice 5.本地安装VNC Viewer连接VNC Viewer下载地…

腾讯云国际站性能调优

全球化业务扩张中,云端性能直接决定用户体验与商业成败。腾讯云国际站通过资源适配、网络优化与存储革新,为企业提供全链路调优方案。 ​​资源精准适配​​ 实例选型需与业务场景深度耦合,计算优化型实例加速AI训练效率3倍,内存…

深入解析操作系统内核与用户空间以及内核态与用户态转换

用户空间和内核空间的划分是现代操作系统的基础,对应用程序网络模型的设计和优化有着深远的影响。 内核空间与用户空间的分工 现代操作系统为了保证系统的稳定性和安全性,将虚拟内存空间划分为用户空间和内核空间。 一、用户空间 用户空间是用户程序…

每日一题洛谷P8662 [蓝桥杯 2018 省 AB] 全球变暖c++

P8662 [蓝桥杯 2018 省 AB] 全球变暖 - 洛谷 (luogu.com.cn) DFS #include<iostream> using namespace std; int n, res; char a[1005][1005]; bool vis[1005][1005]; bool flag; int dx[4] { 0,0,1,-1 }; int dy[4] { 1,-1,0,0 }; void dfs(int x, int y) {vis[x][y]…

【JVM】初识JVM 从字节码文件到类的生命周期

初识JVM JVM&#xff08;Java Virtual Machine&#xff09;即 Java 虚拟机&#xff0c;是 Java 技术的核心组件之一。JVM的本质就是运行在计算机上的一个程序&#xff0c;通过软件模拟实现了一台抽象的计算机的功能。JVM是Java程序的运行环境&#xff0c;负责加载字节码文件&a…

多级体验体系构建:基于开源AI智能客服与AI智能名片的S2B2C商城小程序体验升级路径研究

摘要&#xff1a;在体验经济时代&#xff0c;传统企业单一的总部体验模式难以覆盖全链路用户需求。本文针对B端与C端体验深度差异&#xff0c;提出“一级总部体验—二级区域体验—三级终端体验”的分层架构&#xff0c;并引入“开源AI智能客服”与“AI智能名片”技术&#xff0…

Git切换历史版本及Gitee云绑定

1、git介绍 Git是目前世界上最先进的分布式版本控制系统 Linux <- BitKeeper&#xff08;不是开源的&#xff0c;但免费的&#xff0c;后来要收费&#xff09; Linus Torvalds(林纳斯托瓦兹) 两周时间吧&#xff0c;弄了个 Git&#xff1b;大约一个月就把Linux代码从BitK…

服务器的IP是什么东西?

一、什么是服务器的IP地址&#xff1f; 服务器的IP地址是互联网协议&#xff08;Internet Protocol&#xff09;的缩写&#xff0c;是服务器在网络中的唯一数字标识符。它类似于现实生活中的门牌号&#xff0c;用于标识服务器在网络中的位置&#xff0c;使其他设备能够通过它与…

[问题解决]:Unable to find image ‘containrrr/watchtower:latest‘ locally

一&#xff0c;问题 在使用docker安装部署新应用的时候&#xff0c;报错&#xff1a;Unable to find image containrrr/watchtower:latest locally 分析认为是当前docker的资源库里找不到这个软件的镜像&#xff0c;需要配置一个包含这个软件镜像的新的资源库。 二&#xff0…

【文件上传】阿里云对象存储服务实现文件上传

一、基础 上传到本地&#xff1a; package org.example.controller;import lombok.extern.slf4j.Slf4j; import org.example.pojo.Result; import org.springframework.web.bind.annotation.PostMapping; import org.springframework.web.bind.annotation.RequestMapping; imp…

IPv6代理如何引领下一代网络未来

随着互联网技术的不断发展&#xff0c;IPv6逐渐成为下一代网络协议的核心&#xff0c;替代IPv4已是大势所趋。IPv6代理作为IPv6网络环境下的重要工具&#xff0c;为用户提供了更高效、更安全的网络解决方案。 IPv6代理的定义 IPv6代理是在IPv6网络环境中为处理IPv4转换和其他网…

Linux——数据链路层

1. 认识以太网 认知&#xff1a;以太网是用于局域网数据通信的协议标准&#xff0c;定义了同一局域网内通过电缆/无线怎么在设备之间传输数据帧。 注&#xff1a;整个网络世界可以具象看出由许许多多的局域网组成&#xff0c; • 家庭中的设备A and 家庭中的设备B and 家庭路由…

游戏引擎学习第310天:利用网格划分完成排序加速优化

回顾并为今天的内容做个铺垫 昨天我们完成了一个用于排序的空间划分系统&#xff0c;但还没有机会真正利用它。昨天的工作刚好在结束时才完成&#xff0c;所以今天我们打算正式使用这个空间划分来加速排序。 现在我们在渲染代码中&#xff0c;可以看到在代码底部隐藏着一个“…

数据结构 - 树的遍历

一、二叉树的遍历 对于二叉树&#xff0c;常用的遍历方式包括&#xff1a;先序遍历、中序遍历、后序遍历和层次遍历 。 1、先序遍历&#xff08;PreOrder&#xff09; 先序遍历的操作过程如下&#xff1a; 若二叉树为空&#xff0c;则什么也不做&#xff1b;否则&#xff0…

时序模型介绍

一.整体介绍 1.单变量 vs 多变量时序数据 单变量就是只根据时间预测&#xff0c;多变量还要考虑用户 2.为什么不能用机器学习预测&#xff1a; a.时间不是影响标签的关键因素 b.时间与标签之间的联系过于弱/过于复杂&#xff0c;因此时序模型依赖于时间与时间的相关性来进行预…

【第4章 图像与视频】4.4 离屏 canvas

文章目录 前言为什么要使用 offscreenCanvas为什么要使用 OffscreenCanvas如何使用 OffscreenCanvas第一种使用方式第二种使用方式 计算时长超过多长时间适合用Web Worker 前言 在 Canvas 开发中&#xff0c;我们经常需要处理复杂的图形和动画&#xff0c;这些操作可能会影响页…

尚硅谷redis7 74-85 redis集群分片之集群是什么

74 redis集群分片之集群是什么 如果主机宕机&#xff0c;那么写操作就被暂时中断&#xff0c;后面就要由哨兵进行投票和选举。那么一瞬间若有大量的数据修改&#xff0c;由于写操作中断就会导致数据流失。 由于数据量过大,单个Master复制集难以承担,因此需要对多个复制集进行…

WPF的基础控件:布局控件(StackPanel DockPanel)

布局控件&#xff08;StackPanel & DockPanel&#xff09; 1 StackPanel的Orientation属性2 DockPanel的LastChildFill3 嵌套布局示例4 性能优化建议5 常见问题排查 在WPF开发中&#xff0c;布局控件是构建用户界面的基石。StackPanel和DockPanel作为两种最基础的布局容器&…

apache的commons-pool2原理与使用详解

Apache Commons Pool2 是一个高效的对象池化框架&#xff0c;通过复用昂贵资源&#xff08;如数据库连接、线程、网络连接&#xff09;优化系统性能。 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击…

打印Yolo预训练模型的所有类别及对应的id

有时候我们可能只需要用yolo模型检测个别类别&#xff0c;并显示&#xff0c;这就需要知道id&#xff0c;以下代码可打印出 from ultralytics import YOLO# 加载模型 model YOLO(yolo11x.pt)# 打印所有类别名称及其对应的ID print(model.names) {0: person, 1: bicycle, 2: c…