底图法:让AI生成图像准确呈现文本和数字!
使用“底图”生成准确的文本和数字发现了一种在AI生成图像中生成可靠文本和数字的技术。以目前最先进的图像模型而言有一张图像被认为是无法生成的但使用Gemini 3.0 Pro做到了还有一个额外步骤将在下面解释。底图法给该方法起名为底图法感觉它确实是个可行的方法。下面是一个简单的A/B测试展示了使用和不使用该方法的效果。测试要求为生成一张游戏棋盘的图像棋盘上有50块踏脚石呈螺旋状排列从外侧起点1开始逆时针向内盘旋到中心终点50结束。每块石头都从1到50连续编号。风格黏土动画模型影棚灯光糖果般明亮的色彩柔和的背景虚化效果。1.❌ Gemini 3 Pro未使用底图法乍一看令人印象深刻但仔细查看就会发现问题。2.❌ ChatGPT Images 2未使用底图法ChatGPT Images 2发布时给人留下了深刻印象本以为它能完成这个任务但令人惊讶的是它和Gemini一样失败了。3.✅ Gemini 3.0 Pro使用底图法成功了数字正确按钮数量和顺序正确螺旋形状也正确。它是如何工作的呢在为孩子制作一个100步冒险棋盘图像时想出了这个方法。让确定性和生成性工具各展所长1.SVG/HTML能生成单调但数学精度极高的视觉效果。2.图像生成模型能生成令人惊叹的视觉效果但在处理数学和文本方面不太可靠。“给它一个轮廓让它在上面作画”1.第一层“底图”确定性用喜欢的语言或格式如SVG、Python、Mermaid将数字和文本正确地布局在相应位置和方向上只需导出包含数字和文本像素的图像即可。2.第二层“绘画”生成性使用像Gemini 3.0 Pro这样的多模态图像模型需要图像 文本输入 → 图像输出将底图和文本提示一起输入。示例1.步骤1用SVG生成数字/文本轮廓生成一个SVG图像包含50块踏脚石呈螺旋状排列从外侧起点1开始逆时针向内盘旋到中心终点50结束每块石头从1到50连续编号。每块石头形状不同圆形、方形、三角形、六边形。2.步骤2使用底图进行图像到图像的生成将这张图像转换为一张拍摄的黏土动画模型展示各种手工巧克力和糖果呈螺旋状排列从外侧起点1开始逆时针向内盘旋到中心终点50结束从低角度倾斜视角观看。就是这么简单这并不难。现在Claude Code或Codex可以为你完成每一步。注意这个方法很好但并非每次都能达到完美效果。比如有张图里就有点小问题。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2582281.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!