Lumina-mGPT图像生成;清华大学研发的首个开源预训练文本生成视频模型;Medical SAM 2实现2D和3D医学图像分割

news2025/6/24 8:53:51

✨ 1: Lumina-mGPT

Lumina-mGPT是一种多模态自回归模型,尤其擅长将文本描述生成灵活逼真的图像。

在这里插入图片描述

Lumina-mGPT是一系列多模态自回归模型,能够处理多种视觉和语言任务,其中尤为擅长从文本描述中生成灵活的真实感图像。该模型家族由Alpha-VLLM团队研发,适用于多种多模态生成和理解任务。

图像生成(Image Generation)
从文本描述生成对应的高质量图像。例如,输入一段描述“狗在玩水,背景有瀑布”的文本,Lumina-mGPT可以生成符合描述的图像。

图像理解(Image Understanding)
对图像进行详细描述。例如,输入一张图像,模型可以生成该图像的详细文字描述。

多功能任务(Omni-SFT)
支持多种任务,如图像深度估计、图像到图像的转换、图像编辑等。用户可以在单个界面中切换不同任务。

地址:https://github.com/Alpha-VLLM/Lumina-mGPT

✨ 2: CogVideo

CogVideo 是清华大学研发的首个开源预训练文本生成视频模型,CogVideoX 系列进一步增强了视频生成的能力。

在这里插入图片描述

CogVideo是清华大学开发的一种用于文本生成视频的预训练模型,采用了Transformer结构。它是第一个公开的预训练文本到视频生成模型,已在ICLR’23 上正式发布。CogVideo可以生成高帧率的视频,具备较强的生成能力。而CogVideoX是CogVideo系列视频生成模型的一个开源版本,支持更大规模的参数和更多的视频生成功能。

地址:https://github.com/THUDM/CogVideo

✨ 3: WiseFlow

WiseFlow 是一个智能信息提取工具,可从多个来源自动分类并上传数据到数据库。

在这里插入图片描述

WiseFlow 是一个敏捷的信息提取工具,能够从各种来源(如网站、微信公众号、社交媒体平台)中,根据预定义的关注点提炼信息,自动对标签进行分类,并上传到数据库。其主要功能是帮助用户节省时间、过滤无关信息,并组织重点关注的信息。

地址:https://github.com/TeamWiseFlow/wiseflow

✨ 4: Medical SAM 2

Medical SAM 2利用SAM 2框架,实现2D和3D医学图像分割。

在这里插入图片描述

Medical SAM 2(简称MedSAM-2)是一种高级图像分割模型,基于SAM 2框架,专门用于处理2D和3D的医疗图像分割任务。该模型通过把医疗图像当作视频来分割,展现了较为突出的性能。具体细节请参见论文:Medical SAM 2: Segment Medical Images As Video Via Segment Anything Model 2。

地址:https://github.com/MedicineToken/Medical-SAM2

✨ 5: Structured Outputs in the API

OpenAI引入API结构化输出

在这里插入图片描述

openai正在API中引入了Structured Outputs。这是一项新功能,旨在确保模型生成的输出能够准确匹配由开发人员提供的JSON模式。这对于以API构建可靠应用程序的开发人员来说是一个重要的里程碑,因为此功能将提高模型的可靠性。Structured Outputs 可以通过函数调用或在响应格式中使用 JSON Schema。

除了可以通过函数调用 Structured Outputs,还可以通过响应格式参数中的 JSON Schema 使用。这对于最新发布的 GPT-4o 型号适用,包括 gpt-4o-2024-08-06 和 gpt-4o-mini-2024-07-18。开发人员在使用此功能时需要注意以下几点限制和限制条件,包括只允许使用一部分JSON模式,对新模式的第一次请求可能会产生额外延迟,以及模型拒绝请求或在生成一定数量的 tokens 后结束可能会导致模型无法按模式执行。Structured Outputs 在 API 中已经发布,并且支持函数调用和响应格式两种使用方式。

地址:https://openai.com/index/introducing-structured-outputs-in-the-api/

更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1988074.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【EtherCAT】Windows+Visual Studio配置SOEM主站——静态库配置+部署

目录 一、准备工作 1. Visual Studio 2022 2. Npcap 1.79 3. SOEM源码 二、静态库配置 1. 修改SOEM源码配置 2. 编译SOEM源码 3. 测试 三、静态库部署 1. 新建Visual Studio工程 2. 创建文件夹 3. 创建主函数 4. 复制静态库 5. 复制头文件 6. 配置头文件…

[Java]栈--Stack

前言 熟悉Class Stack. 栈 关于栈—笔者的C语言描述 java.util包有Stack集合类. JDK17的Stack源码非常简单,能相对轻易看懂. 我们能用Stack类来充当栈,Java框架中LinkedList(双向链表)实现了双端队列(Deque),也能当作栈使用. Stack类是基于数组实现. public Stack<E>…

腾讯云AI代码助手:AI辅助编写测试用例,测试从此不求人

目录 引言 开发环境介绍 实例&#xff1a;编写测试用例 帮助与提升 建议 结语 引言 在软件开发过程中&#xff0c;编写测试用例是确保代码质量的重要环节。然而&#xff0c;对于新手编程学习者来说&#xff0c;撰写高质量的测试用例可能是一个巨大的挑战。AI 代码助手作为一个智…

基于Android aosp系统的云手机chromium浏览器定制

chromium定制浏览器 chromium源码下载get属性c或者c层常见指纹检测指标 chromium源码下载 最新有点时间研究了一些 网上定制chromium 浏览器的方案&#xff0c;大部分都是基于window的&#xff0c; 修改点无非以下监测点。自己本身做Android系统开发&#xff0c;就想着能否做一…

【AI大模型】Langchain探秘之旅:深入Prompt世界,解锁多种PromptTemplate的实战奇技!

文章目录 前言一、Langchain 概述1. 概述2. 应用场景3. 案例 二、Prompt1.Prompt 介绍2.PromptTemplatea.PromptTemplate 案例单个参数多个参数多个参数-结合字典解包 b.使用jinja2与f-string来实现提示词模板格式化 3.ChatPromptTemplatea.ChatPromptTemplate 介绍b.ChatPromp…

2024年8月一区SCI-海市蜃楼优化算法Fata morgana algorithm-附Matlab免费代码

引言 本期介绍了一种基于地球物理的高效优化方法名为海市蜃楼优化算法Fata morgana algorithm&#xff0c;FATA的元启发式算法。通过模拟海市蜃楼的形成过程&#xff0c;FATA分别设计了海市蜃楼滤光原理(MLF)和光传播策略(LPS)。该成果于2024年8月最新上线在JCR 1区&#xff0…

C#重要知识归纳总结

C#教程 C# 结构体&#xff08;Struct&#xff09; | 菜鸟教程C# 结构体&#xff08;Struct&#xff09; 在 C# 中&#xff0c;结构体&#xff08;struct&#xff09;是一种值类型&#xff08;value type&#xff09;&#xff0c;用于组织和存储相关数据。 在 C# 中&#xff0c…

学习c语言第二十二天(c语言文件操作)

1. 为什么使用文件&#xff1f; 我们前面学习结构体时&#xff0c;写了通讯录的程序&#xff0c;当通讯录运行起来的时候&#xff0c;可以给通讯录中增加、删除数据&#xff0c;此时数据是存放在内存中&#xff0c;当程序退出的时候&#xff0c;通讯录中的数据自然就不存在了&…

工地人员定位系统的功能和作用

工地人员定位系统是一种基于实时定位技术的管理系统&#xff0c;旨在为施工单位提供安全、高效的管理服务。该系统可以对工人进行实时监控与管理&#xff0c;极大地提高了工地施工安全性和工作效率&#xff0c;降低了工伤事故频率。通过使用该系统&#xff0c;施工单位能够实时…

解决mqtt在线或离线监听问题的多种方法

目录 前言 优缺点&#xff1a; 1.创建 DeviceMqttCallBacked类&#xff0c;实现 MqttCallbackExtended 接口&#xff0c;添加带cleintId参数的构造方法。 2. 在Mqtt连接成功之后&#xff0c;设置回调类。 3.执行上述代码&#xff0c;查看emqx界面 4.从emqx上踢除设备 5…

html+css 实现hover酷炫发光按钮

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享htmlcss 绚丽效果&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495; 文…

“5G+Windows”推动全场景数字化升级:美格智能5G智能模组SRM930成功运行Windows 11系统

操作系统作为连接用户与数字世界的桥梁&#xff0c;在数字化迅速发展的时代扮演着至关重要的角色&#xff0c;智能设备与操作系统的协同工作&#xff0c;成为推动现代生活和商业效率的关键力量。其中&#xff0c;Windows系统以其广泛的应用基础和强大的兼容性成为全球最广泛使用…

服务器启动jar包的时候报”no main manifest attribute“异常(快捷解决)

所以,哥们,又出现问题咯.没事,我也出现了,哈哈哈哈哈,csdn感觉太麻烦了,所以搞了一篇这个. 没得事,往下看,包解决的. 希望可以帮助到各位&#xff0c;感谢阅览&#xff01; 小手点个赞&#xff0c;作者会乐烂哈哈哈哈哈哈&#x1f606;&#x1f606;&#x1f606;&#x1f606…

Linux中多线程压缩软件 | Mingz

原文链接&#xff1a;Linux中多线程压缩软件 本期教程 软件网址&#xff1a; https://github.com/hewm2008/MingZ安装&#xff1a; git clone https://github.com/hewm2008/MingZ.git cd MingZ make cd bin ./mingz -h使用源码安装&#xff1a; 若是你的git无法使用安装&am…

【IEEE出版 | 高校主办】第三届人工智能、物联网和云计算技术国际会议(AIoTC 2024)

第三届人工智能、物联网和云计算技术国际会议&#xff08;AIoTC 2024&#xff09; 2024 3rd International Conference on Artificial Intelligence, Internet of Things and Cloud Computing Technology 2024年9月13-15日 | 中国武汉 重要信息 大会官网&#xff1a;www.ic…

Jboss 漏洞

一.CVE-2015-7501 访问/invoker/JMXInvokerServlet 开启下载存在漏洞 二.CVE-2017-7504 三CVE-2017-12149 启动vulhub环境&#xff0c;访问/invoker/readonly出现如下界面&#xff0c;说明存在漏洞 使用工具连接 四.Administration Console弱⼝令 访问/admin-console/login…

高职物联网智慧农业实训室建设方案

一、项目概述 随着物联网技术的迅猛发展及其在农业领域的广泛应用&#xff0c;智慧农业已经成为推动农业现代化的关键力量。近年来&#xff0c;国家高度重视物联网技术在农业领域的应用与发展&#xff0c;出台了一系列相关政策支持智慧农业建设。如《数字乡村发展战略纲要》明…

Dubbo框架实现RPC远程调用

项目背景介绍 这个技术我是直接在项目中运用并且学习的&#xff0c;所以我写笔记最优先的角度就是从项目背景出发 继上一次API网关完成了这个实现用户调用一次接口之后让接口次数增多的操作之后&#xff0c;又迎来了新的问题。 就是我们在调用接口的时候需要对用户进行校验&…

苍穹外卖day12(day15)---数据统计——Excel报表(项目完结)

工作台 接口设计 新建admin/WorkSpaceController /*** 工作台*/ RestController RequestMapping("/admin/workspace") Slf4j Api(tags "工作台相关接口") public class WorkSpaceController {Autowiredprivate WorkspaceService workspaceService;/*** 工…

★WIN10计算器程序员版的使用说明(详细)

主界面 拉动边框的角&#xff1a; 1.进制转换 HEX(hexadecimal)&#xff1a;显示十六进制&#xff0c;DEC(decimal)&#xff1a;显示十进制&#xff0c;OCT(octonary)&#xff1a;显示八进制&#xff0c;BIN(binary):显示二进制 例如&#xff1a; 选中HEX 0~9&#xff0c;A…