HKUDS开源项目:DeepTutor、Paper2Slides、ViMax、FastCode

news2026/5/5 6:05:19
之前写过HKUDS港大实验室介绍。DeepTutor官网HKUDS开源GitHub10.5K Star1.4K Fork集成文档问答、可视化讲解、智能出题、深度研究于一体的个人学习助手。核心能力文档知识问答多Agent问题求解能力交互式可视化讲解智能出题与模拟深度研究模式部署dockerrun-d--namedeeptutor\-p8001:8001-p3782:3782\-eLLM_MODELgpt-4o\-eLLM_API_KEYyour-api-key\-eLLM_HOSThttps://api.openai.com/v1\-eEMBEDDING_MODELtext-embedding-3-large\-eEMBEDDING_API_KEYyour-api-key\-eEMBEDDING_HOSThttps://api.openai.com/v1\-v$(pwd)/data:/app/data\-v$(pwd)/config:/app/config:ro\ghcr.io/hkuds/deeptutor:latest浏览器打开http://localhost:3782开始体验API文档在http://localhost:8001/docs。Python示例importasynciofromsrc.agents.solveimportMainSolverfromsrc.agents.questionimportAgentCoordinatorasyncdefmain():solverMainSolver(kb_nameai_textbook)resultawaitsolver.solve(question计算 x[1,2,3] 和 h[4,5] 的线性卷积,modeauto)print(result[formatted_solution])asyncio.run(main())asyncdefmain():coordinatorAgentCoordinator(kb_nameai_textbook,output_dirdata/user/question)# 从文本需求生成多个题目resultawaitcoordinator.generate_questions_custom(requirement_text生成3道关于向量数据库的中等难度题目,difficultymedium,question_typechoice,count3)print(f✅生成{result[completed]}/{result[requested]}道题目)forqinresult[results]:print(f- 相关性:{q[validation][relevance]})Paper2SlidesGitHub3.1K Star418 Fork。把生成PPT这件事做得更专业一些基于专业论文生成PPT。功能通用文档支持可同时无缝处理PDF、三件套、Markdown等多种文件格式全面的内容提取RAG驱动机制确保每个关键见解、数字和数据点都能被精确捕获来源链接准确性保持生成内容与原始来源之间的直接可追溯性消除信息漂移自定义样式自由从专业的内置主题中选择或用自然语言描述您的想法以进行自定义样式设计闪电般快速的生成即时预览模式可实现快速实验和实时改进无缝会话管理高级检查点系统可保留所有进度立即暂停、恢复或切换主题而不会丢失任何进度专业级视觉效果提供符合出版质量标准的精美、可直接用于演示的幻灯片和海报优势支持多worker并行生成对长文档非常友好。提供命令行工具包括Docker、Conda部署适合科研人员网页使用方式可降低使用门槛适合学生群体实战gitclone https://github.com/HKUDS/Paper2Slides.gitcdPaper2Slides conda create-npaper2slidespython3.12-yconda activate paper2slides pipinstall-rrequirements.txt启动Web界面./scripts/start.sh同时启动后端和前端服务浏览器访问http://localhost:5173开始体验。命令行示例python-mpaper2slides--inputpaper.pdf--outputslides--lengthmedium python-mpaper2slides--inputpaper.pdf--outputposter--styleminimalist with blue theme--densitymedium python-mpaper2slides--inputpaper.pdf--outputslides--fastpython-mpaper2slides--inputpaper.pdf--outputslides--parallel2# 启用并行生成默认2个工作进程python-mpaper2slides--list# 列出所有已处理的输出支持的命令行参数选项描述默认值--input,-i输入文件夹目录必填--output输出类型支持slidesorposterposter--content内容类型paperorgeneralpaper--style风格academic,doraemon,orcustomdoraemon--length页数长度short,medium,longshort--densityPosterdensity:sparse,medium,densemedium--fast快速模式跳过RAG检索false--parallel是否开启并行生成--parallel表示使用2个worker--parallel N表示使用N个worker1(sequential without this option)--from-stageForce restart from stage:rag,summary,plan,generateAuto-detect--debug是否开启调试日志falseViMaxGitHub2.5K Star445 Fork.。AI视频领域长期存在的“三秒魔咒”长视频画面崩坏、角色不一致仍未完全破解香港大学数据智能实验室开源的ViMax(Agentic Video Generation)框架给出工程化答案以多智能体协作架构复刻文本到视频的自动化创作逻辑通过RAG、VLM视觉校验等技术直击长视频核心痛点支持创意、小说、剧本生成及角色无缝植入四大模式且开源可定制、支持本地部署。提出一种区别于“训练更大模型”的工程化解法。不再试图用一个模型解决所有问题而是构建一个多智能体协作系统。ViMax扮演“制片人”和“导演”的角色调度LLM负责剧本调度图像模型负责分镜调度视频模型负责动态生成并通过一致性校验机制将它们串联起来。核心价值在于长程叙事控制将模糊创意转化为精确的执行指令并通过代理工作流Agentic Workflow解决长视频生成中的一致性难题。四大核心应用模式创意到视频(Idea-to-Video)全自动化的叙事构建。自动化程度最高的模式旨在将“一句话灵感”转化为“完整视频”。用户只需输入一个简单的脑洞ViMax内置的编剧智能体Screenwriter Agent会自动扩写故事线补充情节冲突导演智能体会将其转化为分镜脚本并自动调度图像和视频生成器完成制作。适用于快速原型验证、儿童故事生成或短视频创意测试屏蔽复杂的提示词工程让用户专注于创意本身。小说到视频(Novel-to-Video)基于RAG的长文本改编。视频生成模型通常无法处理小说级别的长文本输入Context Window限制。系统分析长篇小说识别关键情节与核心对话将其转化为标准的分集视频脚本。通过RAG建立视觉资产索引在生成第50个镜头时系统能检索第1个镜头中主角的视觉特征确保角色在长篇幅中不“换脸”。这是小说推文、有声书视觉化改编的杀手级功能。剧本到视频(Script-to-Video)导演级的精准控制。对于专业创作者允许直接输入行业标准的剧本格式。系统能解析专业剧本标记如EXT. SCHOOL GYM - DAY。不仅仅是理解文本还能根据剧本中的镜头描述如“特写”、“广角”来指导视频模型的运镜生成。适用于影视预演Pre-viz和专业广告分镜制作创作者可以精确控制每一个镜头的调度。智能客串(Smart Cameo)用户角色的无缝植入。一个极具互动性的功能解决了“如何让自己进入AI电影”的问题。ViMax采用身份保持Identity Consistency技术。用户上传一张照片系统会在生成过程中将该人物的视觉特征注入到每一个分镜中。与简单的后期换脸不同这种方式能确保人物在不同光影、角度下与环境的融合更加自然。这适用于个性化视频贺卡、沉浸式互动视频、虚拟形象内容生产。技术架构与运行原理ViMax的本质是一个调度框架而非单一生成模型理解其架构有助于在部署时进行配置。多智能体协作系统ViMax模拟一个影视制作团队中央调度Central Dispatch负责资源分配和流程控制编剧智能体调用LLM如Gemini进行文本理解和剧本拆解视觉智能体调用Image Generator如Nano Banana生成分镜首帧视频智能体调用Video Generator如Veo基于首帧生成动态视频。一致性保障机制为了防止长视频崩坏引入双重校验视觉资产索引系统会维护一个Asset Bank存储已生成的角色和场景图。生成新镜头时会强制检索相关联的旧镜头作为参考Reference Image。VLM校验官在生成关键帧时系统会并行生成多张备选图并调用多模态大模型VLM像人类导演一样进行打分剔除构图错误或角色不一致的画面。对比在AI视频生成工作流领域除ViMax市场上还有Oiioii、Seko、Moki等产品。将从产品形态、控制力及一致性方案三个维度进行客观对比。对比项目产品形态一致性方案可控性部署难度生成质量适用人群ViMax开源代码框架不含底模需自行配置API侧重架构与调度代码级检索VLM校验通过逻辑强制检索历史帧并用模型自动筛选提供极高(White-box)控制开发者可修改调度逻辑更换底层模型(如换成GPT-4)高需懂Python需配置环境与API Key取决于接入的模型上限由接入的API(如Veo)决定适合开发者、管线工程师需要搭建私有化、可定制的视频生产流水线Oiioii故事创作工具侧重文本到视频流的转化体验侧重叙事连贯侧重于文本层面的剧情衔接提供中等控制依赖预设模版与参数或文本指令精度低注册账号或网页/App操作即可流畅侧重生成速度适合网文/故事作者SekoAI视频工具侧重特定风格流与社区分享采用风格迁移通过强风格化滤镜掩盖细节瑕疵提供中等控制依赖预设模版与参数或文本指令精度低注册账号或网页/App操作即可风格化强特定风格表现好适合C端娱乐用户Moki网页端SaaS高度集成的在线工作台开箱即用使用角色库(Character Bank)用户预设角色系统在生成时强制约束LoRA/Ref提供高(UI-based)控制提供图形化的分镜调整、重绘功能低注册账号或网页/App操作即可稳定平台调优过的模型参数有底线保证适合产品经理、内容创作者需要快速产出成品视频分析结论Moki/Seko/Oiioii是封装好的商业产品体验好但黑盒化。ViMax是一个技术脚手架。它不提供算力但提供了逻辑。对于希望拥有“源代码级”控制权或者希望将最新的模型如DeepSeek、Flux整合进视频流的开发者来说ViMax是不错的选择。实战本地部署指在本地运行智能体调度代码实际的图像和视频渲染依赖于配置文件中指定的API默认为Google Gemini/Veo。支持Linux和Windows系统官方推荐使用uv进行包管理以避免Python依赖冲突。gitclone https://github.com/HKUDS/ViMax.gitcdViMax uvsyncViMax的运行完全依赖于configs/idea2video.yaml配置文件需配置聊天模型大脑用于剧本生成和逻辑调度、图像生成器画师用于生成分镜首帧和视频生成器摄影师用于生成动态视频。chat_model:init_args:model:google/gemini-2.5-flash-lite-preview-09-2025model_provider:openaiapi_key:base_url:https://openrouter.ai/api/v1# Rate limits for chat model API calls# Set to null to disable rate limiting for this servicemax_requests_per_minute:500max_requests_per_day:2000image_generator:class_path:tools.ImageGeneratorNanobananaGoogleAPIinit_args:api_key:max_requests_per_minute:10max_requests_per_day:500video_generator:class_path:tools.VideoGeneratorVeoGoogleAPIinit_args:api_key:max_requests_per_minute:2max_requests_per_day:10working_dir:.working_dir/idea2video运行模式创意生成视频(Idea-to-Video)配置好YAML文件后编辑项目根目录下的main_idea2video.py脚本填入创意# 定义创意idea\If a cat and a dog are best friends, what would happen when they meet a new cat?# 定义约束条件user_requirement\For children, do not exceed 3 scenes.# 定义风格styleCartoon执行生成python main_idea2video.py。程序运行后会看到控制台输出智能体的思考过程最终生成的视频将保存在.working_dir/idea2video目录下。剧本生成视频 (Script-to-Video)如果有具体剧本配置configs/script2video.yaml编辑main_script2video.pyscript\EXT. SCHOOL GYM - DAYA group of students are practicing basketball in the gym. The gym is large and open, with a basketball hoop at one end and a large crowd of spectators at the other end. John (18, male, tall, athletic) is the star player, and he is practicing his dribble and shot. Jane (17, female, short, athletic) is the assistant coach, and she is helping John with his practice. The other students are watching the practice and cheering for John.John: (dribbling the ball) Im going to score a basket!Jane: (smiling) Good job, John!John: (shooting the ball) Yes!...user_requirement\Fast-paced with no more than 20 shots.styleAnimate Style执行生成python main_script2video.pyViMax的发布为AI视频生成提供一个工业化样本。证明在底层模型能力尚未达到完美的今天通过工程化的手段Agentic Workflow依然能构建出可用的长视频生产管线。不仅仅是一个工具更是一个开源的多模态调度协议。对于企业和开发者而言最大价值在于其架构的可复用性。完全可以保留ViMax的调度逻辑将底层的大脑换成DeepSeek将画师换成Flux将摄影师换成CogVideoX从而搭建一套完全私有化、零API成本的自动化视频工厂。FastCode港大开源GitHub2K Star220 Fork的代码提速推理框架效率是Cursor和Claude Code的三倍但使用成本却比他们低50%。核心三段式框架让大模型读懂整个项目代码的骨架根据指令精准定位与当前问题最相关的代码片段成本感知在有限的上下文窗口里筛选出含金量最高的上下文交给大模型进行推理和回答让大模型在面对庞大复杂项目时依然能找得准、跑得快还省钱。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2418415.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…