脑机接口,Meta裁50+高管,大模型文本压缩处理,大模型与推荐系统,Luma AI视频工具亮相

news2026/4/2 12:35:37

更多内容:

https://agifun.love

智源社区

北京线下:基于脑机接口的视觉重建前沿进展丨周六直播·脑机接口读书会

导语

人类70%以上的感知是通过视觉完成的,且有超过1/3的脑组织参与视觉相关的信息处理,因此视觉是极其重要的感知功能。由于外伤和先天后天的疾病造成的视觉损失严重的影响了人们的生存质量,且其中相当一部分疾病和外伤是无法通过眼科矫正或眼科手术来进行恢复。基于脑机接口技术的人工视觉假体新进展给这类病人带来了新的希望。为了进一步梳理脑机接口相关理论与技术前沿,集智俱乐部联合清华大学高小榕、中科院自动化所刘冰、中科院深圳先进院李骁健、清华大学眭亚楠四位老师,发起「脑机接口」读书会。读书会从2024年5月19日开始,每周六19:00-21:00线上举办,持续时间10周左右,欢迎大家加入!简介目前相关研究表...

来源:http://mp.weixin.qq.com/s?__biz=MzIzMjQyNzQ5MA==&mid=2247692369&idx=2&sn=ccd95b50b45d83fe1dff3b4a592d8cc5&chksm=e9d1c4fea0108ee40e25afe33aeb245c3f1b1668af4f107044c1eb763ff62056b1e2d2469f82&scene=0&xtrack=1#rd

InfoQ

越来越多企业采用AI,工业、药物研发、零售等行业加速转型

通过AI技术识别新的机会点,推进产业迈向高效与可持续。

来源:https://www.infoq.cn/article/UAboZWAP114wzq39JYiA

一次性裁掉 50 多名副总裁!小扎的冷血管理哲学:高管也是打工人

在马克·扎克伯格的“永久”效率模式中,Meta 副总裁正受到排挤。

来源:https://www.infoq.cn/article/UftP2CSO2LaqaTy9vhIz

两度入选CVPR,海量视频数据+AI大模型加持,快手KVQ打造视频质量评价“黄金眼”

当前,人类每天创造出约1.77亿TB的视频数据,累计时长足以从史前时代连续播放到现在。如何准确评判视频质量,并兼顾成本和体验,让有限的带宽和算力真正用在“刀刃”上,成为行业的一大难题。

来源:https://www.infoq.cn/article/gc3oNgtmlcZTr0cAqr9y

喜发新模型,却被众嘲是破产“前兆”!Stability AI “最强”模型人形绘制太“阴间”,网友:因为研发太讲武德

6月12日,Stability AI 推出了 Stable Diffusion 3 Medium,这家英国初创公司称其为“迄今为止最先进的文本到图像开放模型”。

来源:https://www.infoq.cn/article/29AtySiZV6MB129O6Xxe

美图奇想大模型进阶至V5,一口气发布6款新品喊话友商:快来抄作业

从诞生至今已经步入第16个年头的美图,已经不再只是一个纯C端产品。

来源:https://www.infoq.cn/article/eSLdPhJ3dD4WC88KS8tY

Aminer.cn

文本压缩与大型语言模型:长文本处理的革新

想把握最新的科技进展和研究成果,却发现自己的阅读速度根本赶不上文献产出的速度?

来源:https://www.aminer.cn/research_report/6668fc88c028d8419b0f8b66

北大团队提出 BoT:让 Llama3-8B 超越 Llama3-70B|大模型周报

Mamba-2:速度提高 2-8 倍,与 Transformers 媲美

来源:https://www.aminer.cn/research_report/6668fb5dc028d8419b0f8a50

大型语言模型的不确定性表达:忠实度与准确性

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。

来源:https://www.aminer.cn/research_report/665fc8bac028d8419b0a4168

清华大学唐杰:大模型与超级智能

本文探讨了大模型的发展历程,介绍了作者团队研发的GLM-4大模型,并针对AGI研究面临的挑战对AGI未来发展提出了一些思考。

来源:https://www.aminer.cn/research_report/665fc671c028d8419b0a3f77

训练数据匮乏:LLM在正式定理证明中的挑战

别担心,AMiner AI会帮助你高效检索和阅读文献!

来源:https://www.aminer.cn/research_report/665d2bd6c028d8419b08ba06

arXiv.org

Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs

with Nothing High-quality instruction data is critical for aligning large language models (LLMs). Although some models, such as Llama-3-Instruct, have open weights, their alignment data remain private, which hinders the democratization of AI. High human labor costs and a limited, predefined scope for prompting prevent existing open-source data creation methods from scaling effectively, potentially limiting the diversity and quality of public alignment datasets. Is it possible to synthesize high-quality instruction data at scale by extracting it directly from an aligned LLM? We present a self-synthesis method for generating large-scale alignment data named Magpie. Our key observation is that aligned LLMs like Llama-3-Instruct can generate a user query when we input only the left-side templates up to the position reserved for user messages, thanks to their auto-regressive nature. We use this method to prompt Llama-3-Instruct and generate 4 million instructions along with their corresponding responses. We perform a comprehensive analysis of the extracted data and select 300K high-quality instances. To compare Magpie data with other public instruction datasets, we fine-tune Llama-3-8B-Base with each dataset and evaluate the performance of the fine-tuned models. Our results indicate that in some tasks, models fine-tuned with Magpie perform comparably to the official Llama-3-8B-Instruct, despite the latter being enhanced with 10 million data points through supervised fine-tuning (SFT) and subsequent feedback learning. We also show that using Magpie solely for SFT can surpass the performance of previous public datasets utilized for both SFT and preference optimization, such as direct preference optimization with UltraFeedback. This advantage is evident on alignment benchmarks such as AlpacaEval, ArenaHard, and WildBench.

来源:http://arxiv.org/abs/2406.08464v1

OLMES: A Standard for Language Model Evaluations

Progress in AI is often demonstrated by new models claiming improved performance on tasks measuring model capabilities. Evaluating language models in particular is challenging, as small changes to how a model is evaluated on a task can lead to large changes in measured performance. There is no common standard setup, so different models are evaluated on the same tasks in different ways, leading to claims about which models perform best not being reproducible. We propose OLMES, a completely documented, practical, open standard for reproducible LLM evaluations. In developing this standard, we identify and review the varying factors in evaluation practices adopted by the community - such as details of prompt formatting, choice of in-context examples, probability normalizations, and task formulation. In particular, OLMES supports meaningful comparisons between smaller base models that require the unnatural "cloze" formulation of multiple-choice questions against larger models that can utilize the original formulation. OLMES includes well-considered recommendations guided by results from existing literature as well as new experiments investigating open questions.

来源:http://arxiv.org/abs/2406.08446v1

Dynamic Retrieval Augmented Generation of Ontologies using Artificial

Intelligence (DRAGON-AI) Background: Ontologies are fundamental components of informatics infrastructure in domains such as biomedical, environmental, and food sciences, representing consensus knowledge in an accurate and computable form. However, their construction and maintenance demand substantial resources and necessitate substantial collaboration between domain experts, curators, and ontology experts. We present Dynamic Retrieval Augmented Generation of Ontologies using AI (DRAGON-AI), an ontology generation method employing Large Language Models (LLMs) and Retrieval Augmented Generation (RAG). DRAGON-AI can generate textual and logical ontology components, drawing from existing knowledge in multiple ontologies and unstructured text sources. Results: We assessed performance of DRAGON-AI on de novo term construction across ten diverse ontologies, making use of extensive manual evaluation of results. Our method has high precision for relationship generation, but has slightly lower precision than from logic-based reasoning. Our method is also able to generate definitions deemed acceptable by expert evaluators, but these scored worse than human-authored definitions. Notably, evaluators with the highest level of confidence in a domain were better able to discern flaws in AI-generated definitions. We also demonstrated the ability of DRAGON-AI to incorporate natural language instructions in the form of GitHub issues. Conclusions: These findings suggest DRAGON-AI's potential to substantially aid the manual ontology construction process. However, our results also underscore the importance of having expert curators and ontology editors drive the ontology generation process.

来源:http://arxiv.org/abs/2312.10904v2

Tailoring Generative AI Chatbots for Multiethnic Communities in Disaster

Preparedness Communication: Extending the CASA Paradigm This study is among the first to develop different prototypes of generative AI (GenAI) chatbots powered by GPT 4 to communicate hurricane preparedness information to diverse residents. Drawing from the Computers Are Social Actors (CASA) paradigm and the literature on disaster vulnerability and cultural tailoring, this study conducted a between-subjects experiment with 441 Black, Hispanic, and Caucasian residents of Florida. A computational analysis of chat logs (N = 7,848) shows that anthropomorphism and personalization are key communication topics in GenAI chatbot-user interactions. SEM results (N = 441) suggest that GenAI chatbots varying in tone formality and cultural tailoring significantly predict bot perceptions and, subsequently, hurricane preparedness outcomes. These results highlight the potential of using GenAI chatbots to improve diverse communities' disaster preparedness.

来源:http://arxiv.org/abs/2406.08411v1

Large Language Models Must Be Taught to Know What They Don't Know

When using large language models (LLMs) in high-stakes applications, we need to know when we can trust their predictions. Some works argue that prompting high-performance LLMs is sufficient to produce calibrated uncertainties, while others introduce sampling methods that can be prohibitively expensive. In this work, we first argue that prompting on its own is insufficient to achieve good calibration and then show that fine-tuning on a small dataset of correct and incorrect answers can create an uncertainty estimate with good generalization and small computational overhead. We show that a thousand graded examples are sufficient to outperform baseline methods and that training through the features of a model is necessary for good performance and tractable for large open-source models when using LoRA. We also investigate the mechanisms that enable reliable LLM uncertainty estimation, finding that many models can be used as general-purpose uncertainty estimators, applicable not just to their own uncertainties but also the uncertainty of other models. Lastly, we show that uncertainty estimates inform human use of LLMs in human-AI collaborative settings through a user study.

来源:http://arxiv.org/abs/2406.08391v1

齐思

齐思头条2024/06/13「Google DeepMind发布TORAX模拟器,ARC PRIZE推出百万美元AI竞赛,LiveBench AI引入动态LLM基准测试,Meta Llama 3黑客马拉松展示50多个项目,Stable Diffusion 3 Medium发布」

Twitter:

Google DeepMind的TORAX模拟器发布 : Google DeepMind的Fusion团队发布了TORAX,一个开源的托卡马克传输模拟器,使用JAX进行快速、可微分的模拟,并易于与ML代理耦合。此工具旨在推进聚变能量研究,详细信息请见此处。

ARC PRIZE: $1,000,000 AI竞赛 : François Chollet和Mike Knoop发起了ARC PRIZE,一项奖金超过100万美元的竞赛,旨在创建能够适应新颖性并解决简单推理问题的AI,推动AGI的发展。更多详情请见ARC Prize网站和Kaggle竞赛页面。

LiveBench AI: 无法被操纵的LLM基准测试 : Abacus AI与Yann LeCun合作推出了LiveBench AI,一个动态的LLM基准测试,介绍了新的挑战,无法像传统的人类评估那样被操纵。更多详情请见此处。

Meta Llama 3黑客马拉松 : Meta与Cerebral Valley举办了首届Meta Llama 3黑客马拉松,吸引了超过350名参与者,在24小时内创建了50多个项目,展示了Meta Llama 3模型的潜力。详细信息请见此处。

Stable Diffusion 3 Medium发布 : Stability AI宣布发布Stable Diffusion 3 Medium,这是他们最新和最先进的文本到图像AI模型,标志着生成式AI发展的一个重要里程碑。更多详情请见此处。

OpenAI和微软的战略云关系 : OpenAI澄清其与微软的战略云关系保持不变,尽管与OCI合作使用Azure AI在OCI基础设施上进行推理和其他需求。详细信息请见此处。

PGVECTOR性能超越Pinecone : PGVECTOR推出了pgvectorscale,一个开源的PostgreSQL扩展,大大提高了向量搜索的性能和成本效率,通过减少28倍的延迟和增加16倍的吞吐量,超越了Pinecone。更多详情请见此处。

TextGrad: 通过文本进行自动微分 : TextGrad系统引入了通过文本进行自动“微分”,通过LLM提供的文本反馈来改进复合AI系统的各个组件。此方法在LeetCode-Hard上显示了20%的相对增益,并在GPQA上提高了性能。详细信息请见研究论文。

Google扩展RecurrentGemma到90亿参数 : Google成功将其RecurrentGemma模型扩展到90亿参数,标志着高效深度学习研究的重大进展。此扩展预计将增强模型在各种应用中的能力和性能。更多详情请见公告。

Apple的3B参数SLM本地模型 : 在Apple的年度会议上,推出了一个新的3B参数SLM本地模型,使用适配器训练特定功能。此模型可以在本地或Apple的安全云上运行,与OpenAI的模型有所不同。详细信息请见此处。

RAG Over Excel Files by LlamaIndex : LlamaIndex引入了RAG(检索增强生成)技术,解决了在空间网格中格式化内容的挑战,特别是处理包含多个不连续表格的Excel文件。更多信息请见此处。

Google AI的Smart Paste工具 : Google AI推出了Smart Paste,一个内部工具,通过自动调整粘贴的代码来简化代码编写,提高代码开发的效率。更多详情请见Google AI博客。

AI驱动的个性化健康体验 : Google AI的最新研究论文强调了如何通过微调Gemini模型创建个性化的健康体验,适应个人的健康旅程。更多详情请见Google AI博客。

AlphaFold的全球影响 : 由Google DeepMind开发的AlphaFold已被来自120个国家的科学家使用,完成了超过620,000个任务,帮助测试假设和预测复杂的蛋白质-DNA相互作用。更多信息请见Nature文章。

Dream Machine by Luma Labs AI : Luma Labs AI推出了Dream Machine,一个下一代视频模型,使用AI从文本指令和图像创建高质量、逼真的视频镜头。此工具可免费试用,更多详情请见此处。

RecurrentGemma-9B发布 : RecurrentGemma-9B模型利用Griffin架构,结合线性递归和局部注意力,提供更快的推理和下游评估,特别适用于长序列或大批量。详细信息请见公告。

Elon Musk宣布Twitter上的私人点赞功能 : Elon Musk宣布对Twitter功能进行重大更改,使点赞变为私人,以增强用户隐私。用户仍然可以看到自己点赞的帖子,但其他人无法看到,点赞数仍会出现在通知下。更多详情请见推文。

Tesla的自动驾驶更新 : Elon Musk强调了更新后的Tesla车型,指出自动驾驶可能是最具变革性的AI进展之一,对Tesla股东产生重大影响。详细信息请见推文。

Meta Llama 3黑客马拉松回顾 : Meta与Cerebral Valley合作举办了首届Meta Llama 3黑客马拉松,吸引了超过350名与会者,在24小时内完成了50多个项目。详细回顾和顶级项目请见推文。

Google DeepMind的Torax模拟器 : Google DeepMind的Fusion团队开源了Torax,一个快速且可微分的托卡马克模拟器,以加速AI在聚变能量开发中的应用。代码和论文请见此处。

LiveBench: 新的通用实时LLM基准测试 : LiveBench是一个新的通用实时LLM基准测试,解决了现有基准测试的局限性,提供了更全面的评估框架。此项目由@micahgoldblum和@jeremyphoward领导,旨在提高LLM评估的可靠性和稳健性。

Luma AI的Dream Machine发布 : Luma AI发布了Dream Machine,一个AI视频生成器,可以从文本和图像创建视频,现在向公众开放。生成的视频质量备受赞誉,更多详情请见此处。

Apple的LoRA适配器本地模型 : Apple开发了一个使用LoRA适配器的框架,用于在设备上微调模型,通过混合2位和4位配置策略实现高精度。此方法在保持模型质量的同时保留了通用知识,详细信息请见此处。

RecurrentGemma 9B模型发布 : RecurrentGemma 9B模型提供了与Gemma相同的性能,但延迟降低了25%以上,令牌吞吐量更高。基于Griffin架构,可在Transformers中使用,更多信息请见此处。

Suno AI的实时音频输入 : Suno AI现在支持实时音频输入,允许用户上传自己的声音来创作歌曲。此功能在6-60秒的剪辑中效果最佳,详细信息请见此处。

Mixture of Agents框架在AlpacaEval 2.0上取得65.1%的成绩 : Mixture of Agents (MoA)框架利用多个LLM的集体优势,在AlpacaEval 2.0上取得了65.1%的成绩。此框架通过使用前一层的输出来改进响应,增强了语言模型的性能。更多详情请见@Burachenok的推文。

RLOOTrainer在TRL中引入以提高RLHF效率 : RLOOTrainer (REINFORCE Leave One-Out)在TRL中引入,作为一种新的在线RL方法,用于对齐,所需GPU内存更少,收敛速度更快。此方法旨在将“RL”重新带回“RLHF”,详细信息请见@TheZachMueller的推文。

最大化互信息包发布 : 一个用于近似最大化任意两个离散分布之间互信息(MI)的新包已发布。此包实现了高吞吐量、完全安全的语言模型隐写术,详细信息请见@polynoamial的推文。

Chat with MLX 0.2 for Apple Silicon Mac : Chat with MLX 0.2发布,提供了全新的UI/UX、功能齐全的聊天UI以及更好更快的RAG,以增强Apple Silicon Mac上的LLM体验。升级您的AI对话,请访问GitHub链接。

向量数据库和Pinecone API : 向量数据库在AI中用于存储浮点数数组并使用相似性函数进行搜索。一个视频解释了这些数据库的速度以及如何使用Pinecone的API而无需处理服务器,详细信息请见@svpino的推文。

离散扩散模型用于语言和图像建模 : 新的离散扩散模型在语言和像素级图像建模中变得简单且具有竞争力,集成了一个新的变分目标,超越了先前的扩散语言模型。更多信息请见@sedielem的推文。

OpenAI澄清战略云关系 : OpenAI澄清其与微软的战略云关系保持不变。与OCI的合作允许OpenAI在OCI基础设施上使用Azure AI平台进行推理和其他需求,详细信息请见推文。

Stability AI发布Stable Diffusion 3 Medium : Stability AI宣布发布Stable Diffusion 3 Medium的开源权重,这是他们系列中最新和最先进的文本到图像AI模型。此发布标志着生成式AI发展的一个重要里程碑,更多详情请见推文。

HackerNews:

 

**在《毁灭战士》中使用二叉空间分割有多么天才?** [链接](https://news.miracleplus.com/share_link/29771):这篇文章讨论了在经典第一人称射击游戏《毁灭战士》中创新使用二叉空间分割(BSP)。 讨论亮点: - **历史背景和研究** :文章强调了约翰·卡马克通过阅读研究论文的方式,这在计算机科学领域尤其是一种超能力,因为历史研究往往被低估。**旧论文** 可以提供适合现代硬件能力的解决方案,例如现在适合L1或L2缓存的技术。 - **实际应用** :旧研究的实际应用示例包括来自1961年的**数值近似** 和用于颜色恒常性的**受限二色反射模型** 。 - **行业趋势** :行业被批评为**无历史感** ,导致解决方案的重复发明,特别是在操作系统、数据库和语言方面。开源项目往往追求从头解决问题的快感,而不是实现现有的解决方案。 - **ChatGPT的角色** :ChatGPT被视为快速缩小相关文献范围的工具,尽管其有效性存在争议。有些人发现它在数学公式和优化问题上很有用,而另一些人则认为它在复杂任务上不可靠。 - **游戏开发轶事** :游戏开发中的示例,如**《古惑狼》的预计算可见性** 和**每顶点动画** ,展示了对技术限制的创新解决方案,强调了在行业中创造性解决问题的重要性。 **AES-GCM和在重用随机数时破解它** [链接](https://news.miracleplus.com/share_link/29786):这篇文章探讨了在重用随机数时,AES-GCM的安全性如何被完全破坏。讨论亮点: - **重用随机数的风险** :在AES-GCM中重用随机数会导致严重的安全漏洞。如果攻击者知道明文和密文,他们可以通过将它们异或在一起计算出密钥流。即使只知道密文,使用相同随机数异或两个密文也会揭示明文的异或结果。 - **实际场景** :重用随机数在VPN、分组通信和没有非易失性存储的设备中可能会出现问题。全盘加密也面临类似的问题,因为每个块偏移的静态IV派生。 - **随机数生成** :由于随机数大小较小(96位),使用随机随机数会导致许多消息之间的碰撞。推荐使用基于计数器的方法,但由于竞争条件和状态重置,这可能具有挑战性。 - **替代解决方案** :AES-GCM-SIV是一种抗随机数误用的密码,解决了这些问题,但需要对数据进行两次处理。其他替代方案包括XSalsa20、XChaCha20和AEGIS算法家族,它们提供更大的随机数和更好的性能。 - **实现问题** :许多实现错误地将随机数称为“IV”(初始化向量),导致混淆。与AES-CBC相比,AES-GCM中重用随机数的后果更为严重。

Discord:

LlamaIndex的多种聊天引擎类型 :@dmaksimov详细介绍了ChatMode.BESTChatMode.CONTEXTChatMode.CONDENSE_QUESTION等多种聊天引擎类型,每种类型具有独特功能,如使用代理、检索器或直接利用LLM。

RouterRetriever和查询引擎 :@patrasq分享了创建RouterRetrieverRetrieverTools并将其集成到RetrieverQueryEngine中的代码片段,用于检索增强生成(RAG)系统中的推理。

混合Qdrant数据库查询参数 :@LLMomar2108讨论了在使用稀疏和密集向量查询混合Qdrant数据库时得分较弱的问题,寻求设置similarity_top_kalpha等查询参数的建议。

Markdown到纯文本转换 :@mewtoo遇到存储在向量数据库中的文档的Markdown格式问题,解决方案包括使用BeautifulSoup 将Markdown转换为纯文本,参考StackOverflow链接。

使用Mistral微调AI模型 :@andysingal分享了Medium文章,介绍了如何使用Mistral 微调预训练模型以提高性能并减少开发时间,涵盖了库安装、数据准备和使用WandbIntegration 进行监控的步骤。

稳定扩散模型的量化 :@welltoobado提到使用TensorRT 8-bit量化OpenVINO量化 方法在低VRAM上运行稳定扩散模型。

Rust用于NLP :@osanseviero分享了rust-bert,这是一个Rust原生库,支持翻译、摘要和问答等任务,使用多线程分词和GPU推理。

SimCLR PyTorch权重在Hugging Face Hub上 :@sauravmaheshkar将SimCLRv1SimCLRv2 ImageNet-1k权重转换为PyTorch并上传到Hugging Face Hub。SimCLRv1权重和SimCLRv2权重。

Cohere Rerank端点用于多语言搜索 :Cohere的Rerank端点通过一行代码提升100多种语言的搜索质量,集成现有的基于关键字的搜索系统(如Elasticsearch、OpenSearch、Solr),无需更改基础设施。

Rerank性能评估 :Cohere的Rerank显著提高了搜索质量,在MIRACL、Natural Questions和TREC-Deep Learning等数据集上平均Accuracy@3 得分为71.6%,优于词法搜索和基于嵌入的语义搜索。

多方面嵌入的潜力 :@advo_kat对即将推出的多方面嵌入模型表示兴趣,强调其在分类不同类别和时间方面的独特能力,这在其他嵌入中并不常见。

Llamafile JSON Schema到语法 :@crossproduct解释了通过调用json_schema生成语法并消费该语法的过程。

ggml_cuda.so和ggml_rocm.so的打包 :@cjpais询问了将这些文件打包到llamafile发布中的方法,特别是是否使用zipalign,并表达了对cosmocc和二进制打包的困惑。

使用symlinks进行高效工作流管理 :@torcello和@reyartage讨论了使用symlinks 在多个设置(如A1111, Vladmandic, ComfyUI, ComfyUI_Portable, Swarm )之间共享文件夹,以最小化重新下载并简化更新。

LM Studio模型兼容性 :@heyitsyorkie确认LM Studio 仅支持具有GGUF 扩展名的模型,不包括safetensors图像生成模型

GPT-4与GPT-4o分词器效率 :@deathmax指出GPT-4的分词器(cl100k_base) 有10万个词汇,而GPT-4o的分词器(o200k_base) 有20万个词汇,使其在编码不常见词汇时更高效。来源

大型模型的成本效率 :@fry69_61685提到WizardLM-2 8x22B 的成本效益为每百万个token $$0.65,建议高成本模型如每百万个token超$$10的模型价格过高,最佳质量与成本比约为每百万个token $1.25,如Claude-3-haiku

自托管与提供商成本 :@sao10k和@fry69_61685讨论了自托管模型的可行性,指出除非在硬件上有显著的沉没成本,否则自托管通常更昂贵。对于批量推理,租用如2x A100s 的GPU每小时$4可能是一个可行的选择,但持续使用成本高。

苹果的AI系统架构 :苹果的本地模型是一个3B参数SLM ,使用适配器实现特定功能,类似于扩散模型。所有在本地或苹果安全云上运行的模型都是苹果的专有模型,而非OpenAI。来源

Stable Diffusion 3 Medium发布 :Stability AI发布了Stable Diffusion 3 Medium ,一个多模态扩散变压器(MMDiT) 文本到图像模型,具有改进的图像质量和资源效率,使用三个固定的预训练文本编码器(OpenCLIP-ViT/G, CLIP-ViT/L, T5-xxl),并在非商业研究许可下提供。模型详情

Anthropic的Transformer Lens :@dr13x3实验了Anthropic的Transformer Lens ,用于调试推理期间的模型注意力,建议其接近解决幻觉问题,一个神经元可以显著影响未见文本生成。

Mojo编程语言概述Mojo 是Python的超集,利用MLIR 进行深度优化,适用于从操作系统到企业Web应用的广泛领域。更多详情

指针到UInt转换在Mojo中 :@sa_code和@leandrolcampos讨论了在Mojo中将指针转换为UInt,解决方案是UInt64(int(ptr)),成功实现于拉取请求。

Alexa的错失机会 :Mihail Eric的帖子强调了Alexa 在对话系统中的领先地位未能保持,特别是在OpenAI的GPT-4 设定了新的多模态对话体验标准后。

AI生成音乐 :Rick Beato的YouTube视频讨论了使用Udio 程序在AI生成音乐方面的进展,强调了AI创造逼真音乐的能力及其绕过人类作曲家的潜力。

新的AI讲座 :Hwchung在斯坦福CS 25的讲座强调了AI发展的快速步伐和理解这些变化的重要性,而不仅仅是跟上最新的进展。

HuggingFace & Github:

人工智能与技术创新

  • B&W Manga Block 项目 是 Hugging Face 上的一个模型,专门用于创建粗线条的肖像插图 。该模型在单色和简单的提示下效果最佳,权重以 Safetensors 格式提供,用户可以从“文件和版本”选项卡中下载权重。对于数字艺术爱好者,尤其是漫画风格插图的爱好者,这个模型能够轻松生成特定漫画美学的艺术作品。

  • Stable Diffusion 3 Medium 是 Stability AI 开发的一种多模态扩散变压器(MMDiT)文本到图像模型。该模型适用于生成艺术品、设计和其他艺术过程,通过三个高级预训练文本编码器提升稳健性能。尽管不适用于生成真实人物或事件的内容,但它在图像质量和复杂提示理解方面表现优异,并且免费向非商业用途开放使用。

  • Qwen2 系列模型,包括 Qwen2-57B-A14B-Instruct,是基于 Transformer 架构的大型语言模型,支持最多 65,536 个标记的上下文长度 。Qwen2 在多个基准测试中表现出色,超越了许多开源和专有模型。该模型通过大量数据预训练,并进行了有监督微调和直接优化,特别适合处理超长文本输入。

总结

这些模型展示了人工智能在数字艺术、文本生成和语言理解中的最新进展。B&W Manga Block 通过简化的提示轻松生成漫画风插图,而 Stable Diffusion 3 Medium 提供高质量的文本到图像转换能力,特别是在艺术创作领域。Qwen2 则在语言模型的上下文处理能力方面取得了突破,为高级语言理解和生成提供了强大支持。这些工具不仅拓展了创意和教育应用的边界,也为研究和开发者提供了新的资源。

来源:https://news.miracleplus.com/share_link/29879

Ted Chiang已经赢得了PEN/Faulkner基金会的短篇小说奖。

Ted Chiang,一位备受赞誉的科幻作家,荣获2024年PEN/Bernard和Ann Malamud短篇小说优秀奖,以表彰他在短篇小说领域的杰出成就。Chiang的作品,包括《你的生活和其他故事》和《呼吸》,已获得多个著名奖项,如雨果奖和星云奖。他的故事因能够拓展读者的想象力并引发深刻思考而备受赞誉,体现了短篇小说传达深刻见解的能力。对于那些希望通过科幻视角探索技术与人类之间界限的读者来说,Chiang的屡获殊荣的叙事是必读之作。正式颁奖典礼定于2024年12月6日举行。

来源:https://lithub.com/ted-chiang-has-won-the-pen-faulkner-foundations-short-story-prize/

当"狂飙"的大模型撞上推荐系统

对内容没有发现任何有趣的东西。

来源:https://mp.weixin.qq.com/s/hQ5MYFxdKA4dgXetFEc_Bg

实现大模型自由!潞晨训推一体机,助力算力高效利用

实现大模型自由!潞晨训推一体机,助力算力高效利用。AI技术在商业应用中的进展迅速,需要强大的计算资源。许多公司在有效利用计算资源实施AI时遇到困难。集成AI训练和推理机器是中国计算行业的新趋势。潞晨科技开发了一种名为"训推一体机"的训练和推理机器,克服了传统机器的局限性。该机器采用高性能硬件,包括8张Nvidia H20卡,每张卡有96GB内存。潞晨科技通过Colossal-AI加速系统优化了机器性能,效率提高了21%。该机器提供定制选项,支持多种训练和推理加速框架。潞晨科技提供易于使用的软件界面Colossal LLM Studio,用于模型训练和微调。该机器可以集成各种开源模型,提供无缝的用户体验。潞晨科技还提供Colossal Reader用于文档理解和Open-Sora模型用于视频生成。该机器可供购买,为数据隐私和本地部署提供了强有力的支持。

来源:https://mp.weixin.qq.com/s/kVF2fOR8_i7EVoUrt3vBIg

又一Sora级选手来炸街!我们拿它和Sora、可灵PK了下

[The translated guide in Chinese]

来源:https://mp.weixin.qq.com/s/ADMuhRMeCiKYHvyTXkmgyA

小互

俄罗斯科技巨头Yandex 开源了一个LLM培训工具 可节省高达20%的 GPU 资源

俄罗斯科技巨头Yandex 开源了一个LLM培训工具 可节省高达20%的 GPU 资源

来源:https://xiaohu.ai/p/9618

吴恩达提出的基于反思代理工作流的机器翻译方法

吴恩达提出的基于反思代理工作流的机器翻译方法

来源:https://xiaohu.ai/p/9611

Musashi:东京大学开发并训练了一款可以自己开车的机器人

Musashi:东京大学开发并训练了一款可以自己开车的机器人

来源:https://xiaohu.ai/p/9600

Uizard 发布 Autodesigner 2.0 AI设计引擎 只需文字或截图几秒钟内完成网站设计

Uizard 发布 Autodesigner 2.0 AI设计引擎 只需文字或截图几秒钟内完成网站设计

来源:https://xiaohu.ai/p/9585

Suno发布音频输入功能 用户可以使用任何声音随时随地创作歌曲

Suno发布音频输入功能 用户可以使用任何声音随时随地创作歌曲

来源:https://xiaohu.ai/p/9574

宝玉

AI 民科和 AI 科学家之间的差距

从一段翻译 Prompt 说起。

来源:https://baoyu.io/blog/ai/gap-between-ai-amateurs-and-ai-scientists

计算机专业还值得报考吗?

从我二十多年前参加高考以来,每年高考一结束,#计算机专业还值得报考吗# 就一直热门话题,一些人认为计算机发展了这么多年已经饱和,可能面临毕业即失业的风险,而另一些人则认为计算机专业依然是未来的热门专业,就业前景广阔。

来源:https://baoyu.io/blog/career/is-computer-science-still-worth-studying

探索检索和评估相关上下文的挑战 [译]

利用 Ragas, TruLens 和 DeepEval 对一年级阅读理解练习进行上下文相关性评估的案例研究

来源:https://baoyu.io/translations/rag/the-challenges-of-retrieving-and-evaluating-relevant-context-for-rag

最佳论文 [译]

虽然这篇文章的标题称其为“最佳论文”,但实际上并非如此。我的目标是探索一篇真正的最佳论文应具备的特质。

来源:https://baoyu.io/translations/writing/the-best-essay

苹果新推出的设备内及云端服务器基础模型介绍 [译]

在 2024 年全球开发者大会上,我们向大家展示了苹果智能系统,这是一套深度融入 iOS 18、iPadOS 18 及 macOS Sequoia 的个人智能体系。这一系统集成了多个功能强大的生成式 AI,专为处理用户日常需求而设计,能够根据用户当前的活动实时调整。苹果智能中的基础模型经过专门微调,以优化各种用户体验,如文本编写、通知的排序与摘要、为家庭及朋友对话创造有趣的图像,以及简化应用间的交互操作。

来源:https://baoyu.io/translations/apple/introducing-apple-foundation-models

Github

Codium-ai/cover-agent

CodiumAI Cover-Agent: An AI-Powered Tool for Automated Test Generation and Code Coverage Enhancement! 💻🤖🧪🐞

来源:https://github.com/Codium-ai/cover-agent

openrecall/openrecall

OpenRecall is a fully open-source, privacy-first alternative to proprietary solutions like Microsoft's Windows Recall. With OpenRecall, you can easily access your digital history, enhancing your memory and productivity without compromising your privacy.

来源:https://github.com/openrecall/openrecall

BuilderIO/micro-agent

An AI agent that writes (actually useful) code for you

来源:https://github.com/BuilderIO/micro-agent

squaredtechnologies/thread

An AI-powered Python notebook built in React — generate and edit code cells, automatically fix errors, and chat with your code

来源:https://github.com/squaredtechnologies/thread

Bklieger/groqbook

Groqbook: Generate entire books in seconds using Groq and Llama3

来源:https://github.com/Bklieger/groqbook


本文档由扣子生成,资讯版权属于原作者。 豆包机器人链接:https://www.coze.cn/store/bot/7343089859382444051?bot_id=true 一支烟花社区提供技术支持,了解更多点击:https://sourl.cn/MsNyXj

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1827314.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【odoo】odoo.conf文件配置

概要 odoo.conf 文件是 Odoo 服务器的配置文件,它用于定义和管理 Odoo 运行时的各种参数。这个文件包含了许多配置选项,可以帮助管理员根据特定的需求和环境来调整 Odoo 服务器的行为。 主要功能 数据库连接设置:定义 Odoo 连接到 PostgreSQL…

vue项目问题汇总

1.el-select: 下拉框显示到了top:-2183px , 添加属性 :popper-append-to-body"false" 2. el-upload: 选过的文件在使用过后记得清空,因为如果有limit1的时候,没有清空会导致不触发onchange 使用自定义上传方法http-request的时…

C++ 47 之 函数调用运算符重载

#include <iostream> #include <string> using namespace std;class MyPrint{ public:// 重载小括号() 重载谁operator后就紧跟谁的符号void operator()(string txt){cout << txt << endl;} };class MyAdd{ public:int operator()(int a, int b){retur…

Android 断点续传实现原理

下载原理 在介绍断点续传之前&#xff0c;我们先说说下载的原理。代码示例用 OkHttp 作为示例。 下载核心思路是把 responseBody 写入文件&#xff0c;核心代码如下&#xff1a; 但是这种做法有个明显的问题&#xff0c;假如手机在下载文件的时候下载了80%&#xff0c;某些原…

[大模型]XVERSE-7B-chat langchain 接入

XVERSE-7B-Chat为XVERSE-7B模型对齐后的版本。 XVERSE-7B 是由深圳元象科技自主研发的支持多语言的大语言模型&#xff08;Large Language Model&#xff09;&#xff0c;参数规模为 70 亿&#xff0c;主要特点如下&#xff1a; 模型结构&#xff1a;XVERSE-7B 使用主流 Deco…

树莓派等Linux开发板上使用 SSD1306 OLED 屏幕,bullseye系统 ubuntu,debian

Raspberry Pi OS Bullseye 最近发布了,随之而来的是许多改进,但其中大部分都在引擎盖下。没有那么多视觉差异,最明显的可能是新的默认桌面背景,现在是大坝或湖泊上的日落。https://www.the-diy-life.com/add-an-oled-stats-display-to-raspberry-pi-os-bullseye/ 通过这次操…

哥德巴赫的另一个猜想

哥德巴赫猜想了啥&#xff1f; 所谓猜想&#xff0c;通常指的是基于现有知识或观察做出的未经证实的推测或推断。在数学领域&#xff0c;猜想是指那些被提出但尚未经过严格证明的命题&#xff0c;它们可能是正确的&#xff0c;也可能是错误的&#xff0c;也可能仍然在验证的过程…

从开源EPR产品Odoo学习

前言 一个先进、敏捷、经济高效、可快速扩展的Odoo免费开源企业信息化解决方案,让企业获得适应未来发展的长期创新和增长能力。 Odoo 的免费开源模式 让我们可利用无数开发人员和业务专家,在短短数年内,打造数百款应用。凭借强大的技术基础,Odoo 的框架是非常独特且优秀的…

第5章:模型预测控制(MPC)的代码实现

1. 建立 QP 模型&#xff1a; 1.1 车辆模型&#xff1a; 注&#xff1a;使用车辆横向动力学模型 纵向动力学模型&#xff08;误差模型&#xff09; 1.2 QP 问题模型&#xff1a; 注&#xff1a;详细推导见 笔记100&#xff1a;使用 OSQP-Eigen 对 MPC 进行求解的方法与代码-…

Axios基础用法

Axios简介&#xff1f; Axios是一个基于Promise的HTTP库&#xff0c;可以用在浏览器和node.js中。 Axios提供了更简洁、更强大的API来处理HTTP请求&#xff0c;因此在Vue.js或React等Javascript框架中十分受欢迎。 json-server json-server是一个命令行工具&#xff0c;可以让…

# RocketMQ 实战:模拟电商网站场景综合案例(六)

RocketMQ 实战&#xff1a;模拟电商网站场景综合案例&#xff08;六&#xff09; 一、RocketMQ 实战 &#xff1a;项目公共类介绍 1、ID 生成器 &#xff1a;IDWorker&#xff1a;Twitter 雪花算法。 在 shop-common 工程模块中&#xff0c;IDWorker.java 是 ID 生成器公共类…

生成和链接动态库

生成和链接动态库 在Linux和windows中的动态库是不一样的 linux 的动态库不需要设置导入导出符号&#xff0c;以.os为后缀windows中需要设置导入和导出符号.lib&#xff0c;以及动态库的后缀是dll 1、windows环境 1、创建动态库 项目结构 CMakeLists.txt cmake_minimum_re…

Leetcode - 132双周赛

目录 一、3174. 清除数字 二、3175. 找到连续赢 K 场比赛的第一位玩家 三、3176. 求出最长好子序列 I 四、3177. 求出最长好子序列 II 一、3174. 清除数字 本题可以使用栈来模拟&#xff0c;遇到数字弹出栈顶元素&#xff0c;遇到字母入栈。 代码如下&#xff1a; //使用字…

ord版本升级(0.15升级到0.18.5)

1、升级rust ~# rustup update stable ~# rustc --versionrustc 1.79.0 (129f3b996 2024-06-10)2、拉取0.18.5代码 ~# wget https://github.com/ordinals/ord/archive/refs/tags/0.18.5.tar.gz ~# tar -xf 0.18.5.tar.gz ~# cd ord-0.18.5 ~# cargo build --release3、启动se…

在机器学习领域中,One-Hot Encoding是什么

一般来说&#xff0c;机器学习模型要求所有的输入输出变量都必须是数字。如果我们的数据中包含了分类数据&#xff0c;我们必须将它们编码成一些数字&#xff0c;这样我们才可以拿去训练和评测一个机器学习模型。 我们常说的分类数据是不能够直接拿来训练、预测的。因为它们一…

【每日随笔】摩托车控车 ① ( 油离配合 | 落脚油离配合 - 不给油 | 落脚油离配合 - 给油 | 正式油离配合 | 骑行姿态注意事项 )

文章目录 一、找 " 离合结合点 "二、落脚油离配合 ( 不给油 )1、该科目练习目的2、起步姿态3、开始练习 三、落脚油离配合 ( 给油 )1、练习目的2、熟悉油门转速3、练习步骤 四、正式油离配合五、骑行姿态注意事项1、基本骑行姿态2、骑摩托车的姿态 - 含胸收腹驼背3、…

uniapp使用css实现瀑布流

页面 <template><view><gj v-if"likeList.length 0"></gj><view v-else class"list"><view class"pbl" v-for"(item,index) in likeList" :key"index"><view class"image&quo…

Windows10 MySQL(8.0.37)安装与配置

一、MySQL8.0.37下载 官网下载链接&#xff1a; https://dev.mysql.com/downloads/ 解压文件&#xff0c;解压到你想要的位置 二、新建MySQL配置文件 右键新建文本文档 新建my.txt文件 编辑my.txt文件&#xff0c;输入以下内容 [mysqld] # 设置 3306 端口 port3306 # 设…

苹果电脑装虚拟机和双系统的区别 苹果笔记本虚拟机和双系统哪个好 虚拟机能装MacOS吗 虚拟机类似的软件

Mac电脑用户在需要使用Windows操作系统的软件时&#xff0c;通常会面临两个选择&#xff1a;安装双系统或使用虚拟机。两种方式各有优缺点&#xff0c;适用于不同的使用场景。本文将详细分析和说明Mac电脑装双系统和虚拟机之间的区别&#xff0c;帮助用户选择最适合自己的方案。…

前端网站(一)-- 登录页面及账号密码验证

前端网站&#xff08;一&#xff09;-- 登录页面及账号密码验证 开篇&#xff08;请大家看完&#xff09;&#xff1a;此网站写给挚爱&#xff0c;后续页面还会慢慢更新&#xff0c;大家敬请期待~ ~ ~ 轻舟所编写这个前端框架的设计初衷&#xff0c;纯粹是为了哄对象开心。除…