脑机接口，Meta裁50+高管，大模型文本压缩处理，大模型与推荐系统，Luma AI视频工具亮相

智源社区

北京线下：基于脑机接口的视觉重建前沿进展丨周六直播·脑机接口读书会

导语

人类70%以上的感知是通过视觉完成的，且有超过1/3的脑组织参与视觉相关的信息处理，因此视觉是极其重要的感知功能。由于外伤和先天后天的疾病造成的视觉损失严重的影响了人们的生存质量，且其中相当一部分疾病和外伤是无法通过眼科矫正或眼科手术来进行恢复。基于脑机接口技术的人工视觉假体新进展给这类病人带来了新的希望。为了进一步梳理脑机接口相关理论与技术前沿，集智俱乐部联合清华大学高小榕、中科院自动化所刘冰、中科院深圳先进院李骁健、清华大学眭亚楠四位老师，发起「脑机接口」读书会。读书会从2024年5月19日开始，每周六19:00-21:00线上举办，持续时间10周左右，欢迎大家加入！简介目前相关研究表...

来源：http://mp.weixin.qq.com/s?__biz=MzIzMjQyNzQ5MA==&mid=2247692369&idx=2&sn=ccd95b50b45d83fe1dff3b4a592d8cc5&chksm=e9d1c4fea0108ee40e25afe33aeb245c3f1b1668af4f107044c1eb763ff62056b1e2d2469f82&scene=0&xtrack=1#rd

InfoQ

越来越多企业采用AI，工业、药物研发、零售等行业加速转型

通过AI技术识别新的机会点，推进产业迈向高效与可持续。

来源：https://www.infoq.cn/article/UAboZWAP114wzq39JYiA

一次性裁掉 50 多名副总裁！小扎的冷血管理哲学：高管也是打工人

在马克·扎克伯格的“永久”效率模式中，Meta 副总裁正受到排挤。

来源：https://www.infoq.cn/article/UftP2CSO2LaqaTy9vhIz

两度入选CVPR，海量视频数据+AI大模型加持，快手KVQ打造视频质量评价“黄金眼”

当前，人类每天创造出约1.77亿TB的视频数据，累计时长足以从史前时代连续播放到现在。如何准确评判视频质量，并兼顾成本和体验，让有限的带宽和算力真正用在“刀刃”上，成为行业的一大难题。

来源：https://www.infoq.cn/article/gc3oNgtmlcZTr0cAqr9y

喜发新模型，却被众嘲是破产“前兆”！Stability AI “最强”模型人形绘制太“阴间”，网友：因为研发太讲武德

6月12日，Stability AI 推出了 Stable Diffusion 3 Medium，这家英国初创公司称其为“迄今为止最先进的文本到图像开放模型”。

来源：https://www.infoq.cn/article/29AtySiZV6MB129O6Xxe

美图奇想大模型进阶至V5，一口气发布6款新品喊话友商：快来抄作业

从诞生至今已经步入第16个年头的美图，已经不再只是一个纯C端产品。

来源：https://www.infoq.cn/article/eSLdPhJ3dD4WC88KS8tY

Aminer.cn

文本压缩与大型语言模型：长文本处理的革新

想把握最新的科技进展和研究成果，却发现自己的阅读速度根本赶不上文献产出的速度？

来源：https://www.aminer.cn/research_report/6668fc88c028d8419b0f8b66

北大团队提出 BoT：让 Llama3-8B 超越 Llama3-70B｜大模型周报

Mamba-2：速度提高 2-8 倍，与 Transformers 媲美

来源：https://www.aminer.cn/research_report/6668fb5dc028d8419b0f8a50

大型语言模型的不确定性表达：忠实度与准确性

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。

来源：https://www.aminer.cn/research_report/665fc8bac028d8419b0a4168

清华大学唐杰：大模型与超级智能

本文探讨了大模型的发展历程，介绍了作者团队研发的GLM-4大模型，并针对AGI研究面临的挑战对AGI未来发展提出了一些思考。

来源：https://www.aminer.cn/research_report/665fc671c028d8419b0a3f77

训练数据匮乏：LLM在正式定理证明中的挑战

别担心，AMiner AI会帮助你高效检索和阅读文献！

来源：https://www.aminer.cn/research_report/665d2bd6c028d8419b08ba06

arXiv.org

Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs

with Nothing High-quality instruction data is critical for aligning large language models (LLMs). Although some models, such as Llama-3-Instruct, have open weights, their alignment data remain private, which hinders the democratization of AI. High human labor costs and a limited, predefined scope for prompting prevent existing open-source data creation methods from scaling effectively, potentially limiting the diversity and quality of public alignment datasets. Is it possible to synthesize high-quality instruction data at scale by extracting it directly from an aligned LLM? We present a self-synthesis method for generating large-scale alignment data named Magpie. Our key observation is that aligned LLMs like Llama-3-Instruct can generate a user query when we input only the left-side templates up to the position reserved for user messages, thanks to their auto-regressive nature. We use this method to prompt Llama-3-Instruct and generate 4 million instructions along with their corresponding responses. We perform a comprehensive analysis of the extracted data and select 300K high-quality instances. To compare Magpie data with other public instruction datasets, we fine-tune Llama-3-8B-Base with each dataset and evaluate the performance of the fine-tuned models. Our results indicate that in some tasks, models fine-tuned with Magpie perform comparably to the official Llama-3-8B-Instruct, despite the latter being enhanced with 10 million data points through supervised fine-tuning (SFT) and subsequent feedback learning. We also show that using Magpie solely for SFT can surpass the performance of previous public datasets utilized for both SFT and preference optimization, such as direct preference optimization with UltraFeedback. This advantage is evident on alignment benchmarks such as AlpacaEval, ArenaHard, and WildBench.

来源：http://arxiv.org/abs/2406.08464v1

OLMES: A Standard for Language Model Evaluations

Progress in AI is often demonstrated by new models claiming improved performance on tasks measuring model capabilities. Evaluating language models in particular is challenging, as small changes to how a model is evaluated on a task can lead to large changes in measured performance. There is no common standard setup, so different models are evaluated on the same tasks in different ways, leading to claims about which models perform best not being reproducible. We propose OLMES, a completely documented, practical, open standard for reproducible LLM evaluations. In developing this standard, we identify and review the varying factors in evaluation practices adopted by the community - such as details of prompt formatting, choice of in-context examples, probability normalizations, and task formulation. In particular, OLMES supports meaningful comparisons between smaller base models that require the unnatural "cloze" formulation of multiple-choice questions against larger models that can utilize the original formulation. OLMES includes well-considered recommendations guided by results from existing literature as well as new experiments investigating open questions.

来源：http://arxiv.org/abs/2406.08446v1

Dynamic Retrieval Augmented Generation of Ontologies using Artificial

Intelligence (DRAGON-AI) Background: Ontologies are fundamental components of informatics infrastructure in domains such as biomedical, environmental, and food sciences, representing consensus knowledge in an accurate and computable form. However, their construction and maintenance demand substantial resources and necessitate substantial collaboration between domain experts, curators, and ontology experts. We present Dynamic Retrieval Augmented Generation of Ontologies using AI (DRAGON-AI), an ontology generation method employing Large Language Models (LLMs) and Retrieval Augmented Generation (RAG). DRAGON-AI can generate textual and logical ontology components, drawing from existing knowledge in multiple ontologies and unstructured text sources. Results: We assessed performance of DRAGON-AI on de novo term construction across ten diverse ontologies, making use of extensive manual evaluation of results. Our method has high precision for relationship generation, but has slightly lower precision than from logic-based reasoning. Our method is also able to generate definitions deemed acceptable by expert evaluators, but these scored worse than human-authored definitions. Notably, evaluators with the highest level of confidence in a domain were better able to discern flaws in AI-generated definitions. We also demonstrated the ability of DRAGON-AI to incorporate natural language instructions in the form of GitHub issues. Conclusions: These findings suggest DRAGON-AI's potential to substantially aid the manual ontology construction process. However, our results also underscore the importance of having expert curators and ontology editors drive the ontology generation process.

来源：http://arxiv.org/abs/2312.10904v2

Tailoring Generative AI Chatbots for Multiethnic Communities in Disaster

Preparedness Communication: Extending the CASA Paradigm This study is among the first to develop different prototypes of generative AI (GenAI) chatbots powered by GPT 4 to communicate hurricane preparedness information to diverse residents. Drawing from the Computers Are Social Actors (CASA) paradigm and the literature on disaster vulnerability and cultural tailoring, this study conducted a between-subjects experiment with 441 Black, Hispanic, and Caucasian residents of Florida. A computational analysis of chat logs (N = 7,848) shows that anthropomorphism and personalization are key communication topics in GenAI chatbot-user interactions. SEM results (N = 441) suggest that GenAI chatbots varying in tone formality and cultural tailoring significantly predict bot perceptions and, subsequently, hurricane preparedness outcomes. These results highlight the potential of using GenAI chatbots to improve diverse communities' disaster preparedness.

来源：http://arxiv.org/abs/2406.08411v1

Large Language Models Must Be Taught to Know What They Don't Know

When using large language models (LLMs) in high-stakes applications, we need to know when we can trust their predictions. Some works argue that prompting high-performance LLMs is sufficient to produce calibrated uncertainties, while others introduce sampling methods that can be prohibitively expensive. In this work, we first argue that prompting on its own is insufficient to achieve good calibration and then show that fine-tuning on a small dataset of correct and incorrect answers can create an uncertainty estimate with good generalization and small computational overhead. We show that a thousand graded examples are sufficient to outperform baseline methods and that training through the features of a model is necessary for good performance and tractable for large open-source models when using LoRA. We also investigate the mechanisms that enable reliable LLM uncertainty estimation, finding that many models can be used as general-purpose uncertainty estimators, applicable not just to their own uncertainties but also the uncertainty of other models. Lastly, we show that uncertainty estimates inform human use of LLMs in human-AI collaborative settings through a user study.

来源：http://arxiv.org/abs/2406.08391v1

齐思

齐思头条2024/06/13「Google DeepMind发布TORAX模拟器，ARC PRIZE推出百万美元AI竞赛，LiveBench AI引入动态LLM基准测试，Meta Llama 3黑客马拉松展示50多个项目，Stable Diffusion 3 Medium发布」

Twitter:

Google DeepMind的TORAX模拟器发布 : Google DeepMind的Fusion团队发布了TORAX，一个开源的托卡马克传输模拟器，使用JAX进行快速、可微分的模拟，并易于与ML代理耦合。此工具旨在推进聚变能量研究，详细信息请见此处。

ARC PRIZE: $1,000,000 AI竞赛 : François Chollet和Mike Knoop发起了ARC PRIZE，一项奖金超过100万美元的竞赛，旨在创建能够适应新颖性并解决简单推理问题的AI，推动AGI的发展。更多详情请见ARC Prize网站和Kaggle竞赛页面。

LiveBench AI: 无法被操纵的LLM基准测试 : Abacus AI与Yann LeCun合作推出了LiveBench AI，一个动态的LLM基准测试，介绍了新的挑战，无法像传统的人类评估那样被操纵。更多详情请见此处。

Meta Llama 3黑客马拉松 : Meta与Cerebral Valley举办了首届Meta Llama 3黑客马拉松，吸引了超过350名参与者，在24小时内创建了50多个项目，展示了Meta Llama 3模型的潜力。详细信息请见此处。

Stable Diffusion 3 Medium发布 : Stability AI宣布发布Stable Diffusion 3 Medium，这是他们最新和最先进的文本到图像AI模型，标志着生成式AI发展的一个重要里程碑。更多详情请见此处。

OpenAI和微软的战略云关系 : OpenAI澄清其与微软的战略云关系保持不变，尽管与OCI合作使用Azure AI在OCI基础设施上进行推理和其他需求。详细信息请见此处。

PGVECTOR性能超越Pinecone : PGVECTOR推出了pgvectorscale，一个开源的PostgreSQL扩展，大大提高了向量搜索的性能和成本效率，通过减少28倍的延迟和增加16倍的吞吐量，超越了Pinecone。更多详情请见此处。

TextGrad: 通过文本进行自动微分 : TextGrad系统引入了通过文本进行自动“微分”，通过LLM提供的文本反馈来改进复合AI系统的各个组件。此方法在LeetCode-Hard上显示了20%的相对增益，并在GPQA上提高了性能。详细信息请见研究论文。

Google扩展RecurrentGemma到90亿参数 : Google成功将其RecurrentGemma模型扩展到90亿参数，标志着高效深度学习研究的重大进展。此扩展预计将增强模型在各种应用中的能力和性能。更多详情请见公告。

Apple的3B参数SLM本地模型 : 在Apple的年度会议上，推出了一个新的3B参数SLM本地模型，使用适配器训练特定功能。此模型可以在本地或Apple的安全云上运行，与OpenAI的模型有所不同。详细信息请见此处。

RAG Over Excel Files by LlamaIndex : LlamaIndex引入了RAG（检索增强生成）技术，解决了在空间网格中格式化内容的挑战，特别是处理包含多个不连续表格的Excel文件。更多信息请见此处。

Google AI的Smart Paste工具 : Google AI推出了Smart Paste，一个内部工具，通过自动调整粘贴的代码来简化代码编写，提高代码开发的效率。更多详情请见Google AI博客。

AI驱动的个性化健康体验 : Google AI的最新研究论文强调了如何通过微调Gemini模型创建个性化的健康体验，适应个人的健康旅程。更多详情请见Google AI博客。

AlphaFold的全球影响 : 由Google DeepMind开发的AlphaFold已被来自120个国家的科学家使用，完成了超过620,000个任务，帮助测试假设和预测复杂的蛋白质-DNA相互作用。更多信息请见Nature文章。

Dream Machine by Luma Labs AI : Luma Labs AI推出了Dream Machine，一个下一代视频模型，使用AI从文本指令和图像创建高质量、逼真的视频镜头。此工具可免费试用，更多详情请见此处。

RecurrentGemma-9B发布 : RecurrentGemma-9B模型利用Griffin架构，结合线性递归和局部注意力，提供更快的推理和下游评估，特别适用于长序列或大批量。详细信息请见公告。

Elon Musk宣布Twitter上的私人点赞功能 : Elon Musk宣布对Twitter功能进行重大更改，使点赞变为私人，以增强用户隐私。用户仍然可以看到自己点赞的帖子，但其他人无法看到，点赞数仍会出现在通知下。更多详情请见推文。

Tesla的自动驾驶更新 : Elon Musk强调了更新后的Tesla车型，指出自动驾驶可能是最具变革性的AI进展之一，对Tesla股东产生重大影响。详细信息请见推文。

Meta Llama 3黑客马拉松回顾 : Meta与Cerebral Valley合作举办了首届Meta Llama 3黑客马拉松，吸引了超过350名与会者，在24小时内完成了50多个项目。详细回顾和顶级项目请见推文。

Google DeepMind的Torax模拟器 : Google DeepMind的Fusion团队开源了Torax，一个快速且可微分的托卡马克模拟器，以加速AI在聚变能量开发中的应用。代码和论文请见此处。

LiveBench: 新的通用实时LLM基准测试 : LiveBench是一个新的通用实时LLM基准测试，解决了现有基准测试的局限性，提供了更全面的评估框架。此项目由@micahgoldblum和@jeremyphoward领导，旨在提高LLM评估的可靠性和稳健性。

Luma AI的Dream Machine发布 : Luma AI发布了Dream Machine，一个AI视频生成器，可以从文本和图像创建视频，现在向公众开放。生成的视频质量备受赞誉，更多详情请见此处。

Apple的LoRA适配器本地模型 : Apple开发了一个使用LoRA适配器的框架，用于在设备上微调模型，通过混合2位和4位配置策略实现高精度。此方法在保持模型质量的同时保留了通用知识，详细信息请见此处。

RecurrentGemma 9B模型发布 : RecurrentGemma 9B模型提供了与Gemma相同的性能，但延迟降低了25%以上，令牌吞吐量更高。基于Griffin架构，可在Transformers中使用，更多信息请见此处。

Suno AI的实时音频输入 : Suno AI现在支持实时音频输入，允许用户上传自己的声音来创作歌曲。此功能在6-60秒的剪辑中效果最佳，详细信息请见此处。

Mixture of Agents框架在AlpacaEval 2.0上取得65.1%的成绩 : Mixture of Agents (MoA)框架利用多个LLM的集体优势，在AlpacaEval 2.0上取得了65.1%的成绩。此框架通过使用前一层的输出来改进响应，增强了语言模型的性能。更多详情请见@Burachenok的推文。

RLOOTrainer在TRL中引入以提高RLHF效率 : RLOOTrainer (REINFORCE Leave One-Out)在TRL中引入，作为一种新的在线RL方法，用于对齐，所需GPU内存更少，收敛速度更快。此方法旨在将“RL”重新带回“RLHF”，详细信息请见@TheZachMueller的推文。

最大化互信息包发布 : 一个用于近似最大化任意两个离散分布之间互信息（MI）的新包已发布。此包实现了高吞吐量、完全安全的语言模型隐写术，详细信息请见@polynoamial的推文。

Chat with MLX 0.2 for Apple Silicon Mac : Chat with MLX 0.2发布，提供了全新的UI/UX、功能齐全的聊天UI以及更好更快的RAG，以增强Apple Silicon Mac上的LLM体验。升级您的AI对话，请访问GitHub链接。

向量数据库和Pinecone API : 向量数据库在AI中用于存储浮点数数组并使用相似性函数进行搜索。一个视频解释了这些数据库的速度以及如何使用Pinecone的API而无需处理服务器，详细信息请见@svpino的推文。

离散扩散模型用于语言和图像建模 : 新的离散扩散模型在语言和像素级图像建模中变得简单且具有竞争力，集成了一个新的变分目标，超越了先前的扩散语言模型。更多信息请见@sedielem的推文。

OpenAI澄清战略云关系 : OpenAI澄清其与微软的战略云关系保持不变。与OCI的合作允许OpenAI在OCI基础设施上使用Azure AI平台进行推理和其他需求，详细信息请见推文。

Stability AI发布Stable Diffusion 3 Medium : Stability AI宣布发布Stable Diffusion 3 Medium的开源权重，这是他们系列中最新和最先进的文本到图像AI模型。此发布标志着生成式AI发展的一个重要里程碑，更多详情请见推文。

HackerNews:

**在《毁灭战士》中使用二叉空间分割有多么天才？** [链接](https://news.miracleplus.com/share_link/29771)：这篇文章讨论了在经典第一人称射击游戏《毁灭战士》中创新使用二叉空间分割（BSP）。讨论亮点： - **历史背景和研究** ：文章强调了约翰·卡马克通过阅读研究论文的方式，这在计算机科学领域尤其是一种超能力，因为历史研究往往被低估。**旧论文** 可以提供适合现代硬件能力的解决方案，例如现在适合L1或L2缓存的技术。 - **实际应用** ：旧研究的实际应用示例包括来自1961年的**数值近似** 和用于颜色恒常性的**受限二色反射模型** 。 - **行业趋势** ：行业被批评为**无历史感** ，导致解决方案的重复发明，特别是在操作系统、数据库和语言方面。开源项目往往追求从头解决问题的快感，而不是实现现有的解决方案。 - **ChatGPT的角色** ：ChatGPT被视为快速缩小相关文献范围的工具，尽管其有效性存在争议。有些人发现它在数学公式和优化问题上很有用，而另一些人则认为它在复杂任务上不可靠。 - **游戏开发轶事** ：游戏开发中的示例，如**《古惑狼》的预计算可见性** 和**每顶点动画** ，展示了对技术限制的创新解决方案，强调了在行业中创造性解决问题的重要性。 **AES-GCM和在重用随机数时破解它** [链接](https://news.miracleplus.com/share_link/29786)：这篇文章探讨了在重用随机数时，AES-GCM的安全性如何被完全破坏。讨论亮点： - **重用随机数的风险** ：在AES-GCM中重用随机数会导致严重的安全漏洞。如果攻击者知道明文和密文，他们可以通过将它们异或在一起计算出密钥流。即使只知道密文，使用相同随机数异或两个密文也会揭示明文的异或结果。 - **实际场景** ：重用随机数在VPN、分组通信和没有非易失性存储的设备中可能会出现问题。全盘加密也面临类似的问题，因为每个块偏移的静态IV派生。 - **随机数生成** ：由于随机数大小较小（96位），使用随机随机数会导致许多消息之间的碰撞。推荐使用基于计数器的方法，但由于竞争条件和状态重置，这可能具有挑战性。 - **替代解决方案** ：AES-GCM-SIV是一种抗随机数误用的密码，解决了这些问题，但需要对数据进行两次处理。其他替代方案包括XSalsa20、XChaCha20和AEGIS算法家族，它们提供更大的随机数和更好的性能。 - **实现问题** ：许多实现错误地将随机数称为“IV”（初始化向量），导致混淆。与AES-CBC相比，AES-GCM中重用随机数的后果更为严重。

Discord:

LlamaIndex的多种聊天引擎类型 ：@dmaksimov详细介绍了ChatMode.BEST、ChatMode.CONTEXT、ChatMode.CONDENSE_QUESTION等多种聊天引擎类型，每种类型具有独特功能，如使用代理、检索器或直接利用LLM。

RouterRetriever和查询引擎 ：@patrasq分享了创建RouterRetriever与RetrieverTools并将其集成到RetrieverQueryEngine中的代码片段，用于检索增强生成（RAG）系统中的推理。

混合Qdrant数据库查询参数 ：@LLMomar2108讨论了在使用稀疏和密集向量查询混合Qdrant数据库时得分较弱的问题，寻求设置similarity_top_k和alpha等查询参数的建议。

Markdown到纯文本转换 ：@mewtoo遇到存储在向量数据库中的文档的Markdown格式问题，解决方案包括使用BeautifulSoup 将Markdown转换为纯文本，参考StackOverflow链接。

使用Mistral微调AI模型 ：@andysingal分享了Medium文章，介绍了如何使用Mistral 微调预训练模型以提高性能并减少开发时间，涵盖了库安装、数据准备和使用WandbIntegration 进行监控的步骤。

稳定扩散模型的量化 ：@welltoobado提到使用TensorRT 8-bit量化 和OpenVINO量化 方法在低VRAM上运行稳定扩散模型。

Rust用于NLP ：@osanseviero分享了rust-bert，这是一个Rust原生库，支持翻译、摘要和问答等任务，使用多线程分词和GPU推理。

SimCLR PyTorch权重在Hugging Face Hub上 ：@sauravmaheshkar将SimCLRv1 和SimCLRv2 ImageNet-1k权重转换为PyTorch并上传到Hugging Face Hub。SimCLRv1权重和SimCLRv2权重。

Cohere Rerank端点用于多语言搜索 ：Cohere的Rerank端点通过一行代码提升100多种语言的搜索质量，集成现有的基于关键字的搜索系统（如Elasticsearch、OpenSearch、Solr），无需更改基础设施。

Rerank性能评估 ：Cohere的Rerank显著提高了搜索质量，在MIRACL、Natural Questions和TREC-Deep Learning等数据集上平均Accuracy@3 得分为71.6%，优于词法搜索和基于嵌入的语义搜索。

多方面嵌入的潜力 ：@advo_kat对即将推出的多方面嵌入模型表示兴趣，强调其在分类不同类别和时间方面的独特能力，这在其他嵌入中并不常见。

Llamafile JSON Schema到语法 ：@crossproduct解释了通过调用json_schema生成语法并消费该语法的过程。

ggml_cuda.so和ggml_rocm.so的打包 ：@cjpais询问了将这些文件打包到llamafile发布中的方法，特别是是否使用zipalign，并表达了对cosmocc和二进制打包的困惑。

使用symlinks进行高效工作流管理 ：@torcello和@reyartage讨论了使用symlinks 在多个设置（如A1111, Vladmandic, ComfyUI, ComfyUI_Portable, Swarm ）之间共享文件夹，以最小化重新下载并简化更新。

LM Studio模型兼容性 ：@heyitsyorkie确认LM Studio 仅支持具有GGUF 扩展名的模型，不包括safetensors 和图像生成模型 。

GPT-4与GPT-4o分词器效率 ：@deathmax指出GPT-4的分词器(cl100k_base) 有10万个词汇，而GPT-4o的分词器(o200k_base) 有20万个词汇，使其在编码不常见词汇时更高效。来源

大型模型的成本效率 ：@fry69_61685提到WizardLM-2 8x22B 的成本效益为每百万个token $$0.65，建议高成本模型如每百万个token超$$10的模型价格过高，最佳质量与成本比约为每百万个token $1.25，如Claude-3-haiku 。

自托管与提供商成本 ：@sao10k和@fry69_61685讨论了自托管模型的可行性，指出除非在硬件上有显著的沉没成本，否则自托管通常更昂贵。对于批量推理，租用如2x A100s 的GPU每小时$4可能是一个可行的选择，但持续使用成本高。

苹果的AI系统架构 ：苹果的本地模型是一个3B参数SLM ，使用适配器实现特定功能，类似于扩散模型。所有在本地或苹果安全云上运行的模型都是苹果的专有模型，而非OpenAI。来源

Stable Diffusion 3 Medium发布 ：Stability AI发布了Stable Diffusion 3 Medium ，一个多模态扩散变压器(MMDiT) 文本到图像模型，具有改进的图像质量和资源效率，使用三个固定的预训练文本编码器（OpenCLIP-ViT/G, CLIP-ViT/L, T5-xxl），并在非商业研究许可下提供。模型详情

Anthropic的Transformer Lens ：@dr13x3实验了Anthropic的Transformer Lens ，用于调试推理期间的模型注意力，建议其接近解决幻觉问题，一个神经元可以显著影响未见文本生成。

Mojo编程语言概述 ：Mojo 是Python的超集，利用MLIR 进行深度优化，适用于从操作系统到企业Web应用的广泛领域。更多详情

指针到UInt转换在Mojo中 ：@sa_code和@leandrolcampos讨论了在Mojo中将指针转换为UInt，解决方案是UInt64(int(ptr))，成功实现于拉取请求。

Alexa的错失机会 ：Mihail Eric的帖子强调了Alexa 在对话系统中的领先地位未能保持，特别是在OpenAI的GPT-4 设定了新的多模态对话体验标准后。

AI生成音乐 ：Rick Beato的YouTube视频讨论了使用Udio 程序在AI生成音乐方面的进展，强调了AI创造逼真音乐的能力及其绕过人类作曲家的潜力。

新的AI讲座 ：Hwchung在斯坦福CS 25的讲座强调了AI发展的快速步伐和理解这些变化的重要性，而不仅仅是跟上最新的进展。

HuggingFace & Github:

人工智能与技术创新

B&W Manga Block 项目 是 Hugging Face 上的一个模型，专门用于创建粗线条的肖像插图 。该模型在单色和简单的提示下效果最佳，权重以 Safetensors 格式提供，用户可以从“文件和版本”选项卡中下载权重。对于数字艺术爱好者，尤其是漫画风格插图的爱好者，这个模型能够轻松生成特定漫画美学的艺术作品。
Stable Diffusion 3 Medium 是 Stability AI 开发的一种多模态扩散变压器（MMDiT）文本到图像模型。该模型适用于生成艺术品、设计和其他艺术过程，通过三个高级预训练文本编码器提升稳健性能。尽管不适用于生成真实人物或事件的内容，但它在图像质量和复杂提示理解方面表现优异，并且免费向非商业用途开放使用。
Qwen2 系列模型，包括 Qwen2-57B-A14B-Instruct，是基于 Transformer 架构的大型语言模型，支持最多 65,536 个标记的上下文长度 。Qwen2 在多个基准测试中表现出色，超越了许多开源和专有模型。该模型通过大量数据预训练，并进行了有监督微调和直接优化，特别适合处理超长文本输入。

总结

这些模型展示了人工智能在数字艺术、文本生成和语言理解中的最新进展。B&W Manga Block 通过简化的提示轻松生成漫画风插图，而 Stable Diffusion 3 Medium 提供高质量的文本到图像转换能力，特别是在艺术创作领域。Qwen2 则在语言模型的上下文处理能力方面取得了突破，为高级语言理解和生成提供了强大支持。这些工具不仅拓展了创意和教育应用的边界，也为研究和开发者提供了新的资源。

来源：https://news.miracleplus.com/share_link/29879

Ted Chiang已经赢得了PEN/Faulkner基金会的短篇小说奖。

Ted Chiang，一位备受赞誉的科幻作家，荣获2024年PEN/Bernard和Ann Malamud短篇小说优秀奖，以表彰他在短篇小说领域的杰出成就。Chiang的作品，包括《你的生活和其他故事》和《呼吸》，已获得多个著名奖项，如雨果奖和星云奖。他的故事因能够拓展读者的想象力并引发深刻思考而备受赞誉，体现了短篇小说传达深刻见解的能力。对于那些希望通过科幻视角探索技术与人类之间界限的读者来说，Chiang的屡获殊荣的叙事是必读之作。正式颁奖典礼定于2024年12月6日举行。

来源：https://lithub.com/ted-chiang-has-won-the-pen-faulkner-foundations-short-story-prize/

当"狂飙"的大模型撞上推荐系统

对内容没有发现任何有趣的东西。

来源：https://mp.weixin.qq.com/s/hQ5MYFxdKA4dgXetFEc_Bg

实现大模型自由！潞晨训推一体机，助力算力高效利用

实现大模型自由！潞晨训推一体机，助力算力高效利用。AI技术在商业应用中的进展迅速，需要强大的计算资源。许多公司在有效利用计算资源实施AI时遇到困难。集成AI训练和推理机器是中国计算行业的新趋势。潞晨科技开发了一种名为"训推一体机"的训练和推理机器，克服了传统机器的局限性。该机器采用高性能硬件，包括8张Nvidia H20卡，每张卡有96GB内存。潞晨科技通过Colossal-AI加速系统优化了机器性能，效率提高了21%。该机器提供定制选项，支持多种训练和推理加速框架。潞晨科技提供易于使用的软件界面Colossal LLM Studio，用于模型训练和微调。该机器可以集成各种开源模型，提供无缝的用户体验。潞晨科技还提供Colossal Reader用于文档理解和Open-Sora模型用于视频生成。该机器可供购买，为数据隐私和本地部署提供了强有力的支持。

来源：https://mp.weixin.qq.com/s/kVF2fOR8_i7EVoUrt3vBIg

又一Sora级选手来炸街！我们拿它和Sora、可灵PK了下

[The translated guide in Chinese]

来源：https://mp.weixin.qq.com/s/ADMuhRMeCiKYHvyTXkmgyA

小互

俄罗斯科技巨头Yandex 开源了一个LLM培训工具可节省高达20%的 GPU 资源

来源：https://xiaohu.ai/p/9618

吴恩达提出的基于反思代理工作流的机器翻译方法

来源：https://xiaohu.ai/p/9611

Musashi：东京大学开发并训练了一款可以自己开车的机器人

来源：https://xiaohu.ai/p/9600

Uizard 发布 Autodesigner 2.0 AI设计引擎只需文字或截图几秒钟内完成网站设计

来源：https://xiaohu.ai/p/9585

Suno发布音频输入功能用户可以使用任何声音随时随地创作歌曲

来源：https://xiaohu.ai/p/9574

宝玉

AI 民科和 AI 科学家之间的差距

从一段翻译 Prompt 说起。

来源：https://baoyu.io/blog/ai/gap-between-ai-amateurs-and-ai-scientists

计算机专业还值得报考吗？

从我二十多年前参加高考以来，每年高考一结束，#计算机专业还值得报考吗# 就一直热门话题，一些人认为计算机发展了这么多年已经饱和，可能面临毕业即失业的风险，而另一些人则认为计算机专业依然是未来的热门专业，就业前景广阔。

来源：https://baoyu.io/blog/career/is-computer-science-still-worth-studying

探索检索和评估相关上下文的挑战 [译]

利用 Ragas, TruLens 和 DeepEval 对一年级阅读理解练习进行上下文相关性评估的案例研究

来源：https://baoyu.io/translations/rag/the-challenges-of-retrieving-and-evaluating-relevant-context-for-rag

最佳论文 [译]

虽然这篇文章的标题称其为“最佳论文”，但实际上并非如此。我的目标是探索一篇真正的最佳论文应具备的特质。

来源：https://baoyu.io/translations/writing/the-best-essay

苹果新推出的设备内及云端服务器基础模型介绍 [译]

在 2024 年全球开发者大会上，我们向大家展示了苹果智能系统，这是一套深度融入 iOS 18、iPadOS 18 及 macOS Sequoia 的个人智能体系。这一系统集成了多个功能强大的生成式 AI，专为处理用户日常需求而设计，能够根据用户当前的活动实时调整。苹果智能中的基础模型经过专门微调，以优化各种用户体验，如文本编写、通知的排序与摘要、为家庭及朋友对话创造有趣的图像，以及简化应用间的交互操作。

来源：https://baoyu.io/translations/apple/introducing-apple-foundation-models

Github

Codium-ai/cover-agent

CodiumAI Cover-Agent: An AI-Powered Tool for Automated Test Generation and Code Coverage Enhancement! 💻🤖🧪🐞

来源：https://github.com/Codium-ai/cover-agent

openrecall/openrecall

OpenRecall is a fully open-source, privacy-first alternative to proprietary solutions like Microsoft's Windows Recall. With OpenRecall, you can easily access your digital history, enhancing your memory and productivity without compromising your privacy.

来源：https://github.com/openrecall/openrecall