新闻动态

你的位置:江南app官方下载苹果 > 新闻动态 > 田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索


田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索

发布日期:2025-06-25 00:53    点击次数:98

AI 也有量子叠加态了?

连续思维链的并行搜索类似于量子叠加,比离散型思维链更具优势。

这是 AI 大牛田渊栋团队的最新研究成果。

传统 LLM 通过生成 "思维 token "(如文本形式的中间步骤)进行推理(即离散思维链),但在处理复杂任务(如判断有向图中节点是否可达)时效率低下,需要 O ( n^2 ) 步解码(n 为节点数),且容易陷入局部解。

近期研究发现,用连续隐向量(非离散 token)进行推理能显著提升性能,但缺乏理论解释。

田渊栋领衔来自 UC 伯克利、UCSD 的科学家们利用连续空间中的 "叠加态",让大模型进行并行推理,大幅提升了模型在图可达性等任务中的表现,给上述连续思维链提供了理论支持。

团队证明了:

对于具有 n 个顶点且直径为 D 的图, 一个包含D 步连续 CoTs的两层 Transformer 可以解决有向图可达性问题,而具有离散 CoTs 的恒定深度 Transformer 的最佳已知结果需要O ( n^2 ) 个解码步骤。

简单来说,对于有向图可达性问题,离散思维链类似于深度优先搜索(DFS),每次只能选择单一路径,导致步骤多且容易受限。

而连续思维链可以同时编码多个候选图路径,类似于广度优先搜索(BFS),并且可以利用这种"叠加"进行隐式的「并行搜索」,比离散思维链更具优势。

让我们来看看实验细节。

跟着"导航"找思维路径像 "导航仪" 一样的注意力选择器

团队设计了一种注意力选择器机制,使模型能根据当前 token 选择性地关注特定位置(如边的源节点和目标节点),确保信息的有效提取。

这个注意力选择器就好比我们开车时用的导航仪,能帮模型在一堆信息里精准找到该关注的地方。

具体来说,当模型在处理信息时,遇到特定的 "标记",比如表示一条边结束的 token,就像导航仪识别出一个路口标识,这时候它就会自动把注意力集中到这条边的起点和终点节点上。

就像你看到 "前方路口右转" 的提示后,会重点关注那个路口的位置。

如果没遇到这种明确的标记,注意力选择器就会模型去关注开头的信息,比如问题最开始给出的条件,这样就能确保模型不会在信息堆里迷路,始终能从正确的起点开始思考。

两层连续思维 Transformer 进行叠加态维护

什么是连续思维的"叠加态"?

我们这里所说的"叠加态" 就像一个装着所有可能答案的"盒子"。

比如,从根节点出发走 c 步后,这个盒子里不会只装着一条路径,而是同时装着所有 c 步内可达的节点,这些节点的信息被 "揉" 成一个向量(即思维向量),让模型能一次性处理所有可能性,而不是一次只考虑一条路径。

第一层 Transformer:"整理" 边的信息

假设我们有一个有向图,边用 token 表示,每个边 token 旁边还带着它的源节点(起点)和目标节点(终点)。

此外,根节点 r 是探索的起点,初始思维向量就是 r 的嵌入向量。

第一层 Transformer 有 5 个注意力头,每个头就像一个 "信息收集小助手",它们的任务是:

当遇到一个边 token 时,小助手会 "主动" 关注这个边的源节点和目标节点,并把这两个节点的信息 "复制" 到边 token 的位置上,就像在边 token 旁边贴两张标签,分别写着 "起点是 XXX " 和 "终点是 XXX "。

举个例子:如果有一条边是从节点 A 到节点 B,边 token 会被处理成包含 A 和 B 的信息,方便后续使用。

经过第一层处理后,每条边的信息都被明确标注了起点和终点,初始思维向量也被保留下来,作为下一步探索的基础。

第二层 Transformer:"并行探索" 所有可能路径

这一层就像 "探索指挥官",它会根据当前的叠加态(即当前能到达的所有节点),去寻找下一步能到达的新节点:

假设当前叠加态里有节点集合 Vc(c 步内可达的节点),模型会 "扫描" 所有边,看看哪些边的源节点在 Vc 里。比如,若 Vc 里有节点 A 和 B,就查看从 A 和 B 出发的所有边。

对于符合条件的边,其目标节点会被 "添加" 到叠加态中,形成新的节点集合 Vc+1(c+1 步内可达的节点)。这就好比从 A 和 B 出发,发现能到达 C 和 D,于是把 C 和 D 也放进 "盒子",让下一轮探索能考虑这些新节点。

MLP 层:"过滤" 和 "平衡"

过滤噪声:叠加态在扩展过程中可能会混入一些 "不重要的节点"(类似盒子里进了杂物),MLP 层会像 "筛子" 一样,把那些权重很小的节点(即几乎不可能到达的节点)过滤掉,只保留有价值的节点。

平衡权重:过滤后,MLP 层会让剩下的节点在叠加态中的 "权重" 变得均匀,就像把盒子里的节点信息整理得整整齐齐,不让某个节点的信息 "压倒" 其他节点,确保模型能公平地考虑每一个可能的路径。

对比试验及结果

团队使用 ProsQA 数据集的子集进行实验,该子集中的问题需要 3-4 推理步长来解决,且图中的每个节点都作为一个专用 token 注入到词汇表中。

实验结果显示,采用 COCONUT(连续思维链)的 2 层 Transformer 模型在解决 ProsQA 问题时表现出色,准确率接近100%。

相比之下,12 层的离散 CoT 模型准确率仅为83%,而无 CoT 基线模型只能解决约 75% 的任务。

此外,团队还通过对注意力模式和连续思维表示的分析,进一步证实了模型中存在预期的叠加态搜索行为,直接支持了"叠加态存在"的理论假设。

不仅能搞科研,还能写小说

田渊栋任职于 Meta GenAI(前 FAIR),但业余时间是一位小说家(doge)。

没错,具体来说是科幻小说家。

田渊栋在谈到第一部作品的写作动因时说:

在 AI 最火热的时候我写了本小说

2020 年到 2021 年,他完成了第一部长篇科幻小说《破晓之钟》,该作品于 2024 年 6 月正式出版。

△图源田渊栋知乎

《破晓之钟》讲述了几个初出茅庐的科学家们如何面对来自外太空的挑战、如何处理人类危机的故事。

但区别于《三体》,《破晓之钟》的技术背景离我们当前所处的时代更近,甚至都是我们这几年人人都在谈论、全球火热的技术风口。

这本书的核心观点是:AI 只是在模仿数据,却让人误以为它有智慧。

这一观点写于 ChatGPT 爆火之前,却精准预言了大语言模型的本质。

这部作品也收获了不少读者的好评。

田渊栋在今年 5 月接受交大校友采访时还透露,由于写第一部小说时还没有大模型,所以每个字都是自己手敲的,接下来的第二部应该会用 AI 尝试一下辅助写作。

目前,他的第二部小说正在构思中,还是延续《破晓之钟》世界观,时间线会往后推很多,可能涉及到"群体意识"和"星际殖民"这类议题。

他说:

我希望写出更大的宇宙,但核心依然是人类的选择与挣扎。

论文地址:https://arxiv.org/abs/2505.12514

参考链接:

[ 1 ] https://x.com/tydsh/status/1935206012799303817

[ 2 ] https://zhuanlan.zhihu.com/p/15135181332?share_code=1io696PXYfDXY&utm_psn=1919011036050219530

[ 3 ] https://www.douban.com/doubanapp/dispatch/book/36946627?dt_dapp=1

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

� �  量子位 AI 主题策划正在征集中!欢迎参与专题365 行 AI 落地方案,一千零一个 AI 应用,或与我们分享你在寻找的 AI 产品,或发现的AI 新动向。

� � 也欢迎你加入量子位每日 AI 交流群,一起来畅聊 AI 吧~

一键关注 � � 点亮星标

科技前沿进展每日见



上一篇:中国恒大:清盘人要求公司债权人提交债权证明表 股票继续停牌
下一篇:“山河映忠魂”全国英烈讲解员大赛首场复赛在山东滨州举行

Powered by 江南app官方下载苹果 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024