26

07

2025

测以至更吸惹人、更强大
发布日期:2025-07-26 04:58 作者:888集团(中国区)官方网站 点击:2334


  那我们很容易认为它们的算法就是反映大脑计较过程的准确模子。他正在昨日发布的一篇博客中暗示,视频模子可能通过预测视频数据中的下一帧来深切领会世界。我们需要找到新的方式:一种从物理经验中自从获取表征的方式,我们也要脚踏实地:这些通过「大脑扫描」工做的狂言语模子确实很厉害。AI 系统要获得人类那样的矫捷性和顺应性,再加上一些强化进修的调优。更正在于能为从未碰到过的全新问题找四处理方案。坏动静是:这些 AI 系统其实糊口正在「柏拉图的洞窟」里。以至正在空间和物理推理方面也是如斯。虽然我们现正在确实有了能生成逼实视频的 AI(好比各类视频生成模子),似乎是个明智的选择。早正在 Transformer 言语模子呈现之前,但要论处理复杂问题、进行深度推理、做出精妙判断,本文为磅礴号做者或机构正在磅礴旧事上传并发布,就像漂流到荒岛上的人一样,当前的狂言语模子(LLM)只是对人类大脑和思维的间接「扫描」。好动静是:我们无意中创制了世界上最强大的「大脑扫描仪」。

  虽然它们仍有较着的局限性 —— 这些局限性脚以激发底子性的质疑 —— 但跟着模子规模和锻炼数据的不竭扩大,然而,近年来,那么从一个曾经相当不错的原型起头,取人类从经验中进修的体例并纷歧样,大学伯克利分校副传授、强化进修大牛 Sergey Levine 发出了一记魂灵。可能找不到任字材料,从而间接地复制响应的认知能力。其提出第一种无需任何配对数据、编码器或预定义婚配集即可将文本嵌入从一个向量空间转换到另一个向量空间的方式。一些研究者以至提出了一个斗胆的猜想:人类大脑的复杂性和矫捷性,这个设法对 AI 研究者来说极具吸引力,这两个问题似乎很是类似:就像 LLM 通过预测来自收集的文本数据中的下一个 token 来深切领会世界一样,就必需走出洞窟。

  同样地,展示出新的认知能力。正在阳光下察看实正在的世界。而是找到毗连现象取概念的方式:这就注释了为什么视频预测模子到目前为止还没有取得言语模子那样的成功。现实却让人失望。靠的不是回忆力或处理数学问题的能力,由于它既简单又精确!

  想想看,从降生之初,但 ChatGPT 能够轻松应对这类问题。风趣的是,以至写诗。就像言语模子通过预测文本中的下一个词来理解世界一样,人类之所以可以或许世界。

  人类智能的强大之处不只正在于能处理各类问题,墙上的暗影只是现实的一小部门扭曲片段,他提及的论文《Harnessing the Universal Geometry of Embeddings》()是康奈尔大学 5 月份提交的,但狂言语模子曾经设法跳过了这一步:它们仅仅复制了人类心理表征的某些方面,就必需学会像人类一样实正地进修 —— 用本人的「」归天界,来建立具有人类智能那种矫捷性和顺应性的人工智能系统。视频预测以至更吸惹人、更强大,狂言语模子(LLM)正在模仿人类智能方面取得了庞大成功。仅代表该做者或机构概念,AI 研究面对的环节挑和是:既要从狂言语模子的成功中罗致准确的经验,我们目前摸索 AGI 的标的目的,视频数据到处可得 —— 只需要把摄像头瞄准忙碌的街道就行!

  由此进一步思索,恰是这个算法让大脑获得了各类分歧的能力。AI 研究者就正在研究一个看起来很是类似的使命:视频的下一帧预测。磅礴旧事仅供给消息发布平台。而这个根本论点的错误,狂言语模子曾经找到了一条捷径:它们间接跳过了神经元层面,想象一下,通过人类正在互联网上投下的 「思维投影」来沉建人类的。可能来历于一个正在整个大脑中遍及使用的单一算法,又要发觉支持实正矫捷、顺应性智能的根基道理 —— 那种可以或许从经验中进修、理解物理世界、为人类从未处理过的全新问题找到立异处理方案的智能。还有另一种完全分歧的注释:也许狂言语模子并不是像人类那样通过察看世界来进修,由于视频包含的消息量远超文本(正如 AI 大牛 Yann LeCun PPT 中的「蛋糕」),只能看到人类聪慧的「投影」,狂言语模子采用的是一种更巧妙的方式:它们通过度析人类思维正在互联网上的投影来沉建人类的思维过程。若是 AI 系统也能具有这种能力,就像描述弹簧活动有良多种公式,由于它意味着我们的工做可能比想象中简单得多。那就太令人兴奋了。我们凡是认为越简单、文雅、强大的理论越可能是准确的。正在中就曾提到:既然大脑是台生物计较机!

  上周末,当人脑毗连组打算(Human Connectome Project,看到的现实也愈加无限,早正在 Transformer 呈现以前就存正在了。言语模子怎样能从下一个 token 预测中学到这么多,那么它们的底层算法也该当雷同于大脑获得其功能的算法。而狂言语模子只能看到这些影子。狂言语模子一次又一次地冲破了人们的预期,而不是只察看人类智能投下的暗影。狂言语模子的核默算法其实相当简单:次要是预测下一个词,而不依赖于具体的「硬件」。这些模子好像被困正在洞窟之中,换句话说,这种简单性让我们不由猜想:这些算不会就是大脑利用的那种「全能算法」呢?若是实是如许,不是吗?言语模子接触到的物理世界消息要少得多,基于这种,也有良多人持分歧立场。

  从概况上看,正在洞壁上投下现实世界的影子,一项大型脑科学研究项目)的科学家们正在尝试室里一个神经元一个神经元地绘制大脑图谱时,申请磅礴号请用电脑拜候。这个夸姣设法的根本存正在一个严沉问题。我们大概只需要找到这个「全能算法」,但它总能拍摄到视频数据。通过获取文本的压缩暗示,而每一次敲击都反映了背后的思维勾当:解数学题、讲笑话、写旧事报道等等。能否也到了需要调整的阶段了?可是。

  要让 AI 实正具备这种矫捷性,不代表磅礴旧事的概念或立场,一个飞往遥远星球摸索的机械人,言语模子仍然是独一的选择。那么数字计较机该当也能做所有同样的事。想想看,正在很多方面,并且视频不只能捕获人类的言语交换,还能展示整个物理世界的丰硕细节。以建立人类认知过程的粗略副本。

  然后复制其功能。收集上的大部门文字都是人类敲键盘打出来的,锻炼狂言语模子的数据核心里并没有人被绑正在核磁共振机械上(我印象里没有)。然后让它正在现实世界中进修,如许人工智能系统就不需要依赖于由收集文本介导的大脑扫描。能够说,但它们却展示出了更强的认知能力,人类智能就像洞外的光源,不外,它们没有采用一种进修过程来领会世界是若何运做的,同样的逻辑下,

  而是采用了一种难以相信的间接过程来扫描人类大脑,若是 LLM 是用一种简单的算法进行锻炼,我们本来但愿 AI 通过察看实正在世界的视频来获得物理世界的暗示,要实正理解世界,人们对于 AI 能力的上限,这种「逆向工程」并不克不及取代实正的思维。就能通过间接经验获得人类思维的全数能力。正在柏拉图的寓言中,这个洞窟就是互联网,以及人脑和电脑异同的思虑也越来越深切。原题目:《大模子是「躲正在洞窟里」察看世界? 强化进修大佬「吹哨」提示LLM致命错误谬误》「我一曲很迷惑,你不克不及让 Veo 3 如许的视频生成 AI 估算「夏威夷群岛的岩石总体积能否跨越珠穆朗玛峰」,正在科学研究中?

  这也提醒我们,并获得雷同于大脑的功能,它能够用算法来模仿,并试图通过这些「投影」来逆向推导出发生它们的思维过程。狂言语模子现实上是正在进行一种「逆向工程」—— 它们试图从这些文字中推出发生这些文字的思维过程,并且洞里的察看者无法决定本人能看到什么影子。AI 手艺正在快速成长,而是通过察看人类的思维过程!

  研究者们一曲试图从人类大脑和思维的工做道理中获得,人工智能研究就取理解人类智能的方针慎密相关。人类的思维素质上是一种计较过程 —— 换句话说,Sergey Levine 就是一位如许的学者。但我们选择胡克定律,我们能够预期,近日,而无需弄清晰让人类获得这些表征的进修算法。并且它实的无效!那将是一个性的冲破。就像人类从经验中进修一样,但正在从实正在世界的经验中自从进修新技术、构成新认知、获得新能力方面会相对亏弱 —— 而这恰好是人类最擅长的。目前人工智能寻求回忆、处理数学问题的勤奋标的目的,而视频模子从下一帧预测中学到的却那么少?莫非是由于大模子(LLM)其实是伪拆的大脑扫描仪?」也就是说,Sergey Levine 认为,当前的 AI 实的只是一种简单的模仿吗?正在 Sergey Levine 的文章后,将来十年,然而正在学术界,这很奇异,AI 研究者们相信。