LeCun 最新访谈对 DeepSeek 一顿猛夸,还谈了 AI 发展需理解物理世界
LeCun 最新访谈,对 DeepSeek 一顿猛夸。</p>他表示,DeepSeek 是一项很出色的成果,它的开源不只是成果创造者受益,全世界都能从中受益。</p>不过 LeCun 也指出,金融市场对 DeepSeek 出现的反应,说什么“哦,现在我们可以更便宜地训练系统了,所以我们不再需要那么多计算机”,这种说法是错误的。</p>最终大部分的基础设施建设和大部分的投资实际上都用在运行模型上,而不是训练模型。</p>顺带他还提到了对 OpenAI“星际之门”项目的看法,OpenAI 之前官宣将与软银甲骨文组建合资公司,未来 4 年内总投资 5000 亿美元在这个项目上,LeCun 却表示不认为它会改变一切。</p>他认为这个项目的投资与微软、Meta 的投资规模实际上处于同一数量级,并没有太大的不同。</p>另外,LeCun 着重讲了现在的 AI 系统在很多方面都还非常“愚蠢”,光靠大语言模型不行,AI 发展需要理解复杂物理世界。</p></p>LeCun 的一些大胆言论让网友听得一愣一愣的:</p>说当前 AI 愚蠢没有智能,又将自己的“情感”概念强加到他正在构建的东西上,这有点疯狂。
</p>当然,也有研究人员赞同 LeCun 的说法。</p></p>量子位在不改变原意的基础上,对部分问题进行了翻译整理。</p>最新访谈问题整理
谈 AI 是否会有类似人的情绪
Q:我们努力推动 AI 达到与人类能力相匹配的水平。现在我们是否会让 AI 展现出类似人类愤怒这类的情绪呢?你觉得这有可能实现吗?</p>LeCun:不,我不这么认为。</p>目前 AI 系统在很多方面都还非常“愚蠢”,我们之所以会觉得它们很聪明,是因为它们能够很好地处理语言,但实际上它们并不具备真正的智慧。</p>它们不理解物理世界,也没有像我们人类所拥有的那种持久记忆,无法真正地进行推理,也不能制定计划。而这些都是智能行为的基本特征。</p>所以,我和我在 FAIR 以及纽约大学的同事们一直在努力做的一件事,就是设计一种新型的 AI 系统,而且它仍然是基于深度学习的。</p>这种系统将能够理解物理世界,拥有实体记忆,并且能够进行推理和规划。在我看来,一旦我们成功地按照这个蓝图构建出这样的系统,它们就会拥有情感,可能会恐惧、兴奋或者失落,因为这些都是对结果的预期。</p>这些系统会按照我们设定的目标来运行,然后会尝试弄清楚自己可以采取怎样的行动来实现这个目标。如果它们能够提前预测到目标将会实现,在某种程度上会“感到高兴”;如果它们预测到无法实现目标,它们就会“不开心”。</p></p>所以在一定程度上它们会拥有情感,因为它们将能够预测自己可能采取的一系列行动的结果。</p>但是我们不会在它们的程序中人为设定类似愤怒、嫉妒之类的情感。</p>但意识是另外一回事,我们实际上并不清楚它究竟是什么,目前并没有一个真正意义上的定义,也没有任何一种真正可衡量的东西能让我们判断某样事物到底有没有意识。</p>就好比我们观察动物,大概我们都会认同猿是有意识的,也许大象以及诸如此类的动物也是有意识的,但狗有意识吗?老鼠有意识吗?界限在哪里?</p>因为我们没有一个关于意识的恰当定义,所以我们确实无法判断。</p>谈机器学习三种模式
Q:当年你说机器学习很烂,现在情况有什么变化吗?</p>LeCun:这就是我们正在努力的,我们正在寻找构建机器学习系统的新方法,让它们能够像人类和动物那样高效地学习,因为目前的情况并非如此。</p>我可以给你讲讲过去几十年里机器学习是如何发展的。实际上机器学习主要有三种早期模式。</p>一种叫监督学习,这是最经典的一种。</p>训练一个监督学习系统的方式是这样的,例如对于一个用于识别图像的系统,你给它展示一张图片,比方说一张桌子的图片,然后告诉它“这是一张桌子”,这就是监督学习,你告诉了它正确答案是什么,也就是系统计算机的输出应该是什么。</p>如果它给出的不是“桌子”,那么它就会调整自身的参数,也就是它的内部结构,使得产生的输出更接近你想要的结果。</p>如果你不断地用大量桌子、椅子、汽车、猫、狗等例子来进行训练,最终这个系统将会找到一种方法,能够识别出你用来训练它的每一张图像,而且对于那些它从未见过但与训练图像相似的图像,它也能识别,这就叫做泛化能力。</p>还有另一种模式,人们认为这种模式更接近动物和人类的学习方式,叫做强化学习。</p>在强化学习中,你不会告诉系统正确答案是什么,你只告诉它所产生的答案是好还是坏。在某种程度上,这可以解释人类和动物的一些学习类型。比如,你尝试骑自行车,一开始不知道怎么骑,过了一会儿你摔倒了,所以你知道自己做得不好,于是你稍微改变一下策略,最终你就学会了骑自行车。</p>但事实证明,强化学习效率极其低下。</p>如果你想训练一个系统来下国际象棋、围棋或者玩扑克之类的,它确实效果很好。因为你可以让系统自己和自己玩数百万局游戏,然后基本上就能对自身进行微调。</p>但在现实世界中,它并不太适用。如果你想训练一辆汽车自动驾驶,你可不能用强化学习的方法,不然它会撞车成千上万次。如果你训练一个机器人学习如何抓取东西,强化学习可以是解决方案的一部分,但它不是全部,仅靠强化学习是不够的。</p>所以还有第三种学习形式,叫做自监督学习。</p>正是自监督学习推动了近期自然语言理解和聊天机器人领域的进展。在自监督学习中,你不是训练系统去完成特定的任务,而是训练它去捕捉输入的结构。</p>比如说,在处理文本和语言方面的应用方式是,你取一段文本,以某种方式对它进行破坏,比如删除一些单词,然后训练系统去预测缺失的单词。</p>这种方式的一个特殊情况是,你取一段文本,这段文本的最后一个单词是不可见的。所以你训练系统去预测这段文本的最后一个单词。这就是训练大语言模型以及所有聊天机器人所采用的方式。</p>从技术层面来说会有所不同,但基本原理就是这样。这就叫做自监督学习。你不是为了某个任务去训练系统,只是训练它去学习输入内容的内部依赖关系。</p></p>自监督学习的成功令人惊叹,它的效果出奇地好,最终你得到的系统似乎真的理解了语言,并且如果你通过监督学习或强化学习对它们进行微调,使它们能够正确回答问题,那么这些系统就能理解问题。</p>这就是目前行业内大家都在努力研究的方向,但如果你想要一个系统去理解物理世界,这种模型就不管用了。</p>谈 AI 系统所缺的关键要素
LeCun:物理世界比语言要难理解得多,我们往往认为语言是展现智能的重要方面,因为只有人类能够运用语言。但事实证明,语言其实是相对简单的。</p>它之所以简单,是因为它是离散的,是由一系列离散的符号组成的序列。</p>字典里可能出现的单词数量是有限的,所以,虽然你永远无法训练一个系统精确地预测下一个出现的单词是什么,但你可以训练它为字典里的每个单词在那个位置出现的概率进行估算。这样,你就可以通过这种方式来处理预测中的不确定性。</p>然而,你却无法训练一个系统去预测视频中将会发生什么。</p>人们尝试过这么做,我自己也为此努力了 20 年,如果你能够训练一个系统去预测视频中将会发生的事情,那么这个系统就会潜移默化地理解这个世界的底层结构,比如直观的物理学知识,以及任何动物和人类在婴儿时期所学到的关于物理方面的一切知识。</p>你知道的,如果我拿起一个物体然后松开手,它就会掉落,重力会把物体拉向地面,人类婴儿大概 9 个月大的时候就学会了这一点。</p>这是个棘手的问题,猫或者狗几个月的时间就能了解重力,而且猫在这方面真的很厉害,它能够规划复杂的动作,爬上爬下还能跳跃,它对我们所说的直观物理学有着非常好的理解。而我们还不知道如何用计算机来重现这一点。</p>原因就在于,这又是 AI 研究人员所说的“莫拉维克悖论”。</p>汉斯・莫拉维克是一位机器人专家。他指出,为什么我们能让计算机下棋、解决数学难题,但却无法让它们做一些像动物能做的操控物体、跳跃之类的物理动作?</p>所以这就是这个悖论的又一个例子,即离散物体和符号的空间很容易被计算机处理,但现实世界实在是太复杂了,在一种情况下有效的技术在另一种情况下却行不通。</p>如果你想直观地理解这一点,有个不错的方法:通过我们的感官比如视觉或触觉,传递给我们的信息量,与我们通过语言获取的信息量相比,绝对是极其庞大的。</p>这也许就能解释为什么我们有大语言模型、聊天机器人,它们能通过律师资格考试,能解决数学问题,或者写出听起来不错的文章。但我们仍然没有家用机器人。我们仍然没有能完成猫或狗能完成的任务的机器人。我们仍然没有达到 L5 完全自动驾驶的汽车,而且我们肯定也没有能像 17 岁的孩子那样,通过大约 20 个小时的练习就能学会驾驶的自动驾驶汽车。</p>所以很明显,我们还缺少一些关键的东西,而我们所缺少的,就是如何训练一个系统去理解像视觉这样复杂的感官输入。</p></p>如果你想要拥有与动物和人类智力相仿的机器,它们具备常识,或许在某个阶段还拥有意识以及其它能力,并且能够真正应对复杂世界中错综复杂的情况,那我们就需要攻克这个难题。</p>一个典型的大语言模型的信息量大约是 10 的 14 次方字节,也就是 1 后面跟着 14 个零,这是互联网上所有公开可用文本的总量,我们任何人要读完这些材料都得花几十万年的时间,这是极其庞大的信息量。</p>当你把大语言模型的信息量与在生命的头四年里通过视觉系统进入我们大脑的信息量作比较。在头四年里,一个幼儿醒着的总时长大约是 16000 个小时。进入大脑到达视神经的信息量大约是 2MB/s。计算一下,那大约也是 10 的 14 次方字节。</p>也就是说,一个幼儿在头四年里所接触到的信息或数据量,和最大的大语言模型所处理的信息量大致相当。</p>这就告诉我们,仅仅通过对文本进行训练,我们永远无法实现达到人类水平的人工智能,必须让系统去理解真实世界。而要做到这一点,在现实世界中确实非常困难。</p>Q:你在你的 LinkedIn 和 Facebook 主页上把 AI 和熵联系起来了,它们之间有什么关联?你写的内容很难让人理解,能否给我们简单解释一下。</p>LeCun:这一直是我着迷的一个问题,它是计算机科学、物理学、信息论以及许多不同领域中诸多问题的根源,那就是如何对信息进行量化的问题,也就是一条消息中包含了多少信息。</p>我已经多次提出的观点是,一条消息中的信息量并非是一个绝对的量,因为它取决于解读这条消息的人。你能从传感器中、从别人告诉你的语言信息或其它任何信息中提取出的信息量,取决于你如何去解读它,这就是关键所在。</p>认为可以用绝对的方式来衡量信息,这种想法可能是错误的。每一种对信息的度量都是相对于解读该信息的特定方式而言的。所以这就是我一直想表达的观点。</p>而这会产生非常广泛的影响。因为如果没有一种绝对的方法来衡量信息,那就意味着物理学中有很多概念实际上并没有那种像熵这样客观的定义,所以熵是对我们对一个物理系统状态的未知程度的一种度量。当然,这取决于你对这个系统了解多少。</p></p>所以我一直执着于试图找到一些好的方法来定义熵、复杂性或者信息内容。</p>Q:你难道不认为我们用于训练 AI 模型的全球数据库已经达到极限了吗?我们在 2000 年时将数据的 25% 进行了数字化,而如今我们已经把所有数据的 100% 都数字化了。</p>LeCun:不,仍然有大量的文本知识尚未被数字化。而且,也许在很多发达地区很多数据已经被数字化了,但其中大部分都不是公开的。</p>比如说,有大量的医疗数据就是不公开的,还有很多文化数据、世界上很多地区的历史数据都无法以数字形式获取,或者即便有数字形式也是以扫描文档的形式存在。所以它并不是可利用的文本之类的东西。</p>所以我认为那种说法不对,我觉得仍然还有大量的数据未被合理利用。</p>谈 o1 式推理模型
Q:那关于像 o1 这样的自由推理、抽象思维模型呢?我们能期待从您的实验室中看到类似这样的成果吗?</p>LeCun:从观察中精心构建抽象表征的问题是深度学习的关键所在。深度学习的核心就在于学习表征。</p>实际上,深度学习领域的一个主要会议叫做国际学习表征会议(ICLR),我是这个会议的共同创始人之一。这就表明了学习抽象表征这个问题对于 AI 整体尤其是对于深度学习来说是多么的核心。</p>如今,如果你希望一个系统能够进行推理,你就需要它具备另一套特性。在 AI 领域,推理或规划行为由来已久,自 20 世纪 50 年代起便有相关研究,其经典模式是要找到一种搜索问题解决方案的方法。</p>比如说,如果我给你一份城市列表,然后让你找出经过所有这些城市的最短路线。那么,你就会思考,我应该从相邻的城市开始走,这样我的总行程才会尽可能短。</p>现在,存在一个由所有可能路线构成的空间,也就是所有城市排列顺序的集合。这是一个非常庞大的空间,像在 GPS 之类的算法中,它们搜索路径的方式就是在所有可能的路径中寻找最短的那一条。所有的推理系统都是基于这种搜索的理念。</p>也就是说,在一个由可能的解决方案构成的空间里,你去搜索那个符合你所期望目标的方案。</p>目前的系统,比如现有的大语言模型,它们进行这种搜索的方式还非常原始,它们是在所谓的 token 空间中进行搜索,也就是输出空间。所以基本上,它们让系统或多或少随机地生成大量不同的 token 序列,然后再用另一个神经元去查看所有这些假设的序列,从中找出看起来最好的那个,然后输出它。</p>这是极其耗费资源的,因为这需要生成大量的输出结果,然后再从中挑选出好的。而且这也不是我们人类思考的方式。我们不是通过生成大量的行为,然后观察结果,再判断哪个是最好的来进行思考的。</p>比如说,如果我让你想象在你正前方的空中漂浮着一个立方体,现在拿起那个立方体,绕着垂直轴旋转 90 度,这样你就有了一个旋转了 90 度的立方体。现在想象这个立方体,然后告诉我它看起来是否和你旋转之前的原始立方体一样。答案是肯定的。</p>因为你知道,对于一个立方体来说,如果你将它旋转 90 度,并且你仍然是从相同的视角去看它的话,它看起来就是一样的。</p>Q:那是自由推理的错觉吗?</p>LeCun:你所做的是在你的思维状态中进行推理,而不是在你的输出行为状态或行为空间中进行推理。</p>或者说,无论你的输出状态是什么,你是在一个抽象空间中进行推理。</p>所以我们拥有这些关于世界的心理模型,这些模型使我们能够预测世界上将会发生什么,操控现实,提前预知我们行为的后果。如果我们能够预测自己行为的后果,比如将一个立方体旋转 90 度之类的事情,那么我们就可以规划一系列的行动,从而达成一个特定的目标。</p>所以,每当我们有意识地去完成一项任务时,我们的全部心思都会集中在上面,然后思考我需要采取怎样的一系列行动,才能做好任何事情。</p>基本上,我们每天用心去做的每一项这类任务,都需要进行规划。而且大多数时候,我们是分层级地进行规划。</p>比如说,我们不会一下子就跳到某个最终步骤,如果你现在决定从纽约回到华沙,你知道你得先去机场然后搭乘飞机。现在你有了一个子目标,那就是去机场。这就是分层级规划的意义所在。</p>在某个时候,你会确定一个足够具体且无需再进一步规划的目标,比如从椅子上站起来,你不需要再去规划这个动作,因为你已经非常习惯这么做了,你可以直接就做到,而且你拥有完成这个动作所需的所有信息。</p>所以,我们需要进行分层级规划,智能系统也需要进行分层级规划,这个理念至关重要。如今,我们还不知道如何让机器做到这一点。这是未来几年里的一个巨大挑战。</p></p>谈 DeepSeek 和 OpenAI 星际之门
Q:现在全世界都在谈论新模型 DeepSeek,它比 OpenAI 一些模型便宜得多,你难道不觉得木已成舟、大局已定了吗?你对此有何看法?</p>LeCun:有件事必须解释得非常清楚。如果一项研发成果被发表出来,用于产生这项成果的技术或者相关的论文、白皮书、报告之类的也被发布了出来,并且如果代码是开源的,全世界都能从中受益。</p>明白吗,不只是成果的创造者受益,成果的创造者或创造团队会获得声誉以及认可,但全世界都能从中受益,这就是开放开源的魅力所在。</p>就我个人以及 Meta 公司整体而言,一直都是开放研究和开源理念的坚定支持者。每当有一个践行开放开源研究的机构产出了成果,整个开源社区也会从中受益。</p>有人把这描述成了一种竞争的态势,但其实并非如此,这更像是一种合作。</p>问题在于,我们是否希望这种合作是全球性的,我的答案是肯定的,因为全世界各个地方都能涌现出好的创意。没有哪个机构能垄断好的创意,这就是为什么开放协作能让这个领域发展得更快。</p>现在行业里有些人过去也曾践行开放研究然后取得了成功,OpenAI 就是这样的情况。</p>而 Anthropic 从来都不是开放的,他们把所有东西都保密。</p>谷歌则从部分开放逐渐走向基本不开放,比如说他们不会公开关于 PaLM 背后的所有技术,他们仍然在做很多开放研究,但更多的是那种基础性、长期性的研究。</p>我觉得挺遗憾的,因为很多人基本上把自己排除在了世界研究社区之外,他们没有参与进来没有为行业的进步做出贡献。</p>过去十年 AI 领域发展如此迅速的原因就在于开放研究。不只是我这么认为,这不是一种观点,而是事实。</p>让我举个例子。几乎可以说,整个 AI 行业,至少在研发阶段构建系统时都会使用一款名为 PyTorch 的开源软件。它最初是由我在 Meta FAIR 实验室的同事开发的,后来有更多人参与进来。</p>几年前,PyTorch 的所有权转移到了 Linux 基金会,Meta 是主要的贡献者,但不再控制它了。它实际上是由一个开发者社区来管理的,基本上整个行业都在使用它,这其中包括 OpenAI,也包括很多其他公司。</p>谷歌有他们自己的软件,但微软、英伟达等公司也都在使用 PyTorch,整个学术界和世界范围内的研究也都在使用 PyTorch。</p>我认为在科学文献中发表的所有论文里,大概有 70% 都提到了 PyTorch。所以这说明,AI 领域的进步是建立在彼此的研究成果之上的。而且,这就是科技进步的合理方式。</p>Q:如果不是 DeepSeek 的话,那么也许 OpenAI 的“星际之门”项目(The Stargate Project)会改变一切吗?</p>LeCun:不,不</p>那我再说说关于 DeepSeek 的一点看法,这是很出色的成果,参与其中的团队有着卓越的想法,他们确实做出了很棒的工作。</p>这可不是中国第一次产出非常优秀的创新性成果了。我们早就知道这一点,尤其是在计算机视觉取得进展的领域。</p>中国在大语言模型方面的贡献是比较近期才凸显的,但在计算机视觉领域,你看计算机视觉顶会上,很多参会者都是中国人,他们都是非常优秀的科学家,都是很聪明的人。所以,世界上的任何地区都无法垄断好的创意。</p>DeepSeek 的创意也许很快就会被复现,但它现在已经是世界知识的一部分了,这就是开源和开放研究的美妙之处。这在产品层面上或许是一种竞争,但在基本方法层面上,是一种合作。</p>现在我们来谈谈“星际之门”项目。如今,所有涉足 AI 领域的公司都预见到了一个不远的未来,在那个未来里,数十亿人每天都会想要使用 AI 助手。</p>我现在戴着一副眼镜,我不知道你能不能看到这副眼镜上有摄像头,这是 Meta 的一款产品你可以和它对话,它连接着一个 AI 助手,你可以向它问任何问题,你甚至可以让它通过摄像头识别植物物种之类的东西。</p></p>所以我们预见到的未来是,人们会戴着智能眼镜、智能手机或其它智能设备,在日常生活中会一直使用 AI 助手。</p>这就意味着,将会有数十亿的 AI 助手用户,而且他们每天会多次使用这些助手。为此,你需要非常庞大的计算基础设施,因为运行一个大语言模型或任何 AI 系统,成本都不低,你需要强大的计算能力。</p>所以你知道的,Meta 今年在基础设施方面的投资大约为 600-650 亿美元,主要用于 AI 领域;微软已经宣布将投资 800 亿美元。</p>“星际之门”项目计划投资 5000 亿美元,但这是在五年或十年内的投资,而且我们也不知道这些资金将从何而来,所以这和微软以及 Meta 的投资规模处于同一数量级,实际上并没有太大的不同。</p>这不是用于训练大型模型的,实际上训练大型模型的成本相对较低,大部分投资是用于推理方面,也就是说,是为了运行 AI 助手来服务数十亿人。</p>所以我认为,金融市场对 DeepSeek 出现的反应,说什么“哦,现在我们可以更便宜地训练系统了,所以我们不再需要那么多计算机”,这种说法是错误的。</p>我的意思是,训练只是会变得更高效一些,但结果是我们只会去训练更大规模的模型。而且最终大部分的基础设施建设和大部分的投资实际上都用在运行模型上,而不是训练模型。这才是投资的方向所在。</p>
[*]原视频链接:https://www.youtube.com/ watch?v=RUnFgu8kH-4</p>
[*]参考链接:https://x.com/ vitrupo / status / 1898470276272210294
本文来自微信公众号:量子位(ID:QbitAI),作者:西风</p>此文章来自:IT之家如有涉及侵权请通过邮箱联系:fnhjeqj@163.com删除。
页:
[1]