E145|对话Meta田渊栋：被Transformer改变的世界与人类AGI的野心

硅谷101|中国版

المحتوى المقدم من 泓君Jane. يتم تحميل جميع محتويات البودكاست بما في ذلك الحلقات والرسومات وأوصاف البودكاست وتقديمها مباشرة بواسطة 泓君Jane أو شريك منصة البودكاست الخاص بهم. إذا كنت تعتقد أن شخصًا ما يستخدم عملك المحمي بحقوق الطبع والنشر دون إذنك، فيمكنك اتباع العملية الموضحة هنا https://ar.player.fm/legal.

7M ago 54:10

M4A•منزل الحلقة

2017年，谷歌一篇划时代的论文《Attention is all you need》掀开这一轮人工智能的开幕式，这篇论文就是大名鼎鼎的Transformer。7年过去了，我们看到在这篇论文的基础上加入算力、算法开启了AI时代的第三次科技浪潮。

今天我们的嘉宾是来自Meta Fair的研究员田渊栋博士，他最近也发表了两片论文都在都与端侧小模型相关，一片论文是《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》中开始卷 10 亿以下参数小模型，主打在移动设备上运行 LLM；另一片论文是《GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection》，由于离应用更近在解决更实际的问题，他的论文被业界很多人问到，而过去五年，他所有的研究都在回答一个问题：神经网络是如何工作的？

今天我们就一起来解读田渊栋最近的两篇论文，也一起聊聊最近大火的Sora、Transformer与AGI。

【老罗直播预告】

北京时间3月31号晚上七点，罗永浩会在直播间卖云产品。之前老罗也带火过很多概念，这次我们来看一看，老罗能不能引领一场企业级IT认知的运动，把云计算这个概念推向大众。他这次的选品涵盖阿里云众多的热门产品，价格也给出了史无前例的优惠，大家感兴趣去淘宝app搜索「罗永浩」，让我们一起围观连续创业者罗永浩卖云产品，以及他如何解决创业者的核心痛点的

【主播】

泓君，硅谷101创始人，播客主理人

【嘉宾】

田渊栋，Meta人工智能研究院（FAIR）研究员及高级经理

田渊栋博士，Meta AI人工智能研究院(FAIR)研究员及高级经理，2018年围棋开源项目（ELF OpenGo）研究及工程负责人和第一作者。曾获2021年国际机器学习大会（ICML）杰出论文奖提名（Outstanding Paper Honorable Mentions)及2013年国际计算机视觉大会（ICCV）马尔奖提名（Marr Prize Honorable Mentions）。研究方向为深度强化学习，表示学习和优化，历任机器学习国际会议ICML，NeurIPS，AAAI, AIStats领域主席。2013-2014年在Google无人驾驶团队任软件工程师。

【你将听到】

00:05 3月31号晚七点罗永浩直播间卖云

01:34 正片

【“斜杠”研究者】

02:55 从自动驾驶、围棋开源项目到神经网络研究

05:52 写科幻小说：不靠谱的想法放进小说，靠谱的想法用来做科研

07:24 理解神经网络如何工作or 研究大模型，2019年为何拒绝Ilya Sutskever加入OpenAI的邀请

08:44 最新两篇论文的诞生：曾被两次拒稿，三四年后才看到结果

【GaLore和MobileLLM】

11:04 GaLore的主要特点：实现在英伟达RTX 4090上进行模型的从头训练

12:56 算法上改进让4090重获新生，省内存的同时获得高性能

16:56 MobileLLM：降低神经网络参数仍然保持好的效果

【实现AGI的路径】

17:40 Scaling Law带来的增长会越来越小，我们并没有完全理解为什么Transfomer的效果更好

19:17 完全无人驾驶难点：人工干预的频率越低，有效训练数据就越少

23:41 Transfomer很难做游戏式的推理：通过理解神经网络的工作原理来改进现有算法

【深度理解Transformer】

24:52 谷歌内部发现算力价格比通信便宜，所以想到要设计一个模型让算力获得更大优势

26:21 Transformer vs CNN：没有预设立场，并行效果更好

26:44 Transformer的缺点：需要大量算力、速度较慢、延迟高

28:01 强化学习的根本性问题：Exploration（探索）和Exploitation（开采）

【Sora、合成数据与Anthropic】

30:03 Sora的最让人惊艳的地方是所生成的内容一致性非常好，在技术上有根本的创新

33:07 世界模型并不“高大上”，对未来有看法和预测都可以成为称为“世界模型”

40:46 用合成数据训练大模型是趋势，其与真实数据之间的边界会越来越模糊

43:00 合成数据相当于用算力来换数据，但缺乏人类参与的数据会导致学习瓶颈

44:30 Anthropic的长文理解和分析能力远强过GPT-4，但推理能力难以分高下

46:30 大模型缺乏竞争的话，也会出现“偷懒”的问题

48:06 一家独大 or 威慑平衡，Meta开源打破的行业格局

48:18 大模型侵蚀Google的核心业务，训练和推理很难发论文

50:20 从玄幻小说到科幻小说：记录人与人之间的关系和思维的火花

【后期】

AMEI

【BGM】

Interruption - Craft Case

Stillness Within - Roots and Recognition

【在这里找到我们】

公众号：硅谷101

收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客

海外用户：Apple Podcast｜Spotify｜TuneIn｜Youtube｜Amazon Music

联系我们：podcast@sv101.net

209 حلقات

#企业家 #泓君Jane