Artwork

المحتوى المقدم من OnBoard!. يتم تحميل جميع محتويات البودكاست بما في ذلك الحلقات والرسومات وأوصاف البودكاست وتقديمها مباشرة بواسطة OnBoard! أو شريك منصة البودكاست الخاص بهم. إذا كنت تعتقد أن شخصًا ما يستخدم عملك المحمي بحقوق الطبع والنشر دون إذنك، فيمكنك اتباع العملية الموضحة هنا https://ar.player.fm/legal.
Player FM - تطبيق بودكاست
انتقل إلى وضع عدم الاتصال باستخدام تطبيق Player FM !

EP 45. 深度解读 OpenAI Sora(上):硅谷AI研究员眼里的技术创新、局限,多模态融合与世界模型

1:52:28
 
مشاركة
 

Manage episode 402038152 series 3373195
المحتوى المقدم من OnBoard!. يتم تحميل جميع محتويات البودكاست بما في ذلك الحلقات والرسومات وأوصاف البودكاست وتقديمها مباشرة بواسطة OnBoard! أو شريك منصة البودكاست الخاص بهم. إذا كنت تعتقد أن شخصًا ما يستخدم عملك المحمي بحقوق الطبع والنشر دون إذنك، فيمكنك اتباع العملية الموضحة هنا https://ar.player.fm/legal.

OnBoard! 终于成立听友群啦!新年新气象,加入Onboard听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加小助手微信,Nine_tunes, 发送你的姓名、公司和职位,就可以获得进群链接。期待你来!

---------------

这是Onboard 2024年姗姗来迟的第一期更新,给大家拜个晚年!这次我们讨论的话题,就是这周AI领域最让人激动的一个重磅炸弹:OpenAI 发布了文生视频模型 Sora!仅仅根据提示词,就可以生成60秒的视频,连贯、高清,有丰富运镜,甚至符合大部分物理规律。

未来真是比我们想象的还要更快到来。Sora是不是文生视频领域的GPT时刻?Sora 的真正创新是什么?scaling law 的暴力美学背后,还有哪些容易被忽略的技术细节?Sora 对于产生我们期望的世界模型意味着什么?

Hello World, who is OnBoard!?

如此重要的话题,我们当然要邀请来真正训练过视频大模型的专家和一线从业者,才能探究到本质。这次的深度解读,两个视角,长达三个小时,我们分成两个部分放送。

今天的第一部分,专注技术解读。重磅嘉宾 Lijun Yu 是 VideoPoet 第一作者。VideoPoet 是另一个革命性的视频生成大模型, 由 Google Deepmind 2023年12月发布,8B参数量的模型产生的视频效果也震惊了世界。Lijun 绝对是transformer 和 diffusion 模型应用于视频生成领域最有发言权的研究员之一了。 另一位嘉宾是爱丁堡大学phd的 Yao Fu,他在LLM,尤其是 scaling law 领域的深度研究,跟专注做视频生成的 Lijun 的视角,形成非常有意思的补充和碰撞。

即将放送的第二部分,我们邀请到真格基金管理合伙人,也是AI领域研究非常深度的投资人戴雨森,还有真格基金EIR,曾经的AI创业者,Peak。从投资人和创业者的视角,聊聊他们眼里Sora 对于创业公司意味着什么。

本期嘉宾们都是在美国工作生活,难免夹杂很多英文技术术语。show notes 中会有注释,虽然烧脑但是绝对值得,不接受抱怨。

嗯别忘了,添加小助手,Nine_tunes, 加入我们的听众群哈,等你来!满满的干货来袭,Enjoy!

嘉宾介绍

Lijun Yu(推特 @@LijunYu0), 卡内基梅隆大学人工智能领域的博士生。北京大学本科。CMU 导师是 Alexander Hauptmann 博士,聚焦于多媒体的研究。曾在 Google Deepmind 工作。

Yao Fu(推特 @@Francis_YAO_), 爱丁堡大学博士生,北京大学本科哥伦比亚大学硕士。研究方向是人类语言的大规模生成模型,包括数据工程,复杂推理长上下文,以及模型背后的科学原理。开源社区 LLaMafia 创建人。

OnBoard! 主持:Monica, 美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学

我们都聊了什么

03:21 嘉宾自我介绍,如何进入视频生成领域,快评:Sora 的 demo 中,哪一个让你印象最深刻?为什么?

10:52 VideoPoet 作者解读 Sora: 核心组成部分,重要创新,与以往 trasnformer + diffusion 工作的异同

14:52 为什么最让人意料之外的视频长度和高分辨率?与LLM中处理 long context 的方式有什么相通之处?

18:35 为什么模型中的 compression(压缩算法) 这么重要?Sora 在压缩上的创新是什么?

24:05 视频生成模型中的 transformer 架构,与多模态LLM中的架构有什么异同?

27:10 如何理解Sora 展现出的涌现能力?为什么说 Sora 在理解能力上会有局限性?

29:39 为什么说将 Sora 与 GPT 这样的LLM结合起来会是大趋势?难点和可能诞生的机会是什么?

35:01 Sora 真的具备了理解世界的能力吗?从视频生成和 LLM 角度,如何理解世界模型?

49:19 如何估算 Sora 的大小和可能需要的计算量?这种模型形态未来还有什么增长空间?有什么局限?

71:53 现有 Diffusion 架构为主的视频生成公司改成 Sora 架构会有什么难点?

74:16 训练数据:VideoPoet 有哪些经验?Sora 可能有哪些创新?合成数据的价值和局限?

88:55 快问快答(虽然也没有很快!)Sora 改变了你什么观点?大家对 Sora 有什么常见的误解、高估和低估?如何看待 Bill Peebles 论文被拒但是成为 Sora 带头人?2024年最期待发生什么?

重点词汇

  • Latent Diffusion Transformer
  • Stable Diffusion
  • Autoregression model
  • Latent space
  • Context window
  • Consistency model
  • Sparse attention
  • In-context learning
  • Model serving

我们提到的论文

欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!

M小姐研习录 (ID: MissMStudy) - Monica:美元VC投资人,前 AWS 硅谷团队+AI创业公司打工人 | 即刻:莫妮卡同学

点赞、评论、转发,是对我们最好的鼓励!如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。

最后!快来加入Onboard!听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加小助手微信,Nine_tunes, 发送你的姓名、公司和职位,就可以获得进群链接。期待你来!

  continue reading

16 حلقات

Artwork
iconمشاركة
 
Manage episode 402038152 series 3373195
المحتوى المقدم من OnBoard!. يتم تحميل جميع محتويات البودكاست بما في ذلك الحلقات والرسومات وأوصاف البودكاست وتقديمها مباشرة بواسطة OnBoard! أو شريك منصة البودكاست الخاص بهم. إذا كنت تعتقد أن شخصًا ما يستخدم عملك المحمي بحقوق الطبع والنشر دون إذنك، فيمكنك اتباع العملية الموضحة هنا https://ar.player.fm/legal.

OnBoard! 终于成立听友群啦!新年新气象,加入Onboard听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加小助手微信,Nine_tunes, 发送你的姓名、公司和职位,就可以获得进群链接。期待你来!

---------------

这是Onboard 2024年姗姗来迟的第一期更新,给大家拜个晚年!这次我们讨论的话题,就是这周AI领域最让人激动的一个重磅炸弹:OpenAI 发布了文生视频模型 Sora!仅仅根据提示词,就可以生成60秒的视频,连贯、高清,有丰富运镜,甚至符合大部分物理规律。

未来真是比我们想象的还要更快到来。Sora是不是文生视频领域的GPT时刻?Sora 的真正创新是什么?scaling law 的暴力美学背后,还有哪些容易被忽略的技术细节?Sora 对于产生我们期望的世界模型意味着什么?

Hello World, who is OnBoard!?

如此重要的话题,我们当然要邀请来真正训练过视频大模型的专家和一线从业者,才能探究到本质。这次的深度解读,两个视角,长达三个小时,我们分成两个部分放送。

今天的第一部分,专注技术解读。重磅嘉宾 Lijun Yu 是 VideoPoet 第一作者。VideoPoet 是另一个革命性的视频生成大模型, 由 Google Deepmind 2023年12月发布,8B参数量的模型产生的视频效果也震惊了世界。Lijun 绝对是transformer 和 diffusion 模型应用于视频生成领域最有发言权的研究员之一了。 另一位嘉宾是爱丁堡大学phd的 Yao Fu,他在LLM,尤其是 scaling law 领域的深度研究,跟专注做视频生成的 Lijun 的视角,形成非常有意思的补充和碰撞。

即将放送的第二部分,我们邀请到真格基金管理合伙人,也是AI领域研究非常深度的投资人戴雨森,还有真格基金EIR,曾经的AI创业者,Peak。从投资人和创业者的视角,聊聊他们眼里Sora 对于创业公司意味着什么。

本期嘉宾们都是在美国工作生活,难免夹杂很多英文技术术语。show notes 中会有注释,虽然烧脑但是绝对值得,不接受抱怨。

嗯别忘了,添加小助手,Nine_tunes, 加入我们的听众群哈,等你来!满满的干货来袭,Enjoy!

嘉宾介绍

Lijun Yu(推特 @@LijunYu0), 卡内基梅隆大学人工智能领域的博士生。北京大学本科。CMU 导师是 Alexander Hauptmann 博士,聚焦于多媒体的研究。曾在 Google Deepmind 工作。

Yao Fu(推特 @@Francis_YAO_), 爱丁堡大学博士生,北京大学本科哥伦比亚大学硕士。研究方向是人类语言的大规模生成模型,包括数据工程,复杂推理长上下文,以及模型背后的科学原理。开源社区 LLaMafia 创建人。

OnBoard! 主持:Monica, 美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学

我们都聊了什么

03:21 嘉宾自我介绍,如何进入视频生成领域,快评:Sora 的 demo 中,哪一个让你印象最深刻?为什么?

10:52 VideoPoet 作者解读 Sora: 核心组成部分,重要创新,与以往 trasnformer + diffusion 工作的异同

14:52 为什么最让人意料之外的视频长度和高分辨率?与LLM中处理 long context 的方式有什么相通之处?

18:35 为什么模型中的 compression(压缩算法) 这么重要?Sora 在压缩上的创新是什么?

24:05 视频生成模型中的 transformer 架构,与多模态LLM中的架构有什么异同?

27:10 如何理解Sora 展现出的涌现能力?为什么说 Sora 在理解能力上会有局限性?

29:39 为什么说将 Sora 与 GPT 这样的LLM结合起来会是大趋势?难点和可能诞生的机会是什么?

35:01 Sora 真的具备了理解世界的能力吗?从视频生成和 LLM 角度,如何理解世界模型?

49:19 如何估算 Sora 的大小和可能需要的计算量?这种模型形态未来还有什么增长空间?有什么局限?

71:53 现有 Diffusion 架构为主的视频生成公司改成 Sora 架构会有什么难点?

74:16 训练数据:VideoPoet 有哪些经验?Sora 可能有哪些创新?合成数据的价值和局限?

88:55 快问快答(虽然也没有很快!)Sora 改变了你什么观点?大家对 Sora 有什么常见的误解、高估和低估?如何看待 Bill Peebles 论文被拒但是成为 Sora 带头人?2024年最期待发生什么?

重点词汇

  • Latent Diffusion Transformer
  • Stable Diffusion
  • Autoregression model
  • Latent space
  • Context window
  • Consistency model
  • Sparse attention
  • In-context learning
  • Model serving

我们提到的论文

欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!

M小姐研习录 (ID: MissMStudy) - Monica:美元VC投资人,前 AWS 硅谷团队+AI创业公司打工人 | 即刻:莫妮卡同学

点赞、评论、转发,是对我们最好的鼓励!如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。

最后!快来加入Onboard!听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加小助手微信,Nine_tunes, 发送你的姓名、公司和职位,就可以获得进群链接。期待你来!

  continue reading

16 حلقات

كل الحلقات

×
 
Loading …

مرحبًا بك في مشغل أف ام!

يقوم برنامج مشغل أف أم بمسح الويب للحصول على بودكاست عالية الجودة لتستمتع بها الآن. إنه أفضل تطبيق بودكاست ويعمل على أجهزة اندرويد والأيفون والويب. قم بالتسجيل لمزامنة الاشتراكات عبر الأجهزة.

 

دليل مرجعي سريع