EP 44.【AI年终特辑3】具身智能深度对话:从学术到产业,机器人的ChatGPT时刻来了吗?
已归档的系列专辑 ("不活跃的收取点" status)
When? This feed was archived on October 20, 2024 08:06 (). Last successful fetch was on September 19, 2024 12:52 ()
Why? 不活跃的收取点 status. 我们的伺服器已尝试了一段时间,但仍然无法截取有效的播客收取点
What now? You might be able to find a more up-to-date version using the search function. This series will no longer be checked for updates. If you believe this to be in error, please check if the publisher's feed link below is valid and contact support to request the feed be restored or if you have any other concerns about this.
Manage episode 392388168 series 3373195
今年 OnBoard! 最后一期压轴上新!今年要谈论人工智能,怎么能错过这么一个重要的话题:机器人与AI的结合,或者说,Embodied intelligence, 具身智能。
大模型的思路是否能带来机器人的ChatGPT时刻?机器人要具备泛化能力,有哪些进展又有哪些瓶颈?通过机器人让人工智能具备与环境感知和交互的能力,会为通用人工智能AGI带来哪些新的想象空间?
Hello World, who is OnBoard!?
今年下半年以来,尤其在国内,已经有不下十几家具身智能创业公司涌现。这一轮热潮中,从学术到工业落地,如何分别噪音与真实?以前将AI应用于机器人的尝试,比起这次的技术突破,又有哪些相同与不同?
这次的嘉宾阵容,真是太适合回答这些问题了:
我们邀请了 Google DeepMind 的研究员Fei Xia,Deepmind 跟具身智能相关的最重磅的几个研究,从SayCan, PaLM-E,到 RT2,他都是核心参与者。还有来自国内头部机器人创业公司高仙机器人的深度学习总监 Jiaxin, 带来产业界的视角。以及 UCSD 的研究员 Fanbo Xiang,他参与的 Maniskill,SAPIEN 等与模拟环境相关的研究,都在学术前沿。
我们对AI泛化能力在机器人领域的落地进行了深入的讨论,也有不同观点的碰撞,精彩纷呈。
其实这一期的录制已经过去了几个月,阴差阳错成了今年的压轴,也算是对于OnBoard 全年的一个圆满句号,又是整个OnBoard 旅程小小的逗号。新的一年,不论世界如何起落,我们都选择相信未来有希望,珍惜每一次对话,赞美每一个在未知中选择的勇士。
Enjoy!
嘉宾介绍
Fei Xia, Google Deepmind 机器人团队资深研究员,PhD @Stanford University;PaLM-E, PaLM-SayCan, RT-2 作者
Jiaxin Li, 高仙机器人深度学习总监,ex字节跳动研究员,PhD @National University of Singapore
Fanbo Xiang, PhD @UC San Diego;ManiSkill, SAPIEN 作者
OnBoard! 主持:
Monica:美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学
我们都聊了什么
02:47 几位嘉宾的自我介绍,主要的研究领域
05:34 大家最近看到的与具身智能相关的有意思的研究和行业进展
14:23 自动驾驶领域的生成模型,如何保证符合物理规律?
18:34 如何定义具身智能?什么是测试机器人AGI 的“咖啡测试” ?
27:59 梳理 Google Deepmind 机器人领域核心研究脉络:大模型对具身智能带来怎样的影响?
40:29 Fanbo 在做的 low level 控制相关的研究,如何与大模型相结合?
45:39 具身智能的实现目前有哪些主要技术路径?我们什么时候可以达到共识?
50:40 从产业落地的角度,如何看待大模型对机器人领域的影响?有哪些现实的挑战?
67:37 什么时候需要机器人具备通用能力?我们需要端到端的具身智能吗?
72:47 对 Scaling law 的争议:在机器人领域能复现吗?如何平衡长期通用性研究和短期商业落地的需要?
90:41 在具身智能系统的设计中,如何考虑加入人机互动的因素?
96:29 硬件的发展会如何影响具身智能的发展?
101:18 未来3-5年,大家最期望看到具身智能领域实现怎样的突破?有怎样值得期待的未来?
重要论文和词汇
- PaLM-E: An Embodied Multimodal Language Model
- SayCan: Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
- RT-1: Robotics Transformer for Real-World Control at Scale
- RT-2: Vision-Language-Action Models
- ManiSkill: Learning-from-Demonstrations Benchmark for Generalizable Manipulation Skills
- ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills
- SAPIEN: A SimulAted Part-based Interactive ENvironment
- NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
- VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models, by Feifei Li
- VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding
- Scaling laws for neural language models, by OpenAI
- Vision Transformer (ViT) - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
- ALOHA: A Low-cost Open-source Hardware System for Bimanual Teleoperation, from Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
- The Bitter Lesson, by Rich Sutton
- MIT PDDL (Planning Domain Definition Language)
- sim2real: simulation to reality
我们提到的公司
- Wayve.ai: reimagining self-driving with embodied AI
- 有鹿智能
- LoCoBot: An Open Source Low Cost Robot
- 宇树科技
欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!
M小姐研习录 (ID: MissMStudy)
大家的点赞、评论、转发是对我们最好的鼓励!
如果你能在小宇宙上点个赞,Apple Podcasts 上给个五星好评,就能让更多的朋友看到我们努力制作的内容,打赏请我们喝杯咖啡,就给你比心!
有任何心得和建议,也欢迎在评论区跟我们互动~
16集单集