德塔赛 公开
[search 0]
更多

Download the App!

show episodes
 
Loading …
show series
 
我们在第一眼看到一个人的时候,就会下意识的对这个人产生所谓的第一印象,有些人“看起来”值得信任,有些人“看起来”非常聪明,甚至有些人“看起来”不善交际。为什么我们会仅凭一个人的外表产生这些第一印象?宋蔓是毕业于加州大学圣地亚哥分校的博士,她的研究方向是认知科学和机器学习。这一期节目,她将和我们聊聊她如何用机器学习模型理解第一印象的产生。 了解更多,请访问宋蔓的 Google Scholar 页面。 Find out more at http://detasai.com
 
用数据科学抗击新冠疫情 这期节目邀请到了在MIT读运筹学博士的李凌志同学,来和我们聊一下他在新冠疫情时做的传染病数学建模的工作。他们的模型后来被美国疾病控制与预防中心(CDC)和所用, 也被刊登到了纽约时报的头条。我们讨论了用数学建模预测疾病传播的方法和挑战 —— 如何用有限的数据做出有意义的模型?怎么量化模型的好坏?在疫情实时发展的情况下,模型是怎么被优化和改进的?李凌志也和我们分享了一些和医生、医院、决策者合作的故事。 想要了解更多,请移步李凌志的公众号文章: 在麻省理工抗击新冠疫情实记 (1): https://mp.weixin.qq.com/s/brJPYDhl78kaZtKpppQ8qA 在麻省理工抗击新冠疫情实记 (2): https://mp.weixin.qq.com/s/…
 
用适当的方式表示词语是自然语言处理中一个不可或缺的任务。今天的节目中,我们在 UCSD 的同学唐帅和我们讨论了研究词的向量表示的动机和近几年比较流行的词向量表示算法。我们还提到了学习词的表示常用的数据来源,和学习过程中可能需要考虑到一些困难因素。 本期嘉宾:唐帅(UCSD 博士在读) 话题:自然语言处理 内容提要: 电子商务系统中的寻找近义词任务 词语的表示(representation)和词向量 近几年比较成功的词向量的表示算法 学习词的表示时常用的数据来源 怎么衡量一个词向量表示算法的优劣 相关链接 唐帅同学的个人主页 斯坦福深度学习与自然语言处理讲义中文翻译,其中第二讲介绍了词向量。由德塔赛
 
本期节目中我们跳出了“人工”神经网络的范围,探讨了计算神经科学的话题。计算神经科学研究生物的神经系统,试图理解人类和其他生物的大脑到底是怎样工作的。 我们在节目提到了: 什么是计算神经科学 计算神经科学中用到的工具 深度学习模型对生物神经之间的信号传递的简化 人工神经网络的研究具体受到了生物学的哪些启发 为什么人类大脑能耗很低,但深度学习却要面对高能耗的难题由德塔赛
 
前不久刚刚结束的 NIPS 学术会议中,Ali Rahimi 凭借他 2006 年的工作获得时间考验奖(Test of Time Award),并发表了一段非常有趣的获奖演说。这次演说成为了一段时间的热点话题。Ali 的演讲主要表达了对深度学习理论研究工作的忧虑。他提到很多实际效果非常好的深度学习算法并不存在足够严密的理论解释。Ali 将这种现象类比为“炼金术”。虽然演讲表达的观点得到了很多研究者的认同,但也引发很多反对的声音。这一期节目中,我们回顾了这一次演说。 相关链接 Ali Rahimi 在 NIPS 2017 的获奖演说可以在 YouTube 搜索到。如果不能访问 YouTube,也可以点击这里在腾讯视频观看。…
 
很多机器学习任务的数据标签甚至数据本身很难获得。我们这一期节目聊到了具有这个特点的几个计算机视觉方面的学习任务。李正钦和我们介绍怎么使用人工制作的图像数据来训练学习算法。可以想像,再逼真的人工制造的图像数据与从现实世界中收集的相比,还是会有很大区别的。因此,简单地在人工数据上训练出来的模型,很难在现实世界中获得好的表现。怎么解决这个问题呢?我们在节目中也提到了几个方法。 在这一期节目的制作过程中,我第一次了解到开源动画。我们特别说到了《辛特尔 Sintel》这部动画短片。值得一提的是,这部短片的评分也相当不错呢,豆瓣和 IMDB 评分都在 7.5 分以上。 相关链接 李正钦的个人主页 节目中提到 Blender 为了宣传自己的软件制作了《辛特尔 Sintel》这个开源动画短片,豆瓣链接请点击…
 
iPhone X 发布后网上出现了很多试图“欺骗”它的面部解锁系统的视频,例如人们发现戴眼镜仍然是可以解锁手机的,但是闭上双眼就不能解锁了。在这个使用场景中,如果面部解锁软件被欺骗而不能认出手机的主人听起来不算是什么大新闻,但如果我们能找到一种方法可以让面部解锁将我们误认成手机的主人,听起来就有点让人紧张了。 这一期节目的内容再一次和针对机器学习算法的攻击有关(我们在差分隐私这一期节目中聊到了另一类攻击方式)。在这一类被称为测试时对抗样本的攻击方式中,我们认识到攻击者可能可以用特别的方式给一张本可以正确识别的图片增加噪声,从而让机器学习算法误认为这个图片是其他物件。增加的噪声如此之小,以至于在任何人类看来图片并没有产生任何变化。例如在 MIT 最近发表的这项研究中,研究者用 3D 打印技术制…
 
本期嘉宾:万梦婷(UCSD 博士学生) 话题:推荐系统 推荐系统已经是互联网产品的标准组件。精准的广告推荐是 Google 和 Facebook 的营收支柱。Amazon 首页最显著的位置的商品全部由推荐系统选择。今天这期节目,我们和万梦婷一起讨论了流行的推荐系统实现:从基本的基于记忆的协同过滤,说到了越来越复杂的基于模型的推荐系统。 推荐系统也是一个跨越多学科的研究方向。我们聊到相关研究的进展在帮助人们设计更加精准的推荐系统的同时,也在帮助研究者更深入的理解人们的交互行为。例如,推荐系统会给商品的不同属性赋予不同的权重,间接的揭示了消费者购物时的决策过程。另一方面,社会学科(尤其是心理学)的进展也可以帮助我们提升推荐系统的性能。例如,我们聊到了人们在评价一件商品时,会显著的受到其他评论者的…
 
本期嘉宾:宋爽(UCSD 博士候选人) 话题:差分隐私 在淘宝购物、在豆瓣网上打一个分数的同时,我们也无条件地把自己的大量隐私信息交给了不同的网站、商家,因为我们知道自己的信息会相对安全,即使公布也会做匿名化处理。然而我们拱手交给互联网的信息真的那么安全吗?2006年,Netflix 举办的机器学习竞赛所用的数据集中的隐私泄露让我们意识到隐私保护远远比简单的匿名化复杂的多。尽管 Netflix 把数据集中的用户ID和识别码等的识别用户的信息都抹去了,两位研究者通过挖掘一些包含用户信息的电影浏览记录,把这些记录和 Netflix 数据集里的浏览记录进行匹配,反向识别出了在 Netflix 数据集中的个体对应的是哪些人,从而获得了这些用户的其他信息。在这期节目中,我们来讨论在数据收集、公布、使用…
 
从大家广泛运用电子邮件的那天起,很多研究者和程序员就开始了和垃圾邮件分类的斗争。垃圾邮件分类的算法越来越精进,就意味着更加逼真的垃圾邮件也可以成功的被筛选出来。站在垃圾邮件生成者的角度考虑,为了能够传播他们的邮件,他们就需要把垃圾邮件设计的和普通邮件更相似,更难以区分。 基于类似的思路,本期节目我们和大家聊一聊 2014年Ian Goodfellow提出的生成对抗网络模型(Generative Adversarial Nets)。生成对抗网络把生成器和判别器同时联系起来,生成器用来生成数据集,判别器用来判断某一条数据是人工合成还是在原本数据集中。随着生成的数据和真实数据越来越接近,判别器也就需要更加敏锐。利用生成器和判别器的对弈,达到两者同时进步的目的。 提到的一些内容 生成对抗网络(Gen…
 
今天这期节目,UCSD 的博士学生秦瑶和我们介绍了计算机视觉方向的研究问题。秦瑶主要在图像分割 (Image Segmentation) 和显著性检测 (Saliency Detection) 方向开展她的研究。 这一期节目中,我们主要聊了语义分析和显著性检测这两类计算机视觉的研究问题。我们了解了这些问题是如何定义的,介绍了常用的解决方法,并讨论了如何给这类学习任务收集和标注训练数据。我们还特别提到了语义分析技术在医疗图像处理上的应用。 节目的最后,我们还听到了一个在学术会议上意外找到研究实习的故事。 提到的一些内容 秦瑶个人主页 秦瑶提到了元胞自动机 (Cellular Automaton) 在计算机视觉问题上的应用,例如显著性检测。…
 
直觉上来讲,我们会觉得一个机器学习模型的准确率要很高才有用。如果有一个模型声称它能保证对于数据的任何分布,它都能保证达到 51% 的正确率,我会觉得它弱爆了,并不会想用它来解决问题(除非我在考试,题目是选择题,并且只有两个选项)。 我们今天的节目就和这类听起来很“弱”的模型有关。在机器学习中,它们被称为”弱学习器“。机器学习理论中曾有这样的问题,如果我们有办法不断的产生不同的”弱学习器“,并可以”聪明地“把它们拼接起来,有没有可能可以让预测的准确率一路上升,甚至无限接近 100% 呢?Boosting 算法就是在这个背景下产生的。我们在这一期节目中聊了什么是强学习和弱学习器、AdaBoost 算法的策略和 Boosting 的思想在现实世界和机器学习问题中的应用。 提到的一些内容 张家鹏个人…
 
计算机领域有一类困扰了科学家很久的问题,叫做NP困难问题。NP困难问题在生活中很常见,例如物流、城市规划等等都可以找到NP困难问题的原型。但这类问题至今都没有有效的、多项式时间内的解。计算机理论领域的研究者从搜索、构造等角度给出过很多种近似解法。人工智能在这类问题中会有怎样的应用呢?机器学习算法如何从多个小问题中找规律来近似这一大类问题呢?AlphaGo背后的强化学习算法又是怎么和这个问题联系起来的呢?我们以NP困难中的最小点覆盖问题为例,介绍机器学习算法在NP困难的组合优化问题上的应用。 提到的一些内容 戴涵俊个人主页 节目刚开始时我们提到了一个NP困难的问题:旅行推销员问题。 我们主要介绍的最小点覆盖问题也是NP困难问题中的一类 戴涵俊介绍的用强化学习解最小点覆盖问题的方法主要基于: L…
 
本期嘉宾:翟真 话题:教育领域里的数据 网易公开课等网络课程,降低了越来越多人获得新知识的门槛;相较于传统的作业本和试卷,在线的作业、考试也使整个教学过程更高效便捷。更重要的是,这些线上的教育平台提供了一种系统地获得、整理、分析学生在学习过程中每一步的相关数据。例如,哪一段教学视频是学生重复看了很多次才看懂的,做作业时学生在做出了哪些错误的尝试之后得出了正确答案…… 通过分析这些数据,老师可以更有针对性地利用课堂时间;在学生做作业时,在线作业系统可以给出更有针对性的提示,来帮助学生更快地完成作业。那么我们要如何获得这些数据?有哪些软件可以帮助我们搭建这样的平台来实现我们具体的教学需求?在收集和使用教育领域的数据的过程中又有哪些特殊的要求呢? 提到的一些内容 翟真个人主页 节目刚开始时我们提到…
 
在过去的几年中,深度神经网络给很多机器学习任务带来了很大的突破。从图像识别到机器翻译,在深度学习的帮助下,很多任务已经实现了超过人类平均水平的精度。然而精度的提升背后的代价是数以百万计的参数,和长达几天甚至几周的显卡上的运算需求。大量的功耗和庞大的模型,限制了深度学习模型在手表手机等小型电子设备上的应用。那么我们该如何在不损失太多精度的同时,给深度网络做减法,让深度学习可以更好的应用在嵌入式系统中呢?本期节目我们从硬件的角度讨论深度学习的优化。 提到的一些内容 林政豪个人主页 我们提到的第一种减少参数的方法,对weights做剪枝: Learning both Weights and Connections for Efficient Neural Networks 节目中多次提到的通过改变…
 
主动学习的几种策略 现实生活中的绝大部分数据都是没有标签的。在收集整理了数据后,如果人工对每一条数据一一标注,时间成本和经济成本都会非常高。在本期节目中,张驰丞介绍了这个问题的一种解决方法:主动学习,由算法主动索要某一些数据标签的机器学习方法。我们将深入讨论不同的方法是如何判断哪些样本格外“困难”,需要手工标注。 本期提到的资源: 张驰丞个人主页 驰丞提到的一类主动学习方法,争议型准则的相关文章:Beyond Disagreement-based Agnostic Active Learning 在讲到agnostic的设定下,我们提到了PAC Learning 节目开始时提到的可以用来标识数据的众包平台 Amazon Mechanical Turk…
 
收集数据的故事 德塔赛的第一期节目从数据科学的第一步──收集数据开始。数据科学依赖于大量数据,当现有的基准数据集不能满足实验要求的时候,我们如何利用人人都可以获得的互联网上的数据来建立我们自己的数据集?主播阿拉法特和主播舒晏分别介绍了有关社交网络上的文字数据收集和大规模图像数据收集的故事。 本期提到的资源: ImageNet由德塔赛
 
Loading …

快速参考指南

Google login Twitter login Classic login