bob手机登录网址体育:AI今年最大进展就是毫无进展?2019年AutoML、GAN将扛大旗 发布时间:2024-06-11 08:32:28 来源:bob手机体育app 作者:BOB体育多特


  还有11天就要告别2018年,著名数据科学网站KDnuggets邀请国外11位机器学习和AI专家,回顾2018年机器学习和人工智能的主要进展,并对2019年即将出现的关键趋势做展望。

  这11个人中,虽没吴恩达、李飞飞这样的顶级大咖,但都是身在工业、学术和技术一线的人员,他们包括英伟达机器学习研究主任、Gartner机器学习团队负责人、华盛顿大学计算机科学与工程系教授等,能够从不同视角观察AI的过往和未来。

  回顾2018年:焦点开始从标准的监督学习转向更具挑战性的机器学习问题,像半监督学习、领域自适应、主动学习和生成模型。GAN仍然是非常受欢迎的,研究人员尝试更困难的任务,如bigGANs和video-to-video合成。开发了替代的生成模型(如神经渲染模型),以在单个网络中组合生成和预测以帮助半监督学习。

  研究人员将深度学习的应用扩展到许多科学领域,如、材料科学、蛋白质工程、高能物理和控制管理系统。在这一些状况下,领域知识和约束与学习相结合。

  预测2019年:“AI将模拟和现实联系起来,变得更安全,更具物理意识”

  我们将看到开发新的领域自适应技术,以便将知识从模拟无缝转移到现实世界。使用模拟将有利于我们克服数据稀缺性并加快新领域和问题的学习。使AI从模拟到实际数据(Sim2real)将对机器人技术、无人驾驶、医学成像、地震预报等产生重大影响。模拟是解决无人驾驶等安全关键应用中所有可能情况的好方法。内置于复杂模拟器中的知识将以新颖的方式被使用,以使AI更具物理意识,更强大,并能够推广到新的和看不见的场景。

  这是我自己作为一名实践者的看法,不代表Gartner基于研究的官方声明。以下是我的想法:

  回顾2018年:TensorFlow在学术界输给了PyTorch。有时谷歌的巨大影响力可能会使市场处于次优的方向,因为MapReduce和随后的hadoop狂热已发生了这种情况。

  Deepfakes(以及类似的声音技术)粉碎了最让人信服的信息源自:视频。没有人能敢再说出这样的话:我看到过那个人说这些话的视频。几十年前我们不再相信印刷文字,但直到现在,视频还是不可动摇。

  Google代替人类致电餐厅并假装(成功)成为真正的人类系统是一个里程碑。然而,它引发了许多关于道德和人工智能的问题。

  个人助理和聊天机器人很快就达到了极限。它们比以往任何一个时间里都好,但不如去年所希望的那么好。

  1)我希望任何一个人都对今年的AutoML承诺感到兴奋。我也期望它失败(除了一些很具体和明确定义的案例,如不依靠手工的图像识别、机器翻译和文本分类,原始数据接近于机器期望作为输入,并且数据是丰富的)。

  2)营销自动化:利用成熟的生成对抗网络和变分自动编码器,可以生成数千张相同人物或图像的图片,这些图像之间的面部表情或情绪差异很小。根据花了钱的人这些图片的反应,我们大家可以制作出最佳的广告活动。

  3)移动电子设备上的实时语音生成与线)无人驾驶的出租车将保持在测试/ PoC阶段。

  按一些媒体、甚至是一些研究人员的观点,你会认为特朗普在2016年大选获胜全拜剑桥分析公司所赐、机器学习算法是充斥偏见和歧视的垃圾、机器人正在取代我们的工作,不久就将霸占我们的生活等等。这些论调不单单是说说而已:欧洲和加州已经通过了更加严厉的隐私法,联合国正在就AI武器禁令等内容做激烈辩论。公众对AI的观点越来越暗淡,此现状即危险又不公平。

  2019年,一种新的机器人技术,即协同机器人(cobots)将成为一个关键趋势。与之前的生产线机器人不同,新的机器人将能够自主活动,能够理解情感(在我的课程中,我们也在与从事该领域研究的情感研究实验室合作)。

  我的最后一个观点可能有些争议:在2019年,数据科学家的角色将倾向于从研究转向产品研究开发。我认为AI与下一代数据产品的诞生紧密关联。数据科学家的作用会发生相应的转变。

  同样,在2019年,我们将看到关注AI的公司数量有所增加,谷歌和微软最近都启动了旨在“让AI造福社会”的项目。随着全社会对企业提出更高的社会目标的要求,这种将AI技术转化为对社会积极影响的趋势,正在获得慢慢的变多的支持和动力。

  首先我要提一句,我的观点可能会惹恼一些人,但我觉得这是2018年的一个合理的解读:最大的进展是没有进展!

  BigGAN是一个GAN,只不过更大。GANS逐渐的增长,产生了真正有趣的结果,在某些意义上的却是迈出了一大步。

  然而,从方法论上来说,它仍然只是GAN,仅仅是有了更聪明的课程学习技巧的GAN。

  再来说说NLP,今年最重要的故事是ELMO和BERT的情境化嵌入。这些绝对是让人惊叹的进步。

  但至少Andrew Dai和Quoc Le,从2015年或者2016年就开始预训练了语言模型,并对下游分类任务进行了微调,只不过当时的规模较小。所以我觉得,今年没有产生什么“大创意”。

  虽然没有大创意,但今年也有他积极的一面,可能就是我们并没有将现存技术全部功力发挥出来。硬件、系统和工具的加快速度进行发展,可能会带来二次飞跃。

  我认为,现在正在酝酿的很多新想法,都出现在新兴的深度学习理论中。很多研究人员,包括Sanjeev Arora,Tengyu Ma,Daniel Soudry,Nati Srebro等等,他们正在做一些非常令人兴奋的工作。

  很长一段时间,我们有了第一原理理论,这些理论是严谨的,但经常忽略了实践。

  最近,我从一个鼓舞人心的经验中得到一个想法,就是我们大家可以从理论论文中获得一个以前从来没发现过的自然现象。

  2019年及以后,我认为应用机器学习会有好的发展,我们正急于进入所有这些声称“解决”问题的实际领域。但到目前为止,我们唯一可依赖的只有监督学习。

  模式匹配目前还是受限于一些难题。受监督的模型能够找到关联,但找不出原因。我们不知道哪些信息可以安全依赖,因为它可能会跟着时间的推移而发生明显的变化。这些模型没有告诉我们干预措施会产生什么样的影响。

  我认为在接下来的一年里,会看到更多机器学习项目被废弃,或者正是因为黑盒属性而陷入困境的案例。

  我们会看到社区中最有创意的成员,会做出一些改变。不再一味追求打榜,而是更多的关注与填补代表性学习和因果推理之间的鸿沟。

  这些并不是过去一年NLP的唯一进步; 另外必须要格外注意的是语言模型嵌入(ELMo),这是一个深层语境化的单词表示模型,让模型的每个任务都有相当大的改进。

  今年的其他突破似乎集中在对BigGAN等现存技术的改进上。此外,由于众多倡导型社区成员的声音,关于机器学习包容性和多样性的非技术性讨论成为主流(NeurIPS就是这里面的一个例子)。

  我相信,在2019年,研究注意力将从监督学习转向强化学习和半监督学习等领域,因为这些领域的潜在应用慢慢的变多地得到实现。例如,我们现在处于图像识别和生成已经到了“解决”地步,并且从中学到的东西能够在一定程度上帮助研究人员追求更复杂的机器应用学习。

  作为业余自动化机器学习(AutoML)传播者,我认为AutoML将逐步进步,以达到普通的监督学习任务可以通过可用的方式或尚未完全完善的方法,自信地进行算法选择和超参数优化。

  我认为自动化机器学习的普遍看法将会有转变(或者已达到临界点):从更换开发者到扩张他们。AutoML将不再被视为机器学习工具箱的替代品,而是作为其中包含的另一种工具。相反,我认为,开发者将日常使用这一些工具,并且知道怎么去操作,这将成为定局。

  在学术界,新的数据科学硕士课程正以每年约十几个的速度在增加。我们的高校正在响应公司和学生的请求,为数据相关领域提供专门计划。

  另一方面,教程博客文章无处不在。它们为读者对于数据科学的理解做出了巨大贡献。

  在2019年及以后,数据科学的学术计划将更普遍地帮助人们学习基础相关技能,以实现首批数据科学岗位的落地。这是件好事,受认证的机构将填补这方面的长期空缺。

  到目前为止,数据科学的资格证书可以在很大程度上证明以前的工作经验。这会创建一个Catch-22。新数据科学家无法验证自己是否有资格,因为他们从未有过数据科学的工作经验,而恶性循环的是这些人也无法获得相关工作,因为他们无法证明自己是不是有资格。而教育机构的证书是打破这一循环的重要方式。

  但是,在线课程不会随处可见。因为许多人对大学教育所要求付出的时间和经济无法作出保证。

  现在这些课程已然浮现,数据科学教育将始终具有实用的方式。通过对项目工作的相关经验和在线培训,即使没有学位,新的数据科学家也有机会展示他们的技能。在线课程和教程将继续变得更普遍、更复杂,对数据科学教育也更为重要。

  事实上,几个著名的数据科学和机器学习项目已经把相关课程上传到网上了,甚至为非预科学生提供入学选择。我预计数据科学大学学位与在线培训课程之间的界限将进一步模糊。

  回顾2018年:我认为,在AI和ML社区中,2018年有三大事件将被铭记。

  首先是欧盟全球数据保护条例(GDPR)的启动,该条例旨在提高个人数据使用的公平性和透明度。该条例使个人有权控制其个人数据和了解个人数据被怎么样去使用,但也引起了对法律解释的一些混淆。到目前为止,GDPR的最终结果是,许多公司对数据处理做了一些表面上的更改就觉得自身是合规的,对忽略了重新设计数据存储和处理的基础设施的基本需求。

  其次,是“剑桥分析”丑闻,这个事件给整个数据科学界蒙上了一层阴影。如果说之前的辩论主要是关于确保AI和ML产品的公平性,那么这次丑闻引发了更深层次的道德问题。对Facebook在这一事件中的参与程度的最新调查意味着,这样一些问题不会很快消失。随着数据科学领域的成熟,这样的事情还将发生在许多行业,而不单单是政治领域。有些案件将更加悲惨,比如亚利桑那州的Uber无人驾驶汽车案,它们将引发强烈的公众反应。技术就是力量,伴随着力量而来的是责任。

  最后,从更积极的方面来看,Amazon最新的自研服务器处理器芯片意味着,一般人获取云计算将不再是一个成本问题。

  对于ML、AI和数据科学从业者来说,2019年的主要趋势将是遵循既定的软件开发实践的慢慢的变多的责任,尤其是在测试和维护方面。数据科学的最终产品必须与公司技术栈的其余部分共存。有效运行和维护专有软件的要求将适用于我们构建的模型和解决方案。这在某种程度上预示着最好的软件开发实践将支持我们应该遵循的机器学习规则。

  迁移学习是将预训练模型应用到一个新的数据集的实践。迁移学习是计算机视觉领域爆炸式进步的一个重要的条件,在2018年,迁移学习成功应用到了NLP的工作,包括fast.ai和Sebastian Ruder的ULMFiT,艾伦研究所的ELMo, OpenAI transformer,以及谷歌的BERT。这些进步令人兴奋,也令人担忧。

  正在持续的问题,如Facebook在缅甸种族灭绝中扮演的决定性角色,YouTube不成比例地推荐阴谋论(其中许多是促进白人至上注意),以及AI在政府和执法机构监控中的使用,在2018年越来越引起主流媒体的关注。虽然人工智能被滥用是可怕的,但有更多的人开始意识到它们,并慢慢的变多地予以反击,这是件好事。

  第一次是在三月。艾伦人工智能研究所和华盛顿大学的研究人员发表了Deep contextualized word representations一文,提出了ELMo(Embeddings from Language Models),这是一种开源的深度语境化词汇表示,改进了word2vec或GloVe这类上下文无关的嵌入。作者通过简单地替换ELMo预训练模型中的向量,证明了对现有NLP系统的改进。

  第二次是在11月。谷歌开源了BERT(Bidirectional Encoder Representations from Transformers),这是一个双向的、无监督的语言表示,在语料上进行了预训练。正如作者在“BERT:用于语言理解的深层双向Transformers的预训练”一文中展示的,他们在各种NLP基准测试中取得了显著的改进,甚至比ELMo更强。

  从智能音箱的迅速普及(到2018年底将达到1亿台左右)到移动电话上数字助理的普及,自然语言理解的进步正迅速从实验室转移到现实世界。对于NLP研究和实践来说,这是一个激动人心的时代。

  同样是在今年,艾伦研究所的研究人员发布了《Swag:用于基础常识推理的大型对抗式数据集》(Swag: A large - large Adversarial Dataset for Grounded Commonsense),这是一个用于需要常识理解的句子达成目标的数据集。他们的实验表明,最先进的NLP仍然远远落后于人类的表现。

  Llama3-8B秒杀700亿巨兽?北大博士生等全新“BoT”框架推理暴涨70倍,24点图形推理一步成神

  GPT-4能在近乎100%情况下欺骗人类?PNAS重磅研究曝出,LLM推理越强欺骗值越高

  两句话,让LLM逻辑推理瞬间崩溃,最新“爱丽丝梦游仙境”曝出GPT、Claude等重大缺陷

  秉承着“开门造车”的发展理念,吉利已经打出了博越这张出海“王牌”,并通过这张王牌完成自己的全球化研发战略规划。这不只是一个企业的进步,也是国产车在世界舞台上的一个发展转折点,为后来的国牌车企业出海指明了一条可持续发展的道路。

上一篇:2023年智慧水务的发展趋势 下一篇:物联网由哪四层体系结构组成