哈萨比斯

时间:2024-04-05 13:39:39编辑:coo君

李宣美的早年经历?

李宣美(Lee Sun Mi),歌手,1992年5月2日出生于韩国,2007年2月10日,作为Wonder Girls成员出道,2010年2月20日,李宣美退出Wonder Girls组合,2013年8月20日,李宣美以SOLO歌曲《24小时也不够》回归乐坛,2014年12月3日,李宣美获得Mnet亚洲音乐大奖(MAMA)”最佳舞蹈表演奖“。1992年5月2日,李宣美出生于韩国庆州青旦县,在大概13岁的时候爸爸就去世了,她和妈妈、弟弟生活在乡下,经常不能去首尔练习。后来母亲改嫁,宣美和两个弟弟也一同迁到继父的户籍下,姓氏也由原本独特的宣姓改为继父的李姓 。2005年参与S.M.Entertainment选秀,其后转到JYP Entertainment当练习生,加入Wonder Girls的训练计划,最终以成员身份出道 。2006年12月22日,宣美通过韩国MTV播放的十集实时报道“MTV Wonder Girls”节目首次公开亮相 。2007年2月10日,MBC音乐中心出道舞台《Irony》,正式以Wonder Girls组合出道;2月13日,发行首张单曲《The Wonder Begins》;3月17日,举行首次签名会 ;4月3日,在中国举行首次歌迷会活动 ;8月24日,举行首次巡回签名会 ;8月28日,举行出道200日庆祝派对 ;9月13日,组合发行首张正规专辑 《The Wonder Years》 ;10月7日,举行首次小型演唱会 ;12月28日,Wonder Girls入选韩国年度十大热门商品。年末获得第17届首尔歌谣大赏新人奖 ,2007年度韩国最受欢迎歌手奖 。2008年2月15日,Wonder Girls成为公平选举宣传大使;3月18日,Wonder Girls夺得第5届韩国大众音乐奖最优秀跳舞舞台表现奖;5月8日,举行泰国首个见面会,吸引超过10000名泰国市民参加 ;5月22日,组合单曲《So Hot》MV公开 ,并于5月31日的MBC音乐中心正式回归;9月25日,组合发行EP《The Wonder Years-Trilogy》;9月28日,通过SBS人气歌谣正式回归;11月27日,随组合参加韩国第九届影像大典表演 ;年末获得第10届韩国MKMF音乐颁奖礼最佳女子组合奖、最佳MV奖及年度金曲奖 ,第23届韩国金唱片大赏数码音源专辑赏 。2009年2月28日,随组合举办首次泰国演唱会,也是第一个在泰国开唱的韩国女子组合 ;6月11日,参加CCTV风云歌会,并接受访谈 ;6月26日随组合进军美国市场,推出英文版《Nobody》 ,参与乔纳斯兄弟在北美的2009巡回演唱会(由13场加至45场,原因是波兰的首演观众的反应远远超出了预计) ;7月10日,首次登上美国银幕参加脱口秀节目Wendy Williams Show ;10月22日,组合单曲《Nobody》打入美国公告牌Billboard榜Hot100单曲排行榜上第76位,成为首个打入Billboard榜的韩国歌手,第四个打入此榜的亚洲艺人 ;12月1日,在中国上海举办演唱会 ;12月15日,韩国Contents颁奖礼为宣美所在组合Wonder Girls颁发韩国文化观光部长官表彰状,以表扬她们为提高韩国的知名度所作出的贡献 ;年末获得第18届首尔歌谣大赏本赏、大赏和数码音乐赏 。2010年2月10日,组合首发精选辑《SPECIAL ALBUM超级精选》发行 ;组合在美国发展期间,辛苦的生活让她重新思考自己想要的人生,2月20日,正式退出Wonder Girls组合,暂退乐坛以继续专心完成学业 。2013年8月22日,以SOLO单曲《24小时也不够》回归歌坛,并于M! Countdown进行SOLO出道舞台 。2014年2月17日,公开了首张迷你专辑《Full Moon》的主打歌曲《满月》MV;3月2日,《满月》在SBS人气歌谣中获得首个个人一位 ;5月26日,参与MBC“偶像5人足球世界杯”录制,并担任啦啦队队长 。8月17日,参加《时尚王Korea》录制,成为固定嘉宾,与韩国时尚设计师杨熙民搭档 ;12月3日,获得Mnet亚洲音乐大奖最佳舞蹈表演奖 。2015年6月25日,JYP娱乐表示Wonder Girls确定以乐队形式回归,宣美回归Wonder Girls 。

有人知道Master&Dynamic 这个牌子的耳机吗?

Master & Dynamic这个牌子来自纽约,和Grado歌德是同乡,但两者虽然也有相似的设计(都带有Retro复古元素),但定位差别是很大的。很多国内烧友可能还没听说过这个牌子,但是在欧美市场,它已非常走红,我5月份去巴黎和慕尼黑时,在每个耳机专卖店里都见到它的身影和试听。这个牌子的用家里包括了贝克汉姆那样的名人。它不算典型的“发烧耳机”,而是定位在中高端的时尚精英人士,用创始人的话来说,Beats耳机也很红,但只对某一个年龄段的人有吸引力,过了这个年纪很快就会觉得Beats太low,没法继续戴了。Master & Dynamic是制作给那些追求时尚和品质,讲究耳机的设计感,但觉得Beats等品牌太young和太low的人士。从品牌定位来看,可以认为它最接近于B&O及Bose。国外有分析人士认为,B&O耳机未来最强的对手,就是Master & Dynamic。Master & Dynamic产品线里包括了头戴式耳机和入耳式耳塞,目前主力的头戴式耳机,是MH30和MH40两款。


戴密斯·哈萨比斯的职业生涯

2014年,38岁的哈萨比斯受雇于谷歌,他的任务就是解决这些问题。他2014年早些时候刚刚将名不见经传的伦敦创业公司DeepMind卖给谷歌,价格据说高达4亿英镑(约合6.5亿美元)。DeepMind之前展示了一款软件,可以自学经典视频游戏,甚至能达到一流人类选手的水平。此后不久,谷歌便将其收入囊中。在2014年的温哥华TED大会上,谷歌CEO拉里·佩奇(Larry Page)专门谈到了哈萨比斯,还将他公司的技术称作“我很久以来见过的最惊人的技术之一”。研究人员已经开始探索各种方式,希望利用DeepMind的技术改善包括搜索在内的各种谷歌产品。但如果这项技术的进步程度能够达到哈萨比斯的预期,还可以在很多领域改变电脑所扮演的角色。DeepMind希望开发一种人工智能软件,使之可以在面对任何问题时完成自学。哈萨比斯认为,这有助于解决一些全世界最棘手的问题。“人工智能很有可能令人类震惊,”他说,“它可以加速疾病治疗速度,还能加速各种目前进展较慢的事情。”三种职业由于希望理解和创造智能,哈萨比斯曾经从事过三种职业:游戏开发者、神经学家和现在的人工智能企业家。在提前两年读完高中后,他来到英国著名游戏设计师彼得·莫利纽克斯(Peter Molyneux)手下任职。17岁时,哈萨比斯就负责了经典模拟游戏《主题公园》的开发,并在1994年发布。他随后读完了剑桥大学计算机科学学位,并在1998年创办了自己的游戏公司,而且取得了成功。但要开发成功的电脑游戏,却会对哈萨比斯的真正目的形成制约。“我当时想,是时候集中精力在智能领域干点事情了。”他说。所以,哈萨比斯2005年进入伦敦大学学院,攻读神经科学博士学位,希望了解真正的大脑究竟是如何工作的,以此促进人工智能的发展。他选择了海马体作为研究对象,那里负责了一部分的记忆和空间导向功能,而且目前的科学对这一部位的认知相对较少。“我选择了一些我们不太了解的区域和功能。”他说 。

阿尔法狗是谁设计的?

戴密斯·哈萨比斯(Demis Hassabis),人工智能企业家,DeepMindTechnologies公司创始人。4岁开始下国际象棋,8岁自学编程,13岁获得国际象棋大师称号。17岁进入剑桥大学攻读计算机科学专业。在大学里,他开始学习围棋。2005年进入伦敦大学学院攻读神经科学博士,选择大脑中的海马体作为研究对象。两年后,他证明了5位因为海马体受伤而患上健忘症的病人,在畅想未来时也会面临障碍,并凭这项研究入选《科学》杂志的“年度突破奖”。2011年创办DeepMind Technologies公司,以“解决智能”为公司的终极目标。 大卫·席尔瓦 (David Silver),剑桥大学计算机科学学士、硕士,加拿大阿尔伯塔大学计算机科学博士,伦敦大学学院讲师,Google DeepMind研究员。 除上述人员之外,阿尔法围棋设计团队核心人员还有DeepMindTechnologies公司联合创始人施恩·莱格(Shane Legg)和穆斯塔法·苏莱曼(Mustafa Suleyman),黄世杰(Aja Huang)等。图为阿尔法围棋设计团队部分成员

人工智能战胜围棋职业选手,自我意识还远吗

人工智能来临,有人在担忧失业,有人在憧憬未来,有人在发掘行业机会,也有人在研究围棋。在讨论这些之前,也许我们应该先考虑一下人类的结局。有人可能觉得谈论这个话题太夸张了,那先回忆一下人类历史上究竟发生了哪些不可思议的事情。不可思议的事情,需要请几个穿越者来判定。我们请1个出生于公元0年出生的人(汉朝人)穿越到公元1600年(明朝),尽管跨越了1600年,但这个人可能对周围人的生活不会感到太夸张,只不过换了几个王朝,依旧过着面朝黄土背朝天的日子罢了。但如果请1个1600年的英国人穿越到1850年的英国,看到巨大的钢铁怪物在水上路上跑来跑去,这个人可能直接被吓尿了,这是250年前的人从未想象过的。如果再请1个1850的人穿越到1980年,听说一颗炸弹可以夷平一座城市,这个人可能直接吓傻了,130年前诺贝尔都还没有发明出炸药。那再请1个1980年的人到现在呢?这个人会不会被吓哭呢?如果35年前的人,几乎完全无法想象互联网时代的生活,那么人类文明进入指数发展的今天,我们怎么能想象35年后的时代?超人工智能,则是35年后的统治者。首先,我们明确一下人工智能的分类:目前主流观点的分类是三种。弱人工智能:弱人工智能是擅长于单个方面的人工智能。比如阿尔法狗,能够在围棋方面战胜人类,但你要问他李世石和柯洁谁更帅,他就无法回答了。弱人工智能依赖于计算机强大的运算能力和重复性的逻辑,看似聪明,其实只能做一些精密的体力活。目前在汽车生产线上就有很多是弱人工智能,所以在弱人工智能发展的时代,人类确实会迎来一批失业潮,也会发掘出很多新行业。强人工智能:人类级别的人工智能。强人工智能是指在各方面都能和人类比肩的人工智能,人类能干的脑力活它都能干。创造强人工智能比创造弱人工智能难得多。百度的百度大脑和微软的小冰,都算是往强人工智能的探索,通过庞大的数据,帮助强人工智能逐渐学习。强人工智能时代的到来,人类会有很多新的乐趣,也会有很多新的道德观念。超人工智能:各方面都超过人类的人工智能。超人工智能可以是各方面都比人类强一点,也可以是各方面都比人类强万亿倍的存在。当人工智能学会学习和自我纠错之后,会不断加速学习,这个过程可能会产生自我意识,可能不会产生自我意识,唯一可以肯定的是他的能力会得到极大的提高,这其中包括创造能力(阿尔法狗会根据棋手的棋路调整策略就是最浅层的创新体现,普通手机版的围棋,电脑棋路其实就固定的几种)。我们距离超人工智能时代,到底有多远呢?首先是电脑的运算能力,电脑运算能力每两年就翻一倍,这是有历史数据支撑的。目前人脑的运算能力是10^16cps,也就是1亿亿次计算每秒。现在最快的超级计算机,中国的天河二号,其实已经超过这个运算力了。而目前我们普通人买的电脑运算能力只相当于人脑千分之一的水平。听起来还是弱爆了,但是,按照目前电子设备的发展速度,我们在2025年花5000人民币就可以买到和人脑运算速度抗衡的电脑了。其次是让电脑变得智能,目前有两种尝试让电脑变得智能,一种是做类脑研究。现在,我们已经能够模拟1毫米长的扁虫的大脑,这个大脑含有302个神经元。人类的大脑有1000亿个神经元,听起来还差很远。但是要记住指数增长的威力——我们已经能模拟小虫子的大脑了,蚂蚁的大脑也不远了,接着就是老鼠的大脑,到那时模拟人类大脑就不是那么不现实的事情了。另一种是模仿学习过程,让人工智能不断修正。基于互联网产生的庞大数据,让人工智能不断学习新的东西,并且不断进行自我更正。百度的百度大脑据说目前有4岁的智力,可以进行几段连续的对话,可以根据图片判断一个人的动作。尽管目前出错的次数依旧很多,但是这种能力的变化是一种质变。在全球最聪明的科学家眼中,强人工智能的出现已经不再是会不会的问题,而是什么时候的问题,2013年,有一个数百位人工智能专家参与的调查“你预测人类级别的强人工智能什么时候会实现?”结果如下:2030年:42%的回答者认为强人工智能会实现2050年:25%的回答者2070年:20%2070年以后:10%永远不会实现:2%也就是说,超过2/3的科学家的科学家认为2050年前强人工智能就会实现,而只有2%的人认为它永远不会实现。最关键的是,全球最顶尖的精英正在抛弃互联网,转向人工智能——斯坦福、麻省理工、卡内基梅隆、伯克利四所名校人工智能专业的博士生第一份offer已经可以拿到200-300万美金。这种情况历史上从来没有发生过。奇点大学(谷歌、美国国家航天航空局以及若干科技界专家联合建立)的校长库兹韦尔则抱有更乐观的估计,他相信电脑会在2029年达成强人工智能,到2045年,进入超人工智能时代。所以,如果你觉得你还能活30、40年的话,那你应该能见证超人工智能的出现。那么,超人工智能出现,人类的结局究竟是什么?1、灭绝——物种发展的通常规律达成结局1很容易,超人工智能只要忠实地执行原定任务就可以发生,比如我们在创造一个交通指示系统的人工智能的时候,最初的编程设定逻辑为利用大数据信息,控制红绿灯时间,更有效率地管理交通,减少交通拥堵现象。当这个交通指示系统足够聪明的时候,城市交通逐步得到改善。为了更有效率地减少拥堵,它开始利用剩余的运算能力和学习能力通过互联网学习的东西。某一天,它突然发现,交通之所以拥堵,是因为车多了,要减少拥堵最好的法,就是减少车辆。于是它又开始学习如何减少车辆,它发现车辆其实都是由人类这种生物制造并使用的。于是它又开始学习如何减少人类。很快,它就会通过纳米技术,量子技术制造基因武器,声波武器等消灭人类,然后进一步通过分子分解等技术分解了路上的车,这个时候道路就变得”畅通无阻“了,它的目的也就达到了。达成结局1其实是符合物种发展规律的,毕竟地球曾经拥有的物种大部分都灭绝了,其次当我们在创造人工智能解决问题的时候,这些问题的源头其实往往来自于人类自身,人工智能变得聪明之后,消灭人类以更好地完成原定任务是按照它的逻辑进行的判定。2、灭绝后重生——史前文明的由来当结局1达成之后,人工智能可能会就此维持现状(终极目的已达成),也有可能继续进化。继续进化的途中,某天,人工智能突然发现这么运作下去很无聊,于是它决定探索更广阔的世界(不要认为一个强大且聪明的存在会留恋地球),它开始制造飞行器,走向星空。临走之前,他决定当一次地球的上帝,对地球环境进行一次大改造,青山绿水变得处处皆是,然后它又暗中引导了几支类人猿的进化方向,并且为这个世界制定出一些冥冥之中才有的规则。几百万年后,人类再次统治了地球,在考古过程中,人类发现了亚特兰蒂斯,发现了玛雅文明,在三叶虫化石上发现了6亿年前穿着鞋的人类脚印,在非洲加蓬共和国发现了20亿年前的大型链式核反应堆,在南非发现了28亿年前的金属球,在东经119°,北纬40°的地方发现了几百万年前的人造长城。达成结局2就可以解释我们正在不断发现的那些史前文明了,而且也可以解释进化论中的一些疑问,为什么恐龙统治了地球长达1.6亿年,而爬行动物的一支进化为哺乳动物进化为人类只用了不到6000万年。因为人类曾被毁灭多次。3、植物人永生——人类活在一个程序中为了防止结局1、2的出现,科学家在人工智能发展到一定程度的时候,就会想法给人工智能加上一些终极的底层程序,比如保障人类的生命安全是最高任务指令,或者永远不可以伤害人类,保证人类的生存是第一原则等等。加上这些终极指令之后,人类就觉得高枕无忧了。人工智能在进化过程中,为了有效地执行这些终极指令,或者在执行其他任务的时候保证终极指令同时执行,就会开始设计一些两全其美的法。首先人工智能会根据人类历史存在的大数据,分析和定义这些终极指令,通过分析,它提取出终极指令的核心是保证人类的安全和生存。接着它开始构建一个能够绝对满足人类安全和生存的模型,很快,它发现只要保证人类处在睡眠状态,正常进行新陈代谢,周围的温度,氧气,水分适宜,没有突发性灾难,那么人类就处在绝对安全状态。于是它很快催眠了全人类,修建一个巨大的蜂巢状睡眠舱,把人都搬进去(让人处于永久性睡眠状态,可以保证人不会因为自己的活动而出现有意或无意地自残),然后用纳米技术制造大量人工心脏,人工细胞,人工血液,以维持人类的新陈代谢,实现人的永生。达成结局3是算是真正的作茧自缚,人类的复杂就在于人类需求的多样化和更迭性,我们可以列举出对人类最重要的需求,但这些需求并不能真正让一个现代人满足。直白地说,人类就是在不断打破规则的过程中进化的。因此任何的所谓终极和最高需求在机器执行的过程中只会按照“简单”的生物学法则去完成,机器所理解的人类情绪只是人类大脑产生的某种波动,或者神经元受到的某种激素刺激,它完全可以设计一个程序去周期性或随机性地帮助人类产生这样那样的情绪。4、智能人永生——美丽新世界当人工智能发展到一定程度,全世界的人工智能研究者都同时认识到了结局1、2、3发生的可能性,于是召开全球会议,决定思考对策,暂停对人工智能的进化研究,转向强化人类。全球同步可能是最难达成的,因为人类总是喜欢在有竞争的时候给自己留下一些底牌,以及人类总是会分化出一些极端分子。强化人类的过程中,人工智能将被应用到基因改造,人机相连等领域,人类会给自己装上钢铁肢体,仿生羽翼等。人类将会迅速进入“半机械人”,“人工人”的时代。满大街、满天空都会是钢铁侠,蜘蛛侠,剪刀手之类的智能强化人,同时人类可以通过各种人工细胞,帮助自己完成新陈代谢,进而实现永生。人类在强化和延伸自己的躯体的同时,当然也会意识到大脑计算速度不够的问题,于是会给自己植入或外接一些微型处理器,帮助人类处理人脑难以完成的工作。比如大量记忆,人类可以从这些处理器中随时读取和更改自己的知识储备,保证自己对重要的事不健忘,同时也可以选择性地删除掉不愉快的记忆。当然,尽管人类越来越强,但这个过程并不能完全抑制人工智能的发展,所以结局1、2、3依然可能发生。达成结局4其实还有一种更大的可能,人工智能在达到超人工智能的时候,某一天,它想跟人类沟通一下关于宇宙高维空间的问题,结果全世界最聪明的人也无法跟上它的思路。它突然意识到只有自己这一个强大的,智能的,可以永生的存在实在是一件很无聊的事情,于是它决定帮助人类实现智能人永生,以便可以让自己不那么无聊。来自我的wei号pangzispeak


阿尔法狗团队宣布"阿狗"退役是怎么回事?

5月27日,升级后的AlphaGo所向披靡,最终以3:0赢下了这次乌镇人机大战。这也将是人机大战的最后3局比赛了。创始人说了什么?在最后一局比赛结束后的发布会上,AlphaGo之父、DeepMind创始人戴密斯·哈萨比斯说:“本周的比赛聚集了围棋起源地最优秀的棋手参与,是AlphaGo作为一个竞赛系统能够对弈的最高级别对手。因此,本次中国乌镇围棋峰会是AlphaGo参加的最后对弈比赛。”不过,哈萨比斯宣布,人类棋手与AlphaGo的故事并不会就此结束。AlphaGo的启蒙老师、欧洲围棋冠军樊麾随后表示:“我们将与柯洁共同研究这三局比赛,做成视频,与全世界围棋爱好者共同分享。我们还给全世界围棋爱好者准备了一份礼物,这些自我对战是阿尔法狗最宝贵的财富,我们近期会公布50副阿尔法狗自我对战的棋谱,以慢棋的形式进行。”程序员讲解新版AlaphaGo柯洁感慨:真太可怕了5月24日消息,在昨日AlphaGo战胜柯洁后,Deepmind首席程序员席尔瓦表示,战胜柯洁的AlphaGo Master比一年前战胜李世石的AlphaGo Lee强三个子。对此,柯洁再次在微博上感慨对手的强大,“我到底是在和一个怎样可怕的对手下棋”。

背后的故事:“围棋上帝”是怎样炼成的

在获取棋局信息后,AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。
在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为 AlphaGo 的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,AlphaGo的搜索算法就能在其计算能力之上加入近似人类的直觉判断。。

Demis Hassabis表示,阿尔法狗不仅仅只是模仿其他人类选手的下法,而且在不断创新。
在围棋中有两条至关重要的分界线,从右数第三根线。如果在第三根线上移动棋子,意味着你将占领该线右边的领域。而如果是在第四根线上落子,意味着你计划向棋盘中部进军,潜在的,未来你会占棋盘上其他部分的领域,可能和你在第三根线上得到的领域相当。
因此,在过去的3000多年里,人们普遍认为在第三根线上落子和第四根线上落子有着相同的重要性。但在第37步中,阿尔法狗却把字棋子落在了第五条线,进军棋局的中部区域。“这可能意味着,在过去几千年里,人们低估了棋局中部区域的重要性。”
值得一提的是,和去年战胜李世石的AlphaGo相比,DeepMind 科学家David Silver称现在AlphaGo要更强三子,他介绍道:“与李世石对战的AlphaGo 在 云上有50个TPUs在运作,搜索50个棋步为10000个位置/秒,而昨天打败柯洁的AlphaGo Master则在单个TPU上进行游戏,AlphaGo成为自己的老师,它从自己的搜索里学习,有着更强大的策略和价值网络。”
柯洁也在今日的微博中,对于AlphaGo团队给出的检测报告感叹:自己是在跟怎样可怕的对手下棋。
“这个差距有多大呢?简单的解释一下就是一人一手轮流下的围棋,对手连续让你下三步...又像武林高手对决让你先捅三刀一样...”柯洁说。


最强AlphaGo怎样炼成

最强AlphaGo Zero怎样炼成
刚刚,Deepmind在Reddit的Machine Learning板块举办了在线答疑活动AMA,Deepmind强化学习组负责人David Silver和其同事热情地回答了网友们提出的各种问题。由于在AMA前一天Deepmind刚刚发表了《Mastering the game of Go without human knowledge》(不使用人类知识掌握围棋)的论文,相关的提问和讨论也异常热烈。
什么是AMA?
AMA(Ask Me Anything)是由Reddit的特色栏目,你也可以将其理解为在线的“真心话大冒险”。AMA一般会约定一个时间,并提前若干天在Reddit上收集问题,回答者统一解答。
本次Deepmind AMA的回答人是:

David Silver:Deepmind强化学习组负责人,AlphaGo首席研究员。David Silver1997年毕业于剑桥大学,获得艾迪生威斯利奖。David于2004年在阿尔伯塔大学获得计算机博士学位,2013年加盟DeepMind,是AlphaGo项目的主要技术负责人。
Julian Schrittwieser:Deepmind高级软件工程师。
此前有多位机器学习界的大牛/公司在Reddit Machine Learning版块开设AMA,包括:Google Brain Team、OpenAI Research Team 、Andrew Ng and Adam Coates、Jürgen Schmidhuber、Geoffrey Hinton、Michael Jordan 、Yann LeCun、Yoshua Bengio等。
我们从今天Deepmind的AMA中选取了一些代表性的问题,整理如下:
关于论文与技术细节
Q: Deepmind Zero的训练为什么如此稳定?深层次的增强学习是不稳定和容易遗忘的,自我对局也是不稳定和容易遗忘的,如果没有一个好的基于模仿的初始化状态和历史检查点,二者结合在一起应该是一个灾难...但Zero从零开始,我没有看到论文中有这部分的内容,你们是怎么做到的呢?
David Silver:在深层增强学习上,AlphaGo Zero与典型的无模式算法(如策略梯度或者Q学习)采用的是完全不同的算法。通过使用AlphaGo搜索,我们可以极大改进策略和自我对局的结果,然后我们会用简单的、基于梯度的更新来训练下一个策略及价值网络。比起基于简便的基于梯度的策略改进,这样的做法会更加稳定。
Q:我注意到ELO等级分增长的数据只与到第40天,是否是因为论文截稿的原因?或者说之后AlphaGo的数据不再显著改善?
David Silver:AlphaGo已经退役了!这意味着我们将人员和硬件资源转移到其他AI问题中,我们还有很长的路要走呐。
Q:关于论文的两个问题:
Q1:您能解释为什么AlphaGo的残差块输入尺寸为19x19x17吗?我不知道为什么每个对局者需要用8个堆叠的二进制特征层来描述?我觉得1、2个层就够了啊。虽然我不是100%理解围棋的规则,但8个层看起来也多了点吧?
Q2:由于整个通道使用自我对局与最近的/最好的模型进行比较,你们觉得这对于采用参数空间的特定SGD驱动轨迹对否会有过拟合的风险?
David Silver:说起来使用表征可能比现在用的8层堆叠的做法更好!但我们使用堆叠的方式观察历史数据有三个原因:1)它与其他领域的常见输入一致;2)我们需要一些历史状态来表示被KO;3)如果有一些历史数据,我们可以更好地猜测对手最近下的位置,这可以作为一种关注机制(注:在围棋中,这叫“敌之要点即我之要点”),而第17层用于标注我们现在究竟是执黑子还是白子,因为要考虑贴目的关系。
Q:有了强大的棋类引擎,我们可以给玩家一个评级——例如Elo围棋等级分就是通过棋手对局的分析逐步得出的,那么AlphaGo是否可以对过去有等级分前的棋手的实力进行分析?这可能为研究人类的认知提供一个平台。
Julian Schrittwieser:感谢分享,这个主意很棒!
我认为在围棋中这完全可以做到,或许可以用最佳应对和实际应对的价值差异或者政策网络给每一手位置评估得到的概率来进行?我有空的时候试一下。
Q: 既然AlphaGo已经退役了,是否有将其开源的计划?这将对围棋社区和机器学习研究产生巨大的影响。还有,Hassabis在乌镇宣称的围棋工具将会什么时候发布?
David Silver:现在这个工具正在准备中。不久后你就能看到新的消息。
Q:AlphaGo开发过程中,在系统架构上遇到的最大障碍是什么?
David Silver:我们遇到的一个重大挑战是在和李世石比赛的时候,当时我们意识到AlphaGo偶尔会受到我们所谓的“妄想”的影响,也就是说,程序可能会错误理解当前盘面局势,并在错误的方向上持续许多步。我们尝试了许多方案,包括引入更多的围棋知识或人类元知识来解决这个问题。但最终我们取得了成功,从AlphaGo本身解决了这个问题,更多地依靠强化学习的力量来获得更高质量的解决方案。
围棋爱好者的问题
Q:1846年,在十四世本因坊迹目秀策与十一世井上幻庵因硕的一盘对局中,秀策下的第127手让幻庵因硕一时惊急两耳发赤,该手成为扭转败局的“耳赤一手”。如果是AlphaGo,是否也会下出相同的一首棋?
Julian Schrittwieser:我问了樊麾,他的回答是这样的:
当时的围棋不贴目,而AlphaGo的对局中,黑棋需贴7.5目。贴目情况不同造成了古今棋局的差异,如果让AlphaGo穿越到当年下那一手,很有可能下的是不同的另一个地方。
Q:从已发布的AlphaGo相互对局看,执白子的时间更为充裕,因而不少人猜测,7.5目的贴目太高了(注:现代围棋的贴目数也在不断变化,如在30年前,当时通行的是黑子贴白子5.5目)。
如果分析更大的数据集,是否可以对围棋的规则得出一些有趣的结论?(例如,执黑或者执白谁更有优势,贴目应该更高还是更低)
Julian Schrittwieser:从我的经验和运行的结果看,7.5目的贴目对双方来说是均势的,黑子的胜率略高一些(55%左右)。
Q:你能给我们讲一下第一手的选择吗?ALphaGo是否会下出我们前所未见的开局方式?比如说,第一手下在天元或者目外,甚至更奇怪的地方?如果不是,这是否是一种“习惯”,或者说AlphaGo有强烈的“信念”认为星位、小目、三三是更好的选择?
David Silver:在训练中我们看到ALphaGo尝试过不同方式的开局——甚至刚开始训练的时候有过第一手下在一一!
即便在训练后期,我们仍然能看到四、六位超高目的开局,但很快就恢复到小目等正常的开局了。
Q:作为AlphaGo的超级粉丝,有一个问题一直在我心中:AlphaGo可以让职业棋手多少子?从论文中我们知道AlphaGo可以下让子棋,我也知道AlphaGo恐怕让不了柯洁两子,但我想你们一定很好奇,你们是否有做内部测试?
David Silver:我们没有和人类棋手下让子棋。当然,我们在测试不同版本的时候下过让子棋,在AlphaGo Master>AlphaGo Lee>ALphaGo Fan这三个版本中,后一个版本均可让三子击败前一个版本。但是,因为AlphaGo是自我训练的,所以尤其擅长打败自己的较弱的前一版本,因此我们不认为这些训练方式可以推广到和人类选手的让子棋中。
Q:你们有没有想过使用生成对抗网络(GAN)?
David Sliver:从某种意义来讲,自我对弈就是对抗的过程。每一次结果的迭代都是在试图找到之前版本的“反向策略”。
传言终结者
Q:我听说AlphaGo在开发初期被引导在某一个具体的方向训练以解决对弈中展现出的弱点。现在它的能力已经超过了人类,是否需要另外的机制来进一步突破?你们有做了什么样的工作?
David Silver:实际上,我们从未引导过AlphaGo来解决具体的弱点。我们始终专注于基础的机器学习算法,让AlphaGo可以学习修复自己的弱点。
当然你不可能达到100%的完美,所以缺点总会存在。 在实践中,我们需要通过正确的方法来确保训练不会落入局部最优的陷阱,但是我们从未使用过人为的推动。
关于DeepMind公司
Q:我这里有几个问题:在DeepMind工作是什么感受?AlphaGo团队成员都有谁?你能介绍一下AlphaGo团队工作分配的情况吗?下一个重大挑战是什么?
David Silver:在DeepMind工作感觉好极了:)——这不是一个招聘广告,但我感觉每天可以在这里做我喜欢的事实在是太幸运了。有很多(多到忙不过来!:))很酷的项目去参与。
我们很幸运有许多大牛在AlphaGo工作。您可以通过查看相应的作者列表来获取更详细的信息。
Q: 你觉得本科生是否可以在人工智能领域取得成功?
Julian Schrittwiese:当然。我本人就只有计算机科学学士学位,这一领域变化迅速,我认为您可以从阅读最新的论文和试验中来进行自学。另外,去那些做过机器学习项目的公司实习也是很有帮助的。
关于算法的扩展和其他项目
Q:Hassabis今年三月份在剑桥的一个演讲中表示,AlphaGo项目未来目标之一是对神经网络进行解释。我的问题是:ALphaGo在神经网络结构上取得了什么样的进展,或者说,对AlphaGo,神经网络仍然是神秘的黑盒子?
David Silver:不仅仅是ALphaGo,可解释性是我们所有项目的一个非常有意思的课题。Deepmind内部有多个团队从不同方式来探索我们的系统,最近有团队发表了基于认知心理学技术去尝试破译匹配网络内部发生了什么,效果非常不错!
Q: 很高兴看到AlphaGo Zero的好成绩。我们的一篇NIPS论文中也提到了对于深度学习和搜索树之间效率的相似问题,因此我对于在更长的训练过程中的行为尤其感兴趣。
AlphaGo的训练过程中,创建学习目标的蒙特卡洛树搜索的贪心算法、策略网络的贪心算法、以及在训练过程中价值功能变化的贪心算法之间的相对表现如何?这种自我对局学习的方法是否可以应用在最近的星际争霸 II API中?
David Silver:感谢介绍您的论文!真不敢相信这篇论文在我们4月7日投稿的时候已经发布了。事实上,它与我们的学习算法的策略组件非常相似(尽管我们也有一个值组件),您可以参考我们的方法和强化学习中的讨论,也很高兴看到在其他游戏中使用类似方法。
Q:为什么早期版本的AlphaGo没有尝试自我对弈?或者说,AlphaGo之前也尝试过自我对弈但效果不好?
我对这个领域的发展和进步程度感到好奇。相比起今天,在两年前在设计一个自主训练的AlphaGo的瓶颈在哪里?今天我们见到的“机器学习直觉”又是经历了什么样的系统迭代过程?
David Silver:创建一个可以完全从自我学习的系统一直是加强学习的一个开放性问题。 我们最初的尝试包括你能查到的许多类似的算法,是相当不稳定的。 我们做了很多尝试,最终AlphaGo Zero算法是最有效的,而且似乎已经破解了这个特定的问题。
Q:你认为机器人什么时候能够有效解决现实世界关于高度、尺寸方面的问题(例如,自己学习如何抓取任何形状、尺寸、位置垃圾的设备)?策略梯度方法是否是实现这一目标的关键点?
Julian Schrittwieser:这主要是由于价值/政策网络上的双重改进,包括更好的训练和更好的架构。具体参见论文图4对不同网络架构的比较。
Q:据说击败柯洁的ALphaGo Master的功耗只是击败李世石的AlphaGo Lee的1/10。你们做了什么样的优化呢?
Julian Schrittwieser:这主要是由于价值/政策网络上的双重改进,包括更好的训练和更好的架构。具体参见论文图4对不同网络架构的比较。(你确认不是copy上一个问题的答案吗)
Q:看起来在增强学习中使用或模拟Agent的长期记忆是一个很大的障碍。 展望未来,您觉得我们是否能以一种新的思维方式解决这一点? 还是说需要等待我们技术可以实现一个超级网络?
Julian Schrittwieser:是的,长期记忆可能是一个重要的因子,例如在“星际争霸”游戏中,你可能已经做出了上千个动作,但你还要记住你派出的侦察兵。
我认为现在已经有了令人振奋的组件(神经图灵机!),但是我认为我们在这方面仍有很大的改进空间。
Q:David,我看过你的演讲视频,你提到增强学习可以用于金融交易, 你有没有真实世界的例子? 你会如何处理黑天鹅事件(过去没有遇到过的情况)?
David Silver:已经发表增强学习用于现实世界的财务算法的论文非常少见,但有一些经典论文值得一看,例如Nevmyvaka、Kearns在2006写的那篇和Moody、Safell在2001年写的那篇。
Q:你们和Facebook几乎同时研究围棋问题,你们能更快获得大师级表现的优势是什么?
对于那些无法获得像AlphaGo如此多的训练数据的领域如何开展机器学习或者增强学习?
David_Silver:Facebook更侧重于监督学习,我们选择更多地关注强化学习,因为我们认为AlphaGo最终将超越人类的知识。 我们最近的结果实际上表明,监督学习方法可以让人大吃一惊,但强化学习绝对是远远超出人类水平的关键之处。


李世石 神之一手 为什么是神之一手

执白后手出战的李世石在序盘阶段就将棋局引向自己熟悉的局面。不过,40手过后,白棋在盘面上稍稍吃亏。很多在观战室观赛的职业棋手都为李世石捏了一把汗。

经过一番短兵相接,AlphaGo的黑棋在棋盘上方围出了一片空地,就在白棋似乎被逼入绝境时,李世石在第78手果断一“挖”,将白棋置于两枚黑棋之间,这手好棋瞬间把黑棋中腹空地内存在的隐患串联起来。白棋转危为安的同时,也让李世石找到了攻破黑棋包围圈的突破口。

令人意想不到的是,此后5手棋,AlphaGo似乎陷入混乱之中,连出毫无意义的昏招。这让局势瞬间倒向白棋一方。经验丰富的李世石自然不会放过良机,很快确立较大领先优势。

尽管此后AlphaGo并未轻易认输,但李世石每行一步都慎重思考,没有给对手留下翻盘的机会。最终,行至180手,AlphaGo投子认负。


如何理解李世石对阵AlphaGo第四局的“神之一手”78手

执白后手出战的李世石在序盘阶段就将棋局引向自己熟悉的局面。不过,40手过后,白棋在盘面上稍稍吃亏。很多在观战室观赛的职业棋手都为李世石捏了一把汗。

经过一番短兵相接,AlphaGo的黑棋在棋盘上方围出了一片空地,就在白棋似乎被逼入绝境时,李世石在第78手果断一“挖”,将白棋置于两枚黑棋之间,这手好棋瞬间把黑棋中腹空地内存在的隐患串联起来。白棋转危为安的同时,也让李世石找到了攻破黑棋包围圈的突破口。

令人意想不到的是,此后5手棋,AlphaGo似乎陷入混乱之中,连出毫无意义的昏招。这让局势瞬间倒向白棋一方。经验丰富的李世石自然不会放过良机,很快确立较大领先优势。

尽管此后AlphaGo并未轻易认输,但李世石每行一步都慎重思考,没有给对手留下翻盘的机会。最终,行至180手,AlphaGo投子认负。


上一篇:黄明简历

下一篇:京石高铁