加载中...请稍后..

曾经的星际顶级高手,如今正领导AI征服人类玩家

发布日期:
2017-12-12
浏览量:
63376

  文/DeepTech深科技

  星际争霸(StarCraft)、顶尖电竞玩家、人工智能、 Google ,这四个词是 Oriol Vinyals 人生的关键字。

  Oriol Vinyals 是谁?或许有些人对他感到陌生,但有一群人很早就听过他的大名,年少时,他曾是西班牙《星际争霸》游戏排名第一的电竞高手,你使用的 Google Gmail、图像识别服务也有出自于他写下的程序,他还弄过一个 AI 机器人,可以跟你畅谈什么是人生的意义,去年他还拿下 MIT TR35 大奖、名列全球 35 位最具创新力年轻人之一。

  现在,他是 Google 旗下人工智能公司 DeepMind 的研究科学家,他让游戏世界变成 AI 机器人的修道场,准备让 AI 再次痛宰人类高手。这是继 AlphaGo 之后, 人工智能发展的关键时刻之一。

图 | Oriol Vinyals

图 | Oriol Vinyals

  AlphaGo 击败人类棋王,在围棋界建下一道难以征服高墙之后, DeepMind 又向另一个领域下了战帖,那就是游戏。选中了在电玩界备受玩家欢迎及推崇的《星际争霸》作为 AI 训练的环境。

  《星际争霸》是暴雪娱乐在1998年推出的游戏,当年售出150万套,并且成为电竞领域的先驱游戏,10 年内总销售量则超过 950 万套,到了2010年发行《星海争霸 II》, 48 小时内就卖出 150 万套,打破了战略类游戏的销售记录。剧情时空设定在 26 世纪,由三个种族包括地球人后裔人族 Terran、虫族 Zerg、神族 Protoss,以在银河系中心争夺霸权,揭开游戏的序幕。

  去年底,游戏界盛会 BlizzCon 2016 上,美国电子游戏商暴雪娱乐(Blizzard Entertainment)宣布与 DeepMind 合作,让 AI 在《星际争霸II》游戏环境里进行特训,协助人工智能研究发展,这项消息振奋了全球玩家及 AI 研究者的心。

  消息一经公布之后,Oriol Vinyals 立刻在他的 Twitter 写下:“《星际争霸》又回到我的生活了 :)”。

  从电竞高手变成 人工智能专家

  没错,就像多数男孩小时候都有段深深被电玩所吸引的时光,出生巴塞隆那的 Oriol Vinyals 也一样,他 15 岁开始玩《星际争霸》,还打出超强成绩,成为一度在西班牙排名第一、全欧洲排名第十六的知名电竞玩家,不过他并没有像多数高手一样走向职业电竞选手之路,反而选择投身计算机研究领域。

  “我深深对游戏中的人工智能问题感到着迷。”他说。从此展开了从电竞高手酝酿变身为AI专家的过程。

  他从西班牙的加泰隆尼亚理工大学(University of Catalonia)完成电信工程及数学双学位之后,前往美国进修,在卡内基梅隆大学机器人学院完成了机器学习和电脑视觉的学位论文(undergrad thesis),接着又到加州大学圣地牙哥分校,取得计算机科学及工程(Computer Science and Engineering)硕士学位,2009年则进入加州大学伯克利分校(UC Berkeley)攻读电机及电脑科学(Electrical Engineering & Computer Science)博士,他也参与了伯克利的Overmind 计划。

图:Oriol Vinyals在twitter留言:“《星际争霸》又回到我的生活了”。

图:Oriol Vinyals在twitter留言:“《星际争霸》又回到我的生活了”。

  Berkeley Overmind 在游戏 AI 领域相当知名, Overmind 其实就是取名於《星际争霸》游戏中虫族的“主宰”(Overmind)角色。这项专案深入研究利用各种 AI 计算技术,找出该采取什么样的步骤及策略以赢得比赛,简单来说,就是开发一个懂得如何攻打即时战略(real time strategy)游戏的AI机器人。在 2010 年的人工智能和互动数字娱乐(AIIDE)大会上,首次举办了星际争霸AI比赛(Starcraft AI Competition),在完整游戏模式类别, Overmind 拿下了冠军,一战成名。

  他让Google的相册应用“读”出照片内容

  之后 Oriol Vinyals 进入了 Google AI 团队,负责为翻译系统打造新的技术,“我就是想知道电脑是否可以精准的描述一张图像,从像素到解释,这也是一种翻译的形式。” Oriol Vinyals 说。就是基于这个内心的想法,他更动了一行代码,把自己写的图像程序取代了先前的法文翻译程序。

  隔天,他向电脑秀了一张场景是热闹市集的图像,摊位旁边的地上放了很多香蕉。令人惊喜的结果出现了,程序写着:“一群人在市场买水果”。“成功了!它不是只说人站在街上。” Oriol Vinyals 还清楚记得当下的兴奋心情。这代表的是,机器可以阅读复杂的图片,现在这项技术被应用在 Google 图像搜寻服务里,当用户输入关键字时,系统就会开始去“读”图像,呈现出结果来。

  另外,几乎每个人都会使用的 Gmail ,同样有他的心血在里头,“智能回复”功能就是其一,系统会针对邮件内容,自动给出三个建议的简短回复,用户在忙碌的时候选按一下,系统就会自动帮你回信。

  2015 年, Google 研究团队发表了一篇论文,他们透过电影对白来训练的聊天机器人(chatbot)居然能跟人类谈论抽象的人生议题。一开始研究人员问了一些简单的问题,例如我的 VPN 连不上等IT问题,机器就像是一个专业的 IT 人员,工作得恰如其分,但接着问它“生命的意义是什么”、“活着的目的是什么”等形而上的问题,机器分别说:“追求最大的美好”、“为了永生”……等。对话让人从感觉从有趣变成了有点恐惧。而这个 chatbot的开发者就是 Oriol Vinyals 和他的同事 Quoc V.Le 。

图:聊天机器人和人对谈生命的意义。 图片来源:Wired

图:聊天机器人和人对谈生命的意义。 图片来源:Wired

  游戏比围棋更贴近真实世界的复杂及混乱

  在 Google Brain 开发多项被实际应用的服务之后, Oriol Vinyals 在去年一月加入 DeepMind ,挑战比下围棋还难的人工智能—教电脑打电玩,不靠输入死板的编码规则,而是只让电脑透过经验自主学习,用来训练机器的游戏环境就是 Oriol Vinyals 最擅长的星际争霸。

  今年八月 DeepMind 和暴雪娱发布了了《星海争霸II》用于训练 AI 的工具,包含机器学习应用程序接口(API)、多达 65,000 场《星海争霸II》电竞比赛的影像、以及开源工具等,后续每月还会增加比赛影片,让 AI 学习人类玩家的战术,他们也把特定游戏元素拆为迷你游戏,例如地图探索、资源收集等,帮助AI训练特定技能。

  之所以选择《星际争霸II》,除了游戏本身的高人气之外,最重要的原因就是内容的复杂性,有三个特点,分别是资讯不完整、资源管理、即时性。

  在围棋比赛中,选手所观察的范围完全只在那一块版子上,所以 AI 机器人思考的决策尺度在数百步之内。可是,游戏的困难度高出太多,特别是即时战略游戏,玩家必须展开长时间尺度的综合性策略,而且玩家只能在自己的单位范围内看到地图,无法同时看到整个比赛场景,也就是资讯不完整的环境,必须靠记忆来记得对手的讯息,但游戏进行的同时,对手也在玩,讯息是变动性而非永久不变的,也考验玩家根据新讯息来调整计划的能力。

  再加上,游戏涉及采集资源、生产兵力等经济规划,考验玩家长远的谋略力及技巧,因此被视为是 AI 训练的最佳场域,一但突破, AI 发展将来到一个新的里程碑。

  DeepMind 指出,星际争霸的高维度行动空间(high-dimensional action space)跟过往在强化学习(reinforcement learning)的研究有很大的不同,像是,当玩家只是做一些简单任务,例如把基地扩展到某个位置时,必须协调鼠标点击(mouse clicks)、摄像头和可用资源才能达成,是有层次的行动和计划,这对强化学习相当具有挑战性。

  不过,就像 AlphaGo 在打败人类棋王之前,许多人不认为机器会获胜,但也有人觉得机器胜算大,现在在游戏领域也有分歧的看法,“我不认为 AI 可以打败职业玩家,至少在我有生之前看不到。” 拿下 2016 年《星际争霸2》 WCS 世界锦标赛冠军的韩国电竞高手 Byun Hyun Woo ,先前接受麻省理工科技评论专访时这么说。他进一步解释,星际争霸属于即时战略游戏,必须对许多不确定性和变因做出很快的反应,但 AI 似乎仍不擅长应对意想不到的状况,另一个原因则是长期策略,“要打造一个能同时擅长做短期跟长期决策的 AI 太难了。”

  另一派人则认为机器或许有胜算,曾经是世界最强的虫族选手、纪录片《电竞高手 State of Play》主题人物之一的李帝东(LEE Jae-dong)则认为, AI 或许有机会能打赢人类,因为电脑不会感到疲累,速度也能比人类快得多。在星际争霸中,玩家敲按键盘、点击鼠标的每分钟动作(Actions Per Minute,APM)速度是关键。顶尖玩家一分钟可以下达数百个指令, AI 则可做到数万个,这就是机器的优势。

  但先放下究竟是机器胜还是人类赢的问题,回到人工智能研究上,以游戏来训练 AI “这件事需要有创新的战略、记忆以及处理不确定性问题的能力,这无疑是一个大跃进” Oriol Vinyals 说。

  他解释,以记忆为例,这项技能可以应用在多种的环境,例如资料中心的电脑,当机器看到星期天用电总是比较高,它就会记得下一个周日也会有同样的状况,有助于执行资料中心的用电管理或是节电设计。

  Oriol Vinyals曾经表示:“要打败人类职业选手,还有很长的路要走。”不过,这个说法可能不适用。

  今年八月, Tesla CEO Elon Musk 创立的人工智能非营利组织 OpenAI 就完成一项壮举,在一场电竞表现赛中以一对一的方式击败《Dota 2》的职业选手 Dendi,震撼电竞圈。

  过去, Berkeley Overmind 研究人员在训练 AI 时,就曾经让 AI 机器人跟 Oriol Vinyals 对打,当时,尽管他已是世界级实力的高手,也曾经败在 Overmind AI 之下,媒体还曾以“ Overmind 战胜专业玩家”作为报导标题。现在, Oriol Vinyals 成為训练 DeepMind 游戏 AI 的主要科学家,看来不久之后就会给星际争霸的电竞高手来场震撼教育。

  很快,国内科技与游戏爱好者将有机会一睹试图颠覆玩家信心的人工智能专家 Oriol Vinyals 的真容。

  他将作为演讲嘉宾出席 2018 年 1 月 28-30 日举办的 EmTech China 全球新兴科技峰会,这也是由《麻省理工科技评论》在全球举办了超过 18 年的 EmTech 新兴科技峰会首次落地中国。

  本次 EmTech 全球新兴科技峰会来到中国,不仅将延续大会《麻省理工科技评论》全球性大会的风格与传统,更将与中国科技与市场发展情况相结合,成为中美新兴科技领域交流的桥梁。