艺点动画 | 转载分享 | 将游戏变成科学试验场,“王者峡谷”成为另类战场

2022-06-29 10:37

 

微信图片_20220629103926.png


推荐导语:游戏和人工智能的结合,将会让人们进一步更新对游戏的认识。它也同时意味着更多辐射现实的可能,AI在程序里的一小步,可能会成为现实中的一大步。


没有哪一场游戏比赛的决赛能这般安静。选手们没有一句交流,只是默默观看,记录。两个小时后,主办方宣布,上场对弈结束,清华大学计算机系的学生们从23支参赛队伍中脱颖而出。

 

但准确地说,对战的选手不是这些学生——他们甚至没在屏幕前做任何操作。真正在操作游戏角色的,是学生们训练了上百万次的AI。

 

此前的90天,这些来自国内顶尖高校的青年极客利用“开悟”AI开放研究平台的算法、算力等资源,训练出可以操作王者荣耀的AI,不停对战,角逐最后的冠军。


微信图片_20220629103933.png

《王者荣耀》AI测试试验场


比赛的准确名字叫“开悟多智能体强化学习大赛”,已是第二次举办。比起结果,不论是主办方还是参赛者,都更看重比赛的过程。他们的目的是“以赛代研”:对战,迭代,以研发出更好更强的AI智能体。

 

此次比赛是基于王者荣耀这个载体。这款游戏重协作,复杂度极高,在5V5对局中,玩家的动作状态空间高达10的20000次方,甚至超过整个宇宙的原子总数(10的80次方)。它是训练多智能体算法的天然试验田。

 

多智能体算法是人工智能的前沿领域。以往,因为研究场景稀缺、算法测试困难、算力昂贵等问题,高校AI研究的试验田一直受限。为了拓宽它边界,推动人工智能研究的发展,今年,开悟平台还与19所大学合作开发了创新课程,向更多的AI研究者和专业学生开放。

 

AI对抗AI

 

在训练AI打王者荣耀和自己玩这两件事上,冠军队队长陈华玉有着截然不同的胜负欲。课余放松自己打两局,输了赢了他都不在意。但要论培育AI去取得更好成绩,他是“鸡娃”最狠的选手之一。

 

选手们把AI比作孩子,一开始,它初生,像张白纸,什么也不会,在人的不断训练下,逐渐进化出各种能力。初赛中,陈华玉和队友就让自己的AI和主办方提供的基线AI进行了4万多场对战,更新了上百个模型。他们决赛的对手,电子科技大学“鸡娃”更狠,对战了6万多场。


微信图片_20220629104016.png

电子科大的同学正在进行AI代码编写


和人类玩家一样,AI要通过反复的训练和对战来学习。人类训练的是技战术熟练度,而AI则要在海量的尝试中,通过行为反馈优化自身策略。

 

90天的训练中,陈华玉的好胜心得到的最大满足,是AI学会“蹲草丛”的那一刻。即使目前它还蹲得不够彻底,只是在路过草丛时多停留了几秒。“蹲草丛”是人类玩家在游戏中隐藏踪迹的诱敌行为,很简单,但AI不是天生就会。它能学会,看起来具备了一丝“灵性”,也说明它变得足够聪明——在上万次的训练中,它学习到了蹲草丛能给予它视野、先手等优势,从而提升胜率。

 

AI学习人的这一小步,被他们看成是人工智能的一大步。一个简单的蹲草丛动作,也许需要模型,背后涉及的宏观战略决策与微观数值计算能力,往往需要消耗大量的精力来验证测试。

 

训练AI的乐趣在于未知。“机器强化学习是一种类似于黑盒的训练。作为研究者很难明确知道是算法何处不足导致出现问题。”这就使得学生们训练的AI“既强又弱”。一方面,它们做决策迅速又准确,结束一局比赛比普通玩家更迅疾;另一面,游戏角色可能仍会傻傻地撞墙。而当它训练了上百小时学习某种能力时,也会发生某项能力突然急速下降,甚至崩解的情况。

 

陈华玉一直不知道怎么解决这个问题。直到赛后,他听到电子科技大学团队的分享,得到了不少启发。对方分享了一套能把智能体的学习过程稳定下来的方法。

 

陈华玉很佩服这个对手。决赛一度很胶着,他们最终仅以几分的微弱优势险胜。胶着说明两个AI能力已经不相上下,能赢只是概率问题。“我们只是底子比较厚,勉强撑住了。”他招揽了一批厉害的同学,短长互补,使他们的算法更容易让AI从大数据中学习,比起其他队伍对数据的使用效率更高。

 

“这个比赛的意义不在于名次高低。”电子科技大学队的指导老师谢宁认为,开悟比赛最重要的价值,是让学生知道原来AI可以达到这样的能力。它的底层技术是强化学习,在同等训练资源下,算法模型设计越优秀,能够训练出的AI决策智能就越强大,学生们在比赛中充分训练了强化学习、神经网络算法等方面的科研能力。

 

大学里的新课

 

得知“开悟”计划和19所高校合作开课免费开放技术研究资源时,很多老师和谢宁一样第一时间响应。对于他们,一款将场景、算力、算法有效联通的人工智能研究平台,是一场及时雨。

 

算法、场景、算力是AI研究的核心,其中算法研究是很多高校的主攻领域。但因为算力受限,围绕大规模计算与业务场景展开的研究,常常束手缚脚。“‘开悟’是独一份的。国内外都没有其他企业有类似的开源,会分享算力资源。”陈华玉算了一笔账,如果要在自己的实验室里训练王者AI,他得把那里的四五十台电脑的算力都汇集起来。


微信图片_20220629104041.png

学生利用开悟平台进行AI研究


以往学生们要训练多智能体AI,有条件的会到开源平台上下载游戏资源,自己编写程序练习,但愿意开源的游戏场景复杂度一般很低。老师们布置作业,也只能布置算力最低、难度最小的作业。这是为了教学公平。学生们经济水平不同,购置的电脑硬件条件不一。

 

谢宁为本科生开设的王者AI选修课将在下学期开课,选课时有200个学生一股脑涌来,热度非凡。他只能布置了一道课程设计的报告题,从200个学生中遴选出36人。

 

一些参加过开悟比赛的选手也自觉变成课程进入高校的纽带。在导师的“游戏AI中的算法”选修课中,北大博士生鲁云龙负责指导王者AI部分的助教。

 

王者AI的相关作业在这门课程里占分数比最大,这些00后学生也表现出了很大的兴趣。这款流行游戏伴随着这一代人长大,能将学到的算法训练打游戏的AI,是新鲜的体验。

 

在指导学生们的两个月里,鲁云龙把在比赛中学到的建立模型、训练AI的经验都教给他们。学生们的表现让他惊喜。在提交的作业中,他发现有学生训练的AI和腾讯基线AI的level4对抗,打赢的概率已经达到了五五开。这意味着如果这个学生参与当年那届比赛,已经能达到斩获名次的水平。

 

王者AI进入大学校园,也给鲁云龙这样的青年学者带来了信心。课程的升级让他更坚定,自己所研究的强化学习的算法足以用在更复杂的游戏环境中。以前受限于算力不足,不能将自己一手打造的智能体应用到复杂的游戏训练,水平究竟几何难以验证。但现在,他少了很多迷茫。

 

谢宁也觉察到了变化。他的课题组把王者AI当成了日常科研项目后,研究生们的兴趣明显升高了。以前,他们接触不到算力,没有直接的实感,而在如今“开悟”开放的“窗口期”,即使是周末和期末,他们也会抓紧训练和实验,来验证自己的技术理论。

 

“学生对游戏的认识比我们更成熟。”他有时想,这种亲近感或许是天生的,刻在一代人的基因中。有学生告诉谢宁,自己的父母就是游戏中相识。谢宁很鼓励学生参加开悟比赛。他的学生们主动传帮带,第一届参加的学生将自己的代码笔记分享给师弟师妹。未来的课程中,他则希望更强调实战——举行王者AI比赛校园赛或许是个好主意,“以赛代研”,能产出更多实打实的结果。

 

把游戏变成科学试验场

 

负责王者AI应用拓展项目后,王者AI应用拓展负责人老刘的日程表上,多了很多大学老师在干的事儿。他和老师们一起备课,讨论怎么分解知识点,把王者AI里工程化应用的知识讲得让本科生能听懂。平时他也要读很多论文,更新人工智能的知识体系,将多智能学习的新兴技术体现在“开悟”平台里,让学生能在平时的作业、考试环节,落地整体的人工智能。

 

一开始,高校算力的局促着实让他吃惊。学生电脑的CPU只有16核,GPU只有32核,还多是windows系统,根本不能支持开悟平台运转。项目团队因此发动了25个程序员,设计了实验平台客户端,让学生们能更加高效地学习。

 

“在人工智能的趋势发展中提供一些帮助,让学生学习的效率更高一些,老师的知识传达效率更高一点,也让学生在未来工作中做类似的工程化应用时,少走一些弯路。”每次学生们喊他“刘老师”,都让老刘觉得这份工作又创造了一点价值。人工智能模型的研究和训练,往往需要无数次的迭代和试错。小步快走的积累,才能引发质变。开悟比赛和课程,一步步探索,都是为了完善AI人才培养体系。当越来越多科技青年参与AI创新,人工智能的发展浪潮中才会不断涌现创新者和引领者。

 

谢宁的研究团队目前正在研究如何用开悟平台模拟火灾疏散等场景,尝试解决应急系统和社会治理领域的一些新问题。在他看来,“这意味着游戏对其他行业的赋能”。游戏与AI的结合,在未来将有广阔的前景。如果AI能在王者荣耀的复杂游戏环境模拟激烈对抗,像人一样学会决策,那么其中大规模协同的算法,也可以迁移到多变、复杂的真实环境中。

 

这也是开悟项目的初衷。他们希望可以联动高校利用王者荣耀的复杂环境,将游戏变成科学试验场,推动用人工智能创造各种可能性。他们和西南交通大学的智慧交通的合作即将开启。未来,在王者荣耀的虚拟环境中,“英雄”将被模拟赋予交通灯般的角色。经过一系列复杂程序的转化,他们的红黄绿灯就是“一二三技能”,可以用于实验什么时候“放技能”能让交通效率最优。

 

未来,王者峡谷里还将出现更多类似的现实模拟场景,覆盖医疗、工业、农业、交通等行业。鲁云龙设想在未来的研究中让“英雄”模拟自动驾驶。在虚拟环境里试错,训练平稳不出事故的智能体,把中间产生的算法运用到实际中,“给其他领域提供低成本试错的场所”。

 

“我们其实是在游戏中研究这个世界的运转规律。”腾讯AI Lab“开悟”平台技术总监超哥认为,多人竞技对抗类游戏游戏环境中还有大量仍待攻克的难题,只有让更多有兴趣的高校和学者参与进来,共同探讨和研究这些难题,整个产学研共同体才可以再往前进一步。

 

在AI学界,开悟平台的影响力不断在扩大。第一届比赛后,海外高校陆续有学生报名参加。谢宁希望有越来越多的人知晓它。游戏和人工智能的结合,将会让人们进一步更新对游戏的认识。它也同时意味着更多辐射现实的可能,谢宁感到,那些在游戏峡谷中活跃着的角色由此被赋予了更现实的“意义”。而AI在程序里的一小步,可能会成为现实中的一大步。

lADPJwKtwloME6fNAa7NAa4_430_430.jpg_720x720q90g.jpg

扫码加V免费领课~

游戏动画设计/次世代建模/特效设计

零基础也能入学的企业内训等你来!