艺点动画 | 转载分享 | 将游戏变成科学试验场，“王者峡谷”成为另类战场-艺点动画官网-艺点创意科技有限公司

艺点动画 | 转载分享 | 将游戏变成科学试验场，“王者峡谷”成为另类战场

2022-06-29 10:37

微信图片_20220629103926.png

推荐导语：游戏和人工智能的结合，将会让人们进一步更新对游戏的认识。它也同时意味着更多辐射现实的可能，AI在程序里的一小步，可能会成为现实中的一大步。

没有哪一场游戏比赛的决赛能这般安静。选手们没有一句交流，只是默默观看，记录。两个小时后，主办方宣布，上场对弈结束，清华大学计算机系的学生们从23支参赛队伍中脱颖而出。

但准确地说，对战的选手不是这些学生——他们甚至没在屏幕前做任何操作。真正在操作游戏角色的，是学生们训练了上百万次的AI。

此前的90天，这些来自国内顶尖高校的青年极客利用“开悟”AI开放研究平台的算法、算力等资源，训练出可以操作王者荣耀的AI，不停对战，角逐最后的冠军。

微信图片_20220629103933.png

《王者荣耀》AI测试试验场

比赛的准确名字叫“开悟多智能体强化学习大赛”，已是第二次举办。比起结果，不论是主办方还是参赛者，都更看重比赛的过程。他们的目的是“以赛代研”：对战，迭代，以研发出更好更强的AI智能体。

此次比赛是基于王者荣耀这个载体。这款游戏重协作，复杂度极高，在5V5对局中，玩家的动作状态空间高达10的20000次方，甚至超过整个宇宙的原子总数（10的80次方）。它是训练多智能体算法的天然试验田。

多智能体算法是人工智能的前沿领域。以往，因为研究场景稀缺、算法测试困难、算力昂贵等问题，高校AI研究的试验田一直受限。为了拓宽它边界，推动人工智能研究的发展，今年，开悟平台还与19所大学合作开发了创新课程，向更多的AI研究者和专业学生开放。

AI对抗AI

在训练AI打王者荣耀和自己玩这两件事上，冠军队队长陈华玉有着截然不同的胜负欲。课余放松自己打两局，输了赢了他都不在意。但要论培育AI去取得更好成绩，他是“鸡娃”最狠的选手之一。

选手们把AI比作孩子，一开始，它初生，像张白纸，什么也不会，在人的不断训练下，逐渐进化出各种能力。初赛中，陈华玉和队友就让自己的AI和主办方提供的基线AI进行了4万多场对战，更新了上百个模型。他们决赛的对手，电子科技大学“鸡娃”更狠，对战了6万多场。

微信图片_20220629104016.png

电子科大的同学正在进行AI代码编写

和人类玩家一样，AI要通过反复的训练和对战来学习。人类训练的是技战术熟练度，而AI则要在海量的尝试中，通过行为反馈优化自身策略。

90天的训练中，陈华玉的好胜心得到的最大满足，是AI学会“蹲草丛”的那一刻。即使目前它还蹲得不够彻底，只是在路过草丛时多停留了几秒。“蹲草丛”是人类玩家在游戏中隐藏踪迹的诱敌行为，很简单，但AI不是天生就会。它能学会，看起来具备了一丝“灵性”，也说明它变得足够聪明——在上万次的训练中，它学习到了蹲草丛能给予它视野、先手等优势，从而提升胜率。

AI学习人的这一小步，被他们看成是人工智能的一大步。一个简单的蹲草丛动作，也许需要模型，背后涉及的宏观战略决策与微观数值计算能力，往往需要消耗大量的精力来验证测试。

训练AI的乐趣在于未知。“机器强化学习是一种类似于黑盒的训练。作为研究者很难明确知道是算法何处不足导致出现问题。”这就使得学生们训练的AI“既强又弱”。一方面，它们做决策迅速又准确，结束一局比赛比普通玩家更迅疾；另一面，游戏角色可能仍会傻傻地撞墙。而当它训练了上百小时学习某种能力时，也会发生某项能力突然急速下降，甚至崩解的情况。

陈华玉一直不知道怎么解决这个问题。直到赛后，他听到电子科技大学团队的分享，得到了不少启发。对方分享了一套能把智能体的学习过程稳定下来的方法。

陈华玉很佩服这个对手。决赛一度很胶着，他们最终仅以几分的微弱优势险胜。胶着说明两个AI能力已经不相上下，能赢只是概率问题。“我们只是底子比较厚，勉强撑住了。”他招揽了一批厉害的同学，短长互补，使他们的算法更容易让AI从大数据中学习，比起其他队伍对数据的使用效率更高。

“这个比赛的意义不在于名次高低。”电子科技大学队的指导老师谢宁认为，开悟比赛最重要的价值，是让学生知道原来AI可以达到这样的能力。它的底层技术是强化学习，在同等训练资源下，算法模型设计越优秀，能够训练出的AI决策智能就越强大，学生们在比赛中充分训练了强化学习、神经网络算法等方面的科研能力。

大学里的新课

得知“开悟”计划和19所高校合作开课免费开放技术研究资源时，很多老师和谢宁一样第一时间响应。对于他们，一款将场景、算力、算法有效联通的人工智能研究平台，是一场及时雨。

算法、场景、算力是AI研究的核心，其中算法研究是很多高校的主攻领域。但因为算力受限，围绕大规模计算与业务场景展开的研究，常常束手缚脚。“‘开悟’是独一份的。国内外都没有其他企业有类似的开源，会分享算力资源。”陈华玉算了一笔账，如果要在自己的实验室里训练王者AI，他得把那里的四五十台电脑的算力都汇集起来。

微信图片_20220629104041.png

学生利用开悟平台进行AI研究

以往学生们要训练多智能体AI，有条件的会到开源平台上下载游戏资源，自己编写程序练习，但愿意开源的游戏场景复杂度一般很低。老师们布置作业，也只能布置算力最低、难度最小的作业。这是为了教学公平。学生们经济水平不同，购置的电脑硬件条件不一。

谢宁为本科生开设的王者AI选修课将在下学期开课，选课时有200个学生一股脑涌来，热度非凡。他只能布置了一道课程设计的报告题，从200个学生中遴选出36人。

一些参加过开悟比赛的选手也自觉变成课程进入高校的纽带。在导师的“游戏AI中的算法”选修课中，北大博士生鲁云龙负责指导王者AI部分的助教。

王者AI的相关作业在这门课程里占分数比最大，这些00后学生也表现出了很大的兴趣。这款流行游戏伴随着这一代人长大，能将学到的算法训练打游戏的AI，是新鲜的体验。

在指导学生们的两个月里，鲁云龙把在比赛中学到的建立模型、训练AI的经验都教给他们。学生们的表现让他惊喜。在提交的作业中，他发现有学生训练的AI和腾讯基线AI的level4对抗，打赢的概率已经达到了五五开。这意味着如果这个学生参与当年那届比赛，已经能达到斩获名次的水平。

王者AI进入大学校园，也给鲁云龙这样的青年学者带来了信心。课程的升级让他更坚定，自己所研究的强化学习的算法足以用在更复杂的游戏环境中。以前受限于算力不足，不能将自己一手打造的智能体应用到复杂的游戏训练，水平究竟几何难以验证。但现在，他少了很多迷茫。

谢宁也觉察到了变化。他的课题组把王者AI当成了日常科研项目后，研究生们的兴趣明显升高了。以前，他们接触不到算力，没有直接的实感，而在如今“开悟”开放的“窗口期”，即使是周末和期末，他们也会抓紧训练和实验，来验证自己的技术理论。

“学生对游戏的认识比我们更成熟。”他有时想，这种亲近感或许是天生的，刻在一代人的基因中。有学生告诉谢宁，自己的父母就是游戏中相识。谢宁很鼓励学生参加开悟比赛。他的学生们主动传帮带，第一届参加的学生将自己的代码笔记分享给师弟师妹。未来的课程中，他则希望更强调实战——举行王者AI比赛校园赛或许是个好主意，“以赛代研”，能产出更多实打实的结果。

把游戏变成科学试验场

负责王者AI应用拓展项目后，王者AI应用拓展负责人老刘的日程表上，多了很多大学老师在干的事儿。他和老师们一起备课，讨论怎么分解知识点，把王者AI里工程化应用的知识讲得让本科生能听懂。平时他也要读很多论文，更新人工智能的知识体系，将多智能学习的新兴技术体现在“开悟”平台里，让学生能在平时的作业、考试环节，落地整体的人工智能。

一开始，高校算力的局促着实让他吃惊。学生电脑的CPU只有16核，GPU只有32核，还多是windows系统，根本不能支持开悟平台运转。项目团队因此发动了25个程序员，设计了实验平台客户端，让学生们能更加高效地学习。

“在人工智能的趋势发展中提供一些帮助，让学生学习的效率更高一些，老师的知识传达效率更高一点，也让学生在未来工作中做类似的工程化应用时，少走一些弯路。”每次学生们喊他“刘老师”，都让老刘觉得这份工作又创造了一点价值。人工智能模型的研究和训练，往往需要无数次的迭代和试错。小步快走的积累，才能引发质变。开悟比赛和课程，一步步探索，都是为了完善AI人才培养体系。当越来越多科技青年参与AI创新，人工智能的发展浪潮中才会不断涌现创新者和引领者。

谢宁的研究团队目前正在研究如何用开悟平台模拟火灾疏散等场景，尝试解决应急系统和社会治理领域的一些新问题。在他看来，“这意味着游戏对其他行业的赋能”。游戏与AI的结合，在未来将有广阔的前景。如果AI能在王者荣耀的复杂游戏环境模拟激烈对抗，像人一样学会决策，那么其中大规模协同的算法，也可以迁移到多变、复杂的真实环境中。

这也是开悟项目的初衷。他们希望可以联动高校利用王者荣耀的复杂环境，将游戏变成科学试验场，推动用人工智能创造各种可能性。他们和西南交通大学的智慧交通的合作即将开启。未来，在王者荣耀的虚拟环境中，“英雄”将被模拟赋予交通灯般的角色。经过一系列复杂程序的转化，他们的红黄绿灯就是“一二三技能”，可以用于实验什么时候“放技能”能让交通效率最优。

未来，王者峡谷里还将出现更多类似的现实模拟场景，覆盖医疗、工业、农业、交通等行业。鲁云龙设想在未来的研究中让“英雄”模拟自动驾驶。在虚拟环境里试错，训练平稳不出事故的智能体，把中间产生的算法运用到实际中，“给其他领域提供低成本试错的场所”。

“我们其实是在游戏中研究这个世界的运转规律。”腾讯AI Lab“开悟”平台技术总监超哥认为，多人竞技对抗类游戏游戏环境中还有大量仍待攻克的难题，只有让更多有兴趣的高校和学者参与进来，共同探讨和研究这些难题，整个产学研共同体才可以再往前进一步。

在AI学界，开悟平台的影响力不断在扩大。第一届比赛后，海外高校陆续有学生报名参加。谢宁希望有越来越多的人知晓它。游戏和人工智能的结合，将会让人们进一步更新对游戏的认识。它也同时意味着更多辐射现实的可能，谢宁感到，那些在游戏峡谷中活跃着的角色由此被赋予了更现实的“意义”。而AI在程序里的一小步，可能会成为现实中的一大步。

lADPJwKtwloME6fNAa7NAa4_430_430.jpg_720x720q90g.jpg

扫码加V免费领课~

游戏动画设计/次世代建模/特效设计

零基础也能入学的企业内训等你来！

上一篇：艺点动画 | 转载分享 | “SPARK 2022”腾讯游戏发布会：探索游戏的更多价值

下一篇：艺点动画 | 转载分享 | 这款“跑”了十年的手游，仍然排名第一