腾讯AI登顶国际麻将平台,刷新世界最好成绩

日期:2023-07-12 11:43:03 / 人气:212

2017年,腾讯AI夺得围棋冠军的时候(网友号召我们进麻将),
2019年,腾讯AI夺得王者职业选手(网友号召我们进麻将)
2020年,腾讯AI夺得AI足球世界冠军的时候(网友号召我们进麻将)
今天腾讯AI独门绝技LuckyJ登场打麻将:
腾讯麻将AI在日式麻将天风平台专楼达到10.68的稳定位置。
刷新了AI在麻将领域的最好成绩,代表着腾讯R&D团队在AI决策方向取得了行业领先的成绩和突破。
我相信你有一些问题:
为什么中国麻将AI要上日本平台?
为什么过了这么多年才来?
详细听我说。
首先第一个问题,为什么要去日本玩游戏?
先给大家介绍一下天风平台:
日本知名麻将比赛平台“天风”,有着较为系统的比赛规则和职业位置规则,被职业麻将届广泛认可。
全世界的麻将AI基本都是在这里训练和玩的。(既然要出道,就要出成绩,在AI最多的平台出道)
“等级”有点像玩王者荣耀,根据你参加的游戏数量和累积的积分来判断你的等级。国王队是:铜牌...钻石,星星,王者,荣耀王者。
天风按照1-11段排名,10段相当于王者荣耀中的荣耀王段。
在天风平台上,7段以上的有3037人,占比1%左右,而能达到10段的只有27人(包括AI),占比不足万分之一。
天风稳定段的bootstrap分布,unique LuckyJ明显强于前两个最强日本麻将AI(Suphx,Naga) Luckyj vs SuphX P值= 0.02883;LuckyJ vs NAGA p值=3e-05
这是目前排名前三的麻将AI。LuckyJ花了1000多场比赛才达到10段。专场1000场以上的所有注册玩家均排名稳定段历史第一。
天风石段,日本麻将战术研究者,友赛(来自日本),天风ID:黒ぺろぺろ:
LuckyJ看起来“完全无泄漏”!
一方面通过保管安全卡等策略降低事故率。
另一方面,即使手中有多个抽牌方向,LuckyJ也能在这些复杂的分支中顺利进行。
麻将起源于中国,是国粹。
偶然路过小区的阿姨奶奶,可能都是隐藏高手。
值得一提的是,LuckyJ不仅打进了日本麻将天风第十段,还在全国麻将线下邀请赛中击败了6位全国麻将职业选手。麻将在中国早已是一项职业运动,有大量的玩家参加职业比赛。
成为第一个击败全国麻将顶级职业选手的麻将AI。
杨磊,全国职业麻将选手,标榜麻将运动协会会长,最好成绩:2007年中国王赛冠军,2007年王中王冠军;
经过几个月与腾讯麻将AI的对抗测试,我对AI游戏的分析印象深刻,无论是进攻还是防守。
在进攻端,AI可以快速成型,不断变化,根据场上情况做出最佳选择;在防守端,从前期控制节奏和方向,到后期精准调整和果断改变张力,可以说是有利有弊,大有作为。
我们通常所说的巧手,顿悟,甚至是基于经验和感觉的孤注一掷的选择,对于AI来说可能是一种常规操作。
第二个问题。
为什么这么久才进入麻将?
因为麻将对AI来说很难。
与围棋和象棋相比,两枚棋子都在桌面上,大家都能看到整体信息。这种情况被称为完美信息博弈。
和德州扑克、麻将一样,它们的共同点是有隐藏信息,玩家的手是看不见的。这叫不完全信息博弈。
无论是完美信息博弈还是不完美信息博弈,在过去,象棋AI有两个核心技术要素。
离线培训:
其目的是让AI通过强化学习或其他算法来学习玩游戏,得到固定的离线策略。(离线策略:生成自己的战斗策略,在什么状态下采取什么行动)
在线搜索:
在线对战中,在线搜索技术可以通过强大的计算能力无限列举各种可能性,在离线策略的基础上实时调整,搜索制胜路径。
也就是说,和你下围棋的时候,你走一步,AI脑子里已经想好了一万步,然后选择最好的一步和你下棋。
大家都知道围棋AlphaGo采用的方法是强化学习+蒙特卡罗树搜索。
然而,用于完美信息博弈的技术并不适合不完美信息博弈的情况。
具体来说,传统的强化学习无法收敛到不完全信息博弈的最强策略。
此外,蒙特卡洛树搜索要求对手的手可见。
所以德州扑克AI采用的方法是后悔最小化算法+安全子博弈搜索。
德州扑克只有两只看不见的手,所以计算复杂度不是特别高,借用计算机的计算能力就可以满足传统算法。
而麻将,136张牌,手里只有13张。隐藏的信息量巨大,是德州扑克的上亿倍。
如上图所示,横坐标上的信息集数量表示可观察状态的数量,即卡面的信息,纵坐标上的信息集平均大小表示隐藏信息的数量,即其他所有对手手牌的可能性。
另外,在麻将中,除了正常的摸牌和打牌,还需要决定是否吃牌、摸牌、杠牌和胡牌。
任何玩家的行为都会改变摸牌顺序,这涉及到很多决策。
总之,面对麻将,过去的方法并不完全适用:
传统的离线策略训练方法要么快而不好(强化学习),要么好而不快(后悔最小化算法)。
传统的在线搜索算法要么不适用(蒙特卡罗树搜索),要么计算复杂度太高(安全子博弈搜索)。
所以麻将AI要想打好麻将,就得另辟蹊径,想办法:
既能训练强大的离线策略,又能满足高效的在线搜索。
你想要什么都可以。
因此,我们AI实验室的研究人员提出了一种新的策略优化算法——ACH:actor critical hedge。
采用基于强化学习和后悔最小化的自博弈技术,使AI能够从零开始学习和自我完善,最终收敛到最强混合策略。
该算法具有传统强化学习扩展性好(计算速度快)的优点,部分继承了后悔最小化算法(计算速度快)的一些理论性质。与传统的强化学习方法相比,策略优化算法在训练不完美信息博弈时更均衡(攻守兼备),鲁棒性更强。
同时,基于乐观值估计的思想,我们提出了一种有效的不完全搜索方法。
首先,对搜索树进行高效的变换和修剪,避免了AI的大量无效搜索,大大提高了搜索效率。
另一方面,不同于以往搜索和离线策略的结合,我们将搜索返回的结果作为“特征”输入到自主研发的策略神经网络中,让AI在海量隐藏信息的游戏状态下,依然可以实时调整当前策略。
这样就解决了非完美信息搜索因其复杂度高而难以应用于大型游戏的问题,使深度强化学习与非完美信息搜索相结合成为可能。
其实我们研究麻将AI,不仅仅是为了游戏或者比赛。
因为麻将和我们的生活环境很像。
有大量的隐藏信息和不确定因素,都需要在复杂的推理策略和随机博弈中进行决策。
训练麻将AI其实就是训练AI更好的理解人类世界。
最终,AI可以尽快进入那些人类的生活,比如金融交易、自动驾驶、交通物流、拍卖系统等...
解决现实世界中的复杂问题。"

作者:焦点注册登录平台




现在致电 8888910 OR 查看更多联系方式 →

COPYRIGHT © 焦点注册登录平台 版权所有