伊人欧美,先锋影音资源5566

微軟麻將AI來了!第一波人類高手已經(jīng)被打爆

2019-08-29 14:54

網(wǎng)易智能專稿

實際上，打造麻將AI要比打造已經(jīng)壓制人類的谷歌圍棋AI難度更大。因為如果是圍棋，棋局信息是公開的，但對于麻將而言，有太多的隱藏信息，并且有更多的隨機性。

內(nèi)功修煉到了十段，微軟打算讓Suphx出來走兩步。

今年6月，由微軟亞洲研究院開發(fā)的麻將AI系統(tǒng)Suphx成為首個在國際專業(yè)麻將平臺“天鳳”上榮升十段的AI系統(tǒng)，這是目前AI系統(tǒng)在麻將領(lǐng)域取得的最好成績，其實力超越該平臺公開房間頂級人類選手的平均水平。

今天，微軟首次對外正式披露了該項目的詳細(xì)進(jìn)展，這個項目由微軟亞洲研究院副院長劉鐵巖帶隊的四人團(tuán)隊組成，用時一年，成績顯著。

大家可能有很多疑問，麻將AI和我們熟知的圍棋AI有哪些不同？都是人工智能那誰更厲害？麻將AI又能做什么？網(wǎng)易智能同微軟團(tuán)隊進(jìn)行了深入的交流。

他們?yōu)槭裁催x擇麻將！

換句話講，麻將這類非完美信息游戲，與圍棋、象棋等完美信息游戲相比，對人工智能來說具有更大的挑戰(zhàn)性，如果說圍棋的可觀測狀態(tài)信息是10的172次方，隱藏的不確定信息為0，那么，麻將的可觀測狀態(tài)信息則是10的121次方，可怕的是隱藏的不確定信息達(dá)到了10的48次方。

劉鐵巖向網(wǎng)易智能表示，我們生活的世界是由許許多多的隨機事件構(gòu)成的，而且在很多情況下，無法知曉的信息也許遠(yuǎn)多于我們能夠掌握的信息，而我們?nèi)匀灰谶@樣信息不完全的條件下做出大大小小的決策。

“AI在非完美信息游戲中的突破，將有助于協(xié)助人類應(yīng)對更多高度復(fù)雜的現(xiàn)實問題，尤其是在智能交通、金融投資等容易受到隨機突發(fā)狀況影響的場景中“。他談到。

AI如何在天鳳“打怪升級”

據(jù)介紹，由于長期在民間廣為流傳，不同地區(qū)的麻將玩法非常多樣，缺乏統(tǒng)一的規(guī)則標(biāo)準(zhǔn)和評價體系。日本在線麻將競技平臺“天鳳”，因其完善的競技規(guī)則、專業(yè)的段位體系，成為專業(yè)麻將平臺，受到職業(yè)麻將界的廣泛承認(rèn)。

劉鐵巖介紹，天鳳平臺為高水平麻將玩家提供兩種競技房間：“特上房”對四段以上所有玩家免費開放，允許AI參與游戲，目前所有玩家在此房間的最高段位是十段；

“鳳凰房”僅對七段以上的人類付費玩家開放，目前不允許AI參與游戲，在該房間能夠達(dá)到的最高段位是十一段，稱為“天鳳位”。自天鳳平臺在2006年推出以來，全平臺達(dá)到四人麻將天鳳位的麻將高手僅有13位[JL1] ，曾經(jīng)達(dá)到過十段的選手約有180位，而現(xiàn)役十段的人類選手也僅有十幾位。

而微軟亞洲研究院開發(fā)的麻將AI系統(tǒng)Suphx于3月登陸天鳳平臺，在AI能夠參與的公開競技房“特上房”，Suphx與人類選手展開了5000余場四人麻將對局，在這5000余場對局中，Suphx的穩(wěn)定段位超過了8.7。

劉鐵巖透露，他們也在和天鳳平臺探討，以怎樣的方式讓Suphx進(jìn)入還不允許AI參與的鳳凰房。

麻將AI到底難在哪？

與象棋、圍棋、德州撲克等棋牌類游戲相比，麻將具有更復(fù)雜的隱藏信息和更高的難度。

總體而言，微軟亞洲研究院將麻將AI面臨的挑戰(zhàn)總結(jié)為以下三點：

首先，巨大的狀態(tài)空間：與只有52張牌的德州撲克相比，136張麻將牌的排列組合可能性更多。同時，麻將中同一個玩家兩次出牌之間，夾雜了其他三個玩家的出牌和自己摸的底牌，可能出現(xiàn)的不同局面數(shù)目非常巨大。值得特別指出的是，在麻將中，4位玩家的出牌順序是不固定的，任意一位玩家的“吃碰杠”都可能使出牌順序突然改變，導(dǎo)致游戲樹不規(guī)則、且動態(tài)變化。這些特點使麻將很難直接利用AlphaGo等棋盤游戲AI常用的蒙特卡洛樹搜索算法。

其次，非完美信息博弈：象棋和圍棋屬于完美信息游戲，玩家可以看到棋局中對方玩家的落子。麻將則存在大量的隱藏信息。具體而言，麻將中每個玩家可以有13張手牌，另外還有84張底牌。對于一個玩家而言，他只知道自己手里的13張牌和之前已經(jīng)打出來的牌，卻無法知道別人的手牌和沒有翻出來的底牌，所以最多可以有超過120張未知的牌[JL2] 。這么多的未知信息使得麻將的難度非常高。一方面，由于隨機性太大，玩家即便在出牌決策中估計對方玩家手牌、底牌等不可見的牌，也無法避免不確定性對于游戲走向的影響。這將對AI模型的訓(xùn)練帶來很大挑戰(zhàn)：AI模型很難發(fā)現(xiàn)已知牌面信息和最優(yōu)打法之間的邏輯鏈路。另一方面，豐富的隱藏信息導(dǎo)致游戲樹的寬度非常大，對樹搜索算法的可行性提出了進(jìn)一步的挑戰(zhàn)。

其三，復(fù)雜的獎勵機制：日本麻將的規(guī)則是“無役不能和牌”，多樣的特殊牌面構(gòu)成了復(fù)雜的“役種”和番數(shù)計算規(guī)則。一輪游戲共包含8局，單局得分與役種和番數(shù)相關(guān)，最后根據(jù)8局的得分總和進(jìn)行排名，來形成最終影響段位的點數(shù)獎懲。因此有時麻將高手會策略性輸牌，例如，在第8輪時如果A玩家已經(jīng)大比分領(lǐng)先第二名，他可能會故意放炮給排名第四的玩家，來防止總分被排名第二的玩家反超，保證自己在最終結(jié)算時獲得最大的點數(shù)獎勵。這為構(gòu)建高超的麻將AI策略帶來了額外的挑戰(zhàn)，AI需要審時度勢，把握進(jìn)攻與防守的時機。

三大技術(shù)見招拆招

“面對麻將游戲的巨大挑戰(zhàn)，AI僅靠強大的計算力無法從根本上解決問題，而需要更強的直覺、預(yù)測、推理和模糊決策能力，“微軟亞洲研究院副院長、機器學(xué)習(xí)領(lǐng)域負(fù)責(zé)人劉鐵巖博士表示。他們的主要技術(shù)應(yīng)用可以概況為先知教練、全盤預(yù)測、自適應(yīng)決策。

據(jù)了解，微軟亞洲研究院針對麻將的特點與難點嘗試了一系列基于強化學(xué)習(xí)的新算法，比如，為了應(yīng)對巨大的狀態(tài)空間，研究團(tuán)隊引入了全新的機制對探索過程的多樣性進(jìn)行動態(tài)調(diào)控，讓Suphx可以比傳統(tǒng)算法更加充分地試探牌局狀態(tài)的不同可能；另一方面，一旦某一輪的底牌給定，其狀態(tài)子空間會大幅縮??；所以研究團(tuán)隊讓Suphx在推理階段根據(jù)本輪的牌局來動態(tài)調(diào)整策略，對縮小了的狀態(tài)子空間進(jìn)行更有針對性的探索，從而更好地根據(jù)本輪牌局的演進(jìn)做出自適應(yīng)的決策。

其次，針對非完美信息博弈的挑戰(zhàn)，Suphx嘗試了先知教練技術(shù)來提升強化學(xué)習(xí)的效果。其基本思想是在自我博弈的訓(xùn)練階段利用不可見的一些隱藏信息來引導(dǎo)AI模型的訓(xùn)練方向，使其學(xué)習(xí)路徑更加清晰、更加接近完美信息意義下的最優(yōu)路徑，從而倒逼AI模型更加深入地理解可見信息，從中找到有效的決策依據(jù)。

另外，對于麻將復(fù)雜的牌面表達(dá)和計分機制，研究團(tuán)隊還利用全盤預(yù)測技術(shù)搭建起每輪比賽和8輪過后的終盤結(jié)果之間的橋梁。可以讓AI理解每輪比賽對終盤的不同貢獻(xiàn)，從而將終盤的獎勵信號合理地分配回每一輪比賽之中，以便對自我博弈的過程進(jìn)行更加直接而有效的指導(dǎo)，并使得Suphx可以學(xué)會一些具有大局觀的高級技巧。

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點資訊

電子檔案檔案數(shù)據(jù)離線光盤刻錄歸檔長期保存方案

11月14日
走進(jìn)智能工廠，見證卓越智造的力量

11月13日
美妝界的數(shù)字化奇跡：漠小曼的電商轉(zhuǎn)型與國潮崛起

11月12日
2024 數(shù)智化創(chuàng)新應(yīng)用技術(shù)大會 | 一號邀請

11月11日
SRM趨勢洞察：供應(yīng)商關(guān)系管理將走向何方？

11月11日

為了保護(hù)數(shù)據(jù)安全，企業(yè)還要上演“宮鎖心計”？

微軟麻將AI來了!第一波人類高手已經(jīng)被打爆

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

微軟麻將AI來了!第一波人類高手已經(jīng)被打爆

最新評論（評論僅代表用戶觀點）

中美在AI領(lǐng)域的合作，為全球經(jīng)濟(jì)復(fù)蘇提供新動能

家用智能視覺進(jìn)入深水區(qū)，上云已是必由之路

柯基被當(dāng)成“電驢”？人工智能成人工智障

ChatGPT引發(fā)的AI監(jiān)管問題思考與建議

本月熱門

AI 原生時代，字節(jié)想要復(fù)刻第三次增長奇跡

2024 年預(yù)防網(wǎng)絡(luò)攻擊的 12 項網(wǎng)絡(luò)安全最佳實踐措施

從5G到6G：開啟無線通信的未來

2024年上半年中國云終端市場跟蹤報告：出貨量達(dá)到166.3萬臺，同比增長22.4%

DevSecOps建設(shè)標(biāo)桿丨民生證券攜手懸鏡安全，共建敏捷安全開發(fā)體系

ESIS 2024第三屆中國電子半導(dǎo)體數(shù)智峰會正式啟動，邀您共創(chuàng)電子半導(dǎo)體行業(yè)美好未來!

精選文章

釘釘宣布全面智能化!藍(lán)凌MK助力大模型時代組織更智慧

10倍增長潛力的IoT企業(yè)，具有哪些特質(zhì)？

還在擔(dān)心驗證碼錯誤？新的算法將更容易識別文本驗證碼

亞馬遜云科技與博泰車聯(lián)網(wǎng)開啟戰(zhàn)略合作

數(shù)據(jù)要素：驅(qū)動即時價值的創(chuàng)新引擎

中國金融認(rèn)證中心（CFCA）王洪波：構(gòu)建數(shù)字安全服務(wù)新生態(tài)

熱點資訊

電子檔案檔案數(shù)據(jù)離線光盤刻錄歸檔長期保存方案

走進(jìn)智能工廠，見證卓越智造的力量

美妝界的數(shù)字化奇跡：漠小曼的電商轉(zhuǎn)型與國潮崛起

2024 數(shù)智化創(chuàng)新應(yīng)用技術(shù)大會 | 一號邀請

SRM趨勢洞察：供應(yīng)商關(guān)系管理將走向何方？

為了保護(hù)數(shù)據(jù)安全，企業(yè)還要上演“宮鎖心計”？

中興上半年營收扭虧為盈，已在全球獲得25個5G商用合同

微軟麻將AI來了!第一波人類高手已經(jīng)被打爆

最新評論（評論僅代表用戶觀點）

欄目推薦

中美在AI領(lǐng)域的合作，為全球經(jīng)濟(jì)復(fù)蘇提供新動能

家用智能視覺進(jìn)入深水區(qū)，上云已是必由之路

柯基被當(dāng)成“電驢”？人工智能成人工智障

ChatGPT引發(fā)的AI監(jiān)管問題思考與建議

本月熱門

精選文章

熱點資訊

為了保護(hù)數(shù)據(jù)安全，企業(yè)還要上演“宮鎖心計”？

中興上半年營收扭虧為盈，已在全球獲得25個5G商用合同

家用智能視覺進(jìn)入深水區(qū)，上云已是必由之路

為了保護(hù)數(shù)據(jù)安全，企業(yè)還要上演“宮鎖心計”？