DeeCamp2019人工智能訓(xùn)練營(yíng)在北京中國(guó)科學(xué)院大學(xué)雁棲湖校區(qū)舉辦全國(guó)成果展示暨結(jié)營(yíng)儀式??焓职l(fā)起的實(shí)踐課題“挑戰(zhàn)快手小游戲AI”、“端上AI助你走進(jìn)名畫(huà)”分別獲得DeeCamp2019最佳團(tuán)隊(duì)獎(jiǎng)、最佳技術(shù)獎(jiǎng)。
DeeCamp人工智能訓(xùn)練營(yíng)由教育部、創(chuàng)新工場(chǎng)、北京大學(xué)聯(lián)合主辦,今年有超過(guò)1萬(wàn)人次報(bào)名,最終600名學(xué)生入選。4周的時(shí)間內(nèi),學(xué)員接受了頂級(jí) AI 大牛導(dǎo)師的「學(xué)術(shù)+產(chǎn)業(yè)」課程培訓(xùn),共計(jì)完成了 50 個(gè) AI 實(shí)踐課題。
“挑戰(zhàn)快手小游戲AI”獲最佳團(tuán)隊(duì)獎(jiǎng)
4周時(shí)間,學(xué)員們完成了由 22 家企業(yè)發(fā)起的 50 個(gè) AI 相關(guān)課題,接受了總計(jì) 115 位來(lái)自企業(yè)的技術(shù)負(fù)責(zé)人和工程師的課題輔導(dǎo)。實(shí)踐課題全部基于真實(shí)世界場(chǎng)景精心設(shè)計(jì),力求貼近產(chǎn)業(yè)一線需求、提高學(xué)生動(dòng)手能力。其中4個(gè)課題為快手發(fā)起,包括挑戰(zhàn)快手小游戲AI、端上AI助你走進(jìn)名畫(huà)、多模態(tài)AI音樂(lè)生成、質(zhì)量感知的媒體傳輸優(yōu)化。結(jié)營(yíng)儀式當(dāng)天,“挑戰(zhàn)快手小游戲AI”獲得最佳團(tuán)隊(duì)獎(jiǎng),“端上AI助你走進(jìn)名畫(huà)”獲得最佳技術(shù)獎(jiǎng)。
斗地主要解決的是不完美信息下博弈問(wèn)題,是要在無(wú)法看見(jiàn)其他玩家手牌的前提下,對(duì)游戲中的14種合法牌型、13551種合法出牌、10的30次方的狀態(tài)空間和10的85次方的游戲樹(shù)進(jìn)行全面考慮,整體難度較高。從技術(shù)角度看,該項(xiàng)目將游戲領(lǐng)域內(nèi)的領(lǐng)先核心算法應(yīng)用到斗地主中;其次,結(jié)合RankSVM思路,設(shè)計(jì)了新的斗地主監(jiān)督學(xué)習(xí)模型;小組還設(shè)計(jì)了多個(gè)強(qiáng)化學(xué)習(xí)模型,使用強(qiáng)化學(xué)習(xí)進(jìn)行多模型融合。
項(xiàng)目團(tuán)隊(duì)沒(méi)有一味追求勝率,通過(guò)調(diào)試做到一個(gè)和人類玩家相似的勝率結(jié)果,更加擬人化。當(dāng)人類與人類對(duì)戰(zhàn)時(shí),人類作為地主的勝率為52.4%、作為農(nóng)民的勝率為47.8%;而該項(xiàng)目小組研發(fā)的AI在與人類進(jìn)行對(duì)戰(zhàn)時(shí),AI作為地主的勝率為58.6%、作為農(nóng)民的勝率為41%。
快手導(dǎo)師:學(xué)員們的探索性方法帶來(lái)驚喜
快手游戲聯(lián)合實(shí)驗(yàn)室提供了此次“挑戰(zhàn)快手小游戲AI”的課題,并指導(dǎo)學(xué)員完成此次實(shí)踐課題。該課題給學(xué)員提供了一個(gè)設(shè)計(jì)游戲AI從0到1的完整歷程,學(xué)員能體驗(yàn)到跟自己設(shè)計(jì)的AI共同成長(zhǎng)的默契。快手游戲聯(lián)合實(shí)驗(yàn)室,致力于利用人工智能技術(shù)全面賦能游戲,使用戶獲得更佳的游戲體驗(yàn),同時(shí)進(jìn)行前沿的人工智能技術(shù)研究及應(yīng)用。
“不完美信息博弈是非常有挑戰(zhàn)的AI難題,學(xué)員們產(chǎn)出的探索性結(jié)果和方法也給我們帶來(lái)了驚喜,我們會(huì)加大投入探索不完美信息博弈的游戲”。 快手游戲聯(lián)合實(shí)驗(yàn)室劉霽介紹說(shuō),不完美信息博弈是非常挑戰(zhàn)的AI難題,斗地主AI的難題在于它是一個(gè)3人游戲;兩人組隊(duì)合作跟另外一個(gè)人博弈,如何組隊(duì),以及隊(duì)內(nèi)信息又是不共享的,這使得斗地主的博弈問(wèn)題更加復(fù)雜;既需要算法的精巧設(shè)計(jì),又需要高效得利用算力。
快手導(dǎo)師迅速幫助學(xué)員們抓住課題重點(diǎn),從叫牌階段策略,出牌過(guò)程策略,預(yù)測(cè)對(duì)方牌型等側(cè)重點(diǎn)進(jìn)行指導(dǎo)。利用游戲AI的經(jīng)驗(yàn),初步提供了不同的AI模型在游戲中的基本能力和實(shí)現(xiàn)效果,強(qiáng)調(diào)了非全信息下的博弈難度,便于學(xué)員們進(jìn)行理解和選擇,學(xué)員在2天的時(shí)間內(nèi)快速確定了最終的開(kāi)發(fā)框架。
因?yàn)槎返刂魇遣煌昝佬畔⒉┺臎](méi)有成功的經(jīng)驗(yàn)可以借鑒,快手導(dǎo)師指導(dǎo)團(tuán)隊(duì)制定一個(gè)套多模型融合的策略,把基于規(guī)則的AI,基于強(qiáng)化學(xué)習(xí)的AI,基于蒙特卡洛搜索的AI(Alphago的思路),基于CFR的AI(德州撲克的思路),以及基于模仿學(xué)習(xí)的AI通過(guò)一個(gè)整體的強(qiáng)化學(xué)習(xí)AI融合一起。時(shí)間緊任務(wù)又有挑戰(zhàn)的情況下,快手導(dǎo)師提供了對(duì)每一種AI設(shè)計(jì)方案方向性的指導(dǎo)并且參與細(xì)節(jié)的討論,最終學(xué)員圓滿完成課題。
快手游戲聯(lián)合實(shí)驗(yàn)室于明澤介紹說(shuō),這次的課題在學(xué)術(shù)上存在挑戰(zhàn),有助于推動(dòng)產(chǎn)學(xué)研結(jié)合??焓钟螒蚵?lián)合實(shí)驗(yàn)室提供了豐富的AI應(yīng)用場(chǎng)景,比如驗(yàn)證游戲核心玩法、文字音頻圖形的AI處理、數(shù)據(jù)分析、個(gè)性化決策、自動(dòng)推薦等。游戲環(huán)境是全數(shù)字環(huán)境,便于訓(xùn)練數(shù)據(jù)的采集,利于技術(shù)的落地。此外,游戲本身是強(qiáng)商業(yè)化的方向,更容易創(chuàng)造出兼具學(xué)術(shù)意義和商業(yè)價(jià)值的產(chǎn)品。
- QQ:61149512