skin

Facebook e AI, passi avanti sul poker online: 2 secondi a mano e 5 secondi per decidere

30 luglio 2020 - 12:07

Facebook e AI, passi avanti sul poker online: 2 secondi a mano e 5 secondi per decidere.

Scritto da Gt

L'avevamo preannunciato ma il fatto che l'AI di Facebook riesca a calcolare stack di chips differenti e anche dimensioni di puntate impreviste e che sfuggono a linee di gioco prevedibile, mette paura.
I ricercatori di Facebook hanno sviluppato un framework di intelligenza artificiale chiamato Recursive Belief-based Learning (ReBeL) in grado di giocare a Poker.

ReBeL è un passo verso lo sviluppo di tecniche universali per le interazioni multi-agente. Le applicazioni vanno dalle vendite all’asta, alle trattative e alla sicurezza informatica, dalle auto e ai camion con guida autonoma. La combinazione dell’apprendimento per rinforzo durante l’addestramento del modello AI e i tempi dei test ha portato a numerosi progressi. L’apprendimento per rinforzo è il luogo in cui gli agenti imparano a raggiungere gli obiettivi massimizzando i premi, mentre la ricerca è il processo di navigazione dall’inizio fino all’obiettivo.

L’approccio combinatorio di rinforzo e ricerca, già utilizzato in giochi come gli scacchi, subisce una penalità per le prestazioni quando viene applicato a giochi con informazioni imperfette e ipotetiche come il poker. Il valore di ogni azione dipende dalla probabilità che sia stata scelta e, più in generale, dall’intera strategia di gioco. I ricercatori di Facebook hanno proposto ReBeL come soluzione dato che si basa sull’ampliamento dello “stato del gioco” per includere le conoscenze comuni e alle politiche di altri agenti. ReBeL addestra due modelli di intelligenza artificiale – una rete di valori e una rete di politiche – per gli stati attraverso l’apprendimento del rinforzo in auto-gioco.
L’algoritmo vince eseguendo iterazioni di un algoritmo di “ricerca di equilibrio” e utilizzando la rete di valori addestrata per approssimare i valori su ogni iterazione. Attraverso l’apprendimento per rinforzo, i valori vengono scoperti e aggiunti come esempi di addestramento per la rete di valori e le politiche nel sottogioco.

I ricercatori Facebook hanno confrontato ReBeL sui giochi heads-up no-limit di poker Texas Hold’em, Liar’s Dice e endgame hold’em, che è una variante del no-limit hold’em in cui entrambi i giocatori fanno check o call per i primi due round di puntate.

Sono state utilizzate 128 PC e otto schede grafiche ciascuno per generare dati di gioco simulati e randomizzare le dimensioni della scommessa e dello stack (da 5.000 a 25.000 chip). ReBeL è stato allenato contro Dong Kim, che è considerato uno dei migliori giocatori di poker heads-up al mondo e ha giocato più velocemente di due secondi per mano su 7.500 mani e non ha mai avuto bisogno di più di cinque secondi per una decisione.

I risultati dell’algoritmo nel poker - Nel complesso, ha segnato 165 millesimi di una big blind (scommessa forzata) per partita contro gli umani con cui ha giocato. Il precedente sistema di gioco del poker di Facebook, Libratus, ha raggiunto il massimo a 147 millesimi. I codici ReBeL poker verrano implementati per Liar Dice, che secondo gli sviluppatori è più facile da capire e da regolare.

Gli stessi hanno affermato: “Sebbene esistano già algoritmi AI che possono raggiungere prestazioni sovrumane nel poker, questi algoritmi generalmente presuppongono che i partecipanti abbiano un certo numero di chip o utilizzino determinate dimensioni di scommessa. Riqualificare gli algoritmi per tenere conto di stack di chip arbitrari o dimensioni di scommessa impreviste richiede un calcolo maggiore di quanto sia fattibile in tempo reale. Tuttavia, ReBeL può calcolare una politica per dimensioni dello stack arbitrarie e dimensioni delle scommesse arbitrarie in pochi secondi.”

Articoli correlati