Un poker-bot progettato da ricercatori di Facebook e Carnegie Mellon University ha costantemente battuto alcuni dei migliori giocatori umani del mondo in una serie di sei giocatori di poker senza limite di Texas Hold'Em, secondo The Verge .
Il sistema di intelligenza artificiale, chiamato Pluribus, ha giocato oltre 10.000 mani nel corso di 12 giorni. In una situazione, ha giocato insieme a cinque giocatori umani e in un altro, ha giocato con altri cinque giocatori di IA. Il bot ha vinto, in media, cinque dollari per mano con vincite orarie di circa $ 1000, che i ricercatori hanno definito un "margine decisivo di vittoria".
Noam Brown, uno scienziato ricercatore di Facebook AI Research ha dichiarato:
"È sicuro dire che siamo a un livello sovrumano e che non cambierà".
Chris Ferguson, un sei volte campione delle World Series of Poker, ha dichiarato: "Pluribus è un avversario molto difficile con cui giocare. È davvero difficile bloccarlo su qualsiasi tipo di mano. "
In un articolo pubblicato di recente, lo scienziato dietro al robot ha affermato che le vittorie rappresentano una pietra miliare significativa nella ricerca sull'intelligenza artificiale. Altri computer hanno imparato giochi come Chess and Go, ma il Texas Hold Em da sei persone è sempre stato un punto di riferimento più alto da raggiungere.
Questo perché le informazioni necessarie per vincere la partita sono spesso nascoste ai giocatori - coinvolgono più giocatori e complessi risultati di vittoria. Un gioco come Go è più facile per l'intelligenza artificiale, nonostante abbia più combinazioni di tavole possibili degli atomi nell'universo osservabile, perché tutte le informazioni sono almeno disponibili per essere viste. Questo rende più facile per l'IA allenarsi.
Nel 2015, un sistema di machine learning batteva i professionisti umani a due giocatori di Hold Em, ma alzare il numero a cinque avversari aumentava significativamente la complessità del gioco. Sono state utilizzate alcune strategie cruciali per affrontare questo problema:
- Innanzitutto, hanno insegnato a Pluribus a giocare a poker facendolo giocare contro copie di se stesso - un processo noto come auto-gioco. Questa è una tecnica comune per l'allenamento dell'IA, con il sistema in grado di apprendere il gioco attraverso tentativi ed errori; giocando centinaia di migliaia di mani contro se stesso. Anche questo processo di formazione è stato straordinariamente efficiente: Pluribus è stato creato in soli otto giorni utilizzando un server 64 core dotato di meno di 512 GB di RAM. La formazione di questo programma sui server cloud costerebbe solo $ 150, rendendolo un affare rispetto al cartellino del prezzo da centomila dollari per altri sistemi allo stato dell'arte.
- Quindi, per affrontare la complessità extra di sei giocatori, Brown e Sandholm hanno trovato un modo efficace per l'IA di guardare avanti nel gioco e decidere quale mossa fare, un meccanismo noto come funzione di ricerca. Piuttosto che cercare di prevedere come i suoi avversari avrebbero giocato fino alla fine del gioco (un calcolo che sarebbe diventato incredibilmente complesso in pochi passaggi), Pluribus è stato progettato per guardare solo due o tre mosse avanti. Questo approccio troncato è stato il "vero passo avanti", afferma Brown.
Pluribus era "straordinariamente bravo nel bluffare i suoi avversari" e chi lo giocava contro lo lodava per la sua inesauribile coerenza e il modo in cui poteva spremere i profitti dalle mani magre. Era anche "prevedibilmente imprevedibile", e lo faceva solo giocando le carte che gli erano state distribuite, senza guardare il riconoscimento facciale o le scoperte.
Brown dice che il bluff può essere un'arte che può essere ridotta a strategie matematicamente ottimali: "L'intelligenza artificiale non vede il bluff come ingannevole. Vede solo la decisione che renderà più denaro in quella particolare situazione. Ciò che mostriamo è che un'IA può bluffare e può bluffare meglio di qualsiasi umano. "
Il fatto che l'intelligenza artificiale abbia ora migliorato gli umani in sei persone con Hold Em significa che ora c'è molto che gli umani possono imparare dai computer quando si tratta di giocare a Hold Em.
I ricercatori sperano anche che le tecniche utilizzate per creare il robot AI possano essere trasferibili ad altre situazioni, come la sicurezza informatica, la prevenzione delle frodi e le negoziazioni finanziarie.
Fonte: qui
Nessun commento:
Posta un commento