|
POKER Célèbre jeu de cartes où
l'observation de la psychologie des joueurs est essentielle. En 2014, un programme existe qui vous bat à
tous les coups. Le poker est souvent utilisé
comme un exemple de défi en théorie des jeux
du fait qu'il est un jeu à informations cachées. |
|
||
Principe du jeu (grandes lignes) Le jeu de poker se joue avec
52 cartes (sans jokers). Le poker est un jeu
d'argent. Des jetons symbolisent la mise. Il en existe de nombreuses
variantes. Chaque jouer reçoit cinq
cartes avec la possibilité d'échanger quelques cartes. Le but est de construire la
meilleure combinaison des cinq cartes. Tout réside dans l'annonce
des enchères. Chacun fait le pari qu'il détient un meilleur jeu que celui de
ses voisins. Chacun mise une somme
d'argent en posant une certaine quantité de ses jetons au centre de la table
de jeu. Un joueur à la possibilité
de ne pas suivre l'enchère s'il juge sa combinaison de cartes trop faible. Finalement, les cartes sont
posées sur la table. Celui qui possède la meilleure combinaison emporte les
jetons des autres. |
Classement des mains au poker Cette description est très succincte et très imprécise; se référer aux
sites spécialisés pour les règles précises. |
|
Variante Le Texas Hold’em Poker est
une variante du poker souvent jouée sans limite (sans restriction de mise).
Le poker le plus populaire et objet des plus gros tournois du monde. |
Chaque joueur reçoit deux cartes fermées
(visibles par lui seul) au début de chaque partie. Progressivement s’ajoutent
cinq cartes ouvertes (visibles par tous) au milieu de la table. Pour avoir la meilleure main, il est nécessaire
d’avoir la meilleure combinaison possible de cinq cartes parmi les sept dont
le joueur dispose. |
|
|
||
Annonce de janvier 2015: Des chercheurs ont créé une intelligence
artificielle si performante qu’elle vous battra au Poker à tous les coups. Événement aussi
extraordinaire que la partie d'échecs
de 1997 où Deep Bleu (IBM) a battu Garry Kasparov. Résolution d'un problème à
information incomplète qui pourrait s'appliquer à de nombreux autres
domaines, notamment l'économie. L'algorithme est à
apprentissage. Avec 1500 parties jouées, le programme devient un champion.
Par contre, il doit mémoriser une quantité d'informations de plus de 200
téraoctets (2,6 1014 octets) qui, une fois compressées, occupe 11
téraoctets. |
Lieu: Université de l’Alberta – Canada Programme: Texas Hold’em Poker Conception: Équipe
de Michael Bowling Développeur: Oskari Tammelin Les créateurs pensent que le
sujet est clos, proche de la perfection. Aux dames ou des échecs: les
joueurs ont une connaissance parfaite des évènements passés et de la
situation actuelle de la partie. Ce n'est pas le cas au poker. La combinatoire est démente aussi au
poker. Avec deux joueurs, il existe déjà plus de 1014 étapes de
décision possibles. |
|
D'après le Daily
Geek Show du 14/01/2015
Un programme
conçu à l’université d’Alberta (Canada) s’est révélé imbattable dans une
variante du poker Texas Hodl’em (partie en
face à face) après 1500 parties jouées. L’algorithme,
dit de « minimisation rétrospective du regret
», construit un arbre de décision à partir des résultats de chaque partie,
associés à un degré de « regret ». Il réévalue également les décisions prises
dans les tours précédents. |
Les ingénieurs l’ont d’abord entraîné à jouer à
49 jeux d’arcades, tels Pong, Space invaders et
Breakout. Dans chacun d’eux, l’algorithme a décidé d’un comportement
jusqu’à totalement maîtriser le jeu. Demis Hassabis, co-fondateur de DeepMind, en fait la démonstration avec le jeu
Breakout (une plaque mobile renvoie une balle verticalement pour casser des
briques. L’algorithme après 300 parties gagne à tous les
coups. Au bout de 500 parties, il a identifié une stratégie optimale,
renvoyant la balle de manière à creuser dans les briques par le dessus. |
D'après Des
programmes informatiques qui apprennent à jouer – Iris Trahin - Techniques de
l'ingénieur – 3/02/2016
|
||
Annonce de juillet 2019 L'annonce de 2015 concernait le jeu à deux,
celle-ci s'applique à six
joueurs: cinq humaines et une IA, ou une humaine et cinq IA) Les concurrents ont été
surpris par la prise de risques de l'Intelligence
artificielle alors qu'habituellement les robots sont
décrits comme peu imaginatifs. Un de ses créateurs affirme:
"Cela ouvre de nouvelles portes sur ce que l'IA peut apporter en matière
de résolution de problèmes dans le monde réel". |
Poker: Six Players no-limit
Texas Hold’em Poker à 6 Type: jeu à somme nulle (ce que gagnent les uns est
perdu par les autres), et à informations cachées
(certaines cartes ne sont révélées qu'en cours de jeu). Nom de l'IA: Pluribus Développeur: Noam Brown et Tuomas Sandholm Société:
Facebook |
|
Une idée des technologies
utilisées Principes: Pluribus ne calcule pas dix coups d'avance, mais réalise une
anticipation raisonnable. Il est capable de s'adapter à chaque décision prise
par les autres membres de la table La tactique utilisée repose sur la recherche d'un équilibre avantageux
des chances et non pas sur l'exploitation des faiblesses des adversaires
(équilibre de Nash). L'équilibre de Nash, s'il est établit, donne autant de chance de
gagner à chaque joueur. Il existe des algorithmes efficaces dans le cas de jeux à somme nulle et à deux
joueurs (c'est prouvé). En revanche, en multi-joueurs, la tâche est très ardue, même pour
trouver un algorithme avec solution approximative.
Apprentissage mutuel: deux machines s'affrontent et s'enrichissent en partant
de zéro et sans intervention humaine. La stratégie établie ainsi est la
stratégie de référence (blueprint strategy). Elle est affinée en temps
réel en fonction de la situation
présente. |
Abstraction: procédé qui consiste à regrouper des solutions proches, à les traiter
de manières identiques pour s'approcher d'un coup à jouer, tout en
re-personnalisant pour finaliser le coup à jouer. Counterfactual regret minimisation: algorithme récent (2000) introduit par Hart et
Mas-Colell, qui rend le coup futur proportionnellement dépendant de la
quantité de regrets observés sur les coups précédents. Intéressant pour les
jeux avec bluff comme le poker. Monte Carlo counterfactual regret minimization: l'algorithme avec méthode Monte
Carlo procède par échantillonnage dans l'arbre de décisions du jeu plutôt
que parcourir entièrement cet arbre. Cette manière de s'y prendre distingue
cet algorithme à auto-apprentissage des autres méthodes utilisées jusqu'à
présent. |
|
Voir Actualités 2019
Suite |
Jeux et énigmes
– Index |
Voir |
|
Sites |
Texas hold'em –
Wikipédia PokerListings - Le guide
de poker all-in – Les règles précises pour tous les types de poker
Counterfactual Regret Minimization –
the core of Poker AI beating professional players -–Int8 – Sept 2018
Superhuman
AI for multiplayer poker – Noam Brown et Tuomas Sandholm – Science
11 juillet 2019 |
Cette page |