1 Artificial Intelligence Techniques in Games with ...niadr/TRIAD/2008/OpponentModelling.pdf · |...

Coordination Methodologies applied to Robotic Soccer,

Coordination Methodologies applied to Robotic Soccer, Guimarães

Guimarães, Portugal

, Portugal 11

Artificial Intelligence Techniques in Games with Incomplete Info

Artificial Intelligence Techniques in Games with Incomplete Information

rmation 11

Artificial Intelligence Techniques in G

with Incomplete Inform

Opponent Modelling in Texas Hold'em

Dinis Félix

Mestrado Integrado em Engenharia Electrotécnica e de Computadores

Orientador: Professor Doutor Luís Paulo Reis

, Portugal 22

rmation 22

Sumário

�Introdução

�Objectivos

�Enquadramento

�OpponentModelling

�Projecto

�Resultados

�Conclusões

, Portugal 33

rmation 33

Introdução

�Inteligência Artificial e Jogos

�Simplicidade e regras bem definidas

�Complexidade e variedade de estratégias

possíveis

�Tipo de jogos

�Informação perfeita ou imperfeita

�Determinísticos ou não determinísticos

, Portugal 44

rmation 44

Introdução

�Poker

�Jogo de informação imperfeita (jogadores não têm

informação sobre o jogo dos adversários)

�Jogo não determinístico (o factor aleatório é

introduzido no jogo através do acto de baralhar

cartas)

�Texas Hold’em

�Variante de Pokermais habitual na actualidade

�Regras simples

�Estratégia complexa

�Communitycardgame

, Portugal 55

rmation 55

Introdução

�Texas Hold’em

, Portugal 66

rmation 66

Introdução

, Portugal 77

rmation 77

Objectivos

�Contribuição no desenvolvimento de um agente

inteligente capaz de jogar Texas Hold’em

�Optimização de um software de simulação de

�Desenvolvimento de agentes capazes de simular

comportamento de jogadores humanos

�Desenvolvimento de um agente capaz de

adaptar a estratégia de jogo em função do

comportamento dos adversários –Opponent

Modelling

, Portugal 88

rmation 88

Enquadramento

�Texas Hold’em simulator

•Desenvolvido em C/C++

•Ligação cliente-servidor

através de sockets

•Protocolo universal -

possibilidade de participar

na 2008 AAAI Poker

Competition

•Simulação automática de

uma sessão de jogo

, Portugal 99

rmation 99

Enquadramento

�University of Alberta Computer Poker Research Group

�Estratégia de decisão pré-flop

�Income Rate Value

�Resultado de simulações com as 1326 combinações

possíveis de duas cartas

�Decisão da aposta em função do valor obtido

�Estratégia de decisão pós-flop

�HandStrength

�PotentialHandStrength

�EffectiveHandStrength

�OpponentModelling

, Portugal 10

rmation 10

Enquadramento

�Hand Strength Calculation

HandStrength(ourcards, boardcards)

ahead = tied = behind = 0

ourrank= Rank(ourcards, boardcards)

/* Consider all two-card combinations of the remaining cards. */

for each case(oppcards)

opprank= Rank(oppcards, boardcards)

if (ourrank>opprank) ahead += 1

else if (ourrank==opprank) tied += 1

else behind += 1

handstrength= (ahead+tied/2) / (ahead+tied+behind)

return(handstrength)

, Portugal 11

rmation 11

Enquadramento

�Hand Potential Strength Calculation

�CálculosemelhanteaoHand Strength

�Considera-se tambémas todasas possibilidadesde

cartasqueirãosairno turn e river

�Effective Hand Strength Calculation

�Pr(win) = Pr(ahead) x Pr(oppnot improve) + Pr(behind) x Pr(weImprove)

�Pr(win) = HS x (1 -NPot) + (1 -HS) x PPot

�EHS = HS + (1 x HS) x PPot

, Portugal 12

rmation 12

OpponentModelling

�Classificação de adversários

�VP$IP –VoluntaryPutMoney InPot

�AF –AgressionFactor

�Tipo de jogadores

�LooseAggressive

�LoosePassive

�TightAggressive

�TightPassive

, Portugal 13

rmation 13

OpponentModelling

Sklanskygroups

�Valor das duas cartas iniciais

agrupados em 8 grupos

�Comprovados por um modelo

computacional –Income

RatedValues

�Permite relacionar tipos de

jogadores e cartas escolhidas

para entrar em jogo

all the other 2 cards combination

Group 8:

87 53s A9 Q9 76s 42s 32s 96s 85s J8

J7s 65 54 74s K9 T8 76 65s 54s 86s

Group 7:

66 J8s 98s T8s 55 J9 43s 75s T9 33 98

64s 44 K8s K7s K6s K5s K4s K3s

K2s Q8s 22 87s 97s

Group 6:

77 Q9s KJ QJ JT A7s A6s A5s A4s A3s

A2s J9s T9s K9s KT QT

Group 5:

A8s KQ 88 QTsA9s AT AJ JTs

Group 4:

99 KTs QJs KJs ATs AQ

Group 3:

TT AQsAJsKQsAK

Group 2:

AA KKQQ JJ AKs

Group 1:

, Portugal 14

rmation 14

OpponentModelling

Relação jogador e escolha de mãos

Raisesem quase todas as mãos do grupo 1 a 5 e uma pequena

percentagem em grupos mais baixos

Aggressive

Raisesmaioritariamente nos grupos 1 e 2, apenas uma pequena

percentagem nos grupos 3,4 e 5; muito raramente em grupos mais

baixos

Passive

Jogam maioritariamente mãos do grupo 1 a 3 e uma pequena

percentagem dos restantes

Jogam quase todas as mãos do grupo 1 a 5 e algumas dos restantes

grupos

, Portugal 15

rmation 15

Projecto

�Desenvolvimento de 8

agentes inteligentes

�2 looseaggressives

(gamblerandmaniac)

�2 loosepassives(fish

andcallingstation)

�2 tightaggressives

(foxandace)

�2 tightpassives(rock

andweaktight)

Desenvolvimento de um agente inteligente observador capaz de

utilizar técnicas de OpponentModelling

, Portugal 16

rmation 16

Projecto

Group8

Group7

Group6

Group5

Group4

Group3

Group2

Group1

Calling

Station

Maniac

Gambler

Pre-flopstrategy

•Valores obtidos através de

várias simulações de forma a

garantir que os agentes

mantinham os valores VP$IP e

AF pretendidos

Pos-flopstrategy

•Todos os agentes assumem a

mesma estratégia depois do flop

•Cálculo de EffectiveHand

Strength •Raise(EHS >= 0.8)

•Call(0.5 <= EHS < 0.8 )

•Fold(EHS < 0.5)

�8 Agentes Inteligentes

, Portugal 17

rmation 17

Projecto

�Guarda informação sobre

todos os movimentos dos

adversários

�Analisa a informação

recolhida e actualiza

constantemente o VP$IP e AF

de cada jogador

�Detecta quais os jogadores

que se encontram em jogo e

classifica-os

Tight Aggressive

(classification4)

Tight Passive

(classification3)

VP%IP<28%

Loose Aggressive

(classification2)

Loose Passive

(classification1)

VP$IP>=28%

�Calcula EffectiveHandStrengthem função de cada um dos

adversários que se encontram em jogo

�Desenvolvimento de 1 agente observador

, Portugal 18

rmation 18

Projecto

�Reformulação do cálculo de EffectiveHandStrength

�Determinação de um parâmetro que representa o

menor valor provável das duas cartas do adversário –

deu-se o nome Sklansky

�Cálculo de HandStrengthe HandPotentialStrength

excluindo todas as combinações com valor menor que o

parâmetro Sklansky

�Cálculo de EffectiveHandStrengthpor adversário em

�EHSi= HSi+ (1 -HSi) x PPoti

, Portugal 19

rmation 19

Projecto

HandStrength(ourcards,boardcards, player_classification)

ahead = tied = behind = 0

ourrank= Rank(ourcards,boardcards)

/* Consider all two-card combinations of the remaining cards. */

for each case(oppcards)

if(oppcardsbelong to player_starting_hands_range)

{ opprank= Rank(oppcards,boardcards)

if(ourrank>opprank) ahead += 1

else if(ourrank==opprank) tied += 1

else behind += 1

} handstrength= (ahead+tied/2) / (ahead+tied+behind)

return(handstrength)

, Portugal 20

rmation 20

Resultados

Maniac

Player 8

Player 7

Calling station

Player 6

Player 5

Weak-tight

Player 4

Player 3

Player 2

Gambler

Player 1

Observer

Player 0

Player

Position

Experiências:

•12 simulações em mesas de 9 jogadores

•1 agente observador e 8 agentes regulares

•Agente observador adopta 4 estratégias

diferentes na escolha da estratégia pré-flop

•Simulações 1 a 3 –observador Gambler

•Simulações 4 a 6 –observador CallingStation

•Simulações 7 a 9 –observador Fox

•Simulações 10 a 12 –observador Rock

•Cada uma das simulações termina quando o

observador ou o agente com a estratégia

semelhante perder ou a partida chegar ao jogo

, Portugal 21

rmation 21

Resultados

Observador Gambler

9731054113512161297137814591540162117021783186419452026

number of games

bankroll

Observer

Gambler

93116139162185208231254277300323346369392415438461484507530553576599622645668691714737

number of games

bankroll

observer

gambler

91100109118127136145154163172181190199208217226235244253262

number of games

bankroll

observer

gambler

•Resultados inconclusivos na 1ª

simulação

•Agente não-observadorperde

rapidamente nas simulações 2 e 3

•Observador demonstra melhor

reultadosno geral

, Portugal 22

rmation 22

Resultados

Observador CallingStation

988103510821129

number of games

bankroll

observer

calling station

79105131157183209235261287313339365391417443469495521547573599625651677703729755781807

number of games

bankroll

observer

calling station

91106121136151166181196211226241256271286301316331346361376391406421436451466

number of games

bankroll

observer

calling station

•Observador demonstra melhor

desempenho em todos os casos

•Em duas das simulações atinge

valores bastante elevados

, Portugal 23

rmation 23

Resultados

Observador Fox

91101111121131141151161171181191201211221231241251261271281291301311321

number of games

bankroll

observer

9671013105911051151

number of games

bankroll

observer

91100109118127136145154163172181190199208217226235244253262271280

number of games

bankroll

observer

•Ambos os agentes não se mantêm

em jogo durante muito tempo em

duas simulações

•Agente observador demonstra

aguentar mais e obtém bons

resultados numa das simulações

, Portugal 24

rmation 24

Resultados

Observador Rock

97105113121129137145153161169177185193201209217225233241

number of games

bankroll

observer

897102511531281140915371665179319212049217723052433256126892817294530733201

number of games

bankroll

observer

9911046110111561211126613211376

number of games

bankroll

observer

•Ambos os agentes demonstram

capacidade para continuar em jogo

durante muito tempo

•Agente observador demonstra

melhor desempenho em todos os

, Portugal 25

rmation 25

Resultados

�12 testes –mais de 10 000 jogos simulados

�Agente observador demonstra melhor performance do

que um agente não observador com o mesmo critério de

escolhas pré-flop

�Resultados mais conclusivos em agentes passivos

�Agentesagressivos demonstram manter-se mais tempo

em jogo quando são observadores

�Software de simulação apresenta estabilidade e

fiabilidade para trabalhos futuros

, Portugal 26

rmation 26

Conclusões

�Agentes representam o comportamento humano

pretendido

�Técnicas de classificação demonstraram ser

eficazes ao classificar os adversários em 4

grupos distintos

�Resultadoscomprovam que as técnicas de

OpponentModelingdesenvolvidas são benéficas

para o desempenho do jogo

, Portugal 27

rmation 27

Conclusões

�Trabalhos futuros

�Explorar outros tópicos do jogo:

�Posição

�Bluff e trapping

�Optimização de apostas

�A abordagem deste projecto pode ser optimizada:

�Considerar mais tipos de jogadores

�Analisar outros parâmetros além de VP$IP e AF

�Aproveitar a informação sobre as cartas do adversário que

são mostradas para comprovar resultados e definir novas

estratégias

�Examinar padrões na estratégia de apostas pós-flop

1 Artificial Intelligence Techniques in Games with ...niadr/TRIAD/2008/OpponentModelling.pdf · |...

Documents

PARTNERING...companies to manufacture special Cement 53S Ready Mix ʻNagarjuna RMCʼ has seven plants catering to the markets of Hyderabad & Visakhapatnam. These plants are equipped

Managing Brand Equity - Inova Consulting · Capítulo 1 – A Cottage ... Conclusões 22 Bibliografia 23 . INOVACONSULTORIADEGESTÃOE ... Philip Kotler afirma que

Antonio Nascimento ajnf@cin.ufpe.br. Roteiro Introdução Objetivos Áreas de Conhecimento Certificações Conclusões Referências

Medical Engineering & Physics › ~niadr › PUBLICATIONS › LIACC... · 2011-09-12 · D.C. Moura et al. / Medical Engineering & Physics 33 (2011) 924–933 925 of the endplates

Suely Ferreira Deslandes - books.scielo.orgbooks.scielo.org/id/r7pjf/pdf/deslandes-9788575415283-08.pdfSuely Ferreira Deslandes . 175 À Guisa de (In)Conclusões Contrariando a tradição

Total Press Run-^AU Editions, 53S,4il; Denver Catholic

O Futuro da Rádio em Portugal O DAB (Digital Audio Broadcasting) e as conclusões de um grupo de discussão 2003

20090504 2 Communication Skills 53s

A Hybrid Approach at Emotional State Detectionpaginas.fe.up.pt/~niadr/PUBLICATIONS/2013/2013_IAT.pdf · A Hybrid Approach at Emotional State Detection: ... these systems still face

#1 Rated by Gamers ure=player_detailpage&v=Ia- zDHnBOWk#t=53s ure=player_detailpage&v=Ia-

1 Trust Evaluation for Reliable ... - paginas.fe.up.ptpaginas.fe.up.pt/~niadr/PUBLICATIONS/2012/LNBIP_atop-final.pdf · 1 Trust Evaluation for Reliable Electronic Transactions 3 negative

Humanoid Behaviors: From Simulation to a Real Robotpaginas.fe.up.pt/~niadr/PUBLICATIONS/2012/2011... · Humanoid Behaviors: From Simulation to a Real Robot Edgar Domingues 1, Nuno

Principais Conclusões América Latina - IPCC · secas, inundações e zonas costeiras, e sistemas de vigilância epidemiológica. • Entretanto, a efetividade destes esforços

Guided Emotional State Regulationpaginas.fe.up.pt/~niadr/PUBLICATIONS/2013/2013_AIIDE_a.pdf · the game research community has started focusing their efforts on promising and yet

TM CLOUD,.--., OZONE ATA · 37 June 8 821 47S 26E 47S 26E 46S 25E 38 June 8 825 45S 79W 45S 79W 44S 76W 39 June 9 832 48S 98E 48S 98E 45S 102E 40 June 14 899 53S 94E 53S 94E 53S 96E

Real-Time Psychophysiological Emotional State Estimation in …niadr/PUBLICATIONS/2013/2013_EANN.pdf · also implied our physical presence, which could contaminate the experience

P&D Colaborativo Numa Industria Mineral Globalizada · TECSUP CETEC. the partner of choice Conclusões

Fibromyalgia and Personality - Estudo Geral · Fibromyalgia and Personality ... (Assertividade). Conclusões: As doentes com fibromialgia apresentam diferenças estatisticamente

Desenvolvimento de um Protótipo e de Metodologias de ...niadr/TRIAD/2008/apresentacaoMarcelo.pdf · três modos de operação: real, simulado e realidade aumentada; Implementação

A política externa brasileira e a integração regionalbooks.scielo.org/id/2f3jk/pdf/mariano-9788568334638.pdf · seus pressupostos e conclusões. Como resultado disto, utilizamos