Un modèle de bandit à K bras est un ensemble de K lois de probabilités ν1, . . . , νK , appelées bras, avec lesquelles un agent, ignorant les caractéristiques de ces bras, interagit. A chaque instant t, ce dernier choisit un bras At et observe une récompense Xt tirée sous la loi du bras choisi : Xt ∼ νAt . L’objectif de l’agent est d’adopter une stratégie de tirages des bras maximisant l’espéra...