El Karoui N, Karatzas I
Laboratoire de Probabilités, Université Pierre et Marie Curie, Paris, France.
Proc Natl Acad Sci U S A. 1993 Feb 15;90(4):1232-6. doi: 10.1073/pnas.90.4.1232.
We combine the formulation of Mandelbaum [Mandelbaum, A. (1986) Probab. Theory Rel. Fields 71, 129-147] with ideas from Whittle [Whittle, P. (1980) J. R. Stat. Soc. B 42, 143-149] to obtain a simple and constructive proof for the optimality of Gittins index processes in the general, nonmarkovian dynamic allocation (or "multi-armed bandit") problem. Our approach also provides an explicit expression for the value of this problem.
我们将曼德尔鲍姆的公式[曼德尔鲍姆,A.(1986年)《概率论及其相关领域》71卷,第129 - 147页]与惠特尔的思想[惠特尔,P.(1980年)《皇家统计学会会刊B辑》42卷,第143 - 149页]相结合,以获得一个简单且具有建设性的证明,用于证明吉廷斯指数过程在一般的非马尔可夫动态分配(或“多臂老虎机”)问题中的最优性。我们的方法还为该问题的值提供了一个明确的表达式。