Processing math: 17%

Материал предоставлен https://it.rfei.ru

Решение игры в смешанных стратегиях

Из определения (5.12) непосредственно не следует существование оптимальных смешанных стратегий. Для их нахождения параметризуем точки множеств X, Y, полагая на основании (5.10), (5.11) x=(x1,x2)=(p,1p),0p1;y=(y1,y2)=(q,1q),0q1.     (5.13)

Подставим элементы (5.1) матрицы выигрышей и стратегии (5.13) в формулу (5.9). После очевидных преобразований получим H(p,1p,q,1q)H1(p,q)=350pq+150p+200q100.      (5.14)

Преобразуем теперь функцию (5.14) к виду H1(p,q)=350(pa)(qb)+c,                 (5.15) где a,b,c — некоторые постоянные. Раскрывая скобки, имеем H_1(p, q) = -350 pq + 350 bp + 350 aq – 350 ab + c.~~~~~~(5.16)

Функции (5.14) и (5.16) будут тождественно совпадать при любых 0 \leq p \leq 1, 0 \leq q \leq 1 в том и только в том случае, если выполнены равенства \begin{array}{l} 350 a = 200,\\ 350 b = 150,\\ – 350 ab + c = -100. \end{array}

Отсюда последовательно находим a = \frac{4}{7}, b = \frac{3}{7}, c = -\frac{100}{7}. В результате формула (5.15) примет вид H_1(p, q) = -350 \left(p - \frac{4}{7}\right) \left(q - \frac{3}{7}\right) - \frac{100}{7}.~~~~~~~~~~(5.17)

В силу однозначного соответствия (5.13) между смешанными стратегиями x, y и числами p, q можно считать, что сами числа p, q из отрезков 0 \leq p \leq 1, 0 \leq q \leq 1 являются «стратегиями» игроков и соответствующая им функция средних выигрышей задана формулой (5.17). В такой трактовке первому игроку целесообразно выбрать число p^* = \frac{4}{7}, которое обеспечит ему средний выигрыш -\frac{100}{7} при любой «стратегии» q второго игрока. Из тех же соображений число q^* = \frac{3}{7} предпочтительнее для второго игрока, поскольку оно гарантирует ему средний проигрыш -\frac{100}{7} при любой «стратегии» p первого игрока. Таким образом, есть основания считать стратегии \begin{array}{ll} x^* = (p^*, 1 – p^*) = \left(\frac{4}{7}, \frac{3}{7}\right), \\ y^* = (q^*, 1 – q^*) = \left(\frac{3}{7}, \frac{4}{7}\right) &~~~~~~~~~~ (5.18) \end{array} оптимальными в игре Г. В самом деле, на основании (5.14) и (5.17) можем записать H (p, 1- p, q, 1 - q) = -350 \left(p - \frac{4}{7}\right) \left(q - \frac{3}{7}\right) – \frac{100}{7} или в обозначениях (5.13) H(x_1, x_2, y_1, y_2) = -350 \left(x_1 – \frac{4}{7}\right) \left(y_1 – \frac{3}{7}\right) – \frac{100}{7}.

Отсюда с учетом (5.18) находим \begin{array}{l} H(x, y^*) = -\frac{100}{7},\\ H(x^*, y^*) = -\frac{100}{7},\\ H(x^*, y) = -\frac{100}{7} \end{array}

для любых стратегий x, y . Следовательно, стратегии x^*, y^* удовлетворяют критерию оптимальности (5.12).

Смешанное расширение игрыИнтерпретация и анализ решения