Критерии выбора стратегии в условиях риска. Выбор оптимальной стратегии в условиях неопределённости (игры с природой)

См. П.Н. Брусов, п. 3.8., А.Н. Гармаш, п. 3.3.2.

Неопределенность будем рассматривать как такое состояние знаний лица, принимающего решения (ЛПР), при котором одно или несколько альтернативных решений приводят к блоку возможных результатов, соответствующих различным состояниям внешней среды («природы»), вероятности которых неизвестны. Обычно это происходит потому, что отсутствуют надежные данные, на основании которых вероятности могли бы быть вычислены апостериори, а также потому, что нет каких-либо способов вывести вероятности априори. В этих условиях для определения наилучших, так называемых рациональных, решений можно использовать элементы теории игр, в частности, игры с природой. В них один игрок (человек) старается действовать осмотрительно, а второй игрок (природа) дей­ствует случайно.

Игры с природой – это игры, в которых неопределенность вызва­на не сознательным противодействием противника, а недостаточной осведомленностью об условиях, в которых действуют стороны. Например, заранее неизвестна погода в некотором регионе или покупательский спрос на некоторую продукцию.

Условия такой игры обычно представляются таблицей решений , в которой строки А 1 , А 2 , ..., А m соответствуют стратегиям ЛПР (лица, принимающего решение), а столбцы В 1 , В 2 , … В n – стратегиям при­роды; а ij – выигрыш ЛПР, соответствующий каждой паре стратегий А i , В j .

Возможные стратегии b 1 b 2 b n
а 1 а 1 1 а 1 2 а 1 n
а m а m1 а m2 а mn

В рассматриваемой ситуации при выборе из множества { а 1 , а 2 ,..., а m } наилучшего решения обычно используют следующие критерии.

1. Критерий Вальда. Основывается на принципе пессимизма (наибольшей осторожности). При выборе решения надо рассчитывать на худший вариант действий со стороны природы. Рекомендуется применять максиминную стратегию. Она выбирается из условия

и совпадает с нижней ценой игры.

2. Критерий максимума. Он выбирается из условия

Критерий максимума является оптимистическим: считается, что природа будет наиболее благоприятна для человека.

где – степень оптимизма (показатель пессимизма-оптимизма) – изменяется в диапазоне .

Критерий Гурвица придерживается некоторой промежуточной позиции, учитывающей возможность как наихудшего, так и наилуч­шего поведения природы. При = 1 критерий превращается в кри­терий Вальда, при = 0 – в критерий максимума. На оказывает влияние степень ответственности лица, принимающего решение по выбору стратегии. Чем больше последствия ошибочных решений, больше желания застраховаться, тем ближе к единице.

4. Критерий Сэвиджа. Суть критерия состоит в выборе такой стра­тегии, чтобы не допустить чрезмерно высоких потерь, к которым она может привести. Находится матрица рисков , элементы которой по­казывают, какой убыток понесет человек (фирма), если для каждого состояния природы он не выберет наилучшей стратегии:

R =

Элементы матрицы рисков находятся по формуле

,

где – максимальный элемент в столбце исходной матрицы.

При принятии решений в условиях неопределенности следует оценивать различные варианты с точки зрения нескольких критериев. Если рекомендации совпадают, можно с большей уверенностью выбрать наилучшее решение; если рекомендации противоречат друг другу, окончательное решение надо принимать с учетом резуль­татов дополнительных исследований.

Пример. В приближении посевного сезона фермер имеет четыре аль­тернативы: А 1 – выращивать кукурузу, А 2 – пшеницу, А 3 – овощи или A 4 – использовать землю под пастбища. Платежи, связанные с указан­ными возможностями, зависят от количества осадков, которые условно можно разделить на четыре категории: B 1 – сильные осадки, В 2 – умерен­ные, В 3 – незначительные, B 4 – засушливый сезон.

Платежная матрица оценивается следующим образом:

Какое управленческое решение должен принять фермер?

Решение.

Следует использовать землю под пастбища.

2. Критерий максимума:

Max(80,90,150,35)=150.

Это соответствует стратегии А 3 – выращивать овощи.

2. Воспользуемся критерием Сэвиджа . Составим матрицу рисков, эле­менты которой находим по формуле

Оптимальная стратегия определяется выражением

В соответствии с этим критерием следует сеять пшеницу.

3. Воспользуемся критерием Гурвица . Оптимальная стратегия опреде­ляется по формуле

Предположим, что степень оптимизма Тогда

т.е. следует принять решение о выращивании овощей.

4. Правило максимизации среднего ожидаемого дохода. Если допустить, что известно распределение вероятностей для различных состояний природы, например эти состояния равновероятны (правило Лапласа равновозможности) то для принятия решения следует найти матема­тические ожидания выигрыша:

Так как максимальное значение имеет М 2 , то следует сеять пшеницу.

Вывод : два критерия одновременно рекомендуют выбор управленческой стратегии А 2 (сеять пшеницу), два критерия рекомендуют стратегию А 3 (выращивать овощи) .

Из таблицы видно, что оптимальное поведение во многом зависит от принятого критерия выбора наилучшего решения, поэтому выбор критерия является наименее простым и наиболее ответственным вопросом в теории игр.

Принятие решений в условиях частичной неопределенности (см. П.Н. Брусов, п. 3.9).

Оптимальная по Парето финансовая операция. Рассмотрим матрицу последствий , i=1,2,…,m, j=1,2,…,n. Альтернатива доминирует по Парето альтернативу , если , j=1,2,…,n, и, по крайней мере, для одного индекса j это неравенство строгое. Доминируемая альтернатива не может быть оптимальным решением, т.к. она по всем показателям не «лучше» доминирующей альтернативы. Альтернатива называется Парето-оптимальной (или оптимально по Парето ), если она не диминируется никакой другой альтернативой.

Все Парето-оптимальные решения образуют множество оптимальности по Парето .

Пример. Для матрицы последствий найти множество альтернатив, оптимальных по Парето.

0,4 0,9 0,5 0,5 0,6
0,6 0,5 0,7 0,8 0,9
0,6 0,3 0,8 0,6 0,7
0,3 0,8 0,5 0,4 0,3
0,1 0,3 0,5 0,4 0,3
0,4 0,8 0,5 0,4 0,5

В таблице – возможные альтернативы (стратегии) ЛПР, – одно из состояний неопределенной реальной ситуации.

Решение.

Стратегия доминирует над стратегиями , и . Следовательно, исключаем 4-ю, 5-ю и 6-ю строки матрицы.

Игроки
0,4 0,9 0,5 0,5 0,6
0,6 0,5 0,7 0,8 0,9
0,6 0,3 0,8 0,6 0,7

Больше доминируемых стратегий нет. Получаем множество оптимальности по Парето, состоящее из трех альтернатив: , , .

Неопределенность относительно состояния системы может быть вызвана двумя обстоятельствами: недостатком ясности, когда не известны все возможные состояния, и недостатком уверенности, когда все состояния известны, но нет возможности точно указать, какое именно реализуется.

Неопределенность также подразумевает отсутствие информации о вероятностном распределении состояний. В противном случае это относится к ситуации риска.

Каким же образом можно принимать решения в ситуации неопределенности?

Если неопределенность вызвана отсутствием ясности, то принять формализованное объективное решение практически не представляется возможным. Нельзя точно оценить альтернативы, когда неизвестно, что вообще может произойти. Следовательно, требуется если не устранить неопределенность, то хотя бы свести ее к недостатку уверенности. Это можно сделать двумя способами:

· либо исследовать явление, порождающее неопределенность, больше узнать про него и выявить все возможные состояния,

· либо принять допущение, ограничивающее множество возможных состояний (например, совокупностью всех известных состояний). Разумеется, такое упрощение отражается на надежности принимаемых решений, но часто оно является единственно возможным выходом.

Если же неопределенность вызвана невозможностью точно предсказать, какое состояние из числа возможных реализуется, то тут также есть два пути:

· либо применить формализованные методы принятия решений в условиях неопределенности, обеспечивающие оптимальный выбор на только основе имеющейся информации об исходах;

· либо попробовать привести все к ситуации риска, получив путем исследований или допущений информацию о вероятностном распределении исходов. Тогда становится возможным применение методов принятия решений в условиях риска, которые дают более взвешенные результаты, при условии, что предполагаемое распределение близко к реальному.

Одним из методов, позволяющих принимать решения в условиях неопределенности, являются так называемые «игры», исследуемые в рамках математической теории игр. Принципиально выделяют два основных вида таких игр:

стратегические игры и

игры с природой.

Аппарат стратегических игр применяется для принятия решений в условиях взаимодействия. Там неопределенность связана с действиями других лиц, которые целенаправленно стремятся максимизировать свой выигрыш. ЛПР не знает точно, что будут делать противники. Однако он может обоснованно предполагать, что они осознанно выбирают стратегии наилучшие для себя и наихудшие для других (в т.ч. и для нашего ЛПР). Методы стратегических игр позволяют выбрать оптимальную стратегию в условиях такого противодействия.

Если же целенаправленного противодействия нет, и неопределенность связана с объективными (независящими от воли конкретных субъектов) обстоятельствами, то применяется аппарат "игр с природой". При этом под "природой" не обязательно подразумевается живая или неживая природа (биосфера, атмосфера и т.д.). Это может быть рынок или иная совокупность субъектов, которые не конфликтуют с нашим ЛПР, а просто совершают непредсказуемые для него действия. Такая "природа" безразлична к выигрышу или проигрышу ЛПР и не стремится обратить его просчеты в сою пользу. Естественно, что логика принятия решений в таких условиях несколько отличается от логики стратегических игр.

Рассмотрим некоторые положения теории игр.

Теория игр –– это наука, изучающая стратегические решения людей, фирм, правительств и других агентов.

Стратегические решения –– это такие решения, которые принимаются с учетом действий других агентов и которые влияют на полезность других агентов.

Ситуации, в которых действия одних агентов оказывают влияние на других агентов, –– то есть такие ситуации, в которых агенты принимают стратегические решения, –– называют стратегическими взаимодействиями (или играми). Агентов, участвующих во данных взаимодействиях, называют игроками. Виды стратегических взаимодействий представлены на рис. 20.

Рис. 20. Виды стратегических взаимодействий.

Игры могут быть представлены в нормальной форме (матрица), когда принятие решений осуществляется одновременно, и в развернутой форме (дерево) – при последовательном принятии решений. Рассмотрим оба способа.

Условия риска и неопределенности характеризуются так называемыми условиями многозначных ожиданий будущей ситуации во внешней среде. В этом случае ЛПР должен сделать выбор альтернативы (Аi), не имея точного представления о факторах внешней среды и их влияния на результат. В этих условиях исход, результат каждой альтернативы представляет собой функцию условий – факторов внешней среды (функцию полезности), который не всегда способен предвидеть ЛПР. Для предоставления и анализа результатов выбранных альтернативных стратегий используют матрицу решений, называемую также платежной матрицей, или матричной игрой . Пример матрицы приведен в табл. 2.

Таблица 2

A1, A2, A3 –альтернативные стратегии действий; S1, S2, S3 – состояние экономики (стабильность, спад, рост и др.); E11; E12; E13; E21; … E33; … – результаты решений.

Числа в ячейках матрицы представляют собой результаты реализации Eij стратегии Ai в условиях Sj. При этом в условиях риска вероятность наступления Sj известна – wj(Sj). Методы принятия решений в условиях риска используют теорию выбора, получившую название теории полезности. В соответствии с этой теорией ЛПР выбирает Ai из совокупности {Ai} (i = 1 … n), которая максимизирует ожидаемую стоимость его функции полезности E,j. В условиях риска при принятии решения основным моментом является определение вероятности наступления состояния среды Sj , т. е. степени риска. После определения вероятности wj(Sj) наступления состояния среды Sj, определяют ожидаемую стоимость реализации каждой альтернативы, которая представляет собой средневзвешенную стоимость E(Ai):

Отметим, что в рассматриваемых нами задачах на принятие решения в качестве исходов Е ij мы будем рассматривать показатели, которые желательно максимизировать - выигрыш, доход, прибыль. К ним применяется принцип "чем больше, тем лучше". Все принципы выбора оптимальной альтернативы будут сформулированы именно для таких показателей.

Если в матрице игры в качестве исходов надо представить показатели, которые подлежат минимизации - убытки, расходы, потери, то здесь возможны два пути:

1) представлять их в матрице виде отрицательных значений. Тогда можно без изменений использовать приведенные далее в книге формулы, операции сравнения и принципы определения оптимальной альтернативы;

2) представлять их в матрице в виде положительных значений. В этом случае необходимо поменять в приведенных в книге формулах: операции максимизации на минимизацию и наоборот, операции сравнения при определении оптимальных альтернатив с "больше" и "больше или равно" - на "меньше" и "меньше или равно", и наоборот.

Дерево решений применяют тогда, когда необходимо принимать последовательный ряд решений. Дерево решений – графический метод, позволяющий увязать точки принятия решения, возможные стратегии Ai, их последствия Ei,j с возможными факторами, условиями внешней среды. Построение дерева решений начинается с более раннего решения, затем изображаются возможные действия и последствия каждого действия (событие), затем снова принимается решение (выбор направления действия) и т. д., до тех пор, пока все логические последствия результатов не будут исчерпаны. Дерево решений строится с помощью пяти элементов:

1. Момент принятия решения.

2. Точка возникновения события.

3. Связь между решениями и событиями.

4. Вероятность наступления события (сумма вероятностей в каждой точке должна быть равна 1).

5. Ожидаемое значение (последствия) – количественное выражение каждой альтернативы, расположенное в конце ветви.

Простейшее решение представляет собой выбор из двух вариантов – «Да» или «Нет» (рис. 20).

Рис. 20. Простейшее дерево решений

После того как стратегическое взаимодействие формально описано, то есть задана игра, нужно эту игру решить. Что значит «решить игру»? 
Решить игру –– значит найти профиль стратегий, который будет сыгран. При этом мы считаем, что игроки ведут себя рационально.

При решении игр могут применяться различные концепции равновесия, как например,

1. Равновесие в доминирующих стратегиях.

2. Равновесие, получаемое исключением доминируемых стратегий.

3. Равновесие Нэша.

Рассмотрим первый случай.

Пусть имеется игра n лиц в нормальной форме, а (s 1 , . . . , s n) –– некоторый про- филь стратегий. Для любого i = 1, . . . , n положим s− = (s 1 ,...,s i-1 ,s i+1 ,...,s n).


Другими словами, s -i –– это набор стратегий всех игроков, кроме i-го, из профиля (s 1 ,...,s n). Множество всех возможных наборов стратегий всех игроков, кроме i-го, обозначим через S -i .

Таблица А

Пусть i = 2 (табл. А). Тогда для любого профиля стратегий (s 1 , s 2) через s -2 обозначается стратегия первого игрока s 1 .
Множество S -2 имеет в этой игре следующий вид: S -2 = {a 1 , a 2 }.

строго доминирующей , если для любой другой стратегии i-го игрока s′ i ∈ S i и любого набора s -i ∈ S -i стратегий остальных игроков выполняется неравенство

u i (s i , s -i) > ui(s′ i , s -i).

При любых стратегиях других игроков платеж, который получает игрок i, играя стратегию s i , больше, чем платеж, который он получает, играя стратегию s′ i .

В примере таблицы А

· стратегия a 1 первого игрока –– строго доминирующая, поскольку при любой стратегии второго игрока приносит первому игроку строго больший платеж, чем любая другая его стратегия.

· стратегия b 1 второго игрока –– строго доминирующая, поскольку при любой стратегии первого игрока приносит второму игроку строго больший платеж, чем любая другая его стратегия.

Стратегия i-го игрока s i ∈ S i называется слабо доминирующей , если для любой другой стратегии i-го игрока s′ i ∈ S i и любого набора s -i ∈ S -i стратегий остальных игроков выполняется неравенство

u i (s i , s -i) ⩾ u i (s′ i , s -i).


Слабо доминирующие стратегии должны удовлетворять чуть более слабому условию, чем строго доминирующие.

Если в таблице А исправить платеж второго игрока 2 на 7 (ячейка а 1, b 2), то стратегия b 1 для второго игрока будет являться уже не строго, а слабо доминирующей, так как есть еще одна стратегия b 2 , платеж которой равнозначный.

Профиль стратегий (s 1 , . . . , s n) называется равновесием в строго доминирующих стратегиях, если для каждого игрока i, i = 1, . . . , n, стратегия s i является строго доминирующей.

В таблице А профиль стратегий (a 1 ,b 1) является равновесием в строго доминирующих стратегиях, поскольку стратегии a 1 и b 1 –– строго доминирующие.

Аналогично, профиль стратегий (s 1 , . . . , s n) называется равновесием в слабо доминирующих стратегиях, если для каждого игрока i, i = 1, . . . , n, стратегия s i является слабо доминирующей.

Если у игрока в некоторой игре есть строго доминирующая стратегия, то есть все основания полагать, что он будет играть именно ее: если он сыграет эту стратегию, то его выигрыш будет максимален. Но игры, в которых у каждого игрока есть строго доминирующая стратегия, встречаются нечасто: равновесие в строго доминирующих стратегиях –– это концепция решения, подходящая не для всех игр.

Рассмотрим известный пример игры – дилемма заключенного .

Предыстория: полиция поймала двоих человек, подозреваемых в совершении ограбления, но у нее не хватает улик против них. Чтобы собрать улики, полиция развела подозреваемых по разным камерам, лишив их возможности обмениваться информацией, и устроила каждому допрос.

У каждого игрока есть две стратегии:

· промолчать

· пойти на сделку со следствием и сдать напарника.

Платежи игроков:

· если оба заключенных будут молчать, то полиция отправит каждого из них в тюрьму по мягкой статье на 1 год.

· если один заключенный выдаст второго, а второй будет молчать, то тот, против кого дали показания, отправится в тюрьму на 10 лет, а другой пойдет на свободу.

· если оба заключенных пойдут на сделку со следствием, то полиция сможет обвинить обоих в совершении ограбления, но каждому из них уменьшат срок до 5 лет.

Матрица игры:

Есть ли у игроков доминирующие стратегии?

У первого заключенного есть строго доминирующая стратегия –– стратегия «Предать».

У второго заключенного тоже есть строго доминирующая стратегия –– стратегия «Предать».

Профиль стратегий (Предать, Предать) –– это равновесие в строго доминирующих стратегиях. А также –– равновесие в слабо доминирующих стратегиях.

Говорят, что профиль стратегий s Парето-доминирует профиль стратегий s′, если:

u i (s) ⩾ u i (s′) для любого игрока i;

u i (s) > u i (s′) хотя бы для одного игрока i.

Профиль стратегий s∗ называется Парето-оптимальным , если не существует такого 
профиля s′, который Парето-доминирует s∗. Является ли равновесный профиль (Предать, Предать) Парето-оптимальным? Нет! Его Парето-доминирует профиль (Молчать, Молчать): если бы оба игрока промолчали, то каждый получил бы больший платеж, чем в равновесии. А другие профили стратегий Парето-оптимальны? Да. Равновесие в дилемме заключенного –– единственный профиль стратегий, который не является Парето-оптимальным!

Теперь рассмотрим равновесие путем исключения строго (или слабо) доминируемых стратегий.

2) Стратегия s i игрока i строго доминирует стратегию s′ i игрока i, если


u i (s i , s -i) > u i (s′ i , s -i) для любого набора стратегий остальных игроков s -i ∈ S -i .

2) Стратегия s i игрока i строго доминируется стратегией s′ i игрока i, если

u i (s i , s -i) < u i (s′ i , s -i) для любого набора стратегий остальных игроков s -i ∈ S -i .

Обозначение: s i ≺ s′ i .

3) Стратегия s i игрока i слабо доминирует стратегию s′ i игрока i, если


u i (s i , s -i) ⩾ u i (s′ i , s -i) для любого набора стратегий остальных игроков s -i ∈ S -i .

4) Стратегия s i игрока i слабо доминируется стратегией s′ i игрока i, если


u i (s i , s -i) ⩽ ui(s′ i , s -i) для любого набора стратегий остальных игроков s -i ∈ S -i .

Обозначение: s i ≼ s′ i .

Стратегия s i игрока i называется строго доминируемой, если существует стратегия s′ i игрока i, которая строго доминирует стратегию s i .

Стратегия si игрока i называется слабо доминируемой, если существует стратегия s′ i игрока i, которая слабо доминирует стратегию s i .

Если у игрока есть строго доминируемая стратегия, то он, будучи рациональным, никогда не будет ее играть: она принесет ему заведомо меньше, чем некоторая другая его стратегия, которую он тоже может сыграть. Оба игрока понимают, что строго доминируемая стратегия ни при каких обстоятельствах не будет сыграна, поэтому в матричной записи игры мы можем исключить столбец или строку, соответствующие этой стратегии.

Рассмотрим игру

1. Исключим стратегию b 1 , так как b 2 ≺ b 3 .

2. Исключим стратегию a 1 , так как a 1 ≺ a 2 .

3. Исключим стратегию b 3 , так как b 3 ≺ b 1 .

Оставшийся профиль (a 2 , b 1) –– это равновесие, полученное исключением строго доминируемых стратегий.

Если в конечной игре (если множество возможных стратегий игрока конечно) в нормальной форме в результате последовательного исключения строго доминируемых стратегий остается матрица размера 1 × 1, то оставшийся профиль называется равновесием, получаемым исключением строго доминируемых стратегий.

Отметим, что:

· не все игры можно решить последовательным исключением строго доминируемых стратегий;

· порядок исключения строго доминируемых стратегий не имеет значения –– в каком бы порядке мы ни исключали такие стратегии, в результате придем к одному и тому же профилю;

· исключая слабо доминируемые стратегии в разном порядке, мы будем получать разные равновесия;

· если в игре есть равновесие в строго доминирующих стратегиях, то оно является и равновесием, получаемым исключением строго доминируемых стратегий;

· равновесие, получаемое исключением строго доминируемых стратегий,
не обязательно является равновесием в строго доминирующих стратегиях.

Равновесие Нэша – еще один тип равновесия, который может быть получен в матрице игры.

Профиль (s∗ 1 ,..., s∗ n) называется равновесием Нэша (NE), если для любого игрока i и любой его стратегии s i ∈ S i выполняется неравенство

u i (s∗ i , s∗ -i) ⩾ u i (s i , s∗ -i).

Иными словами, равновесием Нэша называется такой профиль стратегий, что никому из игроков не выгодно отклониться и сыграть другую стратегию при фиксированных стратегиях других игроков.

Равновесие Нэша названо так в честь известного математика Джона Нэша, лауреата Нобелевской премии по экономике 1994 года «За анализ равновесия в теории некооперативных игр» (совместно с Райнхардом Зельтеном и Джоном Харсаньи).

Мы можем сформулировать алгоритм нахождения равновесий Нэша в конечных играх двух игроков:

1. Для каждой стратегии второго игрока пометим точками наилучшие ответы первого игрока.

2. Для каждой стратегии первого игрока пометим звездочками наилучшие ответы второго игрока.

3. Профили, которые оказались помечены как точками, так и звездочками, являются равновесиями Нэша.

Пример: игра “Битва полов”

Постановка игры. Муж и жена независимо друг от друга решают, куда пойти вечером: на футбол или на балет. Связь между ними отсутствует, поэтому никто из них не может ничего узнать о том, куда решил пойти другой. Предпочтения супругов таковы, что вечером они хотели бы оказаться в одном месте, но жене больше нравится балет, а мужу –– футбол. Мужу лучше оказаться вместе с женой на балете, чем одному на футболе. Жене лучше пойти на футбол с мужем, чем пойти одной на балет.

У каждого из супругов есть выбор из 2 стратегий: пойти на футбол (Ф) или пойти на балет (Б). Предпочтения супругов можно задать с помощью следующей матрицы платежей:

В ответ на разные стратегии жены, мужу выгодно играть разные стратегии. То же самое верно и для жены.

В нашей матрице платежей получились две клеточки, в которых лучший выбор мужа при фиксированной стратегии жены совпал с лучшим выбором жены при фиксированной стратегии мужа.

Профили стратегий (Ф, Ф) и (Б, Б) в каком-то смысле лучше профилей стратегий (Ф, Б) и (Б, Ф). Если муж и жена оказались вместе на футболе или на балете, то никому из супругов по отдельности не выгодно уйти в другое место при неизменном решении второго остаться. Если супруги оказались вечером в разных местах, то каждому из них выгодно отклониться от выбранной первоначально стратегии.

Таким образом, полученные нами профили стратегий (Ф, Ф) и (Б, Б) являются равновесиями Нэша.

5.3. Методы выбора альтернатив в условиях риска и неопределенности.
Критерии выбора решений

В ситуации неопределенности есть несколько возможных состояний, и разные альтернативы при них обеспечивают различный выигрыш. То есть у нас есть несколько альтернатив, каждая из которых представляет собой набор значений исходов при соответствующих состояниях природы. Эти наборы нельзя просто математически сравнить "целиком", используя понятия "больше-меньше". Такую операцию можно провести только с отдельными членами данных наборов.

Если среди альтернатив нет строго или слабо доминирующих, это означает, что при разных состояниях природы наилучший результат показывают разные альтернативы. Каким же образом можно сравнить между собой эти наборы значений, и как выбрать оптимальный? Здесь на помощь приходят так называемые критерии выбора или просто критерии.

Основная идея любого критерия: заменить целый набор значений одним численным показателем, характеризующим данный набор с определенной точки зрения, и затем просто численно сравнить между собой эти показатели. У какого набора этот численный показатель окажется "лучше" (больше или меньше - зависит от вида критерия и ситуации), тот и будет считаться оптимальным по данному критерию.

Идея простая, но эффективная. Однако существенным недостатком любого критерия является "потеря информации". Из-за "сжатия" целого набора значений в одно единственное число, становятся заметны одни свойства (черты) набора и не видны другие.

Это все равно, что про человека судить только по принципу (т.е. критерию) "плохой" или "хороший". Здесь все качества, черты характера, взгляды человека описываются одним словом. Это легко запомнить, но здесь нет подробной информации. Более того, может происходить ее искажение. Во-первых, не все качества плохого человека могут быть хуже, чем у хорошего (он может быть здоровее или даже умнее). Во-вторых, значение "плохой" или "хороший" соответствует взгляду конкретного субъекта или группы, которые оценили человека по своим субъективным. И, вполне возможно, у других людей существуют свои подходы к присвоению значения "плохой" или "хороший". Поэтому такая оценка не является точной и универсальной.

В общем случае порядок применения критерия выглядит следующим образом:

1) на первом этапе выбирается критерий, по которому будет производиться выбор;

2) для каждой альтернативы рассчитывается значение выбранного критерия. По сути, в соответствие каждой альтернативе ставится одно численное значение критерия (ее количественная оценка);

3) альтернативы сравниваются путем обычного численного сравнения соответствующих им значений критериев;

4) по результатам сравнения оптимальной признается альтернатива, имеющая наилучшее значение критерия. Что считать "наилучшим" - максимальное или минимальное значение критерия - зависит от того, что показывают исходы альтернатив (прибыль, выигрыш или убытки, расходы), и по какому критерию производится сравнение.

Рассмотрим шесть основных критериев, которые можно использовать при сравнении альтернатив в ситуации неопределенности:

· критерий Вальда;

· критерий "максимакса";

· критерий Лапласа;

· критерий Сэвиджа;

· критерий Гурвица;

· обобщенный критерий Гурвица.

Критерий Вальда является самым "осторожным". Согласно ему, оптимальной альтернативой будет та, которая обеспечивает наилучший исход среди всех возможных альтернатив при самом плохом стечении обстоятельств.

Если исходы отражают подлежащие минимизации показатели (убытки, расходы, потери и т.д.), то критерий Вальда ориентируется на "минимакс" (минимум среди максимальных значений потерь всех альтернатив).

Если в качестве исходов альтернатив фигурируют показатели прибыли, дохода и других показателей, которые надо максимизировать (по принципу "чем больше, тем лучше"), то ищется "максимин" выигрыша (максимум среди минимальных выигрышей). Здесь и далее для всех критериев в тексте мы будем рассматривать именно такой случай, когда исход показывает некий выигрыш.

По критерию Вальда оценкой i -й альтернативы является ее наименьший выигрыш:

W i = min(x ij ), j = 1..M

Оптимальной признается альтернатива с максимальным наихудшим выигрышем:

А* = А k , W k = max(W i ), i = 1..N

Пример применения критерия Вальда

Есть два проекта Х 1 и Х 2 , которые при трех возможных сценариях развития региона (j=1..3 ) обеспечивают разную прибыль. Значения прибыли приведены в таблице 2.2. Необходимо выбрать проект для реализации.

Таблица 3

Исходные данные

Если выбор оптимального проекта осуществляется по критерию Вальда, то ЛПР должен выполнить следующие действия:

1. Найти минимальные исходы для каждой альтернативы. Это и будут значения критерия Вальда:

W 1 = min(x 1j), j = 1..3 => W 1 = min(45, 25, 50) = 25

W 2 = min(x 2j), j = 1..3 => W 2 = min(20, 60, 25) = 20

2. Сравнить значения критерия Вальда и найти наибольшую величину. Альтернатива с максимальным значением критерия будет считаться оптимальной:

25 > 20 => W 1 > W 2 => X* = X 1

Если бы решение принималось только по критерию Вальда, ЛПР выбрал для реализации проект Х 1 , поскольку прибыль, которую обеспечит данный проект при самом плохом развитии ситуации, выше.

Выбрав оптимальную альтернативу по критерию Вальда, ЛПР гарантирует себе, что при самом плохом стечении обстоятельств он не получит меньше, чем значение критерия. Поэтому данный показатель еще называют критерием гарантированного результата .

Основной проблемой критерия Вальда является его излишняя пессимистичность, и, как следствие, не всегда логичный результат. Так, например, при выборе по данному критерию между альтернативами А{100; 500} и В{90; 1000} следует остановиться на варианте А . Однако в жизни логичнее было бы выбрать В , так как в худшем случае В лишь немного хуже А , тогда как при хорошем стечении обстоятельств В обеспечивает гораздо больший выигрыш.

Диаметральной противоположностью критерия Вальда является так называемый критерий "максимакса". Если Вальд отражал взгляд предельного пессимиста, то "максимакс" соответствует отношению крайнего оптимизма. Все внимание уделяется только наилучшим исходам, поэтому оценкой i -й альтернативы по данному критерию является ее наибольший выигрыш М i :

М i = mах(x ij ), j = 1..M

Оптимальной считается альтернатива с максимальным наибольшим выигрышем:

Х* = Х k , М k = max(М i ), i = 1..N

Пример применения критерия "максимакса"

В условиях примера из табл. 3 действия ЛПР, использующего критерий "максимакса" для принятия решения, будут следующие:

1. Найти максимальные исходы для каждой альтернативы:

М 1 = max(x 1j), j = 1..3 => М 1 = max(45, 25, 50) = 50

М 2 = max(x 2j), j = 1..3 => М 2 = max(20, 60, 25) = 60

2. Сравнить найденные значения и определить альтернативу с максимальной величиной критерия:

50 < 60 => М 1 < М 2 => X* = X 2

По критерию "максимакса" оптимальным является проект Х 2 ., который может обеспечить наибольшую прибыль при наилучшем стечении обстоятельств.

Критерий "максимакса" не учитывает никакие иные исходы, кроме самых лучших. Поэтому его применение, во-первых, может быть весьма опасным, и, во-вторых, также как и критерий Вальда он может приводить к нелогичным решениям. Например, среди альтернатив А{-100; 0; 500} и В{200; 300; 400} с позиции "максимакса" лучшей является А , однако она несет в себе и опасность убытков (-100 ), и вообще все исходы, кроме лучшего намного уступают В . Поэтому практическое применение критерия "максимакса" весьма ограничено.

Критерий Лапласа основан на принципе недостаточного обоснования . Поскольку в рамках информационного подхода в ситуации неопределенности вероятности состояний неизвестны, то нет оснований утверждать, что они различны. Поэтому можно допустить, что они одинаковы.

По критерию Лапласа в качестве оценки альтернативы используется средний выигрыш:

Оптимальной является альтернатива с максимальным средним выигрышем:

Х* = Х k , L k = max(L i ), i = 1..N

Пример применения критерия Лапласа

Для условий примера из табл. 3 использование критерия Лапласа будет выглядеть следующим образом:

1. Найти среднее арифметическое значение исходов по каждому проекту. Оно является оценкой альтернативы по критерию Лапласа:

L 1 = (x 11 +x 12 +x 13)/3 = (45+25+50)/3 = 40

L 2 = (x 21 +x 22 +x 23)/3 = (20+60+25)/3 = 35

2. Сравнить рассчитанные величины и найти альтернативу с максимальным значением критерия:

40 > 35 => L 1 > L 2 => X* = X 1

По критерию Лапласа оптимальным является проект Х 1 , у которого наибольшая средняя прибыль.

Среднее значение является достаточно популярной мерой в условиях неопределенности и даже риска, однако оно не учитывает разброс результатов относительно этого значения. Так, например, альтернативы А{400; 600} и В{0; 1000} являются эквивалентными по критерию Лапласа (L A = L B = 500 ) , однако альтернатива В более "рискованна", так как предполагает возможность при плохом стечении обстоятельств не получить ничего.

Критерий Сэвиджа несколько отличается от всех остальных. Оценка альтернатив производится не по исходной матрице, а по так называемой "матрице сожалений" или, как ее еще называют в некоторых источниках, "матрице рисков" .

Для произвольной альтернативы и конкретного состояния природы величина "сожаления" равна разнице между тем, что обеспечивает данная альтернатива, и тем, сколько максимально можно выиграть при данном состоянии. С экономической точки зрения величину "сожаления" можно трактовать как недополученный выигрыш (или упущенную выгоду) по сравнению с максимально возможным при данном состоянии природы.

Рассмотрим, каким образом следует выбирать наилучшую альтернативу, руководствуясь критерием Сэвиджа.

Для выбора некоторой стратегии ОС должна иметь возможность оценить насколько она хороша или плоха. Так как результаты операции оцениваются критерием операции, то и оценка эффективности основывается на этой функции. Оценки эффективности могут быть различными в зависимости как от информации, которой обладает ОС, так и от субъективных решений ОС.

В случае принятия решения в условиях определенности критерий операции имеет вид f: XR, т.е. зависит только от контролируемых факторов, характеризует достижение цели одним числом, и при этом наибольшему достижению цели соответствует максимальное (минимальное) значение функции f. Тогда оптимальной будет такая стратегия x * Х, которая доставляет максимум (минимум) функции f;

В случае, когда в операции присутствуют неконтролируемые факторы (Y, Z) ОС оценить свою стратегию становится значительно труднее. Существует несколько разумных способов оценки стратегий и ОС необходимо выбрать один из них, либо некоторую комбинацию критериев.

Оценка эффективности стратегий в условиях неопределенности

Рассмотрим случай, когда Z , то есть нет случайных факторов, и m= 1

Тогда наиболее распространенными являются следующие способы оценки эффективности стратегий.

Принцип наилучшего гарантированного результата (критерий Вальда). Предполагается, что для каждой стратегии хX ОС будет реализовываться наиболее плохой для ОС неопределенный фактор уY. Так, если цель ОС максимизировать «выигрыш» f(x,y), то любая стратегия хX оценивается величиной

Оценку W 1 (х) (3) называют еще оценкой крайнего пессимизма. Таким образом, в рассматриваемом случае величина W 1 (x) оценивает «выигрыш» ОС снизу, то есть, выбрав стратегию хX, ОС получит «выигрыш» f(x,y) не меньший, чем W 1 (x), какое бы уY не реализовалось. Иными словами, при применении стратегии х ОС гарантировано получит выигрыш не меньший величины W 1 (х). Оптимальной по этому критерию будет стратегия x 0 , доставляющая максимум функции W 1 (х) на множестве X.

Применение принципа наилучшего гарантированного результата обосновано, когда выбор неопределенного фактора уY осуществляет разумный противник, ставящий своей целью уменьшение «выигрыша» ОС.

В случае, когда ОС стремится минимизировать величину f(x,y), вместо оценки W 1 (x) (3) применяется аналогичная оценка

Соответственно

Если ОС не противостоит разумный противник, применение принципа наилучшего гарантированного результата может показаться сильно «пессимистичным». В этих случаях говорят об «играх с природой». Неконтролируемые факторы выбирает «природа», основываясь на своих, неизвестных ОС, целях. Однако, нет оснований предполагать, что «природа» старается навредить ОС. Наиболее известными в данной ситуации являются критерии Лапласа, Сэвиджа и Гурвица.

Критерий Лапласа. Этот критерий основывается на следующем принципе недостаточного обоснования. Поскольку распределение вероятностей на неопределенных факторах неизвестно, то принимаем, что это распределение является распределением равномерного закона.

Еще раз напомним, что в рассматриваемых случаях ОС не противостоит разумный противник, который выбирает неконтролируемый фактор с целью максимально ухудшить результат операции для ОС.

Критерий Лапласа оценивает стратегию хX величиной математического ожидания выигрыша ОС при равномерном законе распределения вероятностей неконтролируемых факторов. Оптимальной по этому критерию считается стратегия, доставляющая максимум (если нужно максимизировать целевую функцию) математическому ожиданию целевой функции

Здесь - функция плотности распределения вероятностей равномерного закона; p i - вероятность того, что неконтролируемый фактор примет значение y i . При этом

Первая формула применяется в случае непрерывной случайной величины y. Вторая формула для конечного множества Y={y 1 ,…,y m }.

Пример 3. Предприятие должно определить уровень предложения услуг так, чтобы удовлетворить потребность клиентов в течение предстоящих праздников. Точное число клиентов неизвестно, но оно может принимать одно из четырех значений: y 1 =200, y 2 =250, y 3 =300, y 4 =350. Для каждого из этих возможных значений существует наилучший уровень предложения (x 1, …,x 4) с точки зрения минимизации затрат. Отклонения от этих уровней приводят к дополнительным затратам либо из-за превышения предложения над спросом, либо из-за неполного удовлетворения спроса (дополнительные расходы из-за необходимости срочных закупок, упущенная прибыль).

Стратегию x 1 , то при худшем для него варианте y=y 1 затраты возрастут по сравнению с гарантированным результатом на 1%, а при благоприятном варианте затраты составят только 0.9% от гарантированных затрат, т.е. уменьшатся на 99.1%.

Учесть подобные ситуации и реализовать выбор стратегии, дающей возможно небольшой проигрыш, но и возможно существенный выигрыш по сравнению со стратегией гарантированного результата, позволяет критерий Сэвиджа. Пусть целевая функция f(x,y) есть функция выигрыша ОС. Следовательно, ОС стремится максимизировать целевую функцию. Составим функцию сожаления:

Величина выражает «сожаление» ОС в том, что она для данного неопределенного фактора y выбрала стратегию x, а не лучшую стратегию

Функцию называют также функцией риска. Затем для функции применяется критерий наилучшего гарантированного результата, то есть оптимальное х 0 ищется следующим образом. Для каждого контролируемого фактора хX

В случае, когда в модели операции задана функция потерь (проигрыша), функция сожаления будет иметь вид

и опять выражает «сожаление» ОС о том, что она для данного неопределенного фактора yY применила стратегию x, a не лучшую стратегию:

Функция сожаления и в случае функции выигрыша f (формула (5)) и в случае функции потерь f (формула (7)) выражает величину потерь ОС от неприменения лучшей стратегии. Поэтому критерий наилучшего гарантированного результата в обоих случаях является минимаксным:

Составим матрицу сожаления для приведенного в начале пункта примера. Так как функция f(i, j) в данном примере есть функция потерь, то

Функцию 2 (i, j) запишем в виде матрицы S сожалений:

Теперь из критерия наилучшего гарантированного результата для матрицы S получаем, что оптимальной будет стратегия х 1.

Рассмотрим пример 3. Так как в этом примере задана функция потерь, то функция сожаления (i, j) вычисляется по формуле (7).

2 (1,3)=21-5=16 и т. д.

Результаты вычислений запишем в виде матрицы S:

Для нахождения оптимальной по критерию Сэвиджа стратегии ОС найдем по матрице сожалений S стратегию х 0 , удовлетворяющую принципу наилучшего гарантированного результата. Для этого в силу (8) нужно найти максимальный элемент в каждой строке матрицы S. Обозначим его b 1 , b 2 , b 3 , b 4 , соответственно. Затем необходимо найти наименьшее из чисел b i . Тогда номер i * : b i*= min{b j }- определит оптимальную стратегию. В примере 3 b 1 =10, b 2 =8, b 3 =16, b 4 =25. Соответственно, i 0 =2, так как b 2 =min{b 1 ;b 2 ;b 3 ;b 4 }. Следовательно, стратегия х 2 является оптимальной по критерию Сэвиджа в данном примере. Этот ответ совпадает с ответом, полученным по критерию Лапласа.

Таким образом, для приведенной в примере 3 функции потерь оптимальной и по критерию Лапласа, и по критерию Сэвиджа является стратегия х 2 . Однако из приведенного примера не стоит делать вывод, что такое совпадение будет всегда выполняться. Можно привести пример, когда эти два критерия будут считать оптимальными различные стратегии.

Критерий Гурвица. Для определения следующего критерия нам понадобится понятие выпуклой комбинации.

Определение 13. Число с называется выпуклой комбинацией чисел a и b, если существует число [О;1] такое, что

Отметим, что множество всех таких чисел образует отрезок . Критерий Гурвица является выпуклой комбинацией критериев крайнего пессимизма W 1 (x, у) и крайнего оптимизма:

Здесь мы считаем, что задана функция выигрыша f(x, y). Критерий крайнего оптимизма предполагает, что неопределенный фактор yY - максимально содействует ОС в ее стремлении увеличить свой выигрыш. Итак, в случае, когда задана функция выигрыша f(x, y) ОС критерий Гурвица имеет вид:

Оптимальной в этом случае считается стратегия х 0 X, доставляющая максимум функции W 5 (x), т.е.

W 5 (х 0)=W 5 (x).

Для функции потерь (х, у) критерий Гурвица задается равенством:

Оптимальной при этом считается стратегия х 0 X, на которой достигается минимум функции W 6 (х), т. е.

W 6 (x 0)=W 6 (x).

Параметр называется показателем оптимизма: при =1 критерий Гурвица превращается в критерий крайнего оптимизма, при =0 - в критерий крайнего пессимизма. Выбор параметра осуществляется ОС, исходя из ее взглядов на данную операцию, то есть является субъективным.

Найдем решение задачи из примера 3 по критерию Гурвица в случае = 0.2. Имеем соответственно:

W 6 (x 2) = =19.8, W 6 (x 3) = = 19.2,

W 6 (х 4) = = 27.

Анализируя зависимость выбора оптимальной стратегии от значения, получим:

(0.5; 1] - оптимальная стратегия х 1 ;

0.5 - оптимальные стратегии х 1 и х 2 ;

(2/7; 0.5) - оптимальная стратегия x 2 ;

2/7 - оптимальные стратегии x 2 и х 3 ;

}

Похожие публикации