game theory zaoch

ТЕОРИЯ ИГР СОДЕРЖАНИЕ Введение ....................................................................................................................... 4 Раздел 1. Стратегические взаимодействия ............................................................. 6 1.1 Примеры стратегических взаимодействий .................................................. 6 1.2 Игры в нормальной форме ............................................................................. 9 1.3 Игры в развернутой форме .......................................................................... 12 Тестовые задания к разделу 1 .................................................................................. 14 Раздел 2. Доминирование стратегий ..................................................................... 17 2.1 2.2 Строго и слабо доминирующие стратегии ................................................. 18 Равновесие в строго (слабо) доминирующих стратегиях ......................... 21 2.3 Дилемма заключенного и похожие игры ................................................... 22 2.4 Строгое и слабое доминирование ............................................................... 25 Тестовые задания к разделу 2 .................................................................................. 28 Раздел 3. Равновесие Нэша .................................................................................... 31 3.1 Поиск равновесий Нэша ............................................................................... 31 3.2 Модель Хотеллинга – Даунса ...................................................................... 39 3.3 Модель Курно ............................................................................................... 46 Тестовые задания к разделу 3 .................................................................................. 50 Раздел 4. Осторожные стратегии........................................................................... 57 4.1 4.2 Поиск максиминных и минимаксных стратегий ....................................... 57 Осторожные стратегии в антагонистических играх ................................. 60 Тестовые задания к разделу 4 .................................................................................. 63 Раздел 5. Игры в развернутой форме .................................................................... 65 5.1 Алгоритм Цермело-Куна.............................................................................. 65 5.2 Равновесие Нэша, совершенное на подыграх ............................................ 70 Тестовые задания к разделу 5 .................................................................................. 74 Раздел 6. Смешанные стратегии ............................................................................ 76 6.1 Определение смешанных стратегий ........................................................... 76 6.2 Примеры поиска смешанного равновесия ................................................. 80 6.3 Смешанное равновесие в антагонистических играх 2M и N2 ............. 88 Тестовые задания к разделу 6 .................................................................................. 91 Раздел 7. Коалиционные игры ............................................................................... 94 7.1 Ядро ................................................................................................................ 96 7.2 Вектор Шепли ............................................................................................... 99 2 Тестовые задания к разделу 7 ................................................................................ 102 Задания для контрольных работ ............................................................................ 105 Контрольная работа № 1 ..................................................................................... 105 Контрольная работа № 2 ..................................................................................... 108 Заключение............................................................................................................... 113 Библиографический список.................................................................................... 114 3 Введение Теория игр – это один из разделов прикладной математики, рассматривающий моделирование действий игроков, цель которых – выбрать оптимальные стратегии поведения в условиях конфликта интересов. Началом теории игр как науки можно считать 1713г., когда английский дипломат Джеймс Уолдгрейв в письме французскому математику Пьеру де Монморту, занимающемуся анализом азартных игр, проанализировал карточную игру «Джентльмен» («Le Her»). Письмо содержит в себе первую известную смешанную равновесную стратегию для игры двух лиц. В 1838г. Огюст Курно публикует работу, в которой предлагает модель стратегической конкуренции фирм по количеству выпускаемой продукции на олигополистическом рынке. Решение этой модели является, по сути, первым использованием концепции равновесия Нэша в экономике. Позднее эта модель получит имя своего автора и станет одной из классических моделей, изучаемых во всех базовых курсах по экономической теории. Работы Чарльза Дарвина можно считать предвестниками эволюционной теории игр – одной из активно развивающихся на сегодняшний день областей теории игр. В качестве игрока здесь выступает природа, которая использует различные стратегии эволюции. Удачные стратегии позволяют виду пройти естественный отбор, а неудачные стратегии приводят к исчезновению вида. Эрнст Цермело в 1913г. формулирует первую теорему теории игр: в шахматах при правильной игре обоих игроков либо гарантированно выигрывают белые, либо гарантированно выигрывают черные, либо оба игрока могут гарантировать ничью. В общем виде теорема формулируется для конечных игр в развернутой форме. В 1928г. Джон фон Нейман доказал, что в любой игре двух лиц с нулевой суммой и конечным числом чистых стратегий существует и единственное равновесие в смешанных стратегиях. Равновесные стратегии являются минимаксными: каждый игрок минимизирует максимально возможный выигрыш соперника. В 1944 г. Джон фон Нейман и Оскар Моргенштерн рассматривают игры n лиц с нулевой суммой и вводят понятие равновесия в смешанных стратегиях в таких играх. В 1950 г. американские математики Мелвин Дрешер и Меррилл Флад, работающие в корпорации RAND, предлагают модель, описывающую склонность человека к сотрудничеству в условиях, когда у партнера есть стимулы к предательству. После этого другой американский математик, Альберт Такер, дал этой модели красивую интерпретацию, благодаря 4 которой эта игра становится всемирно известной «Дилеммой заключенного». В том же году Джон Нэш вводит понятие равновесия в смешанных стратегиях для игры n лиц и доказывает, что любая конечная игра имеет хотя бы одно равновесие в смешанных стратегиях. В 1965 г. Райнхард Зелтен предлагает идею рафинирования равновесий Нэша в играх в развернутой форме, выделяя равновесия, совершенные на подыграх. В 1966 г. Джон Харшаньи определяет, чем отличаются кооперативные игры от некооперативных. Далее теория игр начинает развиваться такими стремительными темпами, что в 1994 г. вручается первая Нобелевская премия по экономике за теорию игр (Джон Нэш, Райнхард Зелтен и Джон Харшаньи «За анализ равновесия в теории некооперативных игр»). Помимо этой награды, еще две Нобелевских премии были вручены за теорию игр. В настоящее время в теории игр выделяется несколько отдельных специализированных областей, которые не будут затронуты в данном учебном пособии. Настоящее пособие носит ознакомительный характер и включает программу вводного семестрового курса по теории игр для экономического бакалавриата. В пособие входят семь разделов. В первых четырех приводятся определение игры в нормальной форме, доминирование и равновесие Нэша. Отдельно выделены такие важные для экономистов модели, как модель Хотеллинга-Даунса и модель Курно. В пятом разделе рассматриваются основы теории игр в развернутой форме, включая совершенства по подыграм для конечных игр. Шестой раздел посвящен смешанным равновесиям. В заключительном седьмом разделе рассматриваются основы теории кооперативных игр, включая две основных концепции решения: ядро и вектор Шепли. К каждому разделу предлагаются тестовые задания для самостоятельного решения. Для студентов заочной формы обучения приведены две контрольных работы по основам курса. 5 Раздел 1. 1.1 Стратегические взаимодействия Примеры стратегических взаимодействий Теория игр – это междисциплинарная наука, изучающая стратегические решения людей, фирм, правительств и других агентов. Стратегические решения – это такие решения, которые принимаются с учетом действий других агентов и которые влияют на полезность других агентов. Человек на протяжении своей жизни постоянно взаимодействует с другими людьми, а его действия оказывают влияние на жизнь и решения других людей. Перед началом взаимодействия этот человек принимает в расчет возможные действия других людей и, с учетом этого, старается выбрать свое оптимальное решение. После того, как взаимодействие произошло, все участники получают некоторый выигрыш (или проигрыш). Например, шахматист, перед тем как сделать ход, просчитывает возможные ответные ходы противника и выбирает то продолжение, которое сулит ему самую хорошую позицию. То же самое относится и к его противнику. Это стратегическое взаимодействие двух шахматистов. Рассмотрим ценовую войну фирм на рынке сотовой связи. Предположим, в одной стране существует три крупных оператора. Они, надеясь заполучить как можно большую долю рынка, могут начать понижать цену по сравнению с другими операторами. Такое поведение приведет к «ценовой войне»: одна фирма, понижая цену, провоцирует другую фирму, чтобы та тоже изменила цену на услугу, ведь ни одной фирме не выгодно терять прибыль. Таким образом, эти фирмы вступают в стратегическое взаимодействие. Если же решение человека никак не влияет на действия других людей и, наоборот, его решение принимается без учета действий кого-либо еще, то такое действие не является стратегическим. Например, решение человека о том, какой телевизионный канал смотреть вечером, зависит исключительно от его предпочтений. Определение Ситуации, в которых действия одних агентов оказывают влияние на других агентов, – то есть такие ситуации, в которых агенты принимают стратегические решения, называются стратегическими взаимодействиями. Стратегические взаимодействия бывают: 1. Одновременные – агенты принимают решения в один момент времени и независимо друг от друга. Примером такого взаимодействия может служить игра «камень-ножницы-бумага». 6 2. Последовательные – агенты принимают решения по очереди, зная о предыдущих действиях других. Примером такого взаимодействия может служить игра «шахматы». Игрой назовем любое стратегическое взаимодействие нескольких агентов; игроками – агентов, являющихся участниками этого взаимодействия. Игры в бытовом понимании, как правило, тоже являются стратегическими взаимодействиями. Например, теннис и шашки: принимая решение, игрок старается затруднить положение соперника. В то же время многое из того, что не называлось бы игрой в привычном смысле, является игрой в теоретико-игровом. Например, политическая конкуренция и торг на рынке. Алгоритм работы со стратегическими взаимодействиями состоит в следующем: 1. Записать реальную жизненную ситуацию на языке теории игр, то есть создать теоретико-игровую модель (игру). 2. Абстрагироваться от реальной ситуации и решить игру. Одновременные стратегические взаимодействия моделируются с помощью игр в нормальной форме, а последовательные – с помощью игр в развёрнутой форме (см. рис. 1). Стратегические взаимодействия Одновременные Последовательные Игры в нормальной форме Игры в развернутой форме Рисунок 1 – Классификация игр Разберем более подробно несколько примеров одновременных стратегических взаимодействий. Пример 1. Поступление в вузы по результатам ЕГЭ. Выпускник Петр планирует поступить в вуз. Известно, что Петр набрал не очень много баллов на ЕГЭ, но точно знает, на какое направление хочет поступить. У Петра есть предпочтения на множестве вузов: чем сильнее вуз, тем больше он привлекает Петра. Петра устраивает только бюджетное место. Решение о том, в какие вузы ему подать документы, – это стратегическое решение. Например, в 2014 году правила поступления в вузы по ЕГЭ были следующими. Абитуриент может разослать свои документы по пяти университетам. Университеты получают документы от всех абитуриентов, составляют списки лучших по сумме набранных баллов и делают 7 предложение лучшим абитуриентам о поступлении. Абитуриенты принимают это предложение или отказываются от него, и в случае, если остаются свободные места, наступает следующая итерация. Как же выгодно вести себя Петру: разумно ли ему подать документы только в лучший вуз, или в топ-5 лучших вузов в списке его предпочтений. Петр приходит к выводу, что неразумно, поскольку он набрал очень мало баллов по ЕГЭ и сильно рискует остаться без бюджетного места, поскольку существует много абитуриентов с более высокими баллами, которым отдадут предпочтение лучшие вузы. Тогда Петр принимается изучать итоги приемных кампаний прошлых лет, чтобы понять, в какие вузы реально поступить с его баллами. В результате Петр подает документы в разные вузы: как в сильные, так и в те, в которые он имеет реальные шансы поступить. Такая стратегия является страховкой, что он не поступит вообще никуда. Пример 2. Политическое позиционирование. Франция, 2002 год, президентские выборы. Согласно социологическим опросам, основными кандидатами на пост президента Франции считались действующий на тот момент президент Жак Ширак, а также социалист Лионель Жоспен. Результаты первого тура оказались более чем неожиданными: между Шираком, набравшим 20% всех голосов и Жоспеном, получившим 16% всех голосов, с 17% всех голосов расположился лидер Национального фронта Жан-Мари Ле Пен, который придерживается радикальных националистических взглядов (см. рис. 2). Изза таких близких результатов казалось, что во втором туре между Шираком и Ле Пеном может развернуться напряженная борьба, исход которой должен предопределить вектор развития Франции на много лет вперед. Жоспен Ширак Ле Пен Рисунок 2 – Кандидаты на пост президента Франции в 2002 году и вопрос о мигрантах Однако во втором туре Жак Ширак набрал 82%, легко обогнав Ле Пена, получившего 18%. Чем можно объяснить такие итоги выборов? Фактически основным вопросом президентских выборов во Франции в 2002 году стало отношение французского государства и общества к правам мигрантов и иностранцев, проживающих на территории Франции. Предвыборные позиции кандидатов, а также взгляды избирателей по этому вопросу можно условно расположить на отрезке. Чем правее располагается точка на отрезке, тем более радикальной позиции по отношению к мигрантам она соответствует. Очевидно, что каждый избиратель будет голосовать за того кандидата, позиция которого наиболее близка к позиции 8 этого избирателя. Поэтому выбор кандидатом своей программы перед первым туром – это стратегический выбор. В первом туре Жоспен собрал голоса избирателей, придерживавшихся левых взглядов, за Ширака голосовали центристы, а за Ле Пена – ультраправые избиратели. Во втором туре, когда Жоспен и другие менее значительные левые кандидаты выбыли из борьбы, позиция Ширака оказывается ближе позиции Ле Пена для подавляющего большинства французов. Этим и объясняется разгромный счет во втором туре выборов. Политик, занимающий радикальную позицию по главному вопросу, имеет мало шансов на общую победу, если только взгляды большей части избирателей не смещены в соответствующую сторону. Пример 3. Страховка от угрозы национализации. Россия, август 2011 года. Корпорация Exxon Mobil хочет заключить соглашение с российской компанией «Роснефть» для участия в проекте по разработке нефтяных месторождений в Карском и Черном море. Однако предыдущий опыт инвестиций нефтегазовых компаний в разработку месторождений в России показывает, что для иностранного инвестора существуют угрозы, связанные с возможностью национализации его доли (или вынужденной продажи) под тем или иным предлогом. Так, корпорации Shell пришлось выйти из проекта «Сахалин-2». Что делать Exxon, если получить право участия в проекте хочется, но при этом необходимо обезопасить себя от различных политических рисков? Было найдено следующее решение. Exxon передала «Роснефти» доли в нескольких проектах в Северной Америке, которые, фактически, можно использовать в качестве залога. Если теперь будут предприниматься попытки покушения на долю Exxon в совместном предприятии с «Роснефтью», то уже «Роснефть» будет рисковать остаться без своего бизнеса в Северной Америке. Данное решение оказалось выгодно обеим сторонам, и в конце августа были подписаны соответствующие соглашения. 1.2 Игры в нормальной форме Чтобы задать игру в нормальной форме, следует: 1. Указать множество игроков. 2. Указать множество возможных стратегий каждого игрока. 3. Указать платеж, который получает каждый игрок. Остановимся подробнее на этих понятиях. Пусть есть множество игроков I  1, , n, n  2. Для каждого i  1, , n обозначим через Si множество возможных стратегий i-того игрока. Далее i-тый игрок выбирает стратегию si из множества своих возможных стратегий Si , i  1, , n . 9 Набор выбранных игроками стратегий  s1 , , sn  назовем профилем стратегий. После того, как каждый игрок выбрал стратегию, которую он играет, должен определиться исход игры. Для этого для i-того игрока должна быть задана функция выигрышей (или функция платежей) ui  s1 , , sn  , определенная на множестве всех возможных профилей стратегий, i  1, , n . Функция выигрышей ui  s1 , , sn  показывает, какой платеж получает i-й игрок, если первый сыграл стратегию s1, второй сыграл стратегию s2, n-й игрок сыграл стратегию sn. Эта информация полностью определяет игру в нормальной форме. Определение Игрой в нормальной форме называется тройка G  I , S ,U , где I  1, , n – множество игроков, S  S1  S2   Sn – множество стратегий игроков, U : S  n – заданные выигрыши игроков. Если игрока всего два, и у каждого из них есть лишь конечное число возможных стратегий, то такую игру удобно записывать в виде матрицы, по строкам которой откладываются стратегии первого игрока, по столбцам – стратегии второго, а на пересечении строки и столбца стоят платежи, которые получат игроки, если будут сыграны соответствующие стратегии. Игра «Камень-ножницы-бумага» Опишем формально на теоретико-игровом языке знакомую всем игру в камень-ножницы-бумагу. В нее играют два игрока, поэтому множество игроков имеет вид I = {1, 2}. В соответствии с правилами игры, каждый из игроков может показать либо камень, либо ножницы, либо бумагу, значит S1 = {Камень, Ножницы, Бумага}, S2 = {Камень, Ножницы, Бумага}. Для краткости будем обозначать стратегии Камень, Ножницы, Бумага через К, Н, Б соответственно. Допустим, что игроки играют на 1 рубль. Тогда платежи обоих игроков выглядят следующим образом: u1(К,К) = u2(К,К) = u1(Н,Н) = u2(Н,Н) = u1(Б,Б) = u2(Б,Б) = 0; u1(К,Н) = u2(Н,К) = u1(Н,Б) = u2(Б,Н) = u1(Б,К) = u2(К,Б) = 1; u1(Н,К) = u2(К,Н) = u1(Б,Н) = u2(Н,Б) = u1(К,Б) = u2(Б,К) = −1. Игра «Орлянка» В орлянку играют двое. Каждый из игроков пишет на бумаге «Орел» или «Решка», а затем написанное игроками сравниваются. Если слова совпали, то побеждает первый, а если различаются, то побеждает второй. Множества допустимых стратегий игроков: S1 = {O, P}, S2 = {O, P}, где O – «выбрать орла», P – «выбрать решку». Тогда платежи выглядят так: 10 u2(О,О) = –1 u2(Р,Р) = –1 u2(О,Р) = 1 u2(О,Р) = 1 u1(О,О) = 1 u1(Р,Р) = 1 u1(О,Р) = –1 u1(Р,О) = –1 Эти данные можно записать и более удобным способом в одной матрице: О Р О 1;–1 –1;1 Р –1;1 1;–1 В этой игре интересы игроков противоположны. Такие игры называются играми с нулевой суммой или – в случае двух игроков – антагонистическими. Игра «Битва полов» Муж и жена решают, где им провести выходной день. Муж хочет на футбол (+1), а жена предпочитает балет (+1). При этом им обоим хочется провести время вместе (+4). Множество игроков I  М , Ж  , где М – муж, а Ж – жена. Множество возможных стратегий SМ = {Футбол; Балет}, SЖ = {Футбол; Балет}. Множество возможных профилей стратегий (Футбол; Футбол); (Футбол; Балет); (Балет; Футбол); (Балет; Балет). Платежи игроков uМ (Футбол; Футбол) = 5; uЖ (Футбол; Футбол) = 4; uМ (Футбол; Балет) = 1; uЖ (Футбол; Балет) = 1; uМ (Балет; Футбол) = 0; uЖ (Балет; Футбол) = 0; uМ (Балет; Балет) = 4; uЖ (Балет; Балет) = 5: Битву полов можно записать в виде матрицы: Футбол Балет Футбол 5;4 1;1 Балет 0;0 4;5 Строки – это стратегии мужа, столбцы – стратегии жены. Первое число в ячейках – платеж мужа, второе – платеж жены. Игра «Аукцион Викри» На аукцион выставлена редкая почтовая марка, которую хотели бы приобрести многие коллекционеры. Все коллекционеры по-разному 11 оценивают ценность этой марки. Марка продается по правилам закрытого аукциона второй цены. Правила закрытого аукциона второй цены: 1. Участники аукциона подают свои ставки в закрытых конвертах. 2. Победителем становится участник, предложивший максимальную ставку. 3. Покупка марки осуществляется по цене, соответствующей второй максимальной ставке. Множество игроков I  1, , n, n  2. Ценность марки Обозначим через vi , vi  0 , ценность марки для игрока i. Игроки пронумерованы таким образом, что v1  v2   vn  0 . Множество возможных стратегий Стратегия игрока i – это ставка bi, которую он делает. Каждому игроку i доступно следующее множество стратегий: Si  bi | bi  0;  . Пусть bi – максимальная из ставок всех игроков, кроме i. В каких случаях игрок i выигрывает аукцион? 1. bi  bi ; 2. bi  bi и номер игрока i – минимальный среди номеров тех игроков, которые сделали максимальные ставки (то есть i больше всех ценит марку). Платежи игроков v  b , если i выиграл аукцион; ui  b1 , , bn    i i иначе. 0, 1. Если игрок i выиграл аукцион, то получает разницу между ценностью марки для него и ценой ее покупки. 2. Если проиграл – не получает ничего. 1.3 Игры в развернутой форме Представление последовательного стратегического взаимодействия назовем игрой в развернутой форме. Рассмотрим примеры последовательных стратегических взаимодействий. Игра «Списывание на экзамене» Представим себе ситуацию: преподаватель (П) проводит экзамен, а один из студентов (С) никак не может решить задачу. Что может сделать студент? У студента есть выбор: попытаться списать решение задачи из тетради или не списывать. Что может сделать преподаватель? 12 1. Если студент будет списывать, то преподаватель заметит это и будет думать: прогнать его или пожалеть. 2. Если студент не будет списывать, то преподаватель, видя муки студента, может решить подсказать ему. Как устроены платежи игроков: 1. Студенту очень хочется решить задачу, но не хочется быть изгнанным с экзамена. 2. Преподаватель стремится соблюсти положенную процедуру проведения экзамена. Ситуацию «Списывание на экзамене» можно представить в виде дерева игры (см. рис. 3): 1. Каждой вершине дерева приписано имя игрока, которому принадлежит ход в этой вершине. 2. Ребра обозначают возможные действия, которые есть у игрока в вершине, из которой эти ребра выходят. 3. Вершины, из которых не выходит ни одного ребра, называются терминальными. 4. Терминальным вершинам приписаны платежи, которые получают игроки. Прогнать Списать С Пожалеть П Подсказать Не списывать Не подсказывать П (–5;0) (3;–2) (3;0) (0;3) Рисунок 3 – Дерево игры «Списывание на экзамене» Игра «Случай на дороге» Водитель (D) нарушил правила дорожного движения, выехав на встречную полосу, его остановил инспектор ДПС (I) и грозит лишением прав на полгода. Что может сделать водитель? 1. Предложить инспектору взятку b  (0; b ] , где b – максимальная сумма, которой он располагает. 2. Не давать взятку и смириться с лишением прав. Что может сделать инспектор ДПС? Если водитель предложит взятку, инспектор может ее взять или не брать. 13 Природа (N) или Случай – особый игрок, у которого изначально заданы вероятности ходов. Если водитель дает взятку, а инспектор ее берет, ход делает Природа:  c вероятностью p факт дачи взятки обнаруживается (например, замечает и доносит напарник инспектора, взявшего взятку);  с вероятностью (1 – p) – не обнаруживается. Платежи игроков 1. Если водитель решает не давать взятку, то он несет издержки в размере c, связанные с лишением прав, а инспектор остается ни с чем. 2. Если водитель дает взятку, а инспектор от нее отказывается, то игроки получают такие же платежи, как и в предыдущем случае. 3. Если водитель дает взятку, инспектор ее берет и это не обнаруживается, то водитель получает платеж в размере (–b), а инспектор – в размере b. 4. Если водитель дает взятку, инспектор ее берет и это обнаруживается, то: 4.1. водитель сначала лишается суммы в размере b, а затем еще выплачивает штраф, в 30 раз превышающий эту сумму; 4.2. инспектор становится богаче на b, но затем платит штраф, в 30 раз превышающий размер взятки, и лишается работы, в связи с чем несет издержки w. Дерево игры представлено на рис. 4. (–31b; –29b–w) N D b I (–b; b) (–c; 0) (–c; 0) Рисунок 4 – Дерево игры «Случай на дороге» Тестовые задания к разделу 1 Здесь и далее тесты могут быть с несколькими вариантами ответов. За правильный ответ (выбраны все правильные варианты, не выбран ни один 14 из неправильных вариантов) ставится 1 балл, за любые другие ответы ставится 0 баллов. 1. Определите, в каких из нижеперечисленных ситуаций присутствует стратегическое взаимодействие: а. Вася и Маша играют в шахматы б. Вера Ивановна торгуется с продавцом сумок на восточном базаре в. Алексей, Борис и Владимир играют в преферанс г. Сережа и Феофан едут на метро домой из университета д. Мобильные операторы определяют тарифы на услуги сотовой связи 2. Укажите среди перечисленных стратегических взаимодействий последовательные: а. Андрей и Даша играют в шашки б. Алёна и Лена независимо друг от друга решают, платье какого цвета надеть на дискотеку, чтобы понравиться восьмикласснику Коле в. Хулиган Вовочка решает, написать ли плохое слово на стене школы, а опытный охранник Казимир Иванович, наблюдающий это поведение через окно, решает, как он поступит с Вовочкой г. Паша решает, сколько денег дать в долг Вите, а Витя решает, сколько денег ему вернуть д. Дима и Маруся играют в камень-ножницы-бумага 3. Что из перечисленного необходимо указать для того, чтобы задать игру в нормальной форме? а. политические взгляды каждого игрока б. множество всех игроков в. множество всех стратегий каждого игрока г. платежи игроков д. предысторию ходов игроков 4. Какие из этих элементов являются необходимыми атрибутами дерева игры в развернутой форме? а. платежи, указанные в терминальных вершинах б. ребра, помеченные действиями игроков в. вершины, помеченные именами игроков г. матрица игры 5. Последовательные стратегические взаимодействия моделируются с помощью а. игр в сложной форме б. игр в нормальной форме в. игр в развернутой форме г. игр в свернутой форме 6. Дана следующая игра. 15 s1 s2 t1 1;−1 0;−2 t2 0;−1 2;−3 t3 −2;4 3;−1 t4 −1;0 2;1 В профиле стратегий (s1, t3) первый игрок получает платеж а. 4 б. –2 в. 2 г. 0 7. Какое из перечисленных стратегических взаимодействий может описывать матрица игры s1 s2 t1 t2 1;1 −1;−1 −1;−1 1;1 а. фирма 1 решает, входить ли ей на рынок некоторого товара или нет, а фирма 2, уже оперирующая на рынке, решает, поставлять ли на рынок большее количество товара, чтобы заставить фирму 1 не входить на рынок, или нет б. Федор и Таня не могут вспомнить, в каком месте они договорились встретиться, и теперь каждый из них независимо от другого выбирает, в какое из двух потенциальных мест встречи пойти в. Аделина и Юля конкурируют за первое место на Чемпионате Европы по фигурному катанию г. демократы любят высокие налоги, а республиканцы – низкие. Обе партии голосуют за то, какие налоги ввести. Если партии проголосуют за разные уровни налогов, то будут введены средние налоги. 8. Два банка выдают кредиты. Каждый из них может выдавать деньги в долг либо под большие проценты, либо под маленькие. Если один из банков установит низкую ставку, а другой – высокую, то все дебиторы будут занимать деньги в банке, который выдает деньги под более низкий процент, а банк, установивший высокую ставку процента, обанкротится. Однако ситуация, когда оба банка назначают высокую ставку процента, для них лучше, чем ситуация, когда оба назначают низкую ставку процента. Какая матрица игры может моделировать это взаимодействие? а. Высокая ставка Низкая ставка Высокая ставка 3;3 0;2 Низкая ставка 2;0 1;1 16 б. Высокая ставка Низкая ставка Высокая ставка 2;0 3;3 Низкая ставка 1;1 0;2 в. Высокая ставка Низкая ставка Высокая ставка 2;2 3;3 Низкая ставка 3;3 1;1 г. Высокая ставка Низкая ставка Высокая ставка 1;1 0;2 Низкая ставка 2;0 1;1 9. В вопросах 9-10 рассмотрим указанное ниже дерево игры. Какой платеж получит второй игрок, если первый выберет действие s1, а второй игрок в ответ на это сыграет действие t2? а. 1 б. 2 в. 0 г. 3 10. В игре из задачи 9 что должен сделать рациональный второй игрок, если первый сыграет s3? а. сыграть t6 б. сыграть t5 Раздел 2. Доминирование стратегий После того как стратегическое взаимодействие формально описано, то есть задана игра, эту игру нужно решить. Решить игру – значит найти профиль стратегий, который будет сыгран. Будем считать, что игроки ведут себя рационально. 17 Пример. Пусть Таня (T) и Вова (V) играют в одновременную игру. Тане доступны две стратегии – a1 и a2. Вове также доступны две стратегии – b1 и b2. Если Таня ведет себя рационально, то перед выбором своей стратегии она должна задуматься о том, какую стратегию может сыграть ее партнер. Если Вова сыграет стратегию b1, то Тане имеет смысл сыграть свой наилучший ответ на стратегию b1, то есть такой, который принесет Тане наибольший платеж. Обозначим наилучший ответ Тани на стратегию b1 Вовы через BRT (b1) (от англ. best response – наилучший ответ). Однако Таня не умеет читать мысли Вовы и потому не узнает, какую стратегию выбрал Вова. Более того, редко встречаются игры, в которых наилучший ответ на любую стратегию Вовы – это одна и та же стратегия Тани. Поэтому обычно нужно делать дополнительные предположения о том, из каких соображений игроки будут выбирать стратегии. Решение игры может зависеть от того, какие предположения о поведении игроков были сделаны, то есть какая концепция решения была выбрана. В зависимости от той или иной концепции будут получаться разные решения игры. В этом разделе рассмотрим две теоретико-игровые концепции: 1. Равновесие в доминирующих стратегиях. 2. Равновесие, получаемое исключением доминируемых стратегий. 2.1 Строго и слабо доминирующие стратегии Рассмотрим пример игры. a1 a2 b1 b2 b3 b4 2; 7 3; 2 7; 5 5; 6 1; 9 2; 8 5; 4 3; 0 Какую стратегию сыграет первый игрок, если второй игрок сыграет стратегию b1? Наилучшим ответом первого игрока будет стратегия a1: BR1 (b1 )  a1 . Наилучший ответ первого игрока на фиксированную стратегию второго игрока будем помечать символом ●. a1 a2 b1 b2 b3 b4 ●2; 7 3; 2 7; 5 5; 6 1; 9 2; 8 5; 4 3; 0 Найдем наилучшие ответы первого игрока на стратегии b2, b3 и b4 соперника: BR1 (b2 )  a1 ; BR1 (b3 )  a1 ; BR1 (b4 )  a1 . 18 a1 a2 b1 b2 b3 b4 ●2; 7 ●3; 2 ●7; 5 ●5; 6 1; 9 2; 8 5; 4 3; 0 Какую бы стратегию ни сыграл второй игрок, наилучшим ответом первого игрока будет стратегия a1. Такая стратегия называется доминирующей. Есть ли доминирующая стратегия у второго игрока? Найдем его наилучший ответ на стратегию a1 первого: a1 a2 b1 b2 b3 b4 2; 7* 3; 2 7; 5 5; 6 1; 9 2; 8 5; 4 3; 0 Наилучший ответ второго игрока на фиксированную стратегию первого игрока будем помечать символом * : BR2 (a1 )  b1 . Теперь найдем наилучший ответ второго игрока на стратегию a2 первого: BR2 (a2 )  b1 . a1 a2 b1 b2 b3 b4 2; 7* 3; 2 7; 5 5; 6 1; 9* 2; 8 5; 4 3; 0 У второго игрока тоже есть доминирующая стратегия – стратегия b1. Обозначения Пусть имеется игра n лиц в нормальной форме, а  s1 , , sn  – некоторый профиль стратегий. Для любого i  1, , n положим si   s1 ,, si1 , si1 ,, sn  Другими словами, s i – это набор стратегий всех игроков, кроме i-го, из профиля  s1 , , sn  . Множество всех возможных наборов стратегий всех игроков, кроме iго, обозначим через S i . Рассмотрим нашу игру. Пусть i = 2. Тогда для любого профиля стратегий  s1 , s2  через s2 обозначается стратегия первого игрока s1. Множество S2 имеет в этой игре следующий вид: S2  a1 , a2  19 . Определение Стратегия i-го игрока si  Si называется строго доминирующей, если для любой другой стратегии i-го игрока si '  Si и любого набора si  Si стратегий остальных игроков выполняется неравенство ui  si ; si   ui ( si ; si ) . При любых стратегиях других игроков платеж, который получает игрок i, играя стратегию si , больше, чем платеж, который он получает, играя стратегию si  . Вернемся к прошлому примеру. a1 a2 b1 b2 b3 b4 ●2; 7* ●3; 2 ●7; 5 ●5; 6 1; 9* 2; 8 5; 4 3; 0 Стратегия a1 первого игрока – строго доминирующая, поскольку при любой стратегии второго игрока приносит первому игроку строго больший платеж, чем любая другая его стратегия. Стратегия b1 второго игрока – строго доминирующая, поскольку при любой стратегии первого игрока приносит второму игроку строго больший платеж, чем любая другая его стратегия. Определение Стратегия i-го игрока si  Si называется слабо доминирующей, если для любой другой стратегии i-го игрока si '  Si и любого набора si  Si стратегий остальных игроков выполняется неравенство ui  si ; si   ui ( si ; si ) . Слабо доминирующие стратегии должны удовлетворять чуть более слабому условию, чем строго доминирующие. Пример. Исправим в игре один платеж (выделен жирным шрифтом): a1 a2 b1 b2 b3 b4 2; 7* 3; 7* 7; 5 5; 6 1; 9 2; 8 5; 4 3; 0 Теперь BR2 (a1 ) – любая стратегия из множества b1 , b2 . Стратегия b1 второго игрока больше не является строго доминирующей. Однако верно, что стратегия b1 – слабо доминирующая. 20 Любая строго доминирующей. доминирующая a1 a2 стратегия является слабо b1 b2 b3 b4 ●2; 7* ●3; 7* ●7; 5 ●5; 6 1; 9* 2; 8 5; 4 3; 0 Так, стратегия a1 является строго доминирующей, а значит, и слабо доминирующей. Не любая слабо доминирующая стратегия является строго доминирующей. Так, стратегия b1 является слабо доминирующей, но не является строго доминирующей. 2.2 Равновесие в строго (слабо) доминирующих стратегиях Определение Профиль стратегий  s1 , , sn  называется равновесием в строго доминирующих стратегиях, если для каждого игрока i, i  1, , n , стратегия si является строго доминирующей. Пример 1. a1 a2 b1 b2 b3 b4 ●2; 7* ●3; 2 ●7; 5 ●5; 6 1; 9* 2; 8 5; 4 3; 0 Профиль стратегий (a1; b1) является равновесием в строго доминирующих стратегиях, поскольку стратегии a1 и b1 – строго доминирующие. Пример 2. a1 a2 b1 b2 b3 b4 ●2; 7* ●3; 7* ●7; 5 ●5; 6 1; 9* 2; 8 5; 4 3; 0 Профиль стратегий (a1; b1) не является равновесием в строго доминирующих стратегиях, поскольку стратегия b1 не является строго доминирующей. Определение Профиль стратегий  s1 , , sn  называется равновесием в слабо доминирующих стратегиях, если для каждого игрока i, i  1, , n , стратегия si является слабо доминирующей. В примере 1 21 a1 a2 b1 b2 b3 b4 ●2; 7* ●3; 2 ●7; 5 ●5; 6 1; 9* 2; 8 5; 4 3; 0 профиль стратегий (a1; b1) является равновесием в слабо доминирующих стратегиях, поскольку стратегии a1 и b1 – слабо доминирующие. В примере 2 a1 a2 b1 b2 b3 b4 ●2; 7* ●3; 7* ●7; 5 ●5; 6 1; 9* 2; 8 5; 4 3; 0 профиль стратегий (a1; b1) является равновесием в слабо доминирующих стратегиях, поскольку стратегии a1 и b1 – слабо доминирующие. Если у игрока в некоторой игре есть строго доминирующая стратегия, то есть все основания полагать, что он будет играть именно ее: если он сыграет эту стратегию, то его выигрыш будет максимален. Но игры, в которых у каждого игрока есть строго доминирующая стратегия, встречаются нечасто: равновесие в строго доминирующих стратегиях – это концепция решения, подходящая не для всех игр. 2.3 Дилемма заключенного и похожие игры Игра «Дилемма заключенного» Полиция поймала двоих человек, подозреваемых в совершении ограбления, но у нее не хватает улик против них. Чтобы собрать улики, полиция развела подозреваемых по разным камерам, лишив их возможности обмениваться информацией, и устроила каждому допрос. У каждого игрока есть две стратегии: 1. Промолчать. 2. Пойти на сделку со следствием и сдать напарника. Платежи игроков Если оба заключенных будут молчать, то полиция отправит каждого из них в тюрьму по мягкой статье на 1 год. Если один заключенный выдаст второго, а второй будет молчать, то тот, против кого дали показания, отправится в тюрьму на 10 лет, а другой пойдет на свободу. Если оба заключенных пойдут на сделку со следствием, то полиция сможет обвинить обоих в совершении ограбления, но каждому из них уменьшат срок до 5 лет. 22 Матрица игры Молчать Предать Молчать –1; –1 –10; 0 Предать 0; –10 ●–5; –5 Разберемся, есть ли у игроков доминирующие стратегии. У первого заключенного есть строго доминирующая стратегия – стратегия «Предать». Молчать Предать Молчать –1; –1 –10; 0 Предать ●0; –10 ●–5; –5 У второго заключенного тоже есть строго доминирующая стратегия – стратегия «Предать». Молчать Предать Молчать –1; –1 –10; 0* Предать ●0; –10 ●–5; –5* Профиль стратегий (Предать; Предать) – это равновесие в строго доминирующих стратегиях. А также – равновесие в слабо доминирующих стратегиях. Определение (оптимальность по Парето) Говорят, что профиль стратегий s Парето-доминирует профиль стратегий s′, если ui(s) ⩾ ui(s′) для любого игрока i, и ui(s) > ui(s′) хотя бы для одного игрока i. Профиль стратегий s* называется Парето-оптимальным, если не существует такого профиля s′, который Парето-доминирует s*. Равновесный профиль (Предать; Предать) не является Паретооптимальным: его Парето-доминирует профиль (Молчать; Молчать): если бы оба игрока промолчали, то каждый получил бы больший платеж, чем в равновесии. Другие профили стратегий Парето-оптимальны. Равновесие в дилемме заключенного – единственный профиль стратегий, который не является Парето-оптимальным. Для определения оптимальности по Парето удобно строить картину выигрышей. Парето – это те точки, к северо-востоку от которых не существует никаких точек (см. рис. 5). Игра «Олигополистическая конкуренция» На рынке некоторого товара присутствуют две фирмы, продающие этот товар по одинаковой цене. В какой-то момент они одновременно и независимо друг от друга принимают решение о том, повысить ли цену на 23 товар или не повышать. Это товар первой необходимости, поэтому покупатели готовы покупать его даже по высокой цене. Каждая фирма стремится получить максимально возможную прибыль. Рисунок 5 – Оптимальность по Парето Платежи игроков Если обе фирмы не повысят цену на товар, то останутся «при своих». Если обе фирмы повысят цену на товар, то каждая из них получит дополнительную прибыль в размере 1000 у.е. Если одна фирма повысит цену на товар, а другая нет, то фирма, повысившая цену, понесет убытки в размере 200 у.е., а другая получит дополнительную прибыль в размере 1400 у.е. Повысить Не повышать Повысить 1000; 1000 –200; 1400 Не повышать 1400; –200 ●0; 0* Стратегия «Не повышать» – это строго доминирующая стратегия для каждой из двух фирм: Повысить Не повышать Повысить 1000; 1000 –200; 1400* Не повышать ●1400; –200 ●0; 0* Профиль стратегий (Не повышать; Не повышать) – это равновесие в строго доминирующих стратегиях. Эта игра – не что иное, как дилемма заключенного. В равновесии обе фирмы получают меньше, чем могли бы получить, если бы сговорились и 24 одновременно повысили цену на товар. Именно по этой причине для защиты потребителей в рыночных экономиках запрещен сговор фирм. 2.4 Строгое и слабое доминирование Рассмотрим следующий пример игры: a1 a2 b1 b2 b3 6; 5 3; 6 3; 9 7; 7 3; 0 4; 1 Разумно ли второму игроку играть стратегию b1? 1. Нет, если он подозревает, что первый сыграет стратегию a1. Лучше было бы сыграть стратегию b3: a1 a2 b1 b2 b3 6; 5 3; 6 3; 9* 7; 7 3; 0 4; 1 2. Да, если он подозревает, что первый сыграет стратегию a2: a1 a2 b1 b2 b3 6; 5 3; 6 3; 9 7; 7* 3; 0 4; 1 Разумно ли второму игроку играть стратегию b3? 1. Да, если первый сыграет стратегию a1: a1 a2 b1 b2 b3 6; 5 3; 6 3; 9* 7; 7 3; 0 4; 1 2. Нет, если он подозревает, что первый сыграет стратегию a2. Лучше было бы сыграть стратегию b1: a1 a2 b1 b2 b3 6; 5 3; 6 3; 9 7; 7* 3; 0 4; 1 Разумно ли второму игроку играть стратегию b2? Нет, поскольку при любой стратегии первого игрока стратегия b3 второго принесет второму строго больший платеж, чем стратегия b2: 25 b1 b2 b3 a1 6; 5 3; 6 3; 9 a2 7; 7 3; 0 4; 1 Говорят, что стратегия b3 строго доминирует стратегию b2, а стратегия b2 строго доминируется стратегией b3. Определение Стратегия si игрока i строго доминирует стратегию si ' игрока i, если ui  si ; si   ui ( si ; si ) для любого набора стратегий остальных игроков si  Si . Определение Стратегия si игрока i строго доминируется стратегией si ' игрока i, если ui  si ; si   ui ( si ; si ) для любого набора стратегий остальных игроков si  Si . Обозначение: si si ' . Определение Стратегия si игрока i слабо доминирует стратегию si ' игрока i, если ui  si ; si   ui ( si ; si ) для любого набора стратегий остальных игроков si  Si . Определение Стратегия si игрока i слабо доминируется стратегией si ' игрока i, если ui  si ; si   ui ( si ; si ) для любого набора стратегий остальных игроков si  Si . Обозначение: si si ' . Вернемся к рассмотренной игре: a1 a2 b1 b2 b3 6; 5 3; 6 3; 9 7; 7 3; 0 4; 1 У первого игрока: Стратегия a2 слабо доминирует стратегию a1. Стратегия a1 слабо доминируется стратегией a2. У второго игрока: Стратегия b3 строго доминирует стратегию b2. Стратегия b2 строго доминируется стратегией b3. Определение Стратегия si игрока i называется строго доминируемой, если существует стратегия si ' игрока i, которая строго доминирует стратегию si . 26 Определение Стратегия si игрока i называется слабо доминируемой, если существует стратегия si ' игрока i, которая слабо доминирует стратегию si . Вернемся к рассмотренной игре: Стратегия a1 – слабо доминируемая стратегия. Стратегия b2 – cтрого доминируемая стратегия. Исключение строго (слабо) доминируемых стратегий Если у игрока есть строго доминируемая стратегия, то он, будучи рациональным, никогда не будет ее играть: она принесет ему заведомо меньше, чем некоторая другая его стратегия, которую он тоже может сыграть. Оба игрока понимают, что строго доминируемая стратегия ни при каких обстоятельствах не будет сыграна, поэтому в матричной записи игры мы можем исключить столбец или строку, соответствующие этой стратегии. В рассматриваемой игре: 1: Исключим стратегию b2, так как b2 ≺ b3: a1 a2 b1 b2 b3 6; 5 3; 6 3; 9 7; 7 3; 0 4; 1 2: Исключим стратегию a1, так как a1 ≺ a2: a1 a2 b1 b3 6; 5 3; 9 7; 7 4; 1 3: Исключим стратегию b3, так как b3 ≺ b1: a2 b1 b3 7; 7 4; 1 Оставшийся профиль (a2; b1) – это равновесие, полученное исключением строго доминируемых стратегий. b1 a2 7; 7 Определение Игра называется конечной, если множество возможных стратегий каждого игрока конечно. Определение Если в конечной игре в нормальной форме в результате последовательного исключения строго доминируемых стратегий остается 27 матрица размера 1 x 1, то оставшийся профиль называется равновесием, получаемым исключением строго доминируемых стратегий. Однако, не в любой ли игре в нормальной форме можно прийти к матрице 1 x 1, последовательно исключая строго доминируемые стратегии. Например, в игре «Битва полов» ни у мужа, ни у жены нет строго доминируемой стратегии – эту и многие другие игры нельзя решить с помощью исключения строго доминируемых стратегий. Порядок исключения строго доминируемых стратегий не имеет значения – в каком бы порядке мы ни исключали такие стратегии, в результате придем к одному и тому же профилю. Рассмотрим следующий пример игры. a1 a2 b1 b2 5; 5 5; 5 5; 5 5; 5 Все стратегии в этой игре – слабо доминируемые. Исключая слабо доминируемые стратегии в разном порядке, мы будем получать разные равновесия. Это плохой эффект, из-за которого исключение слабо доминируемых стратегий не имеет большого практического применения. Связь между концепциями Если в игре есть равновесие в строго доминирующих стратегиях, то оно является и равновесием, получаемым исключением строго доминируемых стратегий. Тогда у каждого из игроков есть строго доминирующая стратегия. Строго доминирующая стратегия доминирует все остальные стратегии игрока, поэтому их можно исключить. Равновесие, получаемое исключением строго доминируемых стратегий, не обязательно является равновесием в строго доминирующих стратегиях. Например, в следующей игре есть равновесие, получаемое исключением строго доминируемых стратегий, а вот равновесия в строго доминирующих стратегиях тут нет: a1 a2 b1 b2 b3 6; 5 ●3; 6 3; 9* ●7; 7* ●3; 0 ●4; 1 Тестовые задания к разделу 2 1. Какое количество строго доминируемых стратегий может быть у одного игрока? а. 0 б. 1 28 в. 2 г. 5 2. Найдите слабо доминирующую стратегию первого игрока в следующей игре (если она есть). а. s1 б. s2 в. s3 г. у первого игрока нет слабо доминирующих стратегий 3. Рассмотрим игру двух лиц в нормальной форме, в которой у каждого из игроков есть 4 стратегии. Какие из следующих утверждений являются верными? а. если в игре есть строго доминируемая стратегия, то есть и строго доминирующая б. любая стратегия, не являющаяся строго доминирующей, является строго доминируемой в. если в игре есть строго доминирующая стратегия, то есть и строго доминируемая г. любая стратегия, не являющаяся строго доминируемой, является строго доминирующей 4. В телевикторине «Вместе или каждый сам» Анна Сергеевна и Борис Петрович добрались до финала. Отвечая на различные вопросы, они обеспечили общий призовой фонд в размере 50 000 рублей. Чтобы определить, кому достанутся деньги, финалисты одновременно и независимо друг от друга должны выбрать, какую кнопку нажать – красную или зеленую. Если оба нажмут зеленую кнопку, то каждый из финалистов заберет его половину – по 25 000 рублей. Если один из них нажмет зеленую кнопку, а другой красную, то нажавший зеленую не получит ничего, а нажавший красную – весь призовой фонд в размере 50 000 рублей. Наконец, если оба нажмут красную кнопку, то никто не получит ничего. Какие платежи получат игроки в равновесии в слабо доминирующих стратегиях? а. 0 рублей оба б. 25 000 рублей оба в. 50 000 рублей один из финалистов, 0 рублей второй г. в этой игре нет равновесия в слабо доминирующих стратегиях 5. В каких из следующих игр хотя бы у одного из игроков есть строго доминируемая стратегия? а. Дилемма заключенного б. Битва полов в. Орлянка г. Камень-ножницы-бумага 6. Дана игра 29 t1 t2 t3 t4 s1 −2;4 −2;4 −2;3 2;−3 s2 2;−1 2;−4 −1;2 4;−3 s3 5;−6 3;0 2;3 2;−1 s4 3;5 4;−2 −2;1 1;3 Если последовательно исключить все строго доминируемые стратегии, то в оставшемся профиле второй игрок получит платеж а. –3 б. 3 в. –1 г. 2 д. другой платеж 7. Вовочка заявил: «В игре есть равновесие, получаемое исключением строго доминируемых стратегий, но я планирую сыграть другую свою стратегию, не входящую в равновесный профиль». Верно ли, что Вовочка точно получит меньший платеж, чем мог бы получить, сыграв равновесную стратегию, вне зависимости от того, какие стратегии (равновесные или неравновесные) сыграют другие игроки? а. да б. нет 8. Вовочка заявил: «В игре есть равновесие в строго доминирующих стратегиях, но я планирую сыграть другую свою стратегию, не входящую в равновесный профиль». Верно ли, что Вовочка точно получит меньший платеж, чем мог бы получить, сыграв равновесную стратегию, вне зависимости от того, какие стратегии (равновесные или неравновесные) сыграют другие игроки? а. да б. нет 9. В результате технических проблем с печатью данного пособия по курсу «Теория игр» была напечатана страница с нечетким изображением, содержащая фразу «Следовательно, в приведенной игре существует равновесие, получаемое исключением строго доминируемых стратегий» и матрица s1 s2 s3 t1 −3;15 13;−5 ; t2 3;−1 −3;5 11;1 t3 −5;1 3; 1;5 t4 ;−5 3;9 ;7 t5 −3;1 7;5 9;11 Какие из следующих утверждений верны? а. матрицу нельзя восстановить однозначным образом б. у первого игрока точно есть строго доминирующая стратегия 30 в. у второго игрока точно есть строго доминируемая стратегия г. в равновесии, получаемом исключением строго доминируемых стратегий, первый игрок точно получает больший платеж, чем второй игрок 10. Если у игрока есть строго доминирующая стратегия, то: а. если игрок максимизирует свой платеж, то ему нет смысла играть какую-либо другую стратегию б. все остальные стратегии игрока являются строго доминируемыми в. платеж игрока не зависит от стратегий остальных игроков г. все вышеперечисленные ответы неверны Раздел 3. 3.1 Равновесие Нэша Поиск равновесий Нэша Познакомимся с еще одной концепцией, которая позволит решать гораздо более широкий класс игр. Вспомним игру «Битва полов». В ней муж и жена независимо друг от друга решают, куда пойти вечером: на футбол или на балет. Связь между супругами отсутствует, поэтому никто из них не может ничего узнать о том, куда решил пойти другой. Предпочтения супругов таковы, что вечером они хотели бы оказаться в одном месте, но жене больше нравится балет, а мужу – футбол. Мужу лучше оказаться вместе с женой на балете, чем одному на футболе. Жене лучше пойти на футбол с мужем, чем пойти одной на балет. У каждого из супругов есть выбор из двух стратегий: пойти на футбол (Ф) или пойти на балет (Б). Предпочтения супругов можно задать с помощью следующей матрицы платежей: Жена Футбол Балет Футбол 5;4 1;1 Муж Балет 0;0 4;5 Сравним платежи мужа и заметим, что у него нет ни доминирующих, ни доминируемых стратегий: Ф = BRм(Ф); Б = BRм(Б) Таким образом, в ответ на разные стратегии жены, мужу также выгодно играть разные стратегии. 31 Жена Футбол Балет Футбол ●5;4 1;1 Муж Балет 0;0 ●4;5 То же самое верно и для жены: Ф = BRж(Ф); Б = BRж(Б) Если муж пошел на футбол, то ей тоже лучше пойти на футбол, а если на балет, то ей выгоднее пойти на балет. Жена Футбол Балет Футбол 5;4* 1;1 Муж Балет 0;0 4;5* В матрице платежей получились две клетки, в которых лучший выбор мужа при фиксированной стратегии жены совпал с лучшим выбором жены при фиксированной стратегии мужа. Жена Футбол Балет Футбол ●5;4* 1;1 Муж Балет 0;0 ●4;5* Пусть муж и жена вместе пришли на футбол. Никто не захочет изменить свое решение и уйти смотреть балет при условии, что другой останется смотреть футбол, так как и в этом случае его платеж уменьшится. Пусть муж и жена вместе пришли на балет. Аналогично, никто не захочет изменить свое решение и уйти смотреть футбол при условии, что другой останется смотреть балет, так как и в этом случае его платеж уменьшится. Пусть муж решил пойти на футбол, а жена выбрала балет. Лучший ответ мужа на стратегию жены «Б» – тоже пойти на балет, так как тогда его выигрыш больше, чем в случае, когда он идет на футбол. При условии того, что жена пошла на балет, мужу будет выгодно отклониться и сыграть стратегию «Б» вместо стратегии «Ф». Тогда он сможет увеличить свой выигрыш с 1 до 4. C другой стороны, при условии, что муж пошел на футбол, жене было бы лучше тоже пойти на футбол, а не на балет. То есть жена тоже захочет отклониться и сыграть стратегию «Ф» вместо стратегии «Б» при фиксированной стратегии мужа «Ф». Тогда ее выигрыш увеличится с 1 до 4. 32 Аналогично рассуждаем, если муж решил пойти на балет, а жена выбрала футбол. Обоим будет выгодно отклониться при фиксированной стратегии другого. Таким образом, профили стратегий (Ф, Ф) и (Б, Б) в каком-то смысле лучше профилей стратегий (Ф, Б) и (Б, Ф). Если муж и жена оказались вместе на футболе или на балете, то никому из супругов по отдельности не выгодно уйти в другое место при неизменном решении второго остаться. Если супруги оказались вечером в разных местах, то каждому из них выгодно отклониться от выбранной первоначально стратегии. Полученные профили стратегий (Ф, Ф) и (Б, Б) являются «хорошими» в том смысле, что, оказавшись в одном из них, никому из игроков уже не выгодно изменить свою стратегию при фиксированной стратегии другого игрока. Такие профили стратегий называют равновесиями Нэша. Определение Профиль  s1 , , sn  называется равновесием Нэша (NE, от англ. Nash Equilibrium), если для любого игрока i и любой его стратегии si  Si выполняется неравенство ui  si ; si   ui ( si ; si ) . Иными словами, равновесием Нэша называется такой профиль стратегий, что никому из игроков не выгодно отклониться и сыграть другую стратегию при фиксированных стратегиях других игроков. Равновесие Нэша названо так в честь известного математика Джона Нэша, лауреата Нобелевской премии по экономике 1994 г. «За анализ равновесия в теории некооперативных игр» (совместно с Райнхардом Зельтеном и Джоном Харсаньи). Можно сформулировать алгоритм нахождения равновесий Нэша в конечных играх двух игроков: 1. Для каждой стратегии второго игрока пометим точками наилучшие ответы первого игрока. 2. Для каждой стратегии первого игрока пометим звездочками наилучшие ответы второго игрока. 3. Профили, которые оказались помечены как точками, так и звездочками, являются равновесиями Нэша. Профиль стратегий, который не помечен либо звездочкой, либо точкой, не может оказаться равновесием Нэша. Пусть профиль (a; b) не помечен, например, звездочкой, но тогда стратегия b второго игрока не является его BR2(a). Тогда существует стратегия второго игрока c = BR2(a). Второму игроку выгодно отклониться и выбрать стратегию c вместо стратегии b. Значит, профиль (a; b) не является равновесием Нэша. Профиль стратегий, который помечен и звездочкой, и точкой, всегда будет равновесием Нэша. Пусть профиль (a; b) помечен и звездочкой, и точкой. Тогда a = BR1(b), а b = BR2(a). Тогда никому из игроков не выгодно отклониться при фиксированной стратегии другого, так как они уже 33 сыграли свои наилучшие ответы на стратегии друг друга. Значит, профиль (a; b) является равновесием Нэша. Игра «Конкуренция между университетами» В некотором городе Д есть два хороших университета, студенты которых после выпуска конкурируют между собой на рынке труда. У работодателей есть лишь один критерий оценки навыков и знаний выпускников – их средний балл в университете. Чем он выше, тем выше вероятность, что данного студента возьмут на работу. Каждый университет заинтересован в том, чтобы как можно больше его выпускников устроились на работу. У каждого университета есть две стратегии: завышать оценки своих студентов (З) и не завышать (Н). Предпочтения университетов можно задать с помощью следующей матрицы платежей: Университет Б З Н З 1;1 2;0 Университет А Н 0;2 1;1 Что будет делать университет А, если университет Б станет завышать оценки? Университету А будет выгодно тоже начать завышать оценки. Что будет делать университет А, если университет Б не будет завышать оценки? Университету А все равно будет выгодно начать завышать оценки. Отметим точками платежи университета А, которые он получает, отвечая на каждую стратегию университета Б наилучшим для себя образом. Университет Б З Н З ●1;1 ●2;0 Университет А Н 0;2 1;1 Стратегия «З» является строго доминирующей для университета А. Профиль стратегий (З, З) является равновесием в строго доминирующих стратегиях. Посмотрим теперь на него с точки зрения равновесия Нэша. Университет Б З Н З ●1;1* ●2;0 Университет А Н 0;2* 1;1 Предположим, что оба университета решили завышать оценки своим студентам. Выгодно ли кому-нибудь из них отклониться и перестать 34 завышать оценки студентам? Нет, так как тогда его платеж уменьшится. Профиль стратегий (З, З) будет являться равновесием Нэша. В этой игре всего одно равновесие Нэша. Равновесие в строго (слабо) доминирующих стратегиях всегда будет являться и равновесием Нэша. В равновесии в строго (слабо) доминирующих стратегиях ни одному из игроков не будет выгодно отклониться и сыграть другую стратегию, так как ни одна другая стратегия по определению не принесет ему большего выигрыша. Равновесие в строго доминирующих стратегиях будет единственным равновесием Нэша. Это следует из определения строго доминирующей стратегии. Докажем это, предположив обратное. Пусть стратегия a1 первого игрока и стратегия b1 второго игрока являются строго доминирующими, и существует профиль стратегий (ai; bj), отличный от профиля стратегий (a1; b1), также являющийся равновесием Нэша. Тогда если i ≠ 1, то первому игроку выгодно отклониться и сыграть стратегию a1, так как тогда он получит строго больший платеж, ведь стратегия a1 строго доминирует стратегию ai. Если i = 1, тогда j ≠ 1, иначе (ai; bj) совпадал бы с (a1; b1). Тогда второму игроку выгодно отклониться и сыграть b1. Получили противоречие, значит, профиль стратегий (a1; b1) – единственное равновесие Нэша, что и требовалось доказать. Равновесие в слабо доминирующих стратегиях не всегда будет единственным равновесием Нэша. Приведем контрпример: b1 b2 a1 ●0;0* ●2;0* a2 ●0;2* 1;1 Стратегия a1 слабо доминирует стратегию a2. Стратегия b1 слабо доминирует стратегию b2. Однако равновесий Нэша в данной игре будет три. (a1; b1) будет равновесием Нэша, так как никто из игроков не может поменять свою стратегию так, чтобы улучшить свое положение при фиксированной стратегии другого игрока. То же самое верно и для профилей (a1; b2) и (a2; b1). Таким образом, равновесие в слабо доминирующих стратегиях не всегда единственное равновесие Нэша в игре. Равновесие, полученное последовательным исключением строго (слабо) доминируемых стратегий, всегда будет равновесием Нэша. Алгоритм последовательного исключения строго (слабо) доминируемых стратегий таков, что из него напрямую следует, что полученное с его помощью равновесие будет равновесием Нэша. Далеко не в любой игре в нормальной форме есть равновесия Нэша (в чистых стратегиях). 35 Рассмотрим в качестве контрпримера игру «Орлянка». Пусть для определенности первым игроком будет Вася, а вторым – Петя. Отметим точками оптимальный ответ Васи на каждую из стратегий Пети, а звездочками – оптимальный ответ Пети на каждую из стратегий Васи. Петя О Р О ●1;–1 –1;1* Вася Р –1;1* ●1;–1 Нет ни одного профиля, в котором оптимальный ответ Васи на данную стратегию Пети совпадал бы с оптимальным ответом Пети на данную стратегию Васи. В данной игре нет ни одного равновесия Нэша. Бывают игры, в которых все профили стратегий являются равновесиями Нэша. Например, игра с нулевой матрицей платежей. При любом из четырех исходов игры никто из игроков не захочет отклоняться и менять свою стратегию, так как никто из них все равно не сможет улучшить свое положение. Игра «Выборы мэра» На выборах мэра в городе N соперничают два кандидата. Исход выборов будет зависеть от того, какой объем финансирования каждый кандидат привлечет к своей избирательной кампании. Избирательные кампании будут финансироваться исключительно за счет собственных средств кандидатов. Правила игры 1. На выборах побеждает тот кандидат, который привлекает наибольшее количество средств на избирательную кампанию. 2. В случае, если кандидаты привлекают одинаковое количество средств на свои кампании, они побеждают с равной вероятностью. Стратегии кандидатов Каждый кандидат выбирает то количество денег, которое он хочет привлечь для своей избирательной кампании. Обозначим c1 – количество денег, которое привлекает первый кандидат, c2 – количество денег, которое привлекает второй кандидат. Платежи кандидатов Каждому кандидату хотелось бы гарантированно победить на выборах. Несколько хуже – победить с вероятностью 0,5. Совсем плохо – проиграть выборы. При прочих равных каждому кандидату хотелось бы потратить как можно меньше денег. Что произойдет, если c1 окажется больше, чем c2? На выборах гарантированно победит первый кандидат. Но такая ситуация не будет 36 равновесием Нэша, поскольку первому кандидату будет выгодно отклониться и потратить на избирательную кампанию чуть меньше. Например, если он потратит на выборы c1  c2 , то все равно 2 гарантированно победит на выборах (см. рис. 6). Рисунок 6 – Изменение платежа первого кандидата в мэры Аналогично рассуждаем в ситуации, когда c2 окажется больше, чем c1. А что произойдет, если c2 окажется равно c1? Тогда кандидаты побеждают на выборах с равной вероятностью. Но и такая ситуация не будет равновесием Нэша. Обоим кандидатам будет выгодно отклониться и потратить на свою избирательную кампанию чуть больше денег и победить на выборах гарантированно. В этой игре нет равновесий Нэша. Игра «В сумме 100» Играют двое: каждый независимо от другого пишет на бумажке некоторое неотрицательное число. Если сумма двух чисел оказывается меньше либо равна 100, то каждый получает то число, которое написал. Если же сумма оказывается больше 100, то тогда оба ничего не получают. Найдем все равновесия Нэша в данной игре. Пусть первый игрок написал на бумажке некоторое число x, а второй – некоторое число y. В этой игре равновесиями Нэша будут все такие пары (x; y), что x + y = 100. Например, (x = 50; y = 50) или (x = 5; y = 95). Никому из игроков не выгодно написать число поменьше, так как тогда он получит меньший выигрыш. Никому не выгодно также написать число побольше, так как тогда сумма двух чисел превысит 100, и платеж игрока составит 0. Исход, в котором x + y < 100, не будет равновесным, так как тогда каждому из игроков будет выгодно отклониться и чуть-чуть увеличить свое число. Например, если (x = 45; y = 50), то первый игрок может увеличить свой выигрыш, написав на бумажке число 10 вместо числа 5. Ситуация, когда x > 100; y < 100 или x < 100; y > 100, также не будет равновесной. Игроку, написавшему число, большее 100, будет выгодно отклониться и написать такое число, чтобы сумма двух чисел оказалась не больше 100, тогда он сможет получить положительный, а не нулевой выигрыш. Например, если (x = 90; y = 120), то второму игроку выгодно отклониться и написать 10 вместо 120, тогда он увеличит свой выигрыш с 0 до 10. 37 Однако, равновесиями Нэша в данной игре также будут являться и все такие пары (x; y), что x ⩾ 100 и y ⩾ 100. Например, если (x = 105; y = 110), тогда оба игрока получают платеж 0, и никто не может (не хочет) поменять свою стратегию так, чтобы получить больший выигрыш, так как при фиксированной стратегии другого игрока сумма двух чисел все равно окажется больше 100. Может показаться нелогичным со стороны кого-либо из игроков писать на бумажке число, большее 100, так как тогда он заведомо не сможет получить выигрыш, больший 0. Тем не менее все исходы, в которых x ⩾ 100 и y ⩾ 100, вполне соответствуют концепции равновесия Нэша. Есть ли еще примеры «неоптимальных» равновесий Нэша? Вспомним игру, называемую дилеммой заключенного, в которой двое сообщников преступления, взятые под стражу, независимо друг от друга решают выдать своего подельника или промолчать. Молчать Предать Молчать –1; –1 –10; 0* Предать ●0; –10 ●–5; –5* В этой игре у обоих игроков есть доминирующая стратегия «Предать». Единственным равновесием Нэша в этой игре является профиль стратегий (Предать, Предать). Заметим, что если бы оба преступника промолчали, то платеж каждого был бы равен (–1). В то время как в равновесии Нэша платеж каждого равен (–5). Проблема в том, что профиль (Молчать, Молчать) не является равновесным, и каждому из игроков всегда будет выгодно отклониться и предать другого. Концепция равновесия Нэша имеет мало общего с оптимальностью с общественной точки зрения. Идея равновесия Нэша в том, что, однажды попав в него, уже трудно из него выбраться. Ведь никому из игроков по отдельности не выгодно менять свои стратегии при фиксированных стратегиях других игроков. Об этом говорят и реальные жизненные примеры равновесия Нэша. Самая распространенная английская раскладка клавиатуры называется QWERTY (по буквам в ее левой верхней части). Расположение букв на раскладке QWERTY обусловлено тем, что в печатных машинках конца XIX века нужно было избежать частого сцепления рычагов друг с другом в процессе печати. Поэтому буквы, которые чаще всего встречаются стоящими в тексте рядом друг с другом, на раскладке QWERTY расположены довольно далеко друг от друга. Однако теперь печатными машинками почти никто не пользуется. Поэтому были придуманы раскладки, которые позволяют печатать быстрее, например, Dvorak или Colemak. Почему же QWERTY по-прежнему так распространена? 38 Это пример «неоптимального» равновесия Нэша. Если бы все использовали раскладку Dvorak, то печатание текстов занимало бы у людей меньше времени. Тем не менее ни одной из фирм, производящей компьютеры, не выгодно начинать выпускать свои компьютеры с раскладкой Dvorak, так как абсолютное большинство потребителей привыкли к QWERTY. Каждому отдельному пользователю компьютера также не выгодно переучиваться до тех пор, пока отыскать компьютер с раскладкой, отличной от QWERTY, довольно сложно. В итоге, ситуация, в которой (почти) все пользуются раскладкой QWERTY, является равновесной. Еще один пример интерпретации равновесия Нэша. В городе N на рынке мобильных услуг конкурируют три мобильных оператора. В одну ночь они должны решить, какую цену установить на новую услугу. После того, как все операторы приняли решение, промышленные шпионы докладывают, какие цены выбрали другие компании. Если после этого ктото из операторов захочет пересмотреть свое решение, то это не равновесие Нэша. 3.2 Модель Хотеллинга – Даунса Модель Хотеллинга – Даунса – это модель предвыборной конкуренции кандидатов (партий). В 1929 г. модель впервые появляется в статье Гарольда Хотеллинга «Стабильность конкуренции». Г. Хотеллинг рассматривал экономические примеры, но отмечал, что его модель хорошо объясняет также и политическую конкуренцию. В 1957 г. Энтони Даунс в своей книге «Экономическая теория демократии» расширил и популяризовал модель, предложенную Г. Хотеллингом1. Представим себе следующую ситуацию. В стране N с двухпартийной системой намечаются парламентские выборы. На повестке дня вопрос о степени вмешательства государства в экономику. Какую позицию по этому вопросу займет каждая из двух главных партий? На этот и другие похожие вопросы дает ответ модель Хотеллинга – Даунса. Модель представляет собой одновременную игру, в которой игроки – кандидаты или партии – выбирают свои политические позиции. Далее любого игрока в этой игре будем называть кандидатом. Приведем формальное описание этой игры. Пусть политическое пространство одномерно – существует один основной вопрос выборов, и множество всех возможных позиций по этому вопросу можно изобразить в виде отрезка [0; 1]. 1 Hotelling, H. (1929). Stability in Competition. The Economic Journal, 39(153), 41–57. Downs, A. (1957). An economic theory of democracy. New York: Harper. 39 Представим множество всех возможных позиций по вопросу о вмешательстве государства в экономику в виде отрезка [0; 1] (рис. 7): Рисунок 7 – Представление одномерного политического пространства Начало отрезка соответствует позиции «никакого вмешательства», конец – позиции «максимально возможное вмешательство». Формальное описание игры Пусть P  A; B – множество кандидатов. Каждый кандидат выбирает свою позицию по основному вопросу выборов. Множества позиций, доступных кандидатам A и B соответственно: S A  a | a 0;1 , SB  b | b 0;1 Кандидаты максимизируют вероятность победы на выборах. Кандидат A мог бы, например, выбрать позицию a = 0,2 из множества всех своих возможных позиций, а кандидат B мог бы выбрать позицию b = 0,8 (рис. 8). Рисунок 8 – Позиции кандидатов A и B Пусть I – континуум избирателей. Каждый избиратель i имеет идеальную точку xi – собственную позицию по основному вопросу выборов. Через m обозначим идеальную точку медианного избирателя (избирателя с медианной позицией, то есть такой, что ровно половина избирателей имеет позиции не больше m, половина – не меньше m). Идеальные точки избирателей распределены непрерывно и равномерно на отрезке [0; 1]. В этом случае m = 0,5. Пусть, например, избиратель Леонид имеет идеальную точку xL = 0,3. Медианный избиратель имеет идеальную точку m = 0,5 (рис. 9). Рисунок 9 – Позиции Леонида и медианного избирателя Платеж избирателя i в случае, если выигрывает кандидат, занимающий позицию x, равен ui ( x)   x  xi . Это означает, что чем ближе 40 позиция кандидата к позиции избирателя, тем больший платеж получает избиратель. Следовательно, каждый избиратель предпочитает того кандидата, позиция которого наиболее близка к его собственной. Пример: a = 0,2, xL = 0,3, b = 0,8 (рис. 10). Рисунок 10 – Позиции Леонида и кандидатов A и В uL (a )   a  xL   0.2  0.3  0.1 uL (b)   b  xL   0.8  0.3  0.5 Леонид предпочитает кандидата A, так как позиция кандидата A наиболее близка к его собственной. Пусть избиратели голосуют правдиво (нестратегически): они выбирают того кандидата, позиция которого им наиболее близка. Если позиции кандидатов одинаково близки избирателю, то он определяет, за кого голосовать, в честной лотерее. Например, медианный избиратель с вероятностью 0,5 проголосует за кандидата A, с вероятностью 0,5 – за кандидата B. Выигрывает кандидат, получивший большинство голосов. Если кандидаты получили одинаковое число голосов, то победитель определяется в честной лотерее. Подчеркнем основные предпосылки модели, которые были сделаны: 1. Политическое пространство одномерно. 2. Конкурируют два кандидата. 3. Кандидаты максимизируют вероятность победы на выборах. 4. Идеальные точки избирателей распределены непрерывно и равномерно. 5. Избиратели голосуют нестратегически. Решим модель: поймем, какие позиции кандидаты будут выбирать в равновесии. Будем использовать концепцию равновесия Нэша. Продолжим разбирать пример, в котором a = 0,2, b = 0,8 (рис. 11). Рисунок 11 – Распределение голосов за кандидатов A и В при a = 0,2, b = 0,8 41 Кандидаты A и B набирают поровну голосов – каждый из них побеждает с вероятностью 0,5. Такая ситуация не является равновесной. Например, если кандидат A сдвинется и займет позицию чуть левее b, то сможет гарантированно победить. Позиция a = 0,2 не является наилучшим ответом кандидата A при фиксированной позиции b = 0,8 кандидата B. Пусть a = 0,1, b = 0,4 (рис. 12). Рисунок 12 – Распределение голосов за кандидатов A и В при a = 0,1, b = 0,4 В этом случае гарантированно побеждает кандидат B. Такая ситуация тоже не является равновесной: если кандидат A займет позицию немного правее b, то сможет гарантированно победить. Значит, позиция a = 0,1 не является наилучшим ответом кандидата A при фиксированной позиции b = 0,4 кандидата B. Пусть a = b = 0,5. В этом случае фиксируется ничья между кандидатами A и B, и победитель определяется в честной лотерее. Такая ситуация – равновесие Нэша. Если кто-нибудь из кандидатов решит занять любую отличную от 0,5 позицию, то гарантированно проиграет: другой получит больше половины голосов (рис. 13). Рисунок 13 – Смещение из равновесия Нэша Профиль (0,5; 0,5) – это равновесие Нэша. Проверим, есть ли какойнибудь другой профиль, являющийся равновесием. Пусть кандидаты заняли такие позиции, что один из них гарантированно проигрывает (рис. 14). 42 Рисунок 14 – Варианты позиций при проигрыше одного из кандидатов Такой профиль не может являться равновесием, поскольку проигрывающий кандидат всегда может улучшить свое положение, сдвинувшись в точку 0,5. Тогда: или 1) он выиграет выборы (если другой кандидат выбрал не 0,5), или 2) будет ничья (если другой выбрал 0,5). Пусть кандидаты заняли такие позиции, что возникла ничья (рис. 15). Это возможно в двух случаях: 1) позиции одинаковые, 2) позиции симметричные относительно точки 0,5. Рисунок 15 – Варианты позиций при ничье Такой профиль также не может являться равновесием, т.к. любой кандидат всегда может улучшить свое положение, сдвинувшись в точку 0,5, где он гарантированно выиграет. Значит, не существует никакого отличного от (0,5; 0,5) профиля, который являлся бы равновесием в этой модели. Единственное равновесие в этой модели – профиль (0,5; 0,5), любой другой профиль равновесием не является. Позиция 0,5 – это позиция медианного избирателя: конкуренция между двумя кандидатами приводит к тому, что каждый кандидат стремится занять позицию медианного избирателя. Этот результат объясняет, например, схожесть политических программ ведущих партий в двухпартийной системе или сближение позиций кандидатов на пост президента перед вторым туром выборов. Предпосылка о числе кандидатов Рассмотрим модель с тремя кандидатами: A, B и C. Выясним, является ли равновесной ситуация, когда каждый кандидат занимает позицию медианного избирателя. (рис. 16). Рисунок 16 – Медианная позиция для трех кандидатов 43 Данная ситуация не равновесна, т.к. любой кандидат может гарантировать себе победу, если сдвинется чуть правее или чуть левее: за него проголосует почти половина избирателей, а оставшиеся голоса поделят поровну два других кандидата. Пусть a = 0,15, b = 0,3, c = 0,7. Такой выбор позиций кандидатами является равновесием: ни одному из кандидатов нет смысла менять свою позицию (проверьте!). Этот результат объясняет, почему, например, в многопартийных системах конкурирующие партии могут быть очень непохожи друг на друга. Предпосылка о распределении идеальных точек Рассмотрим модель с двумя кандидатами и неравномерным распределением идеальных точек избирателей (рис. 17). Рисунок 17 – Неравномерное распределение идеальных точек избирателей Профиль (0,5; 0,5) – это не равновесие, поскольку сдвинувшись чуть левее, любой кандидат гарантирует себе победу. Равновесием в этой модели является профиль (m; m). Каждый кандидат занимает позицию медианного избирателя (но это уже не 0,5). Более того, оказывается, что равновесие в модели с любым распределением идеальных точек избирателей – это профиль (m; m). Результат о медианном избирателе устойчив к изменению предпосылки о распределении идеальных точек. Рассмотрим президентские выборы в Колумбии (2014). 15 июня 2014 г. состоялся второй тур президентских выборов, в который прошли Оскар Иван Сулуага (29,25 % в первом туре) и Хуан Мануэль Сантос (25,69 %). Основной вопрос выборов – о дальнейшей судьбе затянувшихся мирных переговоров между властями Колумбии и леворадикальной повстанческой группировкой FARC. Политическое пространство Отрезок, начало которого соответствует позиции «продолжить переговоры и заключить мир на любых условиях», конец – позиции «немедленно прекратить переговоры и начать активные военные действия». Медианный избиратель По результатам опросов, большинство избирателей поддерживало продолжение мирных переговоров с FARC (в мае – 64 %, в июне – 72 %). 44 Значит, медианный избиратель занимал позицию где-то ближе к началу отрезка (рис. 18). Рисунок 18 – Медианный избиратель на выборах в Колумбии 2014г. На протяжении всей кампании Сантос выступал активным сторонником продолжения мирных переговоров. Ради заключения мира он готов был пойти на значительные уступки (например, позволить членам FARC занять места в Конгрессе). Главный конкурент упрекал Сантоса в том, что он занимает слишком мягкую позицию и хочет «мира с освобождением виновных от наказания», однако во время дебатов Сантос опровергал это. Сулуага утверждал, что «демократическое государство не садится за переговоры с наркотеррористами». Он угрожал остановить мирные переговоры с FARC в первый же день своего прихода к власти, а также выступал скорее сторонником силового решения конфликта. Отметим условно позиции Сантоса и Сулуаги перед первым туром (рис. 19): Рисунок 19 – Позиции Сантоса и Сулуаги перед первым туром на выборах в Колумбии 2014г. Однако, перед вторым туром Сулуага изменил свою позицию. Он объявил, что не будет останавливать переговоры, но FARC должна будет прекратить боевые действия и преступную деятельность в течение месяца. Выступал за мир с условиями и наказанием всех виновных. Такое смягчение позиции соперника Сантос назвал политиканством. Перед вторым туром Сулуага, понявший, что большинство избирателей хочет мира, начал смещаться в сторону медианного избирателя (рис. 20): Рисунок 20 – Позиции Сантоса и Сулуаги перед вторым туром на выборах в Колумбии 2014г. 45 Этого, однако, оказалось недостаточно для победы – президентом Колумбии был переизбран Сантос, набравший 50,95 % голосов (Сулуага набрал 45,00 %). 3.3 Модель Курно Модель Курно – это модель олигополистической конкуренции фирм. Представим себе следующую ситуацию. В городе N работают две фирмы, производящие один товар. Как устроена конкуренция между ними? Для того чтобы ответить на этот вопрос, построим модель. Чтобы смоделировать взаимодействие двух агентов, нужно ответить на два вопроса: 1. Что хочет получить каждый из агентов? 2. Какие действия он может совершить, чтобы добиться наилучшего для себя исхода? Определим следующие предположения модели. 1. Каждая из фирм максимизирует свою прибыль. 2. Каждая из фирм может выбрать, какой выпуск ей произвести. 3. Решения об уровнях выпуска принимаются фирмами одновременно и независимо. Одна фирма не может «подстроиться» под выпуск другой. Стратегии игроков Множество стратегий первой фирмы: q1 [0; ) – количество выпускаемой продукции, которое не может быть отрицательным, но может быть нулевым. Аналогично множество стратегий второй фирмы: q2 [0; ) Платежи игроков Прибыль = Доходы – Расходы, следовательно:   pq  cq , где p – рыночная цена, q – выпуск фирмы, c – издержки на производство единицы продукции. Предположим для простоты, что c = 0. Пусть рыночная цена устанавливается на уровне p = 1 – (q1 + q2), где q1 – выпуск первой фирмы, а q2 – выпуск второй. Рыночная цена отрицательно зависит от общего выпуска двух фирм. Если, например, q1 = q2 = 0, то рыночная цена равна p = 1 – (0 + 0) = 1. Если q1 + q2 = 0,5, то рыночная цена равна p = 1 – 0,5 = 0,5. Модель с подобным механизмом, в которой фирмы одновременно выбирают уровни выпуска, что приводит к установлению определенной рыночной цены, была предложена в 1838 г. французским математиком Антуаном Огюстеном Курно. Заметим, что мы описали модель в предельно упрощенном виде: с нулевыми издержками и линейной зависимостью цены от суммарного выпуска. Решим эту модель, используя концепцию равновесия Нэша – будем искать равновесный профиль (q1; q2). Рассмотрим несколько численных примеров. 46 Пусть q1 = 0,2, q2 = 0,3. Прибыли фирм:  1  (1 – q1 – q2 )q1  1 – 0, 2 – 0,3 0, 2  0,1.  2  1 – q1 – q2  q2  1 – 0, 2 – 0,3 0,3  0,15. Это не равновесная ситуация. Первая фирма может увеличить выпуск на 0,1, и тогда ее прибыль вырастет до 1  (1 – 0,3 – 0,3)0,3  0,12 . Вторая фирма может увеличить выпуск на 0,1, и тогда ее прибыль вырастет до  2  (1– 0,2 – 0,4)0,4  0,16 . Пусть выпуски фирм равны, например, q1 = 0,4, q2 = 0,4. Прибыли фирм:  1  (1 – q1 – q2 )q1  1 – 0, 4 – 0, 4  0, 4  0,08.  2  (1 – q1 – q2 )q2  1 – 0, 4 – 0, 4  0, 4  0,08. Это снова не равновесная ситуация. Первая фирма может уменьшить выпуск на 0,1, и тогда ее прибыль вырастет до 1  1– 0,3 – 0,4  0,3  0,09. То же самое может сделать и вторая фирма. Пусть q1 значительно больше q2. Возьмем q1 = 0,6, q2 = 0,1. Тогда прибыли фирм равны:  1  (1 – q1 – q2 )q1  1 – 0,6 – 0,1 0,6  0,18,  2  (1 – q1 – q2 )q2  1 – 0,6 – 0,1 0,1  0,03. Это снова не равновесная ситуация. Первая фирма может уменьшить выпуск на 0,1, и тогда ее прибыль вырастет до 1  1– 0,5 – 0,1 0,5  0,2 . Второй же выгодно увеличить выпуск на 0,1, и тогда ее прибыль вырастет до  2  1– 0,6 – 0,2  0,2  0,04 . Если обе фирмы производят маленький выпуск, то каждой выгодно увеличить выпуск; если обе производят большой выпуск, то каждой выгодно снизить выпуск. Из этого можно сделать предположение, что равновесие будет где-то посередине. Эта ситуация возникает из-за того, что когда, например, первая фирма увеличивает выпуск, то на ее прибыль, равную pq1 = (1– q1 – q2) q1, влияет как то, что увеличился ее выпуск q1, так и то, что снизилась цена p, равная 1 – q1 – q2. Прибыль фирмы может как упасть, так и увеличиться. В итоге равновесной должна быть такая ситуация, в которой для обеих фирм влияние эффекта «увеличил свой выпуск q» совпадет с влиянием эффекта «снизилась рыночная цена p». Решим задачи максимизации прибыли для обеих фирм и выведем условие на выпуски фирм в равновесии. Проверим, будет ли получившееся равновесие соответствовать тем интуитивным рассуждениям, которые были проведены на численных примерах. Так как фирмы принимают решение о выпуске независимо, то каждая из них воспринимает выпуск другой как заданный и, исходя из этого, максимизирует свою прибыль. 47 Запишем прибыль первой фирмы:  1  pq1  1– q1 – q2  q1  1  q2  q1  q12  max . q1 Графиком функции прибыли первой фирмы является парабола, ветви которой направлены вниз. Заметим также, что прибыль первой фирмы зависит от выпуска второй фирмы q2. Ниже приведены графики функции прибыли первой фирмы в зависимости от разных q2 (рис. 21). Заметим, что оптимальный выпуск первой фирмы отрицательно зависит от q2. Найдем q1, являющийся координатой вершины параболы. 1  q2 Оптимальный выпуск первой фирмы равен: q1  . 2 Зависимость оптимального выпуска первой фирмы от выпуска второй фирмы часто называют кривой реакции первой фирмы на выпуск второй. Получили явном виде зависимость q1 от q2. Эта зависимость отрицательная. Чем больше q2, тем ниже рыночная цена p = 1 – q1 – q2 для каждого выпуска q1 первой фирмы. Из этого следует, что первая фирма получает за каждую следующую произведенную единицу продукции меньше, а значит, ей выгодно производить меньше товара. q2  q2  q2  1 2 1 3 3 4 Рисунок 21 – Графики функции прибыли первой фирмы в зависимости от разных q2 Графиком функции прибыли второй фирмы также является парабола, ветви которой направлены вниз, значит, максимум достигается в вершине.  2  pq2  1– q1 – q2  q2  1  q1  q2  q22  max . q2 Найдем координату вершины параболы: q2  48 1  q1 . 2 Значит, если первая фирма произведет количество товара q1, то второй 1  q1 фирме будет выгодно произвести ровно q2  . Это и есть кривая 2 реакции второй фирмы на выпуск первой. В равновесии должны выполняться оба условия:   1   1  q2  q1  3  q1  2   1  q 1  q2   q2  1   2 3 1 1 Кривые реакции обеих фирм пересекаются в точке  ;  . Это значит,  3 3 1 что если вторая фирма произведет q2 = , то наилучшим решением для 3 1 1 1 первой фирмы будет произвести q1 = , и наоборот. Таким образом,  ;  3  3 3 – равновесие Нэша: ни одной из фирм не выгодно отклоняться от выпуска в 1 1 , если вторая при этом сохраняет выпуск, равный . В данной модели 3 3 такое равновесие называется равновесием Курно. Монопольный сговор Посмотрим, что произойдет, если две фирмы объединятся. Запишем выпуск «объединенной» фирмы: qоб = q1 + q2. Ее прибыль равна:  об  1– qоб  qоб  max . qоб Это парабола, ветви вниз, максимум находится в ее вершине. qоб = 0,5; qоб = q1 + q2 = 0,5. Значит, чтобы получить наибольшую прибыль, фирмы сообща должны производить qоб = 0,5. Первая фирма, например, может производить q1 = 0, а вторая – q2 = 0,5, или выпуск обеих фирм может быть равен q1 = q2 = 0,25. Если qоб = 0,5, тогда прибыль объединенной фирмы равна: πоб = (1 – qоб) qоб = 0,25.  В то время как прибыль каждой фирмы: об  0,125 . 2 А в равновесии Курно каждая фирма получает:  1 11 1   (1– q1 – q2 )q1  (1– q1 – q2 )q2  1– –   .  3 3 3 9 Прибыль каждой фирмы при сговоре больше, чем в равновесии Курно. 49 Тестовые задания к разделу 3 1. Антон и Боря сыграли в некоторой игре профиль стратегий (s, t). После получения платежей они поняли, что каждый из них мог бы получить больше в другом профиле (u, v). Что можно достоверно утверждать о профилях стратегий (s, t) и (u, v)? а. профиль (s, t) – равновесие Нэша б. профиль (s, t) не равновесие Нэша в. профиль (u, v) – равновесие Нэша г. профиль (u, v) не равновесие Нэша д. ничего из вышеперечисленного 2. Найдите все равновесия Нэша в следующей игре: t1 t2 t3 s1 2;3 6;0 1;4 s2 3;1 5;2 2;5 s3 2;7 9;8 3;6 а. (s1,t1) б. (s1,t2) в. (s1,t3) г. (s2,t1) д. (s2,t2) е. (s2,t3) ж. (s3,t1) з. (s3,t2) и. (s3,t3) к. В этой игре нет равновесий Нэша 3. Анджелина и Брэд играют в игру. Сначала каждый из них кладет в банк 100 долларов. Затем оба одновременно называют число 1, 2 или 3. Если сумма названных чисел делится на 3, то побеждает Анджелина, в противном случае выигрывает Брэд. Победитель забирает весь банк. В равновесии Нэша Анджелина а. выиграет 100 долларов б. ничего не выиграет, но и не проиграет в. проиграет 100 долларов г. в игре нет равновесий Нэша 4. В некоторой игре в нормальной форме есть ровно 4 профиля стратегий. Сколько равновесий Нэша может быть в этой игре (укажите все возможные варианты)? а. 0 б. 1 в. 2 г. 3 д. 4 50 5. В каких из перечисленных игр ровно одно равновесие Нэша в чистых стратегиях? а. Дилемма заключенного б. Битва полов в. Орлянка г. Камень-ножницы-бумага 6. Дана игра t1 t2 t3 t4 s1 −3;0 2;1 0;2 2;−3 s2 4;a 0;2 −2;1 1;−1 s3 2;0 1;1 1;0 1;2 s4 0;−2 −1;−1 0;1 2;0 Найдите все такие значения параметра a, при которых в игре есть хотя бы одно равновесие Нэша. а. a ≥ −1 б. a ≥ 0 в. a ≥1 г. a ≥ 2 д. a ≥ 3 е. при любых значениях параметра a 7. Три одноклассника – Антон, Дима и Наташа – решают, что делать сегодня вечером. Среди альтернатив – попеть под гитару, сходить на футбол или посетить выставку. Антон больше всего хочет попеть под гитару, но ни при каких обстоятельствах он не хочет идти на футбол. Дима предпочитает футбол, но его точно не затащить в музей. Наташа обожает музеи и терпеть не может непрофессиональное пение под гитару. Договорились проголосовать – ребята одновременно и независимо друг от друга напишут на бумажках по одной альтернативе. Все трое будут делать то, за что будет отдано больше всего голосов. Если лидеров среди альтернатив будет несколько, то выбор среди лидирующих альтернатив сделает Наташа. Чем будут заниматься ребята в равновесии Нэша? а. петь под гитару б. смотреть футбол в. ходить по музеям г. есть несколько равновесий Нэша с различными исходами, поэтому возможны различные варианты д. в игре нет равновесий Нэша 8. Решая некоторую игру двух лиц, Вовочка нашел в ней 3 равновесия Нэша. Затем Вовочка стал исключать строго доминируемые стратегии. Сколько равновесий Нэша может быть в игре после исключения всех строго доминируемых стратегий (укажите все возможные варианты)? а. меньше трех б. три 51 в. больше трех 9. Решая некоторую игру двух лиц, Вовочка нашел в ней 3 равновесия Нэша. Затем Вовочка стал исключать слабо доминируемые стратегии. Сколько равновесий Нэша может быть в игре после исключения всех слабо доминируемых стратегий (укажите все возможные варианты)? а. меньше трех б. три в. больше трех 10. Двое играют в следующую игру. Каждый одновременно и независимо от другого загадывает число от 0 до 100 (концы включая). После этого находится среднее арифметическое этих двух чисел, а затем – четверть от среднего арифметического. Тот игрок, число которого будет ближе к четверти от среднего арифметического, выиграет и в качестве приза получит шоколадку. Проигравший игрок не получит ничего. Если оба игрока окажутся одинаково близкими к четверти от среднего арифметического двух чисел, то они поделят шоколадку пополам. Какое число игроки напишут в равновесии Нэша? а. 100 б. 50 в. 25 г. 0 11. В стране Триодуо живут три избирателя. Вопросом, решающим исход выборов, является вопрос о том, какую долю доходов взимать в виде налогов. Позиции избирателей выглядят следующим образом: избиратель Джордж считает, что ставка подоходного налога должна быть равна 1 %, избиратель Марио хотел бы, чтобы ставка налога была 18 %, а избиратель Ангела считает, что ставка должна быть 27 % процентов. Каждый из избирателей будет голосовать за того кандидата, позиция которого будет наиболее близка к его идеальной точке. Если таких кандидатов несколько, то избиратель разделит свой голос поровну между этими кандидатами. На выборах конкурируют два кандидата. Первый кандидат настаивает на ставке в 10 %, а второй – на ставке в 21 %. На выборах побеждает кандидат, набравший наибольшее количество голосов. В случае если кандидатов, набравших наибольшее количество голосов, несколько, то победитель определяется в честной лотерее. Если кандидаты занимают одинаковые позиции, то они делят причитающиеся им голоса в одинаковой пропорции. Какие из следующих утверждений верны? а. Избиратель Марио проголосует за первого кандидата б. На выборах победит второй кандидат при условии, что кандидаты не будут менять свои позиции в. Избиратель Ангела проголосует за второго кандидата г. Если первый кандидат поменяет свою позицию и пообещает избирателям установить ставку на уровне 14 % (вместо 10 %), 52 то он победит на выборах при условии, что второй кандидат свою позицию менять не будет д. Избиратель Джордж проголосует за первого кандидата 12. Идеальные точки избирателей равномерно распределены на отрезке от 0 до 1. На выборах конкурируют два кандидата в президенты. Предпочтения избирателей таковы, что каждый из них будет голосовать за того кандидата, позиция которого будет наиболее близка к его идеальной точке. Если таких кандидатов несколько, то избиратель разделит свой голос поровну между этими кандидатами. На выборах побеждает кандидат, набравший наибольшее количество голосов. В случае если кандидатов, набравших наибольшее количество голосов, несколько, то победитель определяется в честной лотерее. Если кандидаты занимают одинаковые позиции, то они делят причитающиеся им голоса в одинаковой пропорции. Пусть первый кандидат занял позицию x1, а второй – позицию x2. Выберите все верные утверждения. а. Существует равновесие Нэша, в котором x1 = x2 б. Существует равновесие Нэша, в котором x1 < x2 в. Существует равновесие Нэша, в котором x1 > x2 2 г. Если первый кандидат займет позицию x1 = , а второй – 3 1 позицию x2 = , то на выборах победит второй кандидат 4 9 д. Если первый кандидат займет позицию x1 = , а второй – 10 7 позицию x2 = , то на выборах победит первый кандидат 10 13. На отрезке от 1 до 4 в точках с целыми координатами расположены четыре города. Название каждого из городов совпадает с координатой точки, в которой он расположен. Население первого города составляет 70 человек, второго – 120 человек, третьего – 190 человек, а четвертого – 30 человек. Власти страны решают, в каком городе построить футбольный стадион. Жители каждого из городов хотят, чтобы стадион был построен как можно ближе к ним, однако если выбор происходит между альтернативами, приносящими жителям этого города одинаковую полезность, то жители разделят свои голоса поровну между этими альтернативами. Выборы будут состоять из шести туров, по результатам которых определится победитель выборов. В первом туре соперничать друг с другом будут первый город и второй город. Жители всей страны проголосуют согласно своим предпочтениям, и победивший город получит одно очко, а проигравший получит 0 очков. Если города наберут равное количество голосов, то каждый из них получит по половине очка. Во втором туре первый город будет соперничать с третьим, в третьем туре – первый с четвертым, в 53 четвертом туре – второй с третьим, в пятом туре – второй с четвертым и в шестом туре – третий с четвертым. В городе, набравшем по результатам всех туров наибольшее число очков, и будет построен футбольный стадион. В случае если несколько городов наберут одинаковое число очков, то на выборах победит тот из них, в котором живет больше человек. В каком городе построят стадион? Замечание. Эта задача описывает политическую конкуренцию. Кандидатами здесь являются сами города. У каждого из избирателей (жителей городов) есть идеальная точка, расположенная в том городе, в котором он живет. Каждый из избирателей так же, как и в модели Даунса, сравнивает точки, расположенные в других городах, по их удаленности от его идеальной точки. а. В первом городе б. Во втором городе в. В третьем городе г. В четвертом городе 14. Территория страны Вестершир имеет квадратную форму. В левом нижнем углу квадрата живет семья Фаннистеров, в левом верхнем углу расположен дом Штарков, в правом верхнем углу – дом Миреллов, а в правом нижнем углу живут Обаргариены. Четыре влиятельных семейства решают, в каком месте в стране поставить железный стул, пользоваться которым смогут члены всех семей. Каждая семья хочет, чтобы стул находился как можно ближе к ее дому. На общем голосовании у каждой семьи есть ровно один голос. При выборе между двумя альтернативами каждая из семей отдаст свой голос за ту точку, которая будет расположена ближе к ее собственному дому. Если же выбирать будут между точками, приносящими семье одинаковую полезность, то каждая из этих точек получит по половине голоса от этой семьи. Какие из следующих точек проиграют (наберут строго меньшее число голосов) точке, расположенной в центре квадрата, на всеобщем голосовании (на голосование выносятся две альтернативы – точка в центре квадрата и точка из варианта ответа, затем семьи голосуют за одну из них или делят голос между ними, та точка, которая набирает строго меньшее число голосов, считается проигравшей)? Замечание. Отличие этой задачи от модели политической конкуренции в том, что идеальные точки избирателей теперь расположены внутри квадрата, а не на отрезке от 0 до 1. Однако каждый из избирателей по-прежнему может сравнивать различные точки по тому, насколько близко они расположены к его идеальной точке. При этом точка, расположенная на большем расстоянии от идеальной, будет менее предпочтительна для избирателя, чем точка, расположенная на более близком расстоянии от его идеальной точки. а. Дом Обаргариенов б. Дом Фаннистеров 54 в. Середина стороны квадрата, соединяющей дом Фаннистеров с домом Штарков г. Середина стороны квадрата, соединяющей дом Обаргариенов с домом Фаннистеров д. Ни одна из вышеперечисленных 15. Идеальные точки избирателей равномерно распределены на отрезке от 0 до 1. На выборах конкурируют три кандидата в президенты. Каждый из избирателей будет голосовать за того кандидата, позиция которого будет наиболее близка к его идеальной точке. Если таких кандидатов несколько, то избиратель разделит свой голос поровну между этими кандидатами. На выборах побеждает кандидат, набравший наибольшее количество голосов. В случае если кандидатов, набравших наибольшее количество голосов, несколько, то победитель определяется в честной лотерее. Если кандидаты занимают одинаковые позиции, то они делят причитающиеся им голоса в одинаковой пропорции. Какие из следующих профилей стратегий кандидатов являются равновесиями Нэша?  3 3 4 а.  , ,   10 5 5   1 1 б.  0, ,   2 2 1 1 3 в.  ; ;  4 2 4 Следующая часть теста посвящена модели Курно. Вам предстоит самостоятельно найти равновесие в этой модели олигополистической конкуренции, пошагово решая предложенные вам задания. Обратите внимание, что вопросы 16-20 имеют общее условие. 16. На рынке некоторого товара конкурируют две фирмы, которые одновременно и независимо друг от друга решают, какое количество товара произвести. Производство каждой единицы продукции для каждой из фирм сопряжено с издержками в размере 4 у. е. Иными словами, чтобы произвести единицу товара, первой фирме необходимо потратить 4 у. е. То же самое верно и для второй фирмы. Если первая фирма произведет количество товара q1, а вторая – q2, то рыночная цена установится на уровне p=10 − q1− q2, если q1+ q2≤10, и на уровне 0, если q1+ q2>10. Запишите прибыль первой фирмы как функцию от q1 и q2 (считайте для простоты, что q1+ q2≤10). а. (10 − q1 − q2) q1 − 4q2 б. (10 − q1 − q2) q1 − 4q1 в. (10 − q1 − q2 − 4q1) q1 г. (10 − q1) q1 − 4q1 д. (10 − q1 − q2) q1 − 4(q1 + q2) 17. Найдите оптимальный выпуск первой фирмы как функцию от q2. 55 q2 2 б. 5 − q2 в. 6 − q2 q г. 5 − 2 2 q д. 6 − 2 2 18. Найдите равновесный уровень выпуска первой фирмы. а. 1 б. 3 1 в. 3 г. 2 10 д. 3 19. Какая цена установится на рынке в равновесии? а. 4 б. 8 1 в. 3 10 г. 3 д. 6 20. Предположим, что спрос на продукцию фирм возрос, и рыночная цена теперь определяется по новому правилу: p = 15 − q1 − q2. Как это повлияет на равновесный выпуск каждой из фирм, а также на равновесную рыночную цену? а. В новом равновесии Курно рыночная цена будет выше и выпуск каждой из фирм увеличится. б. В новом равновесии Курно рыночная цена будет выше, выпуск первой фирмы сократится, а второй – увеличится. в. В новом равновесии Курно рыночная цена будет выше, а выпуск каждой из фирм снизится. г. В новом равновесии Курно рыночная цена будет ниже, а выпуск каждой из фирм увеличится. д. В новом равновесии Курно рыночная цена будет ниже, выпуск первой фирмы увеличится, а второй – сократится. а. 3 − 56 Раздел 4. Осторожные стратегии Существуют различные концепции решения игр. В разделах 2 и 3 были приведены следующие способы решения игр в нормальной форме:  равновесие в доминирующих стратегиях;  равновесие, получаемое исключением доминируемых стратегий;  равновесие Нэша. В рамках каждой концепции предполагается, что игрок ведет себя тем или иным образом. Например, профиль стратегий является равновесием в доминирующих стратегиях, если у каждого игрока есть доминирующая стратегия, причем каждый игрок играет именно ее. Рассмотрим еще один возможный разумный вариант поведения игрока. 4.1 Поиск максиминных и минимаксных стратегий Рассмотрим ситуацию, когда игроку совершенно неизвестны предпочтения остальных. В это случае он не может сделать никаких предположений о стратегиях других игроков и вынужден ориентироваться на самой плохой для себя исход. Решим в качестве примера следующую игру: t1 t2 t3 s1 4;1 3;0 2;2 s2 2;1 1;3 3;4 s3 0;2 5;2 2;3 Какой гарантированный выигрыш может обеспечить себе первый игрок? Если он сыграет стратегию t1, то он вне зависимости от того, какую стратегию выберет соперник, получит платеж, не меньший 0. Если первый игрок сыграет стратегию t2, то он вне зависимости от того, какую стратегию выберет соперник, получит платеж, не меньший 1. Наконец, если первый игрок выберет стратегию t3, то он вне зависимости от того, какую стратегию сыграет второй игрок, получит платеж, не меньший 2. Следовательно, если первый игрок хочет обеспечить себе максимальный гарантированный выигрыш, то ему разумно сыграть стратегию t3. Эта стратегия называется осторожной или максиминной. Определим формально понятие осторожной стратегии. Сначала для i-го игрока, i  1, , n , и любой его стратегии s  Si определим величину ui  s   min ui  s, si  . ui  s  . ui  s  Положим Величина является s i гарантированным платежом, который может себе обеспечить i-тый игрок, если он сыграет стратегию s. 57 Далее для i-го игрока, i  1, , n , определим величину  i . Положим i  max ui  s   max min ui  s, si  . Величина  i называется максимином и s s s i показывает максимальный платеж, который может гарантированно обеспечить себе i-тый игрок. Определение Стратегия i-го игрока, обеспечивающая ему результат  i , называется осторожной или максиминной. Определение Профиль стратегий  s1 , , sn  называется равновесием в максиминных стратегиях, если si – максиминная стратегия i-го игрока. Разберем описанный выше пример игры. u1  t1   0; u1  t2   1; u1  t3   2 u2  s1   0; u2  s2   1; u2  s3   2 1  max u1  t1  , u1  t2  , u1  t3   max 0,1, 2  2;  2  max u2  s1  , u2  s2  , u2  s3   max 0,1, 2  2. Поэтому первый игрок имеет одну максиминную стратегию t3 , а второй игрок имеет одну максиминную стратегию s3 . Следовательно, в данной игре существует одно равновесие в максиминных стратегиях – профиль ( t3 ; s3 ). Предположим теперь, что второй игрок играет стратегию s1 . На какой максимальный платеж тогда может рассчитывать первый игрок? Очевидно, что он не сможет получить больше, чем 4, а ровно 4 он получить может. Если второй игрок играет стратегию s2 , то максимальный платеж, на который может рассчитывать первый игрок, равен 3. Если второй игрок играет стратегию s3 , то максимальный платеж, на который может рассчитывать первый игрок, равен 5. Предположим, что второй игрок играет таким образом, чтобы минимизировать максимальный платеж первого игрока (пока оставим в стороне вопрос, зачем второй игрок делает это). Тогда второй игрок сыграет стратегию s2 , и первый игрок сможет рассчитывать только на платеж, равный 3. Стратегия t3 позволит первому игроку получить 3. Эта стратегия называется минимаксной. Она обеспечивает первому игроку наибольший платеж в случае, если второй игрок стремится минимизировать максимально возможный платеж первого игрока. Формально определим минимаксную стратегию. Для i-го игрока, i  1, , n , и любого набора стратегий si  Si определим величину ui  si  . Положим ui  si   max ui  s, si  . Величина ui  si  является максимальным s 58 платежом, который может получить i-тый игрок, если остальные играют стратегии s i . Далее для i-го игрока, i  1, , n , определим величину  i . Положим i  min ui  si   min max ui  s, si  . s i s i s Величина  i называется минимаксом. Она равна максимальному выигрышу первого игрока в случае, если остальные игроки стремятся минимизировать максимально возможный платеж первого игрока. Определение Стратегия i-го игрока, обеспечивающая ему результат  i , называется минимаксной. Определение Профиль стратегий  s1 , , sn  называется равновесием в минимаксных стратегиях, если si – минимаксная стратегия i-го игрока. Найдем равновесие в минимаксных стратегиях в приведенной игре. u1  s1   4; u1  s2   3; u1  s3   5 u2  t1   2; u2  t2   3; u2  t3   4 1  min u1  s1  , u1  s2  , u1  s3   min 4,3,5  3;  2  min u2  t1  , u2  t2  , u2  t3   min 2,3, 4  2. Поэтому первый игрок имеет одну минимаксную стратегию t3 , а второй игрок имеет одну минимаксную стратегию s3 . Следовательно, в данной игре существует одно равновесие в минимаксных стратегиях – профиль ( t3 , s3 ). Вообще говоря, в некоторых играх может быть несколько максиминных и/или минимаксных стратегий. Отметим связь между введенными величинами – минимаксом и максимином. Для любой функции f ( x, y ) , определенной на любом подмножестве 2 и принимающей вещественные значения, а также любой точки  x0 , y0  из области определения функции f ( x, y ) выполняются соотношения min f ( x0 , y )  f ( x0 , y0 )  max f ( x, y0 ) . y x Следовательно, даже максимальное (по x0 ) из чисел min f ( x0 , y ) не y превосходит даже минимального (по y0 ) из чисел max f ( x, y0 ) , поэтому x max min f ( x0 , y )  min max f ( x, y0 ) . x0 y y0 59 x Применяя это свойство для функции выигрыша i-го игрока ui, получим неравенство i   i . Это означает, что максимин не превосходит минимакса: играя осторожную стратегию и пытаясь гарантировать себе некоторый минимальный выигрыш, мы получим в итоге не больше, чем если мы погонимся за самым большим выигрышем при самой плохой для нас игре остальных игроков. Ситуацию с  и  в игре удобно понимать с помощью следующей картинки (рис. 22). i за счет интеллекта за счет информированности с помощью партнеров Рисунок 22 – Выигрыш, который может получить игрок i Выигрыш меньше  игрок получает только если ведет себя глупо или азартно. Если у него имеется какая-то информация о ходах партнеров по игре, он может рассчитывать увеличить свой выигрыш до  , однако его партнеры имеют возможность не дать ему выиграть больше  . Выиграть больше  он может только в том случае, если партнеры ему не противодействуют. Каждый игрок может определить свою максиминную и минимаксную стратегии, зная лишь собственные платежи. Платежи оппонента в данном случае не играют роли. Однако для одного специального класса игр двух лиц существует гораздо более тесная связь между максиминными и минимаксными стратегиями обоих игроков. Речь идет об антагонистических играх – играх, в которых при любом исходе платежи двух игроков противоположны. 4.2 Осторожные стратегии в антагонистических играх Понятие гарантированного результата  i представляет интерес для любой игры, так как никакая разумна стратегия si не может дать игроку меньше, чем  i . Осторожные же стратегии представляют меньший интерес. Тем не менее имеется класс игр, где осторожные стратегии также представляют интерес. Это антагонистические игры – игры двух лиц с нулевой суммой, когда выигрыш одного игрока в точности равен проигрышу второго, u1  u2 . По этой причине часто указывают только выигрыш первого игрока и называют такие игры матричными (а не биматричными). 60 Рассмотрим игру, заданную следующей матрицей: t1 t2 s1 s2 1;–1 4;–4 3;–3 2;–2 Очевидно, что это антагонистическая игра, причем 1  2, 2  3, 1  3, 2  2 . Оказывается, что в антагонистических играх всегда выполняются равенства 1  2 , 2  1 . Докажем это. Пусть   1  max min u1  s1 , s2  – гарантированный выигрыш первого s2 s1 игрока. Тогда  2  max min u2  s1 , s2   max min  u1  s1 , s2    s2  s1 s1 s2   max  max u1  s1 , s2    min max u1  s1 , s2    1    . s2 s1 s2 s1 Вспомним, что    . Это значит, что при «правильной» игре первый игрок никогда не получит меньше  , при «правильной» игре второго игрока первый игрок никогда не получит больше  . Особый интерес представляет тот случай, когда    . В этом случае при «правильной» игре (т.е. при использовании осторожных стратегий обоими игроками) первый игрок получает ровно  , а второй получает (–  ). В этом случае говорят, что игра имеет цену  . Пусть в матричной игре первый игрок имеет m стратегий, второй игрок – n стратегий: … s1 t1 u11 … ti … … tm … … sj sn u1 j u1n min u1 j uij uin min uij um1 umj umn min umj max ui1 max uij max uin ui1 i i 61 i j j j Тогда   max min uij – максимальный гарантированный выигрыш i j первого игрока, независимый от того, какую бы стратегию ни выбрал второй игрок, – назовем нижней ценой игры.   min max uij – минимальный гарантированный проигрыш второго j i игрока, независимый от того, какую бы стратегию ни выбрал первый игрок, – назовем верхней ценой игры. Максиминная стратегия первого игрока – это стратегия, соответствующая нижней цене игры. Минимаксная стратегия второго игрока – это стратегия, соответствующая верхней цене игры. Если нижняя и верхняя цены игры равны между собой, то игра полностью определенная. Точка исхода называется седловой точкой. В этом случае говорят, что матричная игра имеет решение в чистых стратегиях, и    – цена игры. В матрице седловой точкой будет пересечение строки с максиминной стратегией первого игрока и столбца с минимаксной стратегией второго игрока. Например, в следующей матричной игре s1 –5 t1 t2 s2 –1 s3 4 3 2 max ui1  3 max ui 2  2 i j min u2 j  2 7 max ui 3  7 i  min u1 j  5 j i    max min uij  max min u1 j , min u2 j  max 5,2  2 . j i i j j     min max uij  min max ui1 , max ui 2 , max ui 3  min 3,2,7  2 . j j i i i i     2 – цена игры;  t2 ; s2  – равновесие в чистых стратегиях, седловая точка. Рассмотрим другой пример. s1 8 s2 1 s3 4 –1 max ui1  8 6 max ui 2  6 5 max ui 3  5 t1 t2 i i i   max min uij  1;   min max uij  5 . i j j i 62 min u1 j  1 j min u2 j  1 j Осторожными стратегиями будут: для первого игрока – t1; для второго игрока – s3. Если игроки так и сыграют по осторожным стратегиям, то возникнет неожиданность для обоих: u  t1; s3   4 . Первый выиграет больше, чем ожидал (4 > 1), второй проиграет меньше, чем ожидал (4 < 5). Если игра будет повторяться, то возникнет следующая ситуация. Первый игрок «поумнеет» и станет получать 5 по стратегии t2. Потом «поумнеет» второй игрок и выберет s1. Затем первый снова выберет t1. И так далее – равновесия в чистых стратегиях в данной игре нет. Тестовые задания к разделу 4 1. В антагонистических играх: а.    б.    в.    2. Если игрок получил выигрыш больший, чем  , то это означает, что: а. он играл неразумно и/или азартно б. он знал о стратегиях других игроков в. другие игроки ему подыгрывали 3. Задана игра s1 s2 s3 t1 4;1 2;1 0;2 t2 3;0 1;3 5;2 t3 2;2 3;4 2;3 Тогда равновесием в максиминных стратегиях будет профиль: а. (s1,t1) б. (s1,t2) в. (s1,t3) г. (s2,t1) д. (s2,t2) е. (s2,t3) ж. (s3,t1) з. (s3,t2) и. (s3,t3) к. В этой игре нет равновесия в максиминных стратегиях 4. В условии предыдущей задачи равновесием в минимаксных стратегиях будет профиль: а. (s1,t1) б. (s1,t2) в. (s1,t3) г. (s2,t1) д. (s2,t2) 63 е. ж. з. и. к. (s2,t3) (s3,t1) (s3,t2) (s3,t3) В этой игре нет равновесия в минимаксных стратегиях  9 7 5. Верхняя цена антагонистической игры   равна 4 9   а. 9 б. 7 в. 4 г. 9  9 7 6. Нижняя цена антагонистической игры   равна  4 9 а. 9 б. 7 в. 4 г. 9 7. Пусть множество стратегий первого игрока {A1, A2}, а множество стратегий второго игрока {В1, В2, В3, В4}. Тогда максиминной стратегией  8 11 12 5  антагонистической игры   является стратегия  5 12 10 6  а. А1 б. A2 в. В1 г. В2 д. В3 е. В4 8. В условии предыдущей задачи минимаксной стратегией игры  8 11 12 5   5 12 10 6  является стратегия   а. А1 б. A2 в. В1 г. В2 д. В3 е. В4 64 Раздел 5. 5.1 Игры в развернутой форме Алгоритм Цермело-Куна В предыдущих разделах были пройдены различные концепции решения игр, в которых игроки принимают решения о выборе стратегии одновременно и независимо друг от друга. Теперь познакомимся с играми, в которых игроки ходят последовательно, и выбор стратегии одного игрока может зависеть от истории игры. Игра «День рождения Иа-Иа». Винни-Пух несет Иа-Иа на день рождения подарок – горшочек с медом. В дальнейшей истории между Винни-Пухом и Иа-Иа происходит стратегическое взаимодействие. По дороге к Иа-Иа Винни-Пух решает, съесть мед из горшочка или нет. Затем Иа-Иа решает, принимать подарок от Винни-Пуха или нет. Предпочтения Винни-Пуха следующие. С одной стороны, Пух очень голоден, а с другой стороны, ему хочется порадовать Иа-Иа, подарив тому замечательный подарок. Лучше всего для него было бы, если бы он съел мед, а Иа-Иа всё равно бы принял подарок. Однако для Винни всё-таки лучше не есть мед при условии, что Иа-Иа примет его подарок, чем съесть мед, а потом получить отказ от Иа-Иа. Хуже всего ему в ситуации, в которой он не ест мед, а Иа-Иа отказывается от подарка. Предпочтения Иа-Иа: Иа-Иа всегда лучше принять подарок, чем отказаться от него. Но получить полный горшочек ему хочется больше, чем получить пустой. Описанную ситуацию можно представить в виде дерева (рис. 23). Напомним, что ребра обозначают действия игроков, а вершинам соответствуют разные состояния игры. Рисунок 23 – Дерево игры «День рождения Иа-Иа» 65 Вершины, в которых игра заканчивается, называются терминальными. Каждой из них приписаны платежи, которые получают игроки. Такое представление игры называется игрой в развернутой форме. Подыгрой называется часть дерева, начинающаяся в одной из нетерминальных вершин. В данной игре 3 подыгры: A; B; C. Стратегией игрока в игре в развернутой форме называется набор действий игрока в каждой вершине, в которой ему принадлежит ход. В данной игре множество действий Винни-Пуха совпадает со множеством его стратегий, так как Винни-Пуху принадлежит ход только в одной вершине: 1. Съесть мед (С) 2. Не есть мед (Н) Стратегия Иа-Иа должна содержать информацию о том, что будет делать ослик в каждой из своих вершин: а) как поступит Иа-Иа, если ВинниПух съел мед; б) как поступит Иа-Иа, если Винни-Пух не съел мед. У Иа-Иа четыре стратегии: 1. принять подарок в любом случае (ПП); 2. принять подарок, если Винни съел мед, и не принимать подарок, если Винни не съел мед (ПН); 3. не принимать подарок, если Винни съел мед, и принимать подарок, если Винни не съел мед (НП); 4. не принимать подарок ни в каком из случаев (НН). Например, пусть Винни-Пух уже сделал свой выбор и съел мед. Рассмотрим соответствующую подыгру B. Иа-Иа выгоднее принять подарок, так как тогда его платеж будет равен 5, что больше, чем платеж 0, который он получает, отказываясь от подарка. Теперь пусть Винни-Пух решил не есть мед. Рассмотрим соответствующую подыгру C. Иа-Иа опять выгоднее принять подарок, так как тогда его платеж будет больше, чем его платеж в том случае, если он откажется от подарка. Винни-Пух понимает, что какое бы действие он ни совершил, Иа-Иа выгоднее принять его подарок. Если Пух съест мед и Иа-Иа примет подарок, то платеж Пуха будет равен 10. Если Пух не съест мед и Иа-Иа примет подарок, то платеж Пуха будет равен 5. Поэтому Винни лучше съесть мед. Понять, что произойдет в игре в развернутой форме, можно, последовательно выяснив, как будут себя вести игроки на каждой подыгре. Алгоритм «решения с конца», который использовался в предыдущем примере, называется алгоритмом обратной индукции. Также он называется алгоритмом Цермело – Куна. Игра «Дележ пирога» (модель торга Рубинштейна) Мама испекла пирог двум своим сыновьям, старшему (C) и младшему (M), и ушла отдыхать, предоставив мальчикам возможность самим решить, 66 как его поделить. Дележ пирога осуществляется в два периода. Сразу после ухода мамы старший брат предлагает дележ – пропорцию, в которой братья могут разделить пирог. Если младший соглашается на предложение старшего, то они тут же делят пирог в предложенной пропорции и едят его. Если младший отвергает предложение, то во втором периоде (через 15 минут после ухода мамы) настает черед младшего предлагать дележ. Если старший брат соглашается, то они делят пирог в предложенной младшим пропорции. Если дележ оба раза заканчивается неудачей, то через 30 минут после ухода мамы с работы приходит голодный папа и съедает весь пирог. Платеж старшего брата Зададим функцию полезности старшего брата от полученной доли пирога: uC (kC )   kC , где kC – доля пирога, которую получает старший n брат; n – число прошедших 15-минутных отрезков;   0;1 – ставка дисконтирования (параметр, показывающий, во сколько раз уменьшается полезность пирога за один 15-минутный отрезок). Платеж младшего брата Зададим функцию полезности младшего брата от полученной доли пирога: uM (kM )   kM , где k M – доля пирога, которую получает старший брат Дележом пирога будем называть пару чисел ( kC ; k M ), где kC  kM  1 . Ставка дисконтирования 1 Будем считать, что в этой игре   . Это значит, что за 15 минут 2 пирог теряет половину своих вкусовых качеств. В первом периоде ценность всего пирога равна 1, во втором периоде ценность пирога равна 0,5 и т.д. Каждый из братьев максимизирует свою полезность. Если одному из братьев безразлично, принимать дележ, предложенный другим братом, или отвергать его, то он его принимает. Решим эту игру с конца. Если братьям так и не удастся поделить пирог, то платежи C и M будут соответственно равны (uC; uM) = (0; 0), так как папа съест весь пирог. Тогда C согласится на любой дележ, который предложит M через 15 1 минут после ухода мамы, так как uC   kC  kC  0 вне зависимости от 2 того, какую долю пирога kC предложит ему младший брат. В какой пропорции предложит разделить пирог M во втором периоде? Во втором периоде полезность от всего пирога равна 0,5. Максимизируя 1 свой платеж, M предложит C дележ (0; 1). Тогда uC   kC   0  0; 2 n 67 1 1 uM   k M   1  . Любой дележ вида ( kC ; k M ), где kC > 0, принесет M 2 2 меньшую полезность. Какой дележ тогда предложит C после ухода мамы? Если C предложит 1 1 M долю пирога k M  , то uM  k M  . Но тогда M не согласится на такой 2 2 дележ, так как в следующем периоде M сможет забрать весь пирог себе и 1 1 1 1 получить uM   k M   1  . Поэтому C предложит дележ  ;  . 2 2 2 2 1 Предлагать M больше невыгодно для C. Значит, пирог будет разделен 2 сразу после ухода мамы (в первом периоде), и каждый из мальчиков получит 1 платеж . 2 Чем закончится игра, если пирог будет за 15 минут терять не 2 половину, а треть своих вкусовых качеств? Теперь   , то есть во втором 3 2 периоде ценность целого пирога равна . Максимизируя свою полезность 3 от пирога, M предложит дележ (0; 1) во втором периоде. Тогда 2 2 2 uC   kC   0  0; uM   k M   1  . Поэтому C в первом периоде 3 3 3 1 2 предложит дележ  ;  . M согласится на предложение C, и итоговые 3 3 1 2 платежи будут равны  ;  . Платеж младшего брата увеличился. 3 3 Получается, что чем больше  , тем меньше платеж старшего брата и тем выше платеж младшего брата. Чем больше  , тем большую часть пирога при дележе во втором периоде «забирает» себе младший брат. Поэтому старшему брату приходится предлагать младшему большую долю от пирога в первом периоде. Важной предпосылкой является тот факт, что пирог теряет свои вкусовые качества в течение времени. Если бы этого не происходило, то весь пирог забирал бы тот, кто предлагал бы дележ последним. В данном случае это младший брат. Пусть теперь папа приходит не через 30 минут после ухода мамы, а через 45 минут. Братья теперь делят пирог в течение трех периодов: сразу после ухода мамы, через 15 минут и через 30 минут после ее ухода. Первым дележ предлагает старший брат, через 15 минут наступает очередь 68 младшего брата, а через 30 минут дележ снова предлагает старший брат. 1 Ставка дисконтирования равна . 2 1 В третьем периоде ценность всего пирога упадет до  2  . 4 Максимизируя свой платеж, в третьем периоде C предложит дележ (1; 0). 1 1 1 Тогда uC   2 kC   1  ; uM   2 k M   0  0 .M согласится, так как в 4 4 4 противном случае весь пирог съест папа и платеж M все равно будет равен 1 0. Во втором периоде ценность всего пирога составит   . M, 2 1 1  ;  . Тогда 2 2 1 1 1 1 1 1 1 uC   kC    ; uM   k M    . Если M предложит C меньше , 2 2 4 2 2 4 2 максимизируя свою полезность, предложит дележ то C не примет его предложение, так как в третьем периоде он сможет забрать весь пирог себе и гарантированно получить платеж 1 1 1 uC   2 kC   1  . M нет смысла предлагать C больше . В первом 4 4 2 периоде ценность всего пирога составит 1. Старший, максимизируя свою 1 3 1 полезность, предложит дележ  ;  . Если C предложит M меньше , то M 4 4 4 не примет его предложение, так как во втором периоде он сможет забрать себе половину пирога и гарантированно получить платеж 1 1 1 1 uM   k M    . C нет смысла предлагать M больше . 2 2 4 4 Значит, пирог будет разделен в первом периоде, причем старший брат 1 3 получит всего пирога, а младший – . Платеж старшего брата 4 4 увеличился. Это произошло из-за того, что старший теперь обладает большей «переговорной силой»: и первый, и последний дележи теперь остаются за ним. Младший брат, наоборот, оказывается в значительно более слабом положении и получает лишь небольшую часть пирога. Описанная игра – простой случай модели торга Рубинштейна. Ее автор – известный израильский экономист Ариэль Рубинштейн2. Данная модель используется, например, в экономике труда. Она хорошо описывает механизм установления равновесной заработной платы на рынке труда, так 2 Rubinstein, A. (1982). Perfect Equilibrium in a Bargaining Model. Econometrica, 50(1), 97–109. 69 как заработная плата является результатом торга между работником и работодателем. Игра «Палочки» На столе лежат 20 палочек. Два игрока ходят по очереди. За один ход разрешается взять 1, 2 или 3 палочки. Проигрывает тот, кто берет последнюю палочку. Как играть правильно? Игра в палочки, в частности, использовалась в телеигре «Fort Boyard» в качестве одного из испытаний, определяющего продолжительность нахождения команды в сокровищнице форта. Игрок (И) соревновался с Мастером Игры (М) – представителем Форта Бойярд. Применим к этой игре алгоритм Цермело-Куна. Однако мы будем рассматривать не каждую подыгру (их количество очень велико!), а группы подыгр в зависимости от количества оставшихся палочек. Если перед ходом игрока осталась одна палочка, то он проиграл. Если перед ходом игрока осталось 2, 3 или 4 палочки, то он может взять 1, 2 или 3 палочки соответственно и оставить перед ходом соперника одну палочку. Значит, ситуации, в которых перед игроком лежат 2, 3 или 4 палочки, выигрышные для него. Если перед ходом игрока остается 5 палочек, то он проиграл, потому что любой его ход приведет к выигрышной позиции соперника. Аналогично убеждаемся, что 6, 7, 8, 10, 11 – выигрышные позиции, а 9 – проигрышная. В общем случае проигрышные позиции – это 4k + 1 палочка, k = 0, 1, 2, .... Что же делать игроку, перед которым лежат 20 палочек? Взять 3 палочки. Это поставит соперника в проигрышную ситуацию, так как перед ним окажутся 17 палочек. Затем можно будет добиться того, чтобы перед соперником оказались 13, 9, 5 и, в конечном итоге, 1 палочка. Отметим, что если бы игра начиналась не с 20, а, например, с 21 палочки, то у первого игрока не было бы шансов выиграть при правильной стратегии Мастера Игры. 5.2 Равновесие Нэша, совершенное на подыграх Может возникнуть справедливый вопрос, любую ли игру можно решить с конца. Ответ дает теорема Цермело. Теорема Цермело. В любой игре в развернутой форме с конечным числом действий в любой вершине и конечной длиной любого пути от начальной вершины к терминальной существует равновесие Нэша, совершенное на подыграх. Вернемся к примеру с Винни-Пухом и Иа-Иа. Опишем формально множество стратегий Винни-Пуха: SВинни-Пух = {С, Н} и множество стратегий Иа-Иа: SИа-Иа = {ПП, ПН, НП, НН}. По развернутой форме игры можно записать матрицу игры в нормальной форме. Для этого нужно: 70 1. Записать по горизонтали и по вертикали стратегии игроков. 2. Записать в ячейках матрицы платежи, соответствующие каждому из профилей стратегий. Зная, какие платежи получают игроки в зависимости от того, какой профиль стратегий сыгран, составим матрицу платежей для нашей игры: ПП ПН НП НН С 10;5 10;5 –5;0 –5;0 Н 5;10 –10;0 5;10 –10;0 Найдем теперь все равновесия Нэша в нашей игре в нормальной форме. Отметим точками наилучшие ответы Винни-Пуха на все стратегии Иа-Иа, а звездочками – наилучшие ответы Иа-Иа на все стратегии ВинниПуха. ПП ПН НП НН С ●10;5* ●10;5* –5;0 ●–5;0 Н 5;10* –10;0 ●5;10* –10;0 В данной игре есть 3 равновесия Нэша: (С; ПП); (С; ПH); (Н; НП). При решении игры с конца было определено, что игроки сыграют профиль стратегий (С; ПП). Дело в том, что когда в предыдущем решении предполагалось, что игроки ведут себя оптимально на каждой подыгре при фиксированной стратегии другого игрока. Это более сильное требование, чем требование к профилю в определении равновесия Нэша. Не все равновесия Нэша удовлетворяют этому свойству. Профиль стратегий (С; ПH) является равновесием Нэша. Но ослик ИаИа ведет себя неоптимально в том случае, если Пух решает не есть мед, так как тогда Иа-Иа отказывается от подарка. Профиль стратегий (Н; НП) также является равновесием Нэша. Но ослик Иа-Иа ведет себя неоптимально в том случае, если Пух съедает весь мед, так как в этом случае Иа-Иа опять отказывается от подарка. Рассмотрим теперь профиль стратегий (С; ПП), также являющийся равновесием Нэша. В нем ослик Иа-Иа ведет себя оптимально на каждой подыгре. Решение, найденное с помощью алгоритма Цермело – Куна, в некотором смысле лучше двух других равновесий Нэша. Оно удовлетворяет дополнительному условию – оптимальности поведения игроков при фиксированных стратегиях остальных игроков на каждой подыгре. Такие профили стратегий называются равновесиями Нэша, совершенными на подыграх. Определение 71 Профиль стратегий называется равновесием Нэша, совершенным на подыграх (SPNE – от англ. Subgame Perfect Nash Equilibrium), если его ограничение на любую подыгру является равновесием Нэша. Пример 1. Найдем равновесие Нэша, совершенное на подыграх, в следующей игре (рис. 24): Рисунок 24 – Пример игры для поиска SPNE Множество стратегий первого игрока: S1  s1; s2 . Множество стратегий второго игрока: S2  t1; t2 ; t3 . Множество стратегий третьего игрока: S3  r1; r2  . Решение пойдет с конца. Рассмотрим подыгру, в которой третий игрок делает ход. Третьему игроку лучше выбрать стратегию r2. Рассмотрим подыгру, в которой второй игрок делает ход. Выбрав стратегию t2, второй игрок получит выигрыш, равный (–1), так как третий игрок выберет стратегию r2. Значит, для второго игрока лучше всего сыграть стратегию t3, так как тогда его выигрыш будет равен 5. Рассмотрим теперь подыгру, совпадающую со всей игрой. Выбрав стратегию s1, первый игрок получит выигрыш равный (–4), так как второй игрок тогда заведомо сыграет стратегию t3. Значит, для первого игрока лучше всего сыграть стратегию s2, так как тогда его выигрыш будет равен 0. Таким образом, SPNE будет профиль стратегий (s2; t3; r2). Единственность SPNE SPNE не всегда единственное. Рассмотрим в качестве контрпримера следующую игру (рис. 25). 72 Рисунок 25 – Пример игры с двумя SPNE Будем решать игру с конца. Второму игроку все равно, какую стратегию выбрать, так как стратегии t1 и t2 приносят ему одинаковый платеж. Первому игроку лучше выбрать стратегию s1, так как она приносит ему больший платеж, чем s2, какую бы стратегию ни выбрал второй игрок. В этой игре два SPNE: (s1; t1) и (s1; t2). При каких условиях равновесие Нэша, совершенное на подыграх, в игре будет единственным? Например, если все платежи, получаемые каждым из игроков, различны, то в конечной последовательной игре с полной информацией существует единственное SPNE3. Рассмотрим некоторую подыгру. Предположим, что ход в ней принадлежит первому игроку. Если существуют по крайней мере две стратегии, такие что первому игроку безразлично, какую из них играть, то они должны приносить ему одинаковый платеж. В противном случае ему было бы выгодно выбрать стратегию, приносящую больший платеж. Вывод: если все платежи всех игроков различны, то в конечной последовательной игре с полной информацией существует единственное SPNE. SPNE в играх с нулевой суммой В игре двух лиц с нулевой суммой4 во всех равновесиях Нэша, совершенных на подыграх, каждый игрок получает одинаковые платежи. Доказательство. Рассмотрим подыгру последнего уровня. Если игрок, делающий в ней ход, безразличен в выборе между двумя стратегиями, то эти две стратегии приносят ему одинаковый платеж, как и его сопернику, так как у нас игра с нулевой суммой. Аналогично можно рассмотреть подыгру предпоследнего уровня и т. д. Игра «Шахматы» Шахматы также являются игрой в развернутой форме. В каждой позиции у игрока есть конечное число возможных ходов. Значит, чтобы воспользоваться теоремой Цермело, нужно убедиться, что никакая шахматная партия не может длиться сколь угодно долго. Докажем некоторую (очень грубую) оценку на число ходов в шахматной партии. Zermelo, E., Über eine Anwendung der Mengenlehre auf die Theory des Schachspiels, Proc. Fifth Congress Mathematicians, 1913: 501-504 4 Напомним, это игра, в которой сумма платежей игроков равна 0 для любого профиля стратегий. 3 73 Поскольку на доске может находиться не более 32 фигур, а для каждой фигуры существует не более 65 вариантов ее размещения (64 клетки и вообще не находиться на доске), то существует заведомо не более 6532 различных шахматных позиций (а на самом деле гораздо меньше). В шахматах существует правило трехкратного повторения позиции: если одна и та же позиция повторилась 3 раза, то фиксируется ничья. Следовательно, каждая шахматная позиция может повториться не более двух раз и не позднее 2·6532+1 хода партия закончится. Таким образом, дерево игры в шахматы конечно. Тогда по теореме Цермело в шахматах существует равновесие, совершенное на подыграх. Возможно, оно не единственно. Однако если и белые, и черные играют правильно, то во всех шахматных партиях всегда будет фиксироваться один и тот же результат – либо во всех партиях будут выигрывать белые, либо всех партиях будет ничья, либо во всех партиях будут выигрывать черные. Проблема в том, что дерево игры в шахматы, хотя и конечно, но огромно. Вычислительной мощности современных компьютеров не хватает для того, чтобы просчитать шахматы с конца. Поэтому до сих пор неизвестно, чем должны заканчиваться шахматные партии при правильной игре обеих сторон. Современные мощные шахматные программы вместе с мощными процессорами могут просчитывать позицию примерно на 15 ходов вперед. Однако с каждым следующим ходом сложность вычислений резко возрастает. А вот для шашек на доске 8 на 8, дерево игры существенно меньше (в шашках «всего лишь» около 5 · 1020 возможных позиций). Недавно десятки компьютеров, работавшие почти непрерывно с 1989 года, довели алгоритм Цермело-Куна в шашках до конца, и теперь известно, что при правильной игре обеих сторон в шашках будет зафиксирована ничья5. Тестовые задания к разделу 5 1. Рассмотрим следующую игру: 5 Jonathan Schaeffer, Neil Burch, Yngvi Bjornsson, Akihiro Kishimoto, Martin Muller, Robert Lake, Paul Lu and Steve Sutphen. Checkers is Solved. Science. 2007. Vol. 317, no. 5844. Pp. 1518-1522 74 (1; 2) (4; –1) (3; 1) (–1; 0) (2; 0) Сколько в ней подыгр? а. 0 б. 1 в. 2 г. 3 д. 4 е. 5 2. Решите игру методом обратной индукции. Какой платеж получит второй игрок? (1; 2) (–1; 1) (2; –1) (0; –2) а. –2 б. –1 в. 1 г. 2 3. Саша и Маша делят пирог. Дележ пирога происходит в 2 периода. В первом периоде право предлагать дележ принадлежит Саше. Маша может согласиться на предложение Саши или не согласиться. Если Маша согласится, то пирог будет разделен в предложенной Сашей пропорции, если Маша не согласится, то во втором периоде настанет ее черед предлагать дележ пирога. Если во втором периоде Саша отклонит предложение Маши, то пирог отдадут стае бродячих мопсов. Полезность 75 каждого из игроков от пирога в периоде n равна U   n 1k , где n – номер периода, k – доля пирога, которую получает игрок, а δ – параметр, показывающий, как меняется удовольствие игрока от одного и того же куска пирога от периода к периоду. Будем считать, что каждый из игроков максимизирует собственную полезность от пирога. Будем также считать, что если игроку все равно, согласиться на предложение другого или не согласиться, то он согласится. Выберите все верные варианты ответов. а. во втором периоде Маша предложит Саше ровно δ от всего пирога (иными словами, предложит дележ (δ,1−δ)) б. при увеличении δ выигрыш первого игрока уменьшается 1 1 в. если δ = , то Саше выгодно предложить Маше пирога в 5 5 первом периоде г. обозначим дележ, который Саша предложит Маше в первом периоде, за (kC, kM). Тогда верно, что разность (kC − kM) убывает с ростом δ. д. при любом δ Саша получает большую часть пирога, чем Маша 4. Играют двое. На столе лежат 33 палочки. Два игрока по очереди забирают палочки со стола. За один ход можно забрать 1, 2 или 3 палочки. Игрок, забирающий со стола последнюю палочку, проигрывает. Кто выиграет в этой игре при правильной игре обоих игроков? а. первый игрок б. второй игрок 5. Играют двое. На шахматной доске на клетке h8 стоит ладья. За один ход можно подвинуть ладью на любое число клеток влево или на любое число клеток вниз. Игроки двигают ладью по очереди. Выигрывает тот, кто первым переставит ладью на клетку a1. Кто выиграет в этой игре при правильной игре обоих игроков? а. первый игрок б. второй игрок Раздел 6. 6.1 Смешанные стратегии Определение смешанных стратегий Вспомним игру «Орлянка»: О Р О 1;–1 –1;1 Р –1;1 1;–1 В ней нет равновесий Нэша в чистых стратегиях: 76 О Р О ●1;–1 –1;1* Р –1;1* ●1;–1 Пусть эта игра повторяется какое-то количество раз. Если первый игрок узнает о предполагаемом ходе второго игрока, то это позволит ему добиться преимущества и получить выигрыш. Значит и первому, и второму нужно скрыть свои намерения. Единственный способ сделать выбор непредсказуемым, даже для себя, – это сделать его случайным. Например, пусть первый игрок достал шестигранный кубик, чтобы кидать его перед каждым раундом. Он решил, что если на кубике выпадет число от 1 до 4, то он напишет слово «Орел». Если же на кубике выпадут числа 5 или 6, то он напишет слово «Решка». Второй игрок тоже понял, что если он всё время будет писать одно и то же слово, то первый сможет быстро разгадать его стратегию и выиграть у него. Поэтому второй решил написать на пятидесяти бумажках слово «Орел» и на пятидесяти бумажках – слово «Решка», затем перемешать их и перед каждым раундом игры случайным образом вытягивать одну из бумажек. 2 Таким образом, первый с вероятностью напишет «Орел» и с 3 1 вероятностью – «Решка». У второго игрока вероятности написать «Орел» 3 1 и «Решка» равны . Посмотрим, с какой вероятностью будет сыгран 2 каждый профиль стратегий: О 2 1 1   О 3 2 3 1 1 1   Р 3 2 6 Р 2 1 1   3 2 3 1 1 1   3 2 6 Вероятность того, что игроки напишут одинаковые слова, равна 1 1 1 1 1 1   . Вероятность написать разные слова так же равна   . Это 3 6 2 3 6 2 1 значит, что с вероятностью первый выиграет и с такой же вероятностью 2 проиграет. 77 Рассчитаем теперь ожидаемый платеж первого игрока. Для этого умножим его выигрыши на соответствующие вероятности: 1 1 U1  1    1  0 . 2 2 Таким же будет ожидаемый платеж второго игрока: 1 1 U 2   1    1  0 2 2 Определение Смешанная стратегия игрока i с множеством стратегий Si – это k набор вероятностей, то есть чисел ( p1 ,, pk ) , где p1 ,, pk  0 , p j 1 j  1, Si  k . Формально, множество всех ( p1 ,, pk ) , удовлетворяющих этим свойствам, называется симплексом. Определение Пусть N – натуральное число. Тогда симплекс размерности N − 1 есть множество  N 1  N , состоящее из всех ( p1 ,, pN )  N 1 , таких, что N p j  0,  p j  1 . j 1 Получается, что (N − 1)-мерный симплекс описывает все возможные распределения вероятностей на множестве из N элементов. Размерность  N 1 на единицу меньше N из-за ограничения N p j 1 j  1. Так, одномерный симплекс – это отрезок [0, 1]. Если у игрока две стратегии, то первая стратегия выбирается с вероятностью p, а вторая – с вероятностью 1 − p. Двумерный симплекс (у игрока три стратегии. которые он выбирает с вероятностями p1 , p2 , p3 ) – это равносторонний треугольник с длиной стороны 1, в вершинах которого – чистые стратегии. Если Si  {si ,1 ,, si ,k } , то мы будем записывать смешанную стратегию в виде p1[si ,1 ]  pk [si ,k ] . При этом стратегии из Si называются чистыми стратегиями. Предположим, что каждый игрок выбрал смешанную стратегию. Тогда для каждого профиля стратегий ( s1 , s2 ,, sn ) можно определить вероятность реализации данного профиля – для этого надо перемножить соответствующие вероятности (то есть вероятность того, что 1-й игрок выбрал s1 , 2-й игрок выбрал s2 , и так далее). Иными словами, смешанная стратегия – это распределение вероятностей на множестве чистых стратегий. Мы предполагаем, что игрок 78 имеет возможность предоставить выбор чистой стратегии (или действия) воле случая, но при этом контролировать вероятность, с которой реализуется та или иная чистая стратегия. Определение Пусть G  I , S ,U – конечная игра. Назовем  Si 1 – множество N смешанных стратегий игрока i,  Si 1 – множество профилей смешанных i 1 стратегий. Элементы  i  а  i    S j 1 j i N и    Si 1 Si 1 будут называться смешанными стратегиями, – профилями смешанных стратегий. i 1 Соответственно, выигрыш игрока i от набора смешанных стратегий (1 ,  2 ,,  n ) определяется как средний выигрыш, то есть как сумма по всем исходам выигрыша i от этого исхода, умноженную на вероятность этого исхода. К примеру, играют два игрока, у каждого две стратегии: [1] и [2]. Тогда выигрыш 1-го игрока от профиля стратегий  p 1  1  p  2, q 1  1  q  2 равен pqu1 1 , 1  p 1  q  u1 1 , 2  q 1  p  u1 2 , 1   1  q 1  p  u1  2 ,  2 . Функция выигрыша i-го игрока также обозначается через ui. Пусть G  I , S ,U – конечная игра в нормальной форме. Если S конечно, то мы можем заменить S на множество смешанных стратегий игроков, а функцию выигрыша продолжить на смешанные стратегии по правилу, описанному выше. N Получается новая игра Gm  I ,   Si 1 ,U , которая называется i 1 смешанным N U : Si 1  расширением игры G. В данном определении обозначает функцию выигрышей в игре как с чистыми i 1 стратегиями, так и со смешанными стратегиями. В этом нет противоречия, так как чистая стратегия является частным случаем смешанной стратегии. Равновесие по Нэшу в игре Gm называется равновесием в смешанных стратегиях. 79 Существует такой результат, принадлежащий американскому математику Джону Нэшу, одному из основателей теории игр: Теорема Нэша Пусть G – конечная игра. Тогда в игре G существует равновесие в смешанных стратегиях. Эта теорема – один из наиболее важных результатов в современной науке об обществе. Фактически он означает, что равновесие Нэша является универсальным инструментом, который можно использовать для анализа любого игрового взаимодействия с конечным числом игроков и стратегий. Игроку имеет смысл смешивать с ненулевыми коэффициентами несколько своих чистых стратегий только в том случае, если каждая из этих чистых стратегий приносит одинаковый и максимальный платеж в ответ на стратегии остальных игроков. Если какая-то из стратегий игрока в ответ на данные стратегии остальных игроков приносит больший платеж, чем все остальные, тогда выгоднее играть ее в чистом виде, не смешивая с другими. 6.2 Примеры поиска смешанного равновесия Вернемся к игре «Орлянка». Пусть первый игрок смешивает свои стратегии: первую («Орел») играет с вероятностью p, вторую («Решка») – с вероятностью 1 – p: p O  1  p   P . Тогда если второй игрок сыграет стратегию «Орел», то ожидаемый выигрыш второго будет равен: U2  p O  1  p   P , O  p  1  1  p  1  1  2 p . Тогда если второй игрок сыграет стратегию «Решка», то его ожидаемый выигрыш будет равен: U 2  p O  1  p   P ,  P  p 1  1  p  1  2 p  1. Каждая чистая стратегия второго игрока должна приносить ему одинаковый ожидаемый платеж. Иначе ему будет выгодно играть ту чистую стратегию, которая приносит больший платеж. Получаем, что 1 1 2 p  2 p 1  p  . 2 1 1 Заметим, что если первый играет стратегию O   P , то любая 2 2 смешанная стратегия второго приносит ему одинаковый платеж. Это происходит из-за того, что обе чистые стратегии второго приносят ему одинаковый выигрыш в ответ на данную стратегию первого. С какими бы весами второй игрок ни смешивал свои стратегии, его ожидаемый выигрыш не изменится. 80 Пусть теперь стратегия второго игрока такова, что он с вероятностью q пишет слово «Орел», и с вероятностью (1 – q) пишет слово «Решка». Тогда если первый игрок сыграет стратегию «Орел», то ожидаемый выигрыш первого будет равен: U1 O , q O  1  q   P  q 1  1  q  1  2q  1 Если стратегию «Решка»: U1  P , q O  1  q   P  q  1  1  q  1  1  2q Как и в случае со вторым игроком, каждая чистая стратегия первого игрока должна приносить ему одинаковый ожидаемый платеж. Получаем, что 1 1  2q  2q  1  q  . 2 1 1 Аналогичным образом, второй играет стратегию O   P , то 2 2 любая смешанная стратегия первого приносит ему одинаковый платеж. Значит, чтобы первому было выгодно смешивать свои стратегии, 1 1 второй должен играть стратегию O   P , и наоборот. 2 2 В этом случае никому из игроков не выгодно отклониться и сыграть другую стратегию. Таким образом, мы нашли равновесие Нэша в смешанных стратегиях в игре «Орлянка». Убедимся, что что среди профилей, в которых один из игроков играет чистую стратегию, а другой смешивает свои стратегии, нет равновесий Нэша в смешанных стратегиях. Пусть, например, первый играет смешанную стратегию p O  1  p   P , а второй играет чистую стратегию «Орел». Оптимально ли играет первый? Очевидно, что нет, поскольку его ожидаемый платеж U1  p O  1  p   P , O  pU1 (O,O)  1  p  U1 (P,O)  p  1 Первому выгодно отклониться и сыграть чистую стратегию «Орел», тогда его платеж будет равен U1 (O,O)  1 . Аналогично рассуждаем, если первый смешивает стратегии, а второй играет чистую «Решка»: U1  p O  1  p   P ,  P  pU1 (O,P)  1  p  U1 (P,P)  1  p  1 . Первому игроку опять выгодно отклониться и сыграть стратегию «Решка», тогда его платеж будет равен U1 (P,P)  1 . Аналогичным образом можно доказать, что второму также будет не выгодно смешивать свои стратегии при условии, что первый будет играть чистую стратегию. Значит, единственным равновесием Нэша в смешанных стратегиях в этой игре является профиль стратегий 81 1 1 1  1   O   P  ;  O    P   . 2 2 2  2 Теперь попробуем найти равновесие в смешанных стратегиях в данной игре немного по-другому. Пусть первый смешивает стратегии p O  1  p   P и второй смешивает стратегии q O  1  q   P . Найдем ожидаемый выигрыш первого игрока: U1  p O  1  p   P , q O  1  q   P  pqU1 (O,O)  p 1  q  U1 (O,P)   1  p  q  U1 (P,O)  1  p 1  q   U1 (P,P)  pq  1  p 1  q   ( 1)   1  p  q  ( 1)  1  p 1  q  1  2q  1  2 p  2q  1 Промаксимизируем ожидаемый выигрыш первого игрока по p: U1  p O  1  p   P , q O  1  q   P  2q  1  2 p  2q  1  max p Тогда наилучший ответ первого игрока на смешанную стратегию второго будет: 1  p  0, q   2  1  BR1  q O  1  q   P   p  1, q  2  1  0  p  1, q   2 Найдем ожидаемый выигрыш второго игрока: U 2  p O  1  p   P , q O  1  q   P  pqU 2 (O,O)  p 1  q  U 2 (O,P)   1  p  q  U 2 (P,O)  1  p 1  q   U 2 (P,P)  pq  ( 1)  p 1  q   1   1  p  q  1  1  p 1  q   ( 1)  2q 1  2 p   2 p  1 Промаксимизируем ожидаемый выигрыш второго игрока по q: U 2  p O  1  p   P , q O  1  q   P  2q 1  2 p   2 p  1  max q Тогда наилучший ответ первого игрока на смешанную стратегию второго будет: 82 1  q  1, p   2  1  BR2  p O  1  p   P    q  0, p  2  1  0  q  1, p  2 Построим график зависимости p от q для первого и второго игроков (рис. 26): 1 q BR1 0,5 0 1 0,5 p Рисунок 26 – Кривые наилучших ответов игроков на смешанные стратегии другого 1 1 Кривые лучших ответов пересекаются при  p, q    ,  . Ожидаемые 2 2 выигрыши игроков U1  U 2  0 . Игра «Тюремный покер» Играют двое: «четный» игрок (Ч) и «нечетный» игрок (Н). Каждый игрок выбрасывает один или два пальца одновременно с другим. Четный выигрывает, когда суммарное количество пальцев обоих четное. Нечетный выигрывает в противном случае. Выигрыш составляет столько у.е., сколько получилось суммарное количество пальцев. Матрица выигрышей выглядит следующим образом: Н 1 2 1 2;–2 –3;3 Ч 2 –3;3 4;–4 83 Решим эту игру. Очевидно, что равновесий в чистых стратегиях в не нет. Попробуем решить игру в смешанных стратегиях. Пусть оба игрока 1 1 выбирают один или два пальца с равной вероятностью: 1   2 . 2 2 В этом случае средний выигрыш каждого равен нулю, однако, это не является равновесием Нэша. Например, если четный игрок следует данной стратегии, то математическое ожидание выигрыша нечетного игрока равно 1 1 1 1  2    3  0,5 , если он выбрасывает один палец, и  3    4   0,5 , 2 2 2 2 если он выбрасывает два пальца, откуда следует, что нечетный игрок всегда будет выбрасывать один палец. Найдем равновесие. Пусть четный игрок с вероятностью p выбрасывает один палец: его стратегия p 1  1  p  2 . Будем искать такое p, чтобы выигрыш четного игрока не зависел от выбрасываемого им пальца, 7 то есть p  2   1  p   3  p  3  1  p  4  . Отсюда следует, что p  . 12 Для равновесия необходимо, чтобы четный игрок использовал 7 5 стратегию 1   2 . 12 12 Пусть теперь нечетный игрок с вероятностью q выбрасывает один палец, играя стратегию q 1  1  q  2 . При условии, что выигрыш нечетного игрока не зависит от выбрасываемого им пальца, получаем: 7 q  2  1  q  3  q   3  1  q   4 . Отсюда следует, что q  . 12 Получили, что для равновесия необходимо, чтобы и нечетный игрок 7 5 использовал стратегию 1   2 . 12 12 Рассчитаем средние выигрыши четного и нечетного игроков: 5 7 5 7 5 7  7 7 UЧ  1   2 , 1   2     2     3  12 12 12  12 12 12 12  12 7 5 7 7 1     3    4   12 12 12 12 12 5 7 5 7 5  7  7 7 U Н  1   2 , 1   2      2     3  12 12 12  12 12 12 12  12 7 5 7 7 1    3     4   12 12 12 12 12 84 Получили, что средний ожидаемый выигрыш нечетного игрока выше, чем у четного. Данная игра нечестная: нечетный в среднем при правильной 1  1 1 игре выигрывает . Таким образом, выигрыши игроков   ;  . 12  12 12  Игра «Пионеры и водка» В пионерском лагере заканчивается смена, и вечером будет прощальный костер. Группа пионеров-хулиганов достала бутылку водки, и они хотят распить ее во время костра. Есть только четыре места, где они могут это сделать – A, B, C и D. Пионервожатый хочет их поймать, но он занят своими делами у костра и может отлучиться, чтобы их поискать, только в одно место из четырех. Если пионервожатый ловит пионеров, то он получает в награду от администрации лагеря 10 рублей. Однако пойдя в то или иное место, он отвлекается от своих обязанностей у костра и получает штраф за свое отсутствие. Место A – самое ближнее, идти туда занимает мало времени, и за свое отсутствие при проверке места A вожатый получит штраф всего в 2 рубля. Место D – самое дальнее, штраф за отлучку в D составляет для вожатого 8 рублей. Для мест B и C штраф равен 4 и 6 рублей соответственно. Если пионеры не найдены вожатым, то они спокойно распивают бутылку водки, и ничего не получают в итоге: их выигрыш 0 рублей. Если же вожатый их находит, то администрация лагеря штрафует их родителей на 10 рублей. Матрица выигрышей имеет вид: A B Пионеры C D Вожатый A B C D –10; 8 0; –4 0; –6 0; –8 0; –2 –10; 6 0; –6 0; –8 0; –2 0; –4 –10; 4 0; –8 0; –2 0; –4 0; –6 –10; 2 Понятно, что чистых равновесий в данной задаче нет. В данном случае смешанные стратегии представляют собой точки внутри тетраэдра  pA , pB , pC , pD  – для пионеров и  vA , vB , vC , vD  для вожатого – вершины которого соответствуют чистым стратегиям A, B, C или D. Равновесием Нэша в смешанных стратегиях является ситуация, когда пионеры узнали стратегию  v A , vB , vC , vD  вожатого, и при этом им нет стимула менять свои  pA , pB , pC , pD  , и наоборот. Как может выглядеть такое равновесие? Пусть, например, стратегия вожатого такова, что он не ходит в место A  v A  0 , тогда пионеры точно 85 пойдут в A. Но если пионеры точно пойдут в A, то и вожатый туда пойдет – ему будет выгодно сменить свою стратегию и получить +8. Напрашивается вывод о том, что в равновесии все  pA , pB , pC , pD  и  v A , vB , vC , vD  отличны от нуля. В равновесии выигрыш вожатого не должен зависеть от того, в какое место он идет, иначе он будет ходить только туда, куда выгоднее всего. Запишем выигрыш вожатого, если он идет в место A, а пионеры смешивают свои стратегии с вероятностями  pA , pB , pC , pD  : UV [ A], v A [ A]  v A [ B]  v A [C ]  v A [ D]  8 p A   pB  pC  pD   2    8 p A  1  p A  2   10 p A  2 Аналогично запишем выигрыши вожатого, когда он идет в места B, C или D соответственно: UV [ B], vA[ A]  v A[ B]  v A[C ]  v A[ D]  10 pB  4 UV [C ], vA[ A]  v A[ B]  v A[C ]  v A[ D]  10 pC  6 UV [ D], vA[ A]  v A[ B]  v A[C ]  v A[ D]  10 pD  8 Чтобы получить равновесие, все эти выигрыши должны быть равны. Обозначим средний выигрыш вожатого через UV : UV  10 p A  2  UV  10 pB  4  UV  10 pC  6 U  10 p  8  V D Сложив уравнения, получим: 4UV  10  pA  pB  pC  pD   2  4  6  8 . С учетом pA  pB  pC  pD  1 , находим, что UV  2.5 . Заметим, что если вожатый будет просто ходить в место A, то его выигрыш составит не менее –2. Это означает, что рассматриваемая ситуация не является равновесной. Следовательно, придется предположить, что некоторые значения vi равны нулю, либо равновесий нет. Последняя ситуация невозможна по теореме Нэша: в любой конечной игре есть смешанное равновесие. Значит, реализуется первый вариант. Из равенства нулю некоторых vi следует, что выигрыш пионеров равен нулю, так как они всегда могут пойти туда, куда пионервожатый заведомо не пойдет. Получается, что структура равновесия такова: есть места, куда пионеры не ходят (пусть это будет место A), а в другие места они ходят с такими вероятностями, что вожатому выгоднее пойти туда, где их заведомо нет. Таким образом, v A  1, vB  vC  vD  0 . 86 У пионеров p A  0. Остальные стратегии они смешивают на основании условия, чтобы вожатый не получил больше, чем –2: 10 pB  4  2  pB  0.2   10 pC  6  2   pC  0.4 10 p  8  2  p  0.6   D D Остается условие, что pB  pC  pD  1. Данная система имеет решения. Например, pB  0; pC  0.4; pD  0.6 . Получаем, что решения пионеров о смешивании трех стратегий лежат в треугольнике с вершинами  pB , pC , pD  , при этом необходимо соблюсти ограничения, заданные системой неравенств (рис. 27): pC ≤ 0.4 pD ≤ 0.6 Рисунок 27 – Треугольник смешанных стратегий пионеров Вершина маленького треугольника, лежащая на стороне  pC , pD  – это стратегия pB  0; pC  0.4; pD  0.6 . Итак, равновесие в данной задаче – это континуум: у вожатого всегда только одна стратегия – искать в месте A: v A  1, vB  vC  vD  0 , где пионеров он не находит никогда, и его выигрыш составляет UV  2 . Пионеры, в свою очередь, никогда не прячутся в месте A: p A  0. У них существует треугольник равновесий, в котором они с весами pB  0.2, pC  0.4, pD  0.6 распределяют шансы прятаться в B, C или D. Данная задача исключительно жизненная: очень часто бывает так, что проверяющие проводят проверку там, где она ничего не даст. 87 6.3 Смешанное равновесие в антагонистических играх 2M и N2 В антагонистических играх с матрицей размерности 2M или N2 решение в смешанных стратегиях можно получить с помощью графического представления. Пример 1. Рассмотрим антагонистическую игру, заданную матрицей: a b c d x 1 7 0 6 y z t 4 9 5 1 –4 2 3 8 4 0 –6 1 Исключим строго доминируемые стратегии. Для первого игрока a с , поэтому исключаем стратегию c; b d , поэтому исключаем стратегию d. Для второго игрока y t , поэтому исключаем стратегию t. Получили матрицу 23: x y z a 1 4 9 b 7 1 –4 Найдем нижнюю и верхнюю цену игры:   max min uij  max 1,1  1. i j j i i   min max uij  min 7, 4,9  4 . j    , следовательно, равновесия в чистых стратегиях нет, но по теореме Нэша должно быть равновесие в смешанных стратегиях. Найдем его. Пусть первый игрок смешивает свои стратегии с вероятностями p и 1 – p, а второй играет чистые. Найдем выигрыши первого игрока при всех чистых стратегиях второго: U1  p[a ]  (1  p)[b];[ x]  p 1  (1  p)  7 U1  p[a ]  (1  p)[b];[ y ]  p  4  (1  p) 1 U1  p[a ]  (1  p)[b];[ z ]  p  9  (1  p)   4  Построим выигрыши первого игрока в зависимости от p (рис. 28): 88 Рисунок 28 – Графическое представление выигрышей первого игрока в зависимости от выбора стратегий вторым Минимизация приведёт на нижнюю ломаную (отмечена на рисунке жирной линией). Это и есть процедура поиска самого худшего варианта. Если второй игрок узнает p, то первый будет получать меньше всего. Последующая максимизация приводит в верхнюю точку – точку пересечения U1  p[a ]  (1  p)[b];[ x] и U1  p[a ]  (1  p)[b];[ y ] . Таким образом, получили, что: 2 p  1  (1  p)  7  p  4  (1  p) 1  p  3 Первый игрок смешивает свои стратегии следующим образом 2 1 [a ]  [b]  0[c]  0[d ] , получая при этом средний ожидаемый выигрыш 3 3 2 1   1   7  3 . 3 3 Теперь найдем смешанную стратегию второго игрока. В формировании равновесия участвуют только две стратегии второго игрока: x и y. Вероятность выбрать стратегию z равна нулю. Тогда обозначим как q – вероятность вторым игроком выбрать стратегию x, 1 – q – вероятность выбрать стратегию y. U 2 [a ]; q[ x ]  (1  q)[ y ]  U 2 [b]; q[ x ]  (1  q)[ y ] q  1  (1  q)  4  q  7  (1  q)  1  3  q  89 1 3 Отсюда следует, что первый смешивает свою стратегии с 2 1 вероятностями [a ]  [b]  0[c]  0[d ] , а второй – с вероятностями 3 3 1 2 [ x ]  [ y ]  0[ z ]  0[t ] . 3 3 Пример 2. Рассмотрим антагонистическую игру, заданную матрицей: a b c d x y z t –9 4 –8 6 –1 –7 0 –6 –4 –1 –3 0 –5 –2 –4 –1 Исключим строго доминируемые стратегии. x z, y поэтому исключаем стратегии d, z, t. Получим матрицу 32: t, c d, x y a –9 4 b –1 –7 c –4 –1   max min uij  max 9, 7, 4  4 . j i i   min max uij  min 1, 4  1 . j i j    , следовательно, равновесия в чистых стратегиях нет, но по теореме Нэша есть равновесие в смешанных стратегиях. Пусть второй игрок смешивает свои стратегии с вероятностями q и 1 – q, а первый играет чистые. Найдем выигрыши первого игрока при всех чистых стратегиях второго: U2 [a ]; q[ x]  (1  q)[ y ]  q  ( 9)  (1  q)  4 U2 [b]; q[ x]  (1  q)[ y ]  q  ( 1)  (1  q)  ( 7) U2 [c]; q[ x]  (1  q)[ y ]  q  ( 4)  (1  q)  ( 1) Построим выигрыши второго игрока в зависимости от q (рис. 29). Максимизация приведёт на верхнюю ломаную. Это поиск лучшего варианта. Последующая минимизация приводит в нижнюю точку – точку пересечения U2 [b]; q[ x]  (1  q)[ y ] и U2 [c]; q[ x]  (1  q)[ y ] . 2 q  ( 1)  (1  q)  ( 7)  q  ( 4)  (1  q)  ( 1)  q  3 2 1    ( 1)   ( 7)  3 . 3 3 90 Рисунок 29 – Графическое представление выигрышей второго игрока в зависимости от выбора стратегий первым Теперь найдем смешанную стратегию первого игрока. В формировании равновесия участвуют только две стратегии второго игрока: b и c. Вероятность выбрать стратегию a равна нулю. Тогда обозначим как p – вероятность первым игроком выбрать стратегию b, 1 – p – вероятность выбрать стратегию c. U1  p[b]  (1  p )[c];[ x ]  U1  p[b]  (1  p)[c];[ y ] ; 1 p  ( 1)  (1  p )  ( 4)  3  p  . 3 Отсюда следует, что первый смешивает свою стратегии с 1 2 вероятностями 0[a ]  [b]  [c]  0[d ] , а второй – с вероятностями 3 3 2 1 [ x ]  [ y ]  0[ z ]  0[t ] . 3 3 Тестовые задания к разделу 6 1. Рассмотрим игру «Битва полов». И у мужа, и у жены ровно две чистые стратегии – пойти на футбол или на балет. Матрица платежей игроков, в которой строки – стратегии мужа, а столбцы – стратегии жены, выглядит следующим образом: Ф Б Ф 5;4 0;2 91 Б 2;0 4;5 Какой ожидаемый платеж получит муж, если сыграет смешанную 1 3 стратегию [Ф]+ [Б], а жена в ответ на эту стратегию мужа сыграет 4 4 1 1 смешанную стратегию [Ф] + [Б]? 2 2 2. Рассмотрим игру «Встреча в Москве». У каждого из двух игроков есть две стратегии – пойти на Арбат или на Театральную площадь. Матрица платежей выглядит следующим образом: А Т А 1;1 0;0 Т 0;0 1;1 Пусть первый игрок решил сыграть смешанную стратегию 1 3 [ А]  [Т ] . Упорядочите по убыванию ожидаемого платежа второго 4 4 игрока следующие стратегии второго игрока: 1 5 1) [ А]  [Т ] 6 6 1 2 2) [ А]  [Т ] 3 3 3) 0  [ А]  1 [Т ] 2 1 4) [ А]  [Т ] 3 3 5) 1 [ А]  0  [Т ] В ответе запишите последовательность из номеров стратегий. 3. Найдите равновесие в смешанных стратегиях, не являющееся равновесием Нэша в чистых стратегиях, в следующей игре: s1 s2 t1 0;1 3;2 t2 2;3 1;0 4. Две фирмы одновременно и независимо выбирают, какой уровень цен установить, – высокий или низкий. Матрица платежей выглядит следующим образом: Высокие Низкие Высокие 100;100 a;70 Низкие 70;a 50;50 92 При каком a равновесием Нэша в смешанных стратегиях является профиль стратегий (0,25⋅[Высокие] + 0,75⋅[Низкие]; 0,25⋅[Высокие] + 0,75⋅[Низкие])? 5. В следующей игре найдите равновесие Нэша в смешанных стратегиях, не являющееся равновесием Нэша в чистых стратегиях: s1 s2 s3 t1 9;10 4;9 7;8 t2 6;7 12;5 8;2 t3 7;8 6;6 9;10 В ответ запишите ожидаемый платеж первого игрока в этом равновесии Нэша в смешанных стратегиях. 6. Рассмотрим игру «Камень-ножницы-бумага»: Камень Ножницы Бумага Камень 0;0 1;−1 −1;1 Ножницы −1;1 0;0 1;−1 Бумага 1;−1 −1;1 0;0 Сколько в этой игре равновесий Нэша в чистых стратегиях? а. 0 б. 1 в. 2 г. 3 7. Пусть в игре «Камень-ножницы-бумага» второй игрок решил играть смешанную стратегию p1 [К] + p2 [Н] + (1 − p1− p2) [Б]. Каков ожидаемый выигрыш первого игрока, если он решил сыграть чистую стратегию «Ножницы»? а. 2p2 + p1−1 б. p2 + p1−1 в. 1 − 2p1 − p2 г. 1 − p1 8. Найдите равновесие Нэша в смешанных стратегиях в игре «Каменьножницы-бумага». 1 1 1 1 1 2  а.    К     Н     Б  ;   К     Н     Б   6 6 3 3 3 3  1 1 1 1 1 1  б.    К     Н     Б  ;   К     Н     Б   3 3 3 3 3 3  1 1 1   в.  0   К   0   Н   1  Б  ;   К     Н     Б   3 3 3   93 г. 0   К   0   Н   1  Б ;1  К   0   Н   0   Б  1 1 1 1 1 1  д.    К     Н     Б  ;   К     Н     Б   4 4 2 4 4 2  Раздел 7. Коалиционные игры Рассмотрим игру «Сороконожка». Правительство некоторого государства хочет оказать финансовую помощь одному из двух крупнейших университетов страны. Чтобы определить, какому университету и в каком объеме достанется финансовая помощь, двум ректорам предлагается сыграть в игру. Сначала правительство предлагает первому ректору 1 $. Если первый ректор соглашается, то игра заканчивается. Первый университет получает 1 $, а второй – ничего. Если первый ректор отказывается, то правительство предлагает второму ректору 10 $. Если второй ректор соглашается, то игра заканчивается. Второй университет получает 10 $, а первый ничего. Так продолжается до тех пор, пока правительство не предложит 100 000 000 $. Если первый ректор откажется от этой суммы, то на этом всё закончится и ни один университет ничего не получит. Дерево игры выглядит следующим образом (рис. 30): Рисунок 30 – Дерево игры «Сороконожка» Применяя метод обратной индукции, получим, что на каждой подыгре ректор, которому принадлежит ход, должен соглашаться на предложение. Тогда в SPNE первый ректор на первом же ходе согласится на 1 $. Однако, сговорившись, ректоры могли бы отказываться от предложений до последнего хода, согласиться лишь на 100 000 000 $ и поделить их пополам. Каждый из них получил бы существенно больше, чем в SPNE. Однако в некооперативных играх, которые рассматривались до сих пор, возможность сговора не допускается. В кооперативных (коалиционных) играх игроки могут объединяться в группы (коалиции) и заключать связывающие соглашения. В некооперативных играх каждый игрок принимает решение самостоятельно, и соглашения не являются связывающими. Пусть N – множество всех игроков, а n – их количество. Определение Коалиция – любое подмножество множества всех игроков. 94 Определение Большая коалиция – множество всех игроков. Например, пусть N = {Саша, Вова, Петя}. Выпишем все возможные коалиции: {  } { Саша } { Вова, Саша } { Саша, Петя } { Вова } { Петя } { Вова, Петя } { Вова, Саша, Петя } Коалиция {Саша, Вова, Петя} – это большая коалиция. Определение Коалиционная игра в характеристической форме – это: 1. Множество игроков N  1, , n, n  2 . 2. Характеристическая функция v, сопоставляющая каждой коалиции K  N сумму денег, которую эта коалиция может заработать самостоятельно (выигрыш). Характеристическая функция может принимать отрицательные значения (например, при дележе расходов). Будем считать, что пустая коалиция (куда никто не входит), не может заработать денег и никому ничего не должна, т.е. v()  0 . Игра «Ботинки» Пара ботинок (левый плюс правый) стоит 600 рублей. Один ботинок без пары не стоит ничего. У Лени есть левый ботинок, у Левы – еще один такой же левый, а у Паши – правый. Здесь N = {Леня, Лева, Паша}, v (Леня) = v (Лева) = v (Паша) = 0 (в одиночку никто не может получить 600 рублей); v (Леня, Лева) = 0 (у них нет правого); для любой другой коалиции 𝑆, v(K) = 600, т.к. есть и правый и левый ботинки. Получили коалиционную игру в характеристической форме: N = {Леня, Лева, Паша} 0, если K  1  K  Леня, Лева  K  ; v( K )   600, иначе. Часто предполагается, что характеристическая функция v обладает свойством супераддитивности. Определение Игра называется супераддитивной, если для любых K T   непересекающихся коалиций верно неравенство v  K  T  v  K   v T  . То есть объединившись, две непересекающиеся коалиции получат выигрыш, не меньший, чем сумма выигрышей коалиций, действующих по отдельности. Далее будут рассматриваться супераддитивные игры. В супераддитивных играх игроки заинтересованы в формировании большой коалиции – она будет получать наибольший выигрыш. 95 Чтобы решить игру, нужно понять, как поделить ее выигрыш, v(N), между игроками. Распределение выигрыша между игроками будем представлять в виде вектора выигрышей (дележа). Определение Вектором выигрышей или дележом называется вектор x   x1 , , xn  , удовлетворяющий условию x1  x2   xn  v( N ) , где x1 – выигрыш, который получает первый игрок, …, xn – выигрыш, который получает игрок n. Сумма выигрышей игроков не превышает выигрыш большой коалиции. Решением коалиционной игры будем называть некоторое множество дележей игроков. Это множество будет иметь разный вид в зависимости от того, какая концепция решения была выбрана. Рассмотрим две концепции решения: ядро и вектор Шепли. 7.1 Ядро Рассмотрим коалиционную игру с характеристической функцией v. Предположим, что игроки ведут себя кооперативно и формируется большая коалиция. Игроки получают выигрыши x   x1 , , xn  . Вектор выигрышей x   x1 , , xn  обладает следующими свойствами: 1. Эффективность (Парето-оптимальность) – это отсутствие потерь: весь выигрыш большой коалиции должен быть распределен между игроками. x1  x2   xn  v( N ) . Т.е. сумма выигрышей игроков равна выигрышу большой коалиции. 2. Коалиционная рациональность (условие отсутствия сепаратистских тенденций) – не должно найтись такой коалиции, которая захотела бы покинуть большую коалицию. Допустим какой-нибудь коалиции K при дележе достается меньше, чем та сумма, которую она может заработать самостоятельно. В таком случае игроки, входящие в K, не захотят участвовать в большой коалиции, отсоединятся и получат больше. Отсоединившись, коалиция K получает v(K); а соглашаясь на дележ – получает  x . Отсюда возникает требование: xiK i K  N  x  v( K ) . xiK i Т.е. для любой коалиции K игроки, входящие в коалицию K, при текущем распределении в сумме получают не меньше того выигрыша, который коалиция K сможет получить, если решит отделиться. 96 Определение Ядро C(v) (англ. core) – это множество векторов платежей, обладающих свойствами: 1. Эффективности. 2. Коалиционной рациональности. В рамках этой концепции акцент делается на стабильности решения. Найдем ядро в игре «Ботинки». Пусть x1 – выигрыш Лени, x2 – выигрыш Левы, x3 – выигрыш Паши. По условию эффективности x1  x2  x3  600 . По условию коалиционной рациональности Отсюда x1  x3  600, x2  x3  600 . x1  x2  0, x3  600 . Обладатель редкого ресурса получает все. Игра «Носки» Левые и правые носки ничем не отличаются. Пара носков стоит 60 рублей. Один носок ничего не стоит. У Андрея – три носка, у Бориса – пять носков. Здесь N = {Андрей, Борис}, v{Андрей} = 60, v{Борис} = 120, v{Андрей, Борис} = 240. Пусть x1 – выигрыш Андрея, x2 – выигрыш Бориса. По условию эффективности x1  x2  240 . По условию коалиционной рациональности x1  60, x2  120 . Отсюда решение – это любой дележ вида  x1; 240  x1  , где x1 60,120 . Игра «Блины» Боря и Витя продают блины на улице. Витя умеет печь блины, а Боря – готовить начинку. За день Боря в одиночку ничего не может заработать, Витя может заработать 200 $, а вдвоем они могут заработать 300 $. При каком распределении выручки они согласятся работать вместе? N = {Боря, Витя}. Все возможные коалиции:  ; {Боря}; {Витя}; {Боря, Витя}. Для каждой возможной коалиции укажем ее платеж: v     v Боря  0 v Витя  200 v Боря, Витя  300 Пусть x1 – выигрыш Бори, x2 – выигрыш Вити. Тогда:  x1  0   x2  200  x  x  300  1 2 Тогда ядром будет: C (v)   x1 , 300  x1  | x1 0;100 97 Изобразим ядро на графике (рис. 31): Рисунок 31 – Ядро игры «Блины» Недостатки ядра. Во-первых, ядро бывает пустым. Оно бывает пустым из-за того, что условие полного отсутствия сепаратистских тенденций слишком сильное. Игра «Пицца» Боря, Витя и Галя решают, как им поделить заказанную пиццу. Коалиция, состоящая из большинства игроков, может завладеть целой пиццей и поделить ее между входящими в нее игроками. Какой дележ целой пиццы устроил бы всех? N = {Боря, Витя, Галя}. Платежи коалиций: 1, если K  2; v( K )   0, иначе. Ядро этой игры задается системой: i xi  0 x  x  1  1 2  x1  x3  1 x  x  1  2 3  x1  x2  x3  1 3 Из неравенств следует, что x1  x2  x3  , а условие эффективности 2 говорит, что x1  x2  x3  1 . Получили противоречие. Отсюда C  v    : ядро пусто – большая коалиция не будет стабильной. 98 Во-вторых, ядро бывает не единственным. Эти две проблемы исправляет другая концепция – вектор Шепли (Shapley value). Он всегда существует и всегда единственный. 7.2 Вектор Шепли Рассмотрим коалиционную игру с характеристической функцией v. Предположим, что игроки ведут себя кооперативно и формируется большая коалиция. Игроки получают выигрыши 1 ,2 , ,n  . Вектор выигрышей 1 ,2 , ,n  обладает следующими свойствами: 1. Эффективность – весь выигрыш большой коалиции должен быть распределен между игроками. 1  2   n  v( N ) . 2. Симметричность – игроки, которые вносят одинаковый вклад, должны получить одинаковые выигрыши. Симметричными будем называть игроков i и j, таких, что v  K  i  v  K   j K  N \ i, j . При присоединении к любой коалиции, в которой нет ни i, ни j, симметричные игроки вносят одинаковый вклад. Свойство симметричности: если игроки i и j – симметричные, то i  v    j  v  . 3. Аксиома болвана – бесполезные игроки не должны ничего получить. Определение Болваном будем называть игрока i, такого, что v  K  i  v  K  K  N \ i Болваны не вносят никакого вклада ни в одну из коалиций. Аксиома болвана: если игрок i – болван, то i  v   0 . 4. Линейность – выигрыш игрока в сумме игр должен равняться сумме его выигрышей в каждой из игр. Для любых двух игр с характеристическими функциями v и w i  v  w  i  v   i  w i  N . 99 Теорема Существует единственный вектор выигрышей игроков, который удовлетворяет свойствам эффективности, симметричности, линейности и аксиоме болвана. Этот вектор получил название вектора Шепли. В рамках этой концепции акцент делается на справедливости решения. Допустим, игроки занумерованы в некотором порядке, то есть формируют некую последовательность чисел от 1 до n, например, {1, 3, 2, 4, 5}. Будем формировать большую коалицию добавляя игроков по одному в указанном порядке. Когда мы добавляем i-го игрока у нас уже сформирована некоторая коалиция K \{i} . Присоединяясь к этой коалиции K \{i} , игрок i увеличивает достижимый выигрыш на v( K )  v( K \{i}) . Назовем эту прибавку вкладом i-го игрока в большую коалицию. Конечно же, вклад i-го игрока в большую коалицию зависит от порядка формирования большой коалиции. Например, в игре «Ботинки». Если формировать большую коалицию в порядке Леня, Лева, Паша, то вклад Левы равен нулю. Если формировать большую коалицию в порядке Паша, Лева, Леня, то вклад Левы равен 600 рублей. Если же формировать большую коалицию добавляя игроков по одному в случайном порядке, то прибавка, вносимая i-м игроком, будет случайной величиной. Вектор Шепли – это вектор 1 ,2 , ,n  , где выигрыш i -го игрока  i определяется по принципу: i  v   M v( K )  v( K \{i}) , где M[] – оператор математического ожидания. Определение Вектор Шепли – это математическое ожидание вклада каждого игрока, если большая коалиция формируется в случайном порядке. Из определения также ясно, что вектор Шепли всегда (по крайней мере при конечном числе игроков) существует и всегда единственный. Приведем формулу для расчета вектора Шепли 1 ,2 , ,n  i  v    K i  k  1! n  k ! n!  v( K )  v( K \{i})  , k K. Приведем интерпретацию этой формулы. Число способов сформировать большую коалицию – это число перестановок n элементов, равное n! 100 Пример. Если n = 3, то большая коалиция может cформироваться – 3! = 6 – шестью способами: 123 213 312 132 231 321 Вклад игрока i, который i вносит при присоединении, равна v( K )  v( K \{i}) . Количество случаев, когда i-й игрок присоединяется к коалиции K \{i} , определяется как  k  1! n  k ! . Действительно, оно равно количеству последовательностей, в которых до присоединения i собирается коалиция K \{i} , а i присоединяется k-м. Число перестановок в коалиции K \{i} равно  K  1!   k  1! , а число перестановок оставшихся игроков после присоединения i-го равно  n  k ! . Суммирование идет по всем коалициям K, в которые входит i. Компонента i  v  вектора Шепли покажет вклад игрока i, усредненный по всем возможным способам формирования большой коалиции. Найдем вектор Шепли в игре «Блины». N = {Боря, Витя}, n = 2. v    v Боря  0, v Витя  200, v Боря, Витя  300 . Боря входит в две коалиции: {Боря}, k = 1, и {Боря, Витя}, k = 2.  Боря  v   1  1! 2  1! 2!  0  0   2  1! 2  2 ! 2!  300  200  0  1  100  50 2 Витя входит в две коалиции: {Витя}, k = 1, и {Боря, Витя}, k = 2.  Витя  v   1  1! 2  1! 2!  200  0   2  1! 2  2 ! 2!  300  0  1 1   200   300  250 2 2 Те же расчеты можно представить в виде следующей таблицы: Вклад Бори Вклад Вити 0 300 БоряВитя 100 200 Витя  Боря Общий вклад игрока 100 500 Компонента вектора Шепли 50 250 101 Вектор Шепли этой игры:  (v)  50; 250 , и он единственный. Вспомним, что ядро этой игры C (v)   x1 , 300  x1  | x1 0;100. Значит, вектор Шепли лежит в ядре. Найдем вектор Шепли в игре «Пицца». N = {Боря, Витя, Галя}, n = 3. 1, если K  2; v( K )   0, иначе. Боря входит в четыре коалиции: {Боря}, {Боря, Витя}, {Боря, Галя}, {Боря, Витя, Галя}.  Боря  v    1  1! 3  1!  2  1! 3  2 ! 3! 3! 0  0  1  0    2  1! 3  2 !  3  1! 3  3! 3! 3! 1  1  1  0   1 3 Аналогично рассчитываются компоненты вектора Шепли для Вити и Гали. В этой игре, однако, можно было с самого начала заметить, что Боря, Витя и Галя – симметричные игроки. Тогда, в силу свойств симметричности и эффективности, они должны разделить целую пиццу на три равные части. 1 1 1  3 3 3 Вектор Шепли этой игры:  (v )   , ,  , и он единственный. Вспомним, что ядро этой игры пусть. Значит, вектор Шепли не лежит в ядре. Тестовые задания к разделу 7 1. Пусть множество игроков N = {Миша, Надя, Петя}. Чему равно число всех возможных коалиций? а. 5 б. 6 в. 7 г. 8 2. Даше, Лене, Косте и Максиму задали домашнее задание по теории игр. Всего в домашнем задании 8 номеров. Если каждый из ребят будет решать домашнее задание в одиночку, то каждый из них сможет решить только 2 номера. Если двое из них решат объединить усилия и будут решать задания вместе, то вдвоем они смогут решить 5 заданий. Коалиция из трех человек также сможет решить лишь 5 заданий, а вот коалиция из четырех человек сможет решить все задания. Запишите характеристическую функцию этой игры. 3. На рынке некоторого товара присутствуют три фирмы: X, Y и Z. Менеджеры трех фирм думают о том, чтобы сговориться и поднять цену на 102 товар. Если договориться смогут только фирмы X и Y, а фирма Z откажется повышать цену на товар, то общий выигрыш коалиции, состоящей из фирм X и Y, составит 4. Если договориться смогут только фирмы X и Z, а фирма Y откажется повышать цену на товар, то общий выигрыш коалиции, состоящей из фирм X и Z, составит 3. Если договориться смогут только фирмы Y и Z, а фирма X откажется повышать цену на товар, то общий выигрыш коалиции, состоящей из фирм Y и Z, составит 3. Если все три фирмы придут к соглашению, то коалиция из трех фирм сможет получить выигрыш, равный 6. Все коалиции, состоящие только из одной фирмы, получают выигрыш 0. Укажите среди нижеперечисленных распределений выигрышей (xX,xY,xZ) те распределения, которые обладают свойством эффективности, но не обладают свойством коалиционной рациональности. а. (1, 3, 2) б. (4, 0, 2) в. (1, 3, 1) г. (1, 4, 1) д. (3, 0, 3) 4. В некоторой стране скоро пройдут выборы в государственную думу. На данный момент у власти находится партия Е, а оппозиция представлена тремя партиями: К, Л и Я. Всего в государственной думе 100 мест. В стране действует пропорциональная избирательная система. Иными словами, места в государственной думе распределяются пропорционально количеству голосов, полученных партиями (или коалициями). Оппозиционные партии могут объединиться в одну большую коалицию, которая сможет получить на выборах 70 % всех голосов и, соответственно, 70 мест в думе. Если партия Я решит не объединяться в коалицию с партиями К и Л, то сможет получить лишь 10 % голосов на выборах и 10 мест в государственной думе. Коалиция, состоящая только из партии К, сможет получить 30 % голосов и 30 мест в думе. Партия Л в одиночку сможет получить 15 % голосов. Коалиция, состоящая из партий Я и К, сможет получить 45 % голосов, в то время как коалиция, состоящая из партий К и Л также получит 45 % всех голосов. Коалиция партий Я и Л получит 30 % голосов. Какие из следующих распределений мест в государственной думе (xК, xЛ, xЯ) между партиями К, Л и Я лежат в ядре? а. (30, 25, 15) б. (25, 25, 20) в. (35, 15, 15) г. (35, 20, 15) 5. Найдите вектор Шепли в игре «Ботинки». 6. Найдите вектор Шепли в игре «Носки. 7. Вася, Петя и Миша услышали от своего друга Коли о существовании так называемого Поля Чудес, известного своими волшебными свойствами. Говорят, что если зарыть на этом поле x рублей, 103 то через месяц можно получить обратно x2 рублей. Посчитав мелочь в карманах, ребята обнаружили, что у Васи есть 3 рубля, у Пети есть 4 рубля, а у Миши есть 5 рублей. Формализуйте данную ситуацию в виде коалиционной игры и найдите платеж Миши в векторе Шепли, если платежом коалиции в данной игре считается ее доход. Иными словами, v  K   xK2 , где xK – количество монет, которое данная коалиция зарыла на поле. 104 Задания для контрольных работ Контрольная работа № 1 Задача №1. Рассмотрим указанную матрицу игры (см. индивидуальные исходные данные в табл. 1). Существуют ли у какого–либо из игроков а. строго доминирующие стратегии б. слабо доминирующие стратегии в. строго доминируемые стратегии г. слабо доминируемые стратегии Если да, то укажите их. Существует ли в приведенной игре д. равновесие в строго доминирующих стратегиях е. равновесие в слабо доминирующих стратегиях ж. равновесие, получаемое исключением строго доминируемых стратегий з. равновесие, получаемое исключением слабо доминируемых стратегий и. равновесие Нэша Если да, то укажите их. Таблица 1 Исходные данные для задачи №1 № варианта 1 2 3 4 5 6 105 № варианта 7 8 9 10 11 12 13 14 15 16 17 18 19 20 106 № варианта 21 22 23 24 Задача №2. В городе M намечаются выборы мэра. Ожидается, что на пост будут претендовать три сильных кандидата: A, B, C. Выборы проходят в один тур и побеждает тот кандидат, который набрал больше всего голосов. Выбранный мэр города будет решать, в какой точке центрального проспекта (отрезок [0; 1]) построить музей. Жители города живут равномерно вдоль центрального проспекта. Каждый житель хочет, чтобы музей был построен как можно ближе к его дому. Если избирателю все равно, за кого голосовать, он делает выбор с помощью честной лотереи. Каждый кандидат выбирает свою позицию на отрезке [0; 1], стараясь максимизировать вероятность победы на выборах. Если есть несколько победителей, набравших одинаковое число голосов, они разыгрывают кресло мэра с помощью честной лотереи. Обозначим стратегии кандидатов A, B и C через a, b и c соответственно. В своих предвыборных интервью кандидаты сделали следующие обещания: см. индивидуальные значения a, b, c в табл. 2 (в первом и третьем столбцах указан номер варианта). Имеет ли смысл комунибудь из кандидатов менять свою позицию? Таблица 2 Исходные данные для задачи №2 № варианта 1 3 5 7 9 11 13 15 17 Индивидуальные значения a = 0.09, b = 0.2, c = 0.8 a = 0.07, b = 0.21, c = 0.79 a = 0.26, b = 0.33, c = 0.67 a = 0.15, b = 0.4, c = 0.6 a = 0.14, b = 0.3, c = 0.7 a = 0.11, b = 0.37, c = 0.63 a = 0.11, b = 0.34, c = 0.66 a = 0.15, b = 0.24, c = 0.76 a = 0.23, b = 0.31, c = 0.69 № варианта 2 4 6 8 10 12 14 16 18 107 Индивидуальные значения a = 0.11, b = 0.25, c = 0.75 a = 0.11, b = 0.28, c = 0.72 a = 0.37, b = 0.44, c = 0.56 a = 0.07, b = 0.23, c = 0.77 a = 0.11, b = 0.41, c = 0.59 a = 0.09, b = 0.25, c = 0.75 a = 0.22, b = 0.3, c = 0.7 a = 0.1, b = 0.38, c = 0.62 a = 0.26, b = 0.36, c = 0.64 № варианта 19 21 23 Индивидуальные значения a = 0.14, b = 0.27, c = 0.73 a = 0.09, b = 0.2, c = 0.8 a = 0.07, b = 0.37, c = 0.63 № варианта 20 22 24 Индивидуальные значения a = 0.27, b = 0.37, c = 0.63 a = 0.12, b = 0.23, c = 0.77 a = 0.2, b = 0.43, c = 0.57 Контрольная работа № 2 Задача №1. Рассмотрим игру в развернутой форме (см. индивидуальные исходные данные в табл. 3). Назовите ходы каждого игрока строчными латинскими буквами, чтобы удобнее было указывать стратегии. а. Укажите множество возможных стратегий каждого игрока б. Укажите все подыгры данной игры в. Запишите эту игру в нормальной форме г. Найдите все равновесия Нэша при различных значениях параметра x. д. Найдите все равновесия Нэша, совершенные на подыграх, при различных значениях параметра x. Таблица 3 Исходные данные для задачи №1 № варианта 1 2 3 4 108 № варианта 5 6 7 8 9 10 11 12 109 № варианта 13 14 15 16 17 18 19 20 110 № варианта 21 22 23 24 Задача №2. Найти оптимальные смешанные стратегии для обоих игроков и определить цену игры с нулевой суммой (см. индивидуальные исходные данные в табл. 4). Представить графическое решение задачи. Игры заданы матрицами: 1) Игра 2x2 n  m  6 C  m  n   m 2) Игра 2xn m  n n  1 m  3 0 C    m  4 n 1 n 1 n  3) Игра mx2  n 1 n  3 n  m 0   C   n n  2   n  n  m 111 Таблица 4 Исходные данные для задачи №2 № варианта 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 m n 2 4 4 1 6 3 7 1 2 6 1 3 5 2 7 2 6 3 1 5 2 1 6 4 2 1 3 5 4 2 3 4 5 1 1 3 2 4 5 2 3 3 4 2 3 3 2 2 112 Заключение Учебное пособие разработано в соответствии с требованиями государственного стандарта по курсу «Теория игр». Оно предназначено, в первую очередь, для студентов бакалавриата «Экономика». Пособие может быть использовано в качестве материала и для практических занятий, поскольку включает около 60 задач, так и для самостоятельного знакомства с основами теории игр. В учебном пособии рассмотрены наиболее общие вопросы теории игр, даны основные понятия теории некооперативных и, частично, теории кооперативных игр. В учебное пособие не вошли многие концепции решения коалиционных игр (помимо ядра и вектора Шепли), а также байесовы игры и игры с неполной информацией, основы теории дизайна механизмов и теории аукционов. Таким образом, курс «Теория игр» включает базовый набор примеров, которыми должен владеть экономист-теоретик: например, политические равновесия, решения в модели Курно, и др. В ходе изучения данного курса студенты получают необходимый минимум знаний по основам теории игр. 113 Библиографический список Основная литература: 1. Дагаев, Д.А. Курс лекций по теории игр (Game Theory). НИУ ВШЭ [Электронный ресурс] / Д.А. Дагаев // Coursera – Free Online Courses From Top Universities. – Режим доступа: https://www.coursera.org/course/gt (дата обращения: 01.03.2016) 2. Дагаев, Д.А., и др. Лекции по теории игр НИУ ВШЭ [Электронный ресурс] / Д.А. Дагаев, А.В. Михайлович, К.И. Сонин, И.А. Хованская, И.В. Щуров // math-info.hse.ru: учебный портал НИУ ВШЭ. – Режим доступа: http://mathinfo.hse.ru/2011–12/Теория_игр (дата обращения: 05.03.2016) 3. Данилов, В.И. Лекции по теории игр. Препринт РЭШ /КЛ/2002/001. [Электронный ресурс] / В.И. Данилов. – М.: Российская экономическая школа, 2002. – 140 с. – Режим доступа: http://www.nes.ru/dataupload/files/programs/econ/preprints/2002/GameTheory.pdf (дата обращения: 25.12.2015) 4. Демешев, Б.Б. Кооперативная теория игр. Азбука. [Электронный ресурс] / Б.Б. Демешев. – М.: Препринт НИУ ВШЭ, 2011. – 37 с. – Режим доступа: https://github.com/bdemeshev/gt201/raw/master/games_pset/new_ game_ps_utf8.pdf (дата обращения: 20.03.2016) 5. Дуплякин, В.М. Теория игр: учеб. пособие [Текст] / В.М. Дуплякин. – Самара: Изд-во Самар. гос. аэрокосм. ун-та, 2011. – 191 с. 6. Захаров, А. В. Теория игр в общественных науках [Текст]: учебник для вузов / А.В. Захаров. – М.: Изд. дом Высшей школы экономики, 2015. – (Учебники Высшей школы экономики). – 304 с. Дополнительная литература: 7. Демешев, Б.Б. Задачник для тигров [Электронный ресурс]. – М.: Препринт НИУ ВШЭ, 2012. – 98 с. – Режим доступа: https://github.com/ bdemeshev/gt201/raw/master/games_pset/new_game_ps_utf8.pdf (дата обращения: 25.03.2016) 8. Савватеев, А.В. Теория игр для математиков. Конспект лекций Электронный ресурс] / А.В. Савватеев // mccme.ru: Московский центр непрерывного математического образования. – Режим доступа: http://www.mccme.ru/ium/s04/games.html (дата обращения: 26.03.2016) 9. Савватеев, А.В. Курс лекций по теории игр. МФТИ [Электронный ресурс] / А.В. Савватеев // openedu.ru: Национальная платформа открытого образования. – Режим доступа: https://courses.openedu.ru/courses/coursev1:mipt+GAMETH+spring_2016 (дата обращения: 25.03.2016) 10. Писарук, Н.Н. Введение в теорию игр [Электронный ресурс] / Н.Н. Писарук. – Минск: БГУ, 2016. – 256 c. – Режим доступа: http://www.pisaruk– 9591.appspot.com/static/books/games.pdf (дата обращения: 15.03.2016) 114

game theory zaoch

Похожие документы

Разделы

Поддержка

game theory zaoch

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib