Г. И. Ивченко Спецкурс “Случайные отображения” (весна – 2009, гр. ЗИ-61) §1.Введение (несколько слов о криптографии). Криптография – это современная наука, являющаяся теоретической основой решения широкого круга актуальных практических проблем, объединяемых общим термином “защита информации”. О ее значении в современном мире говорит то, что она признается одним из трех критериев уровня научно-технического прогресса (два других – это ядерные и космические технологии). Криптография – это синтетическая наука, объединяющая в себе алгебру, теорию чисел, теорию информации, комбинаторный и асимптотический анализ, теорию алгоритмов, теорию вероятностей и математическую статистику, теорию автоматов и другие математические и кибернетические направления. Криптография имеет большую и чрезвычайно интересную, насыщенную яркими событиями историю; она непрерывно развивается, впитывая в себя новые идеи и достижения других наук – с одной стороны, и расширяя и углубляя свою, специфическую проблематику, постоянно диктуемую жизнью – с другой. С математической точки зрения, объектами изучения криптографии являются дискретные математические модели, т.е. такие, которые описывают реальные системы с конечным (но, как правило, очень большим – и в этом специфика криптографических моделей) числом возможных состояний. Специфика криптографических моделей, связанная с их чрезвычайно большими размерностями, имеет следствием тот факт, что прямые, переборные алгоритмы их анализа не являются эффективными даже при использовании современной вычислительной техники. Без самой высокой науки соответствующие проблемы не решаются, и криптография определяет и олицетворяет собой передовой фронт и науки, и технологии, объединяя в себе и теорию, и практику. Но, как говорят, “в каждой науке столько от науки, сколько в ней от математики”, и наш спецкурс посвящен именно (некоторым) математическим проблемам криптографии, обозначенным в его названии. §2.Отображения Отображения играют в криптографии ключевую роль (ведь шифрование любого текста есть не что иное, как отображение множества одних символов в другое множество символов). Поэтому мы начнем с напоминания некоторых общих фактов из теории отображений. Пусть X={x} и Y={y} – два произвольных множества. Отображением множества X в Y называется любое правило (обозначим его символом s), ставящее в соответствие каждому 𝒔 элементу x ∈ X некоторый элемент y ∈ Y. Это записывается так: X→Y или (более детально) y=s(x), x ∈ X (см. рис. 1). Элемент y ∈ Y, в который отображается x, называется образом x-а, а исходный элемент x – прообразом y-ка (при отображении s). При этом мы будем предполагать выполненным свойство однозначности отображения: образ всегда только один. Что касается числа прообразов данного y ∈ Y, то в общем случае оно никак не ограничивается, в других же случаях на него накладываются те или иные ограничения, что связано уже с конкретным типом отображения. В криптографических проблемах, как правило, рассматриваются конечные множества. Если объем |𝑿|=n, то говорят об n-множестве и записывают его так: 𝑿𝒏 = {1,2,…,n}. Часто множество Y совпадает с X, в этом случае говорят об отображении множества X в себя – именно этот случай мы будем рассматривать далее. 𝒔 Любое отображение 𝑿𝒏 → 𝑿𝒏 можно записать в виде следующей таблицы: s = (𝟏𝐬 𝟐 … 𝒌…𝒏 𝟏 𝐬𝟐 …𝐬𝒌 …𝐬𝒏 ). (2.1) где в верхней строке перечислены элементы множества 𝑿𝒏 , а в нижней – их соответствующие образы при отображении s: 𝐬𝒌 = s(k) ∈ 𝑿𝒏 , k = 1,2,…,n. (𝐬) Наглядным представлением отображения s служит ориентированный граф Г𝒏 , множество вершин которого составляет 𝑿𝒏 , а множество ребер (дуг) образовано n дугами (k, 𝐬𝒌 ), (𝐬) направленными из k в 𝐬𝒌 , k = 1,…,n. Число дуг, входящих в вершину k в графе Г𝒏 , равно числу прообразов элемента k при отображении s и называется кратностью вершины k. (𝐬) Граф Г𝒏 отображения s естественным образом разбивается на связные компоненты, при этом каждая связная компонента содержит ровно один контур (цикл) и, возможно, подходы к нему. Если какой-то элемент k ∈ 𝑿𝒏 отображается в себя же: 𝐬𝒌 =k (в этом случае говорят, что (𝐬) отображение s оставляет элемент k на месте), то в графе Г𝒏 в вершине k имеется петля. Таким (𝐬) образом, петля это цикл длины 1. Вершины графа Г𝒏 , лежащие на циклах, называются циклическими, их число для конкретного цикла называется длиной этого цикла. Важнейшими характеристиками отображения s являются: число связных компонент графа (𝐬) Г𝒏 , число циклических точек, число циклов заданной длинны, размер наибольшей компоненты и т.д. Приведем два важных примера конкретных отображений. Если на отображение s не накладывается никаких дополнительных ограничений (помимо однозначности), т.е. в нижней строке таблицы (2.1) на каждом месте может стоять любой элемент множества 𝑿𝒏 , то мы получаем класс всех однозначных отображений 𝑿𝒏 в себя, обозначаемый 𝜮𝒏 . Очевидно, число таких отображений |𝜮𝒏 |=𝒏𝒏 . Если отображение s взаимно однозначное, т.е. для любого k ∈ 𝑿𝒏 имеется только один прообраз, то нижняя строка таблицы (2.1) содержит все элементы 𝑿𝒏 , как-то переставленные. Число всех перестановок из n элементов равно n!; таким образом, число различных взаимно однозначных отображений множества 𝑿𝒏 в себя равно n!. Такие отображения называются подстановками степени n или n-подстановками, множество всех n-подстановок обозначается 𝑺𝒏 . (𝐬) Для любой подстановки s ∈ 𝑺𝒏 ее граф Г𝒏 состоит только из циклов, кратности всех вершин равны 1 и все вершины являются циклическими. Подстановки играют в криптографии исключительную роль, поэтому они и будут в дальнейшем основным предметом нашего внимания. В теории отображений основной интерес представляют, так называемые, перечислительные задачи, связанные с подсчетом числа отображений заданного класса, обладающих изучаемым свойством. Например, сколько существует n-подстановок, имеющих заданное число циклов, или заданное число циклов определенной длины? Для решения подобных задач весьма эффективным оказался вероятностный подход, впервые примененный В. Л. Гончаровым в его фундаментальной работе “Из области комбинаторики” (Изв. АН СССР, сер. матем., 1944, т.8, №1, с.3-48). В этой работе с помощью вероятностного подхода проведено обстоятельное исследование структуры nподстановок, включая их асимптотический анализ, когда степень подстановок n принимает большие значения (при n→ ∞). В настоящее время вероятностный подход успешно применяется при исследовании структуры различных комбинаторных объектов, в том числе и различных типов отображений. Содержание данного спецкурса, в основном, связано с систематическим использованием вероятностного подхода для решения различных (не только перечислительных) задач для n-подстановок. Опишем общую схему сведения перечислительных задач к вероятностным. Пусть 𝑭𝒏 ={s} – некоторый класс отображений множества 𝑿𝒏 в себя, и H есть некоторое свойство, которым каждое отображение s ∈ 𝑭𝒏 может обладать или нет. Подмножество отображений, обладающих свойством H, обозначим 𝑭𝒏 (H). Суть вероятностного подхода для определения объема |𝑭𝒏 (𝐇)| состоит в следующем: на множестве 𝑭𝒏 задается равномерная вероятностная мера, приписывающая каждому s ∈ 𝑭𝒏 вероятность его наблюдения P(s)= 𝟏 . |𝑭𝒏 | Тем самым получается конструкция случайного отображения. Далее, по классическому определению вероятности, можем записать соотношение P(s ∈ 𝑭𝒏 (𝑯))= |𝑭𝒏 (𝑯)| |𝑭𝒏 | . (2.2) Если мы можем, используя вероятностные методы, вычислить (или хотя бы приближенно оценить) эту вероятность, то мы получаем ответ в виде: |𝑭𝒏 (𝐇)|=P(s ∈ 𝑭𝒏 (𝑯))|𝑭𝒏 |. (2.3) Так перечислительная задача вычисления объема |𝑭𝒏 (𝐇)| сводится к вероятностной задаче вычисления вероятности случайного события {s ∈ 𝑭𝒏 (𝑯)}. Для решения же последней задачи можно использовать мощный аппарат современной теории вероятностей и в особенности ее предельные теоремы. Дело в том, что для криптографических применений особо актуальны ситуации, когда параметр n неограниченно возрастает (n → ∞ ). В этих случаях необходим асимптотический анализ, и предельные теоремы вероятностей как раз и являются эффективным инструментом проведения таких исследований. §3. Подстановки и их цикловая структура. Как говорилось выше, n-постановка — это взаимно однозначное отображение множества Xn={1,2,...,N} в себя, класс (множество) всех таких отображений обозначаентся Sn={s}, их число есть |Sn|=n!. Стандартная запись подстановки S имеет вид 1 𝑠1 𝑛 2 𝑘 ⋯ ⋯𝑠 , 𝑠2 𝑠𝑘 𝑛 (3.1) где нижняя строка (s1,s2,...,sn) представляет собой перестановку чисел (1,2,...,n). Отметим нетокорые важные свойства подстановок. Для подстановок естественным образом определяется их произведение: если s и g — произвольные n-подстановки, то произведение sg есть n-подстановка, которая действует по правилу 𝑠𝑔(𝑘) = 𝑔(𝑠(𝑘)), 𝑘 ∈ 𝑇. Таким образом, произведение sg — это последовательное применение этих отображений (сначала применяется s, затем g). Эта операция ассоциативна: 𝑠[𝑔ℎ](𝑘) = [𝑠𝑔]ℎ(𝑘) = ℎ𝑔𝑠𝑘, но, вообще говоря, не коммутативна. 1 2 3 1 2 3 Например, для X={1,2,3} и 𝑠 = ,𝑔 = имеем 2 1 3 3 1 2 𝑠𝑔 = 1 2 3 1 2 3 ≠ 𝑔𝑠 = 1 3 2 3 2 1 Далее, в множестве Sn имеется единичная подстановка e, оставляющая все элементы Xn на месте: e(k)=e для всех 𝑘 ∈ 𝑋𝑛 ; для неё таблица (3.1) имеет вид 𝑒= 1 2 𝑛 ⋯ . 1 2 𝑛 Наконец, каждой подстановке 𝑠 ∈ 𝑆𝑛 соответствует единственная подстановка 𝑠 −1 такая, что 𝑠 −1 ⋅ 1 2 3 1 2 3 𝑠 = 𝑠 ⋅ 𝑠 −1 = 𝑒. Например, если X={1,2,3} и 𝑠 = , то 𝑠 −1 = . 2 3 1 3 1 2 -1 Таким образом, чтобы получить s , надо в таблице (3.1) поменять местами нижнюю и верхнюю строки, а затем переставить столбцы так, чтобы верхняя (новая) строка имела обычный вид (1 2 … n). Тем самым n-подстановки Sn образуют группу, которая называется симметрической группой степени n. Групповые свойства подстановок изучаются в алгебре, мы же будем акцентировать внимание на их комбинаторных свойствах, связанных с цикловой структурой подстановок. (𝑠) Рассмотрим граф 𝛤𝑛 произвольной подстановки𝑠 ∈ 𝑆𝑛 . Как уже отмечалось ранее, этот граф состоит из циклов вида 𝑖 → 𝑗 → 𝑘 →. . . → 𝑟 → 𝑖, который записывается в виде строки (i, j, …, r), называемой циклом подстановки s; длина данного (𝑠) цикла равна числу входящих в него элементов (числу соответствующих вершин в цикле графа𝛤𝑛 ); (𝑠) при этом цикл длины 1 имеет вид (i) и соответствует петле в𝛤𝑛 в вершине i. Таким образом, подстановки из Sn могут содержать любой циклы длины j, 1≤j≤n, и любую подстановку𝑠 ∈ 𝑆𝑛 можно записать в виде произведения её циклов: 𝑠 = (𝑖1 )(𝑖2 ). . . (𝑖𝛼1 )(𝑗1, 𝑘1 )(𝑗2, 𝑘2 ). . . (𝑗𝛼2 , 𝑘𝛼2 ). .. (3.2) (𝑠) Представление (3.2) означает, что подстановка s имеет α1 цикл длины 1 (в графе𝛤𝑛 в вершинах 𝑖1, 𝑖2, … , 𝑖𝛼1 - петли), α2 циклов длины 2 и т.д. Например, разложение (3.2) для следующей подстановки степени 7 имеет вид 𝑠= 1 2 1 3 3 4 7 5 5 6 7 = (1)(2,3,7)(4,5,6) 6 4 2 Говорят, что подстановка𝑠 ∈ 𝑆𝑛 принадлежит цикловому классу {1𝛼1 2𝛼2 . . . 𝑛𝛼𝑛 }, если она содержит αj циклов длины j, 1≤j≤n. Набор 𝑎ˉ = (𝛼1 , 𝛼2 , . . . , 𝛼𝑛 )называется цикловой структурой подстановки s. По своему определению, компоненты вектора𝑎ˉсуть целые неотрицательные числа, удовлетворяющие соотношению 1𝛼1 + 2𝛼2 +. . . +𝑛𝛼𝑛 = 𝑛. (3.3) Подсчет числа подстановок в Sn с теми или иными характеристиками цикловой структуры и составляет круг комбинаторных (перечислительных) задач в теории подстановок, которыми мы и будем заниматься. При этом мы будем систематически использовать вероятностный подход, в соответствии с которым считается, что каждая подстановка𝑠 ∈ 𝑆𝑛 может наблюдаться с одной и той 1 же вероятностью 𝑃(𝑠) = 𝑛!. В этом случае мы будем говорить о равновероятных (или случайных) nподстановках. Для случайной подстановки 𝑠 ∈ 𝑆𝑛 её цикловая структура 𝑎ˉ = (𝛼1 , 𝛼2 , . . . , 𝛼𝑛 ) становится случайным вектором, и его распределение является основой для вероятностного анализа свойств случайных подстановок. Мы начинаем анализ с вывода распределения вектора 𝑎ˉ для равновероятной n-подстановки. §4. Распределение цикловой структуры. Обозначим𝐾𝑛 𝑎ˉчисло n-подстановок в цикловом классе{1𝑎1 2𝑎2 … 𝑛𝑎𝑛 },𝑎ˉ = 𝑎1, . . . , 𝑎𝑛 Тогда для случайной подстановки по классическому определению вероятности имеем 𝑃(𝛼ˉ = 𝑎ˉ) = 𝐾𝑛 𝑎ˉ 𝑛! , (4.1) следовательно, ключевую роль в нашей проблематике играют числа𝐾𝑛 𝑎ˉ. Покажем, что 𝑛! 𝐾𝑛 (𝑎ˉ) = 1𝑎1 2𝑎2 ...𝑛𝑎𝑛 𝑎 1 !𝑎2 !...𝑎𝑛 ! = ∏𝑛 𝑛! 𝑟=1 𝑎𝑟 !𝑟 𝑎𝑟 (4.3) Рассмотрим разложение (3.2) некоторой подстановки𝑠 ∈ 𝑆𝑛 из циклового класса{1𝑎1 2𝑎2 . . . 𝑛𝑎𝑛 }: 𝑠 = (𝑖1 )(𝑖2 ). . . (𝑖𝛼1 )(𝑗1, 𝑘1 )(𝑗2, 𝑘2 ). . . (𝑗𝛼2 , 𝑘𝛼2 ). .. Путем всевозможных𝑛!перестановок элементов при сохранении скобок можно получить любую другую подстановку этого класса. При этом, если в цикле длины r сдвигать циклически его элементы, то цикл не изменится, - это можно сделать r способами, значит,𝑟 𝑎𝑟 вариантов таких перестановок ничего не меняют. Аналогично, перестановки, переводящие полностью элементы из одной скобки в скобки, содержащие такое же число элементов, не дают новых подстановок; для циклов длины r это дает𝑎𝑟 !перестановок. Таким образом, всего имеется∏𝑛𝑟=1 𝑎𝑟 ! 𝑟 𝑎𝑟 перестановок, не меняющих исходную подстановку. Следовательно, 𝑛 𝐾𝑛 𝑎ˉ ∏ 𝑎𝑟 ! 𝑟 𝑎𝑟 = 𝑛! 𝑟=1 и мы получаем формулу (4.2). Замечания. 1) Представляет интерес вопрос, какой цикловой класс содержит наибольшее число подстановок и каков его объем. Ответ на эти вопросы таков (задача для слушателей): 𝑚𝑎𝑥𝐾𝑛 𝑎ˉ = 𝐾𝑛 𝑎1 = 𝑎𝑛−1 = 1, 𝑎𝑖 = 0, 𝑖 ≠ 1, 𝑛 − 1 = 𝑎ˉ 𝑛! = (𝑛 − 2)! 𝑛 𝑛−1 2) Число 𝑛! = 1 ⋅ 2 ⋅. . .⋅ (𝑛 − 1) ⋅ 𝑛очень быстро растет с увеличением n. Так, 10!=3 158 628 800, 100!≈10 ; для вычисления𝑛!при больших значениях n используется формула Стирлинга1 𝜃 𝑛! = √2𝜋𝑛𝑛𝑛 e−𝑛+12n , 0 < 𝜃 < 1 Возвращаясь к формуле (4.1), с учетом (4.2) можем записать, что 𝑛 𝑃(𝛼ˉ = 𝑎ˉ) = { ∏ 𝑟=1 1 𝑎𝑟 ! 𝑟 𝑎𝑟 0 1 Джеймс Стирлинг (1692-1770) – шотландский математик. 𝑛 , если ∑ 𝑟𝑎𝑛 = 𝑛, 𝑟=1 впротивномслучае. 1 Если использовать индикатор: 𝐼(𝐴) = { 0 записывать в более компактном виде: , еслиАимеетместо, то последнее соотношение удобно , впротивномслучае, 1 𝑃(𝛼ˉ = 𝑎ˉ) = 𝐼∑𝑛𝑟=1 𝑟𝑎𝑟 = 𝑛 ∏𝑛𝑟=1 𝑎𝑟 !𝑟 𝑎𝑟 . (4.3) Представление (4.3), хотя и дает ответ, но из него трудно извлекать конкретную информацию о свойствах структуры. Для дальнейшего продвижения весьма эффективным является использование аппарата производящих функций. Введем производящую функцию структуры 𝛼ˉ = (𝛼1 , 𝛼2 , . . . , 𝛼𝑛 ) 𝛼 𝐹𝑛 (𝑡1, . . . , 𝑡𝑛 ) = 𝐸 ∏𝑛𝑟=1 𝑃(𝛼ˉ = 𝑎ˉ) ∏𝑛𝑟=1 𝑡𝑟 𝑟 = ∑𝑎ˉ 𝑎 𝑡𝑟 𝑟 , которая, с учетом (4.3), имеет вид 𝐹𝑛 (𝑡1, . . . , 𝑡𝑛 ) = ∑ 𝑎ˉ:∑𝑛 𝑟=1 𝑟𝑎𝑟 =𝑛 ∏𝑛𝑟=1 𝑡𝑟 𝑎𝑟 1 𝑟 . (4.4) 𝑎𝑟 ! Далее мы будем использовать следующее обозначение: если функция f(z) имеет представление в виде степенного ряда ∞ 𝑓(𝑧) = ∑ 𝑎𝑛 𝑧 𝑛 𝑛=0 с некоторым положительным радиусом сходимости |z|<R, то для её коэффициентов𝑎𝑛 будем писать 𝑎𝑛 = [𝑧 𝑛 ]𝑓(𝑧). 𝑧𝑟 Рассмотрим теперь экспонентуexp { 𝑟 𝑡𝑟 }: 𝑧𝑟 exp { 𝑟 𝑡𝑟 } = ∑∞ 𝑎𝑟 =0 1 𝑧𝑟 𝑎𝑟 ! 𝑟 𝑎𝑟 𝑡𝑟 . Тогда ∞ exp {∑ 𝑧𝑟 𝑟=1 𝑟 𝑡𝑟 } = ∏∞ 𝑟=1 𝑧𝑟 exp { 𝑟 𝑡𝑟 } = ∑∞ 𝑛=0 𝑧𝑛 ∑ 𝑎ˉ:∑𝑛 𝑟=1 𝑟𝑎𝑟 =𝑛 ∏𝑛𝑟=1 𝑡𝑟 𝑎𝑟 1 𝑟 𝑎𝑟 ! . (4.5) Сравнивая (4.4) и (4.5), можем записать, что 𝐹𝑛 (𝑡1 , . . . , 𝑡𝑛 ) = [𝑧 𝑛 ]exp {∑ ∞ 𝑧𝑟 𝑟=1 𝑟 𝑡𝑟 }. (4.6) Это и есть итоговое и удобное для дальнейшего анализа представление для производящей функции цикловой структуры случайной равновероятной n-подстановки. Представление (4.6) можно записать и в несколько ином виде. Поскольку ∑∞ 𝑟=1 𝑧𝑟 𝑟 𝑡𝑟 = ∑∞ 𝑟=1 𝑧𝑟 𝑟 𝑡𝑟 − 1 + ∑∞ 𝑟=1 𝑧𝑟 𝑟 ∞ 𝑡𝑟 ∑ 𝑧𝑟 𝑟=1 𝑟 𝑡𝑟 − 1 − ln(1 − 𝑧), то, вместо (4.6), для Fn(t1,…,tn) можно записать представление 1 𝐹𝑛 (𝑡1, . . . , 𝑡𝑛 ) = [𝑧 𝑛 ] 1−𝑧 exp {∑∞ 𝑟=1 𝑧𝑟 𝑟 (𝑡𝑟 − 1)}. (4.7) Сформулируем полученный результат в виде следующего утверждения. Теорема 1. Для равновероятной n-подстановки производящая функция её цикловой структуры 𝛼ˉ = 𝛼1 , 𝛼2 , . . . , 𝛼𝑛 имеет вид (4.7): 𝐹𝑛 (𝑡1, . . . , 𝑡𝑛 ) = 𝐸 ∏𝑛𝑟=1 𝛼 1 𝑡𝑟 𝑟 = [𝑧 𝑛 ] 1−𝑧 exp {∑∞ 𝑟=1 𝑧𝑟 𝑟 𝑡𝑟 − 1}. Замечание. 1 𝐹𝑛 (1, . . . ,1) = [𝑧 𝑛 ] 1−𝑧 = 1как и должно быть! Соотношение (4.7) является базовым в теории случайных подстановок: из него можно извлечь всю информацию об особенностях и свойствах цикловой структуры n-подстановок, что и будет продемонстрировано в дальнейшем. Но предварительно мы напомним некоторые факты из комбинаторики и теории вероятностей, которые будут необходимы нам в качестве технического аппарата. §𝟓 Некоторые вспомогательные результаты. 1.Биномимиальные коэффициенты. m Число Сkm (используется также обозначение ( )) , 0 ≤ k ≤ m, равная количеству k − k подмножеств m − множества, называется биноминальным коэффициентом, так как эти числа фигурируют в знаменитой формуле бинома-Ньютона: ∞ 𝑚 𝑘 𝑘 (1 + 𝑥) = ∑ 𝐶𝑚 𝑥 . (5.1) 𝑘=1 Для этих чисел можно использовать следующие представления: 𝑚! С𝑘𝑚 = 𝑘!(𝑚−𝑘)! = 𝑚(𝑚−1)…(𝑚−𝑘+1) 𝑘! = (𝑚)𝑘 𝑘! . (5.2) Эти формулы можно обобщить на случай, когда показатель степени m есть произвольное действительное число. Для этого разложим функцию (1 + 𝑥)𝛼 в окрестности точки 𝑥=0 в ряд Тейлора: ∞ ∞ 𝛼(𝛼 − 1) … (𝛼 − 𝑘 + 1) 𝑘 (𝛼)𝑘 𝑘 (1 + 𝑥)𝛼 = 1 + ∑ 𝑥 =∑ 𝑥 . 𝑘! 𝑘! 𝑘=1 (5.3) 𝑘=0 Сравнивая коэффициенты в (5.3) с (5.2), можно записать, что 𝐶𝛼𝑘 = (𝛼)𝑘 𝑘! , k=0,1,2,… (5.4) Формула (5.4) и определяет биноминальные коэффициенты 𝐶𝛼𝑘 для действительного α через, так называемую, убывающую факториальную функцию (𝑡)𝑛 =t(t-1)…(t-n+1), n≥1, (𝑡)0 =1. произвольного (5.4) Используя эти формулы, также можем записать разложение ∞ ∞ 𝑘 (−𝑧)𝑘 (1 − 𝑧)−𝑡 = ∑ 𝐶−𝑡 = ∑ 𝑘=0 ∞ 𝑘=0 (−𝑡)𝑘 (−1)𝑘 𝑧 𝑘 = 𝑘! ∞ ∞ 𝑡(𝑡 + 1) … (𝑡 + 𝑘 − 1) 𝑘 [𝑡]𝑘 𝑘 𝑘 =∑ 𝑧 = ∑ 𝐶𝑡+𝑘−1 𝑧𝑘 = ∑ 𝑧 , 𝑘! 𝑘! 𝑘=0 𝑘=0 (5.5) 𝑘=0 где [t]k =t(t+1)…(t+k-1), k≥1, [t]0 =1, есть, так называемая, возрастающая факториальная функция. В (5.5) представлены различные записи биноминальных коэффициентов, которые мы в дальнейшем будем использовать. 2. Числа Стирлинга. Если разложить убывающую факториальную функцию (5.4) по степеням аргумента t: 𝑛 (𝑡)𝑛 = ∑ 𝑠(𝑛, 𝑘)𝑡 𝑘 , 𝑠(𝑛, 𝑘) = (−1𝑛+𝑘 ) 𝑘=1 ∑ 𝑖1 … 𝑖𝑛−𝑘 , (5.6) 1≤𝑖1 <⋯<𝑖𝑛−𝑘 ≤𝑛−1 то коэффициенты этого разложения s(n,k) есть, так называемые, числа Стирлинга первого рода. Через эти числа записывается также и разложение возрастающей факториальной функции, определённой в (5.5): 𝑛 [𝑡]𝑛 = (−1)𝑛 (−𝑡)𝑛 = ∑(−1)𝑛+𝑘 𝑠(𝑛, 𝑘)𝑡 𝑘 . (5.7) 𝑘=1 Подчеркнём, что (−1)𝑛+𝑘 s(n,k) = |𝑠(𝑛, 𝑘)|. 3. Нам понадобятся также следующие асимптотические (при n→∞) формулы: 𝑛 ∑ 𝑘=1 1 1 𝑄𝑛 = 𝑙𝑛 𝑛 + С + + , |𝑄𝑛 | < 1, 𝑘 2𝑛 8𝑛2 (5.8) где С=0,5772… − постоянная Эйлера, 1) 𝑛 1 𝜋2 ∑ 2= + 𝑜(1). 𝑘 6 (5.9) 𝑘=1 4. Производящие функции. При исследовании целочисленных случайных величин (с.в.) удобно использовать аппарат производящих функций (пр.ф.). Напомним, что если с.в. η имеет распределение P(η=k) = 𝑎𝑘 , k=0,1,2…, то её пр.ф. определяется равенством 𝑘 𝜑𝜂 (𝑥) ≡ E𝑥 𝜂 =∑∞ 𝑘=0 𝑎𝑘 𝑥 . Она определена по крайней мере для |𝑥|≤1, а внутри единичного круга аналитична; при этом распределение ℒ(η) и пр.ф. 𝜑𝜂 (𝑥) однозначно определяют друг друга, причём (𝑘) 𝑎𝑘 =𝜑𝜂 (0)/k! , k=0,1,2,… Напомним также следующие важные свойства пр.ф.: 1) Леонард Эйлер (1707-1783) – математик, механик, физик астроном. Родился в Швейцарии, с 1727 по 1741 и с 1766 работал в Петербургской АН. 1)Если у с.в. η существует конечный момент r-го порядка, то её факториальные моменты 𝐸(𝜂)𝑠 =Eη(η-1)…( η-s+1) при s≤r могут быть вычислены по формулам (𝑠) 𝐸(𝜂)𝑠 = 𝜑𝜂 (1); 2) Если 𝜂1 … 𝜂𝑛 — независимые целочисленные с.в., то для пр.ф. их суммы 𝜂 = 𝜂1 +…+ 𝜂𝑛 справедливо соотношение 𝜑𝑛 (𝑥) = 𝜑𝜂1 (𝑥) … 𝜑𝜂𝑛 (𝑥); 3) Сходимость последовательности распределений {P(𝜂(𝑛) = 𝑘) = 𝑎𝑘 (𝑛), k=0,1,2,…} при n→∞ к распределению P( 𝜂 = 𝑎𝑘 ), 𝑘 = 0,1,2, … (т.е. 𝑎𝑘 (𝑛) → 𝑎𝑘 для любого фиксированного k, что символически записывается в виде ℒ(η(n)), эквивалентна сходимости 𝜑𝜂(𝑛) (𝑥) → 𝜑𝜂 (𝑥) ∀𝑥𝜖(0,1) Пример. Пусть с.в. η имеет распределение Пуассона с параметром 𝜆 > 0 ,что записывается так: ℒ(𝜂)=П(λ). Тогда 𝜆𝑘 P(η=k)=𝑒 −𝜆 𝑘! ,k=0,1,2,… ∞ 𝜑𝜂 (𝑥) = ∑ 𝑒 −𝜆 (𝜆𝑥)𝑘 𝑘! = 𝑒 𝜆(𝑥−1) , 𝑘=0 все моменты существуют и 𝐸(𝜂)𝑠 = 𝜆𝑠 , s=1,2… Известно, что распределение Пуассона однозначно определяется своими моментами, при этом ∞ 𝑃(𝜂 = 𝑘) = ∑(−1)𝑠−𝑘 𝐶𝑠𝑘 𝑠=𝑘 𝜆𝑠 𝜆𝑘 = 𝑒 −𝜆 , 𝑘 ≥ 0. 𝑠! 𝑘! Сходимость к распределению Пуассона может быть сформулирована и как сходимость соответствующих моментов: если 𝐸(𝜂(𝑛))𝑠 → 𝜆𝑠 при некотором λ> 0 для любого фиксированного 𝑛→∞ s≥0, то ℒ(η(n)) → П(λ). Аналогичные свойства имеют место и для пр.ф. многомерных с.в. 𝜂̅ =( 𝜂1 , … , 𝜂𝑘 ) c 𝜂 𝜂 целочисленными неотрицательными компонентами: 𝜑𝜂 (𝑥1 , … , 𝑥𝑘 )=E𝑥1 1 … 𝑥𝑘 𝑘 ; при этом 𝜂1 , … , 𝜂𝑘 независимы тогда и только тогда, когда 𝜑𝜂 (𝑥1 , … , 𝑥𝑘 )=𝜑𝜂1 (𝑥1 )…𝜑𝜂𝑘 (𝑥𝑘 ). 5. Центральная предельная теорема (ЦТП). В дальнейшем мы часто будем ссылаться на эту ключевую теорему теории вероятностей, потому мы напомним как её общую формулировку (в форме А.М. Ляпунова 1) , так и некоторое её важные частные случаи. Теорема Ляпунова. Пусть дана последовательность серий {ξkn , k = 1, … , n}, n = 1,2,…, 2 взаимно независимых с.в., имеющих среднее mkn = Eξkn , дисперсии 𝜎𝑘𝑛 =D𝜉𝑘𝑛 и абсолютные моменты С𝑘𝑛 =E|𝜉𝑘𝑛 − 𝑚𝑘𝑛 |2+𝛿 , 𝛿 > 0. Обозначим 𝑛 𝜎𝑛2 = 𝑛 2 ∑ 𝜎𝑘𝑛 𝑘=1 , 𝐶𝑛2+𝛿 = ∑ 𝐶𝑘𝑛 . 𝑘=1 Тогда, если выполнено условие 𝐶𝑛 = 0, n→∞ 𝜎𝑛 lim 1 то при n→∞ нормированная с.в. 𝜎 ∑𝑛𝑘=1(𝜉𝑘𝑛 − 𝑚𝑘𝑛 ) асимптотически нормальна с параметрами 𝑛 (0,1), т.е. 𝑥 𝑛 𝑢2 1 1 lim P ( ∑(𝜉𝑘𝑛 − 𝑚𝑘𝑛 ) < 𝑥) = Φ(𝑥) = ∫ 𝑒 − 2 𝑑𝑢. n→∞ σn √2𝜋 𝑘=1 (5.11) −∞ Замечание. Условие (5.10) называется условием Линдеберга, а соотношение (5.11) кратко записывается так: 1 ℒ(𝜎 ∑𝑛𝑘=1(𝜉𝑘𝑛 − 𝑚𝑘𝑛 )) ⟶ 𝑁(0,1). 𝑛 (5.12) Для приложений полезно выделить некоторые следствия этой теоремы. Следствие 1.Если с.в. 𝜉1𝑛 ,𝜉2𝑛 , … ,𝜉𝑛𝑛 взаимно независимы и принимают лишь значения 0 и 1, при этом 𝑛 𝜎𝑛2 = ∑ 𝑝𝑘 𝑞𝑘 → ∞, 𝑛 → ∞, 𝑘=1 где 𝑝𝑘 = 𝑝𝑘 (𝑛) = P(𝜉𝑘𝑛 = 1), 𝑞𝑘 = 𝑞𝑘 (𝑛) = P(𝜉𝑘𝑛 = 0), 𝑝𝑘 + 𝑞𝑘 = 1,то при n→∞ 𝑛 1 ℒ ( ∑(𝜉𝑘𝑛 − 𝑝𝑘 )) → 𝑁(0,1). 𝜎𝑛 𝑘=1 1) Ляпунов Александр Михайлович (1857-1918) – русский математик и механик. Следствие 2. Если взаимно независимые с.в. 𝜉1𝑛 , 𝜉2𝑛 , … , 𝜉𝑛𝑛 равномерно ограничены: |𝜉𝑘𝑛 | <C, 1≤ 𝑘 ≤ 𝑛, C>0 – некоторая постоянная, и 𝜎𝑛2 =∑𝑛𝑘=1 𝐷𝜉𝑘𝑛 ⟶ ∞, когда n⟶ ∞, то 𝑛 1 ℒ ( ∑(𝜉𝑘𝑛 − 𝑚𝑘𝑛 )) → 𝑁(0,1). 𝜎𝑛 𝑘=1 §6. Число циклов в случайной подстановке. Мы возвращаемся к изучению цикловой структуры случайной n-подстановки и прежде всего рассмотрим ее важнейшую характеристику — общее число циклов 𝑛 𝛼(𝑛) = ∑ 𝛼𝑟 . 𝑟=1 Чтобы найти производящую функцию 𝜑𝛼(𝑛) (𝑡) = 𝐸𝑡 𝛼(𝑛) , надо в общей пр. ф. (4.7) положить 𝑡1 = 𝑡2 = ⋯ = 𝑡𝑛 = 𝑡: ∞ 𝜑𝛼(𝑛) (𝑡) = 𝐹𝑛 (𝑡, … , 𝑡) = [𝑧 𝑛 ] 1 𝑧𝑟 𝑒𝑥𝑝 {(𝑡 − 1) ∑ } = [𝑧 𝑛 ](1 − 𝑧)−𝑡 . 1−𝑧 𝑟 (6.1) 𝑟=1 Воспользовавшись разложением (5.5), из (6.1) получаем искомое представление: 𝜑𝛼(𝑛) (𝑡) = [𝑡]𝑛 . 𝑛! (6.2) В (6.2) содержится вся информация о распределении с. в. α(n). Например, чтобы получить явные выражения для вероятностей 𝑃(α(n) = 𝑘), достаточно разложить правую часть в (6.2) по степеням t. Такое разложение дано в (5.7), откуда получаем, что 𝑃(α(n) = 𝑘) = [𝑡 𝑘 ]𝜑α(n) (𝑡) = |𝑠(𝑛, 𝑘)| , 𝑘 = 1,2, … , 𝑛. 𝑛! (6.3) Вычислим теперь среднее и дисперсию этой характеристики. Для этого мы перепишем соотношение (6.2) следующим образом: 𝑛−1 𝑡+1 𝑡+2 𝑡+𝑛−1 𝜑α(n) (𝑡) = 𝑡 ∙ ∙ …∙ = 𝑡 ∏(𝑞𝑖 + 𝑝𝑖 𝑡), 2 3 𝑛 𝑖=1 (6.4) где 𝑝𝑖 = 1 − 𝑞𝑖 = 1 , 𝑖 = 1, … , 𝑛 − 1. 𝑖+1 Заметим теперь, что i-й сомножитель в правой части (6.4) есть пр. ф. бернуллиевской с. в. 𝜉𝑖 , для которой 𝑃 (𝜉𝑖 = 1) = 𝑝𝑖 , 𝑃 (𝜉𝑖 = 0) = 𝑞𝑖 , а все произведение представляет собой пр. ф. их суммы, при этом они взаимно независимы (см. п. 4 в §5). Таким образом, 𝛼(𝑛) можно представить в виде (6.5) 𝛼(𝑛) = 𝜉0 + 𝜉1 + 𝜉2 +. . . +𝜉𝑛−1 , 𝜉0 = 1. Представление (6.5) очень удобно для исследования свойств с. в. 𝛼(𝑛). Так, из него сразу же получаем, учитывая, что 𝐸𝜉𝑖 = 𝑝𝑖 , 𝐷𝜉𝑖 = 𝑝𝑖 𝑞𝑖 , формулы для среднего и дисперсии: 𝑛−1 𝑛−1 𝑛 𝑖=0 𝑖=0 𝑘=1 1 1 𝐸𝛼(𝑛) = ∑ 𝐸𝜉𝑖 = ∑ =∑ , 𝑖+1 𝑘 𝑛−1 𝑛−1 𝑛−1 𝑛−1 𝑛 𝑛 𝑖 1 1 1 1 𝐷𝛼(𝑛) = ∑ 𝐷𝜉𝑖 = ∑ =∑ −∑ = ∑ − ∑ 2. 2 2 (𝑖 + 1) (𝑖 + 1) 𝑖+1 𝑘 𝑘 𝑖=0 𝑖=1 𝑖=1 𝑖=1 𝑘=1 (6.6) 𝑘=1 Рассмотрим еще вопрос об асимптотическом поведении 𝛼(𝑛) при 𝑛 → ∞. Воспользовавшись формулами (5.8) и (5.9), из (6.6) получаем важный результат, что как среднее, так и дисперсия числа циклов 𝛼(𝑛) при больших значениях n ведут себя асимптотически как ln 𝑛: 1 𝜋2 𝐸𝛼(𝑛) = ln 𝑛 + 𝐶 + 𝑂 ( ) , 𝐷𝛼(𝑛) = ln 𝑛 − + 𝑜(1). 𝑛 6 (6.7) Более того, из представления (6.5), на основании ЦПТ (см. следствие 1 в п. 5 §5), можно сделать вывод, что при 𝑛 → ∞ 1 𝐿( (𝛼(𝑛) − ln 𝑛)) → 𝑁(0,1). √ln 𝑛 (6.8) Суммируя изложенное, можно сформулировать следующее утверждение. Теорема 2. Число циклов 𝛼(𝑛) в случайной равновероятной n-подстановке имеет распределение (6.3), моменты которого даны в (6.6). Если 𝑛 → ∞, то с. в. 𝛼(𝑛) асимптотически нормальна с параметрами (ln 𝑛, ln 𝑛): 𝐿(𝛼(𝑛))~𝑁(ln 𝑛, ln 𝑛). Этот результат позволяет приближенно оценивать число подстановок 𝑠 ∈ 𝑆𝑛 , для которых число циклов 𝛼(𝑛) ∈ [ln 𝑛 + 𝛼√ln 𝑛 , ln 𝑛 + 𝛽√ln 𝑛], 𝛼 < 𝛽: это число приближенно равно 𝑛! (Φ(𝛽) − Φ(𝛼)). §7. Циклы конечной длины. Рассмотрим теперь вопрос, сколько может быть в случайно n-подстановке циклов произвольной фиксированной длины 𝑖 (𝑖 = 1, 2, … ). Производящая функция с. в. 𝛼𝑖 для любого I получается из общей пр. ф. (4.7) при 𝑡𝑟 = 1, 𝑟 ≠ 𝑖, 𝑡𝑖 = 𝑡: 𝜑𝑖 = 𝐸𝑡 𝛼𝑖 = 𝐹𝑛 (𝑡1 , … , 𝑡𝑛 )|𝑡𝑟 =1, 𝑟≠𝑖 𝑡𝑖 =𝑡 = [𝑧 𝑛 ] 1 𝑧𝑖 exp { (𝑡 − 1)}. 1−𝑧 𝑖 (7.1) Как использовать представление (7.1) для анализа свойств с. в. 𝛼𝑖 ? Проще всего найти ее факториальные моменты: 𝑠 𝐸(𝛼𝑖 )𝑠 = 1 𝑧𝑖 1 1 = ( ) = 𝑠 [𝑧 𝑛−𝑖𝑠 ] 1−𝑧 𝑖 𝑖 1−𝑧 1 𝑛 , при 𝑛 − 𝑖𝑠 ≥ 0, т. е. при 𝑠 ≤ , 𝑠 𝑖 = {𝑖 𝑛 0, при 𝑠 > . 𝑖 (𝑠) 𝜑𝑖 (1) [𝑧 𝑛 ] (7.2) 𝑛 Таким образом (см. пример в п. 4. §4), первые [ 𝑖 ] (целая часть) факториальные моменты с. в. 1 𝛼𝑖 совпадают с аналогичными моментами распределения Пуассона Π( 𝑖 ). Если 𝑛 → ∞, то при любом фиксированном 𝑖 ≥ 1 с. в. 𝛼𝑖 — число циклов длины i — 1 асимптотически распределена по закону Пуассона с параметром 𝑖 : 1 𝐿(𝛼𝑖 ) → Π ( ). 𝑖 Замечание. Если рассматривать совместное распределение любого набора (𝛼𝑖1 , 𝛼𝑖2 , … , 𝛼𝑖𝑘 ), 1 ≤ 𝑖1 < 𝑖2 < ⋯ < 𝑖𝑘 , то совместная пр. ф. этих величин есть 𝑘 𝑎 𝐸𝑡𝑖1𝑖1 𝑎𝑖𝑘 … 𝑡𝑖 𝑘 = 𝐹𝑛 (𝑡1 , … , 𝑡𝑛 )|𝑡𝑟 =1,𝑟≠𝑖1 ,…,𝑖𝑘 1 𝑧 𝑖𝑗 𝑛 = [𝑧 ] exp {∑ (𝑡𝑖𝑗 − 1)}. 1−𝑧 𝑖𝑗 𝑗=1 Используя это представление, можно показать, что при 𝑛 → ∞ и фиксированных 𝑖1 , … , 𝑖𝑘 величины 𝛼𝑖1 , 𝛼𝑖2 , … , 𝛼𝑖𝑘 асимптотически независимы, т. е. 𝑎 𝐸𝑡𝑖1𝑖1 𝑎𝑖𝑘 … 𝑡𝑖 𝑘 𝑘 𝑘 𝑗=1 𝑗=1 1 1 → exp {∑ (𝑡𝑖𝑗 − 1)} = ∏ exp { (𝑡𝑖𝑗 − 1)} . 𝑖𝑗 𝑖𝑗 §8. Циклы большой длины Из результатов §§ 6, 7 уже во многом проясняется асимптотический (при n → ∞) характер цикловой структуры 𝛼 =(𝛼1 , 𝛼2 , … , 𝛼𝑛 ) случайной n – подстановки: в этой последовательности 1 1 сначала идут асимптотически независимые пуассоновские с.в. со средними соответственно 1, 2, 3, … , суммарное же число её членов имеет порядок ln 𝑛. Значит, на правом хвосте с большой вероятностью (т.е с вероятностью, стремящейся к 1 при n→ ∞) должны стоять нули и, возможно, незначительное число отличных от нуля элементов. Эти предварительные заключения о с.в. 𝛼𝑖 с большими значениями индекса 𝑖 можно сделать более точными, чем мы здесь и займёмся. Вначале рассмотрим событие 𝐴𝑏 (𝑛) = {хотя бы одно 𝛼𝑖 ≥ 2 при 𝑖 > 𝑏} = ⋃ {𝛼𝑖 ≥ 2} (8.1) 𝑖>𝑏 и оценим его вероятность при 𝑏 = 𝑏(𝑛) → ∞ вместе с 𝑛 → ∞ (т.е. мы рассматриваем «далёкий хвост» последовательности (∝1 , ∝2 , . . , ∝𝑛 )). Имеем: 𝑃(𝐴𝑏 (𝑛)) ≤ ∑ 𝑃(∝𝑖 ≥ 2) = ∑[1 − 𝑃(∝𝑖 = 0) − 𝑃(∝𝑖 = 1)]. 𝑖>𝑏 (8.2) 𝑖>𝑏 Воспользуемся представлением (7.1) для вычисления этих вероятностей: ∞ ∞ 𝑠=0 𝑘=0 𝑧𝑖 (−1)𝑘 𝑖𝑘 (−1)𝑘 1 1 − 𝑛 𝑛 𝑠 𝑖 𝑃(∝𝑖 = 0) = 𝜑𝑖 (0) = [𝑧 ] 𝑒 = [𝑧 ] (∑ 𝑧 ) (∑ 𝑧 )= ∑ ≥1− , 𝑘 𝑘 1−𝑧 𝑘! 𝑖 𝑘! 𝑖 𝑖 𝑛 𝑃(∝𝑖 = 1) = [𝑡]𝜑𝑖 (𝑡) = [𝑧 𝑛 ][𝑡] 𝑘≤ ⁄𝑖 𝑧𝑖 𝑧𝑖 𝑧𝑖 1 1 𝑧 𝑖 −𝑧 𝑖 1 𝑛−𝑖 1 1 1 𝑒 − 𝑖 +𝑡 𝑖 = [𝑧 𝑛 ] 𝑒 𝑖 = [𝑧 ] 𝑒 − 𝑖 ≥ (1 − ) . 1−𝑧 1−𝑧 𝑖 𝑖 1−𝑧 𝑖 𝑖 Отсюда следует, что правая часть (8.2) оценивается сверху величиной 1 1 1 1 ∑ [1 − (1 − ) − (1 − )] = ∑ 2 . 𝑖 𝑖 𝑖 𝑖 𝑖>𝑏 𝑖>𝑏 Следовательно, 𝑃(𝐴𝑏 (𝑛)) ≤ ∑ 𝑖>𝑏 1 → 0, 𝑖2 Если 𝑏 → ∞. Таким образом, при 𝑛 → ∞ «далёкие хвосты» (𝛼𝑖 , 𝑖 > 𝑏) цикловой структуры с вероятностью, близкой к 1, будут содержать лишь нули и единицы. Для уточнения картины рассмотрим с. в = ∑ ∝𝑖 , 𝑖>𝑏 ∝𝑏 (𝑛) которая асимптотически (при 𝑛 → ∞ и 𝑏 = 𝑏(𝑛) → ∞ как угодно медленно) будет совпадать с числом единиц в «хвосте» (∝𝑖 , 𝑖 > 𝑏). Об асимптотическом распределении этой характеристики известно следующее утверждение. Теорема 4. При 𝑛 → ∞ и 𝑏~𝛾𝑛, 0 < 𝛾 < 1, 𝐸𝑡 ∝ 𝑏 (𝑛) → 𝑃𝛾 (𝑡) = 1 + ∑ 1≤𝑘<1⁄𝛾 𝐼𝑘 (𝛾) = где ∫ 𝑡1 ≥𝛾,…,𝑡𝑘 ≥𝛾, 𝑡1 +⋯+𝑡𝑘 ≤1 (𝑡 − 1)𝑘 𝐼𝑘 (𝛾), 𝑘! (8.3) 𝑑𝑡1 … 𝑑𝑡𝑘 , 𝑘 = 1,2, … , 𝐼0 (𝛾) = 1. 𝑡1 … 𝑡𝑘 Сделаем несколько комментариев к этой теореме. Прежде всего, отметим, что предельная производящая функция 𝑃𝛾 (𝑡) представляет собой 1 1 многочлен степени [𝛾], т.е. с.в. 𝛼 𝑏 (𝑛) в пределе принимает лишь значения 0, 1,…, [𝛾]. Так, если 𝛾 > 1 1 1 , то 𝛼 𝑏 (𝑛) ∈ {0,1}, поскольку 𝛾 −1 < 2 и, следовательно, [𝛾 −1 ] = 1; если 3 < 𝛾 ≤ 2, т.е. 2 1 2≤ 1 𝛾 −1 < 3, [𝛾 −1 ]=2, то 𝛼 𝑏 (𝑛) ∈ {0, 1, 2}; вообще, если 𝑠+1 < 𝛾 ≤ 𝑠 при некотором целом 𝑠 ≥ 1, т.е. 𝑠 ≤ 𝛾 −1 < 𝑠 + 1, [𝛾 −1 ] = 𝑠, то 𝛼 𝑏 (𝑛) ∈ {0, 1, … , 𝑠}. 𝑛 Таким образом, во всей правой половине (𝛼𝑖 , 𝑖 > 2) цикловой последовательности 𝛼 = (𝛼1 , 𝛼2 , … , 𝛼𝑛 ) может встретиться самое большее лишь одна 1 (в n-подстановке может быть лишь 𝑛 один цикл длины, большей 2, что, конечно, очевидно, т.к. ∝1 + 2 ∝2 + ⋯ + 𝑛𝛼𝑛 = 𝑛). По мере же расширения «хвоста» (𝛼𝑖 , 𝑖 > 𝛾𝑛), т.е. по мере уменьшения 𝛾, число возможных единиц в нём нарастает описанным выше образом. Вычислим далее среднее значение предельного распределения в (8.3), т.е. производную 1 𝑃𝛾′ (1) = 𝐼1 (𝛾) = ∫ 𝛾 𝑑𝑡 1 1 = ln 𝑡 | = ln . 𝑡 𝛾 𝛾 Справедливо более сильное утверждение, именно, в условиях теоремы 4 1 lim 𝐸 ∝𝑏 (𝑛) = ln . 𝑛→∞ 𝛾 (8.4) Сравнивая результаты (8.4)и (6.7), можно констатировать, что вклад в сумму 𝑛 𝛼(𝑛) = ∑ 𝛼𝑖 𝑖=1 «далёких хвостов» (𝛼𝑖 , 𝑖 > 𝑏) при 𝑏~𝛾𝑛 незначителен – всё «богатство» цикловой структуры 𝛼 = (𝛼1 , 𝛼2 , … , 𝛼𝑛 ) связано с её начальными отрезками (𝛼𝑖 , 𝑖 = 𝜊(𝑛)). Наконец, опишем ещё и схему доказательства теоремы 4. Производящая функция с.в. 𝛼 𝑏 (𝑛) получается из (4.7) при 𝑡𝑟 = 1, 𝑟 ≤ 𝑏, 𝑡𝑟 = 𝑡, 𝑟 > 𝑏: 𝐸𝑡 𝛼 𝑏 (𝑛) = [𝑧 𝑛 ] 1 𝑧𝑟 𝑒𝑥𝑝 {(𝑡 − 1) ∑ } = 1−𝑧 𝑟 𝑟>𝑏 ∞ = [𝑧 𝑛 ] 𝑘 ∞ (𝑡 − 1)𝑘 𝑧𝑟 (∑ 𝑧 ) (∑ (∑ ) ) = 𝑘! 𝑟 𝑙 𝑙=0 = 1+ 𝑘=0 ∑ 1≤𝑘<𝑛⁄𝑏 𝑟>𝑏 (𝑡 − 1)𝑘 𝑆𝑘 (𝑏, 𝑛), 𝑘! где 𝑆𝑘 (𝑏, 𝑛) = ∑ 1 . 𝑟 𝑟 1… 𝑘 ≤𝑛 𝑟1 +⋯+𝑟𝑘 𝑟1 +⋯+𝑟𝑘 >𝑏 Далее показывается, что в условиях теоремы для чисел 𝑆𝑘 (𝑏, 𝑛) справедливы асимптотические отношения 𝑆𝑘 (𝑏, 𝑛)~𝐼𝑘 (𝛾), 𝑘 = 1, 2, … , что и даёт в результате (8.3). Задачи. 1. Показать, что вероятность события 𝐴𝛾𝑛 = {случайная n-подстановка 1 1 содержит цикл длины, большей 𝛾𝑛} при 𝛾 > 2 асимптотически равна ln 𝛾. 2. Получить из теоремы 4 следующую формулу для вероятностей: 𝑃(𝛼 𝑏 (𝑛) < 𝑚) → Φm (γ) = 1 − ∑ m≤k<1⁄γ (−1)k−m I (γ), m ≥ 1; k(m − 1)! (k − m)! k (8.5) в частности, s 𝑃(𝛼 𝑏 (𝑛) (−1)k−1 (−1)k = 0) → Φ1 (γ) = 1 − ∑ Ιk (γ) = ∑ Ik (γ), k! k! 1 1≤k≤ ⁄γ 𝛾∈[ 1 1 , ] , 𝑠 = 0, 1, 2, … 𝑠+1 𝑠 k=0 (8.6) §9. Длина максимального цикла Важной характеристикой случайной n-подстановки является длина ее максимально цикла – это номер 1 (n) последнего (или первого с конца) ненулевого члена в последовательности (1 , 2 ,..., n ) : 1 (n) max i : i 0 (9.1) Хотя n-подстановка может иметь циклы любой длины от 1 до n но, скажем, вероятность получить полноцикловую подстановку (имеющую один цикл длины n), равная n 1! 1 , мала при больших n, т.е. в n! n вероятностной модели такие подстановки “не типичны”. Вероятностная модель позволяет выявлять как раз “типичные” ситуации, вероятности которых не являются бесконечно малыми при n . Какова же “типичная” длина максимально цикла случайной n-подстановки? Ответ на этот вопрос легко получить из уже известных нам результатов, и он имеет следующий вид. Теорема 5. Нормированная случайная величина 1 ( n) n имеет при n собственное предельное распределение на отрезке [0,1], функция распределения которого 1 ( x) определена в (8.6), а плотность 1 ( x) 1 ( x) 1 x 1 . x 1 x Для доказательства слабой сходимости достаточно заметить, что 1 (n) b все i при i b b (n) 0 , и воспользоваться теоремой 4, точнее, следствием из нее (8.6). Вид плотности 1 ( x) следует непосредственно из (8.6): 1 ( x) 1 s 1 (1) k x I k при x 1 , 1 , s=1,2,..; x k 0 k! 1 x s 1 s (9.2) в частности, 1 1 , x 1, x 2 1 x 1 1 1 , x , x 1 ln x 3 2 1 ( x ) 1 1 x 1 x 1 1 1 ln I2 , x , x 2 1 x 4 3 x .......... .......... .......... .......... .......... .......... ......... Таким образом, функция распределения 1 ( x) и ее плотность 1 ( x) на отрезке [0,1] задаются с помощью счетного множества выражений. Добавим к сказанному еще один результат: lim E n (n) 1 n 0,6243 ... Это предельное распределение впервые было найдено В.Л. Гончаровым в 1944 году, поэтому оно носит его имя. Необычность структуры распределения Гончарова, его экзотичность вот уже более полувека привлекают к нему внимание специалистов по теории вероятностей. Как оказалось, это распределение возникает в качестве предельного для распределений экстремальных характеристик в различных комбинаторных схемах. В завершение этой темы мы приведем без доказательства обобщение теоремы 5 в некоторых направлениях. Введем еще следующие характеристики цикловой структуры: 2 (n) max i 1 (n) : i 0 – номер второго с конца ненулевого члена в (1 , 2 ,..., n ) , и т.д., m (n) max i m1 (n) : i 0 Другими словами, – номер m-го (с конца) ненулевого члена в . m (n) – это m-я максимальная длина циклов случайной n-подстановки (при этом каждая длина i учитывается i раз, если i >0). Нетрудно видеть, что между случайными величинами m (n) и b (n) имеет место следующая связь: P m (n) b P b (n) m Следовательно, в силу результата (8.5), имеем, что при n и любом фиксированном m 1 1 m ( x ) ,0 x m P n m ( n) x , x m 1 1 1 (9.3) Далее, для совместного распределения случайных величин 1 (n) ,… m (n) можно доказать следующую многомерную локальную предельную теорему1 Теорема 6. Пусть m 1 и 0 xm xm1 ... x1 1 таковы, что 0 x1 ... xm 1 . Тогда lim n m ( j (n) [nx j ], j 1,..., m) m ( x1 ,..., xm ) n xm 1 . 1 x1...xm 1 x1 ... xm Определенная в (9.4) функция (9.4) m ( x1 ,..., xm ) называется m-мерной плотностью Гончарова (при m=1 она сводится к (9.2)). 1) Ивченко Г.И., Медведев Ю.И. Метод В.Л. Гончарова и его развитие в анализе различных моделей случайных подстановок.–Теория вероятностей и ее применение., Т.47, вып.3,2002, с.558-566. §10. Общая картина и некоторые дополнения к ней Итак, цикловая структура (1 , 2 ,..., n ) случайной n- подстановки при n устроена следующим образом. Голова этой последовательности ( i , i b) (т.е. ее распределение) при любом b=o(n) устроена так же, как совокупность ( Z i , i b) независимых пуассоновских случайных величин, при этом L(Z i ) 1 , i 1,2,... , а далекие хвосты ( i , i b) , b b(n) (как угодно медленно), с i вероятностью, стремящейся к 1 при n , состоят лишь из нулей и единиц. Для общего числа тех i, для которых i 2 , т.е. для случайных величин n L2 (n) I ( i 2) , i 1 имеет место сходимость P L2 (n) L2 (n) I (Z i i 1 при этом EL2 0,528 ... 2) , (тем самым по вероятности случайная величина L2 (n) асимптотически ограничена). Отсюда, в частности, следует, что P(все i P( Z i i 1 1) P( L2 (n) 0) P( L2 0) P(все Z i 1) 1 1 1) 1 e i e c 0,561 ... i i 1 (здесь использована формула Вейерштрасса1) для гамма-функции z z i , с – постоянная Эйлера (см.(5.8))). 1 zc ( z) ze 1 e i i 1 n Общее число циклов ( n) i i 1 в среднем растет как нормально N (ln n, ln n) . Более того, известно, что для любого ln n , а его распределение асимптотически t (0,1) при n i t ln n t L in N (0,1) t ln n Но могут быть и очень длинные циклы: с положительной вероятностью случайная n- подстановка может иметь цикл (но только один) любой длины n,0 1. 1)Вейерштрасс Карл Теодор Вильгельм (1815-1897) – немецкий математик. §11. Другие характеристики подстановок. Помимо цикловой структуры, для приложений представляют большой интерес и ряд других характеристик подстановок, некоторые из которых мы кратко рассмотрим здесь в контексте вероятностного подхода. 1. Инверсии. Рассмотрим произвольную n-подстановку 𝑠 = (𝑠1 2𝑠 ……𝑠𝑛 ) . Говорят, что 1 2 𝑛 элемент 𝑠𝑘 образует r инверсий в перестановке (𝑠1 𝑠2 … 𝑠𝑛 ) , если он стоит впереди (или правее его стоят) r элементов, имеющих меньшие значения. Так, в перестановке (6,2,1,4,3,5) “6” образует 5 инверсий, “2” образует одну инверсию, ”1” – ни одной, ”4” – одну инверсию, ”3” и ”5” – ноль инверсий; общее же число инверсий здесь равно 7. Пусть 𝑋𝑘 означает число инверсий, образованных элементом “k” (в перестановке (𝑠1 𝑠2 … 𝑠𝑛 ) правее k стоит 𝑋𝑘 элементов с меньшими значениями), k=1,2,…,n (всегда 𝑋1 = 0), и 𝑇𝑛 = 𝑋1 + 𝑋2 + + ⋯ + 𝑋𝑛 – общее число инверсий в подстановке 𝑠. Характеристика 𝑇𝑛 есть мера хаотичности (или “беспорядка”) в перестановке (𝑠1 𝑠2 … 𝑠𝑛 ) . Крайние случаи “полного отсутствия беспорядка” имеют вид (1,2,…,n) и (n,n-1,n-2,…,2,1) – для первого 𝑇𝑛 = 0 , а для второго 𝑇𝑛 = (𝑛 − 1) + (𝑛 − 2) + ⋯ + 1 = 𝑇𝑛 ≤ 𝑛(𝑛−1) 2 𝑛(𝑛−1) 2 , вообще же 0 ≤ . Если подстановка 𝑠 случайна, то {𝑋𝑘 } – случайные величины, при этом в силу равновероятности случайная величина 𝑋𝑘 принимает свои возможные значения 0,1,…, k-1 с одной и той же вероятностью 1 𝑘 . Следовательно, 𝑘−1 𝐸𝑋𝑘 = ∑ 𝑗=1 𝑗 𝑘−1 = 𝑘 2 (11.1) 𝑘−1 𝑗2 𝑘 − 1 2 (𝑘 − 1)(2𝑘 − 1) 𝑘 − 1 2 𝑘2 − 1 𝐷𝑋𝑘 = ∑ − ( ) = −( ) = 𝑘 2 6 2 12 𝑗=1 (здесь использована формула ∑nj=1 j2 = n(n+1)(2n+1) 6 ). Далее, 𝑋𝑘 не зависит от взаимного расположения элементов 1,2,…,k-1 , т.е. от числа инверсий 𝑋1 , 𝑋2 , … , 𝑋𝑘−1 , а так же от 𝑋𝑘+1 , … , 𝑋𝑛 . Таким образом, {𝑋𝑘 } – независимые случайные величины Следовательно, с учетом (11.1) имеем: 𝑛 𝑛 𝑘=1 𝑘=1 1 𝑛(𝑛 − 1) 𝑛2 𝐸𝑇𝑛 = ∑ 𝐸𝑋𝑘 = ∑(𝑘 − 1) = ~ , 2 4 4 𝑛 𝑛 𝑘=1 𝑘=1 1 2𝑛3 + 3𝑛2 − 5𝑛 𝑛3 𝐷𝑇𝑛 = ∑ 𝐷𝑋𝑘 = ∑(𝑘 2 − 1) = ~ . 12 72 36 По ЦТП при n→∞ 𝑇𝑛 − 𝑛2 ⁄4 ℒ ( 3⁄2 ) → 𝛮(0,1). 𝑛 ⁄6 Таким образом, при больших значениях n число n-подстановок, для которых число 𝑛2 (4 −𝑡 инверсий лежит внутри интервала 𝑛3⁄2 𝑛2 6 , 4 +𝑡 𝑛3⁄2 6 ) , приблизительно равно n! (Φ(𝑡) − Φ(−t)) для любого 𝑡 > 0 . 2.Возрастания. Элементы 𝑠𝑘 и 𝑠𝑘+1 в перестановке (𝑠1 𝑠2 … 𝑠𝑛 ) образуют возрастание, если 𝑠𝑘 < 𝑠𝑘+1 . Считается, что первый элемент образует возрастание, пары (𝑠1 𝑠2 ), (𝑠2 𝑠3 ), . . . , (𝑠𝑛−1 𝑠𝑛 ) образуют самое большее n-1 возрастаний. Пусть 𝜂𝑛 есть общее число возрастаний в случайной подстановке 𝑠. Известно, что эта случайная величина имеет следующее распределение: 𝑘 1 𝑗 𝑃(𝜂𝑛 = 𝑘) = ∑(−1)𝑗 𝐶 (𝑘 − 𝑗)𝑛 , 𝑘 = 1,2, … , 𝑛 . 𝑛! 𝑛+1 𝑗=0 𝑛 𝑛 𝑛 𝑛 Если n→∞ , то 𝐸𝜂𝑛 ~ 2 , 𝐷𝜂𝑛 ~ 12 и ℒ ((𝜂𝑛 − 2 ) /√12) → 𝛮(0,1). 3.Декремент. Декрементом подстановки 𝑠 ∈ 𝑆𝑛 называется число n- 𝛼(n), где, напомним 𝛼 (n) есть общее число циклов подстановки 𝑠. Подстановка 𝑠 называется четной(нечетной), если ее декремент - четное(нечетное) число. Число четных подстановок всегда равно числу нечетных, т.е. 𝑛! 2 𝑒 0 . Далее, пусть 𝐶 𝑛𝑘 и 𝐶 𝑛𝑘 обозначают числа четных и нечетных подстановок с k циклами. Известно, что 1 𝑒 0 𝐶 𝑛𝑘 = 2 (|s(n, k)| + s(n, k)) , 𝐶 𝑛𝑘 = 1 2 (|s(n, k)| − s(n, k)) , где s(n, k) - числа Стирлинга 1-ого рода (см. §5). Если подстановка выбирается с равной вероятностью из множества четных подстановок и случайная величина 𝜉 𝑛𝑒 есть число циклов в ней, то 𝑃 (𝜉 𝑒 𝑒 𝑛! |s(n, k)| + s(n, k) = 𝑘) = 𝐶 / = 𝑛 𝑛𝑘 2 n! и при n→∞ ℒ(𝜉 𝑛𝑒 )~𝛮(ln 𝑛 , ln 𝑛) . Такое же асимптотическое заключение справедливо и для нечетной случайной подстановки. §12. А-подстановки. Пусть для некоторого подмножества 𝐴 ⊆ 𝑋𝑛 = {1,2, … , 𝑛} символ 𝑆𝑛 (𝐴) обозначает совокупность тех подстановок 𝑠 ∈ 𝑆𝑛 , длины всех циклов которых принадлежит А, - такие подстановки называются А-подстановками. Типичными примерами задания подмножества А является следующее: 𝐴 = {𝑖: 𝑖 ≤ 𝑟} при некотором 𝑟 > 𝑛 (длина циклов подстановки не превосходит r), 𝐴 = {𝑘𝑑, 𝑘 = 1,2, … } при заданном 𝑑 ≥ 2 (длины циклов кратный числу d), 𝐴 = {1,3,5, … } -подстановки с нечетными длинами циклов и т.д. При изучении А-подстановок прежде всего возникает вопрос об их числе |𝑆𝑛 (𝐴)| , т.е. о выводе либо явных формул, либо асимптотических оценок для них. Общее выражение для |𝑆𝑛 (𝐴)| при любом А можно получить из производящей функции ∞ ∑ |𝑆𝑛 (𝐴)| 𝑛=0 𝑧n 𝑧r = exp{∑ } . n! r! (12.1) 𝑟∈𝐴 Представление (12.1) следует из (4.2), поскольку |𝑆𝑛 (𝐴)| = ∑ 𝐾𝑛 (𝑎̅) , где суммирование проводится по всем векторам 𝑎 = (𝑎1 , 𝑎2 , … , 𝑎𝑛 ) в которых компоненты 𝑎𝑗 = 0 , если 𝑗 ∉ 𝐴 : учитывая, что в данном случае 𝑛 = ∑𝑟∈𝐴 rar , имеем ∞ ∞ ∞ 𝑧n 1 𝑧 r ar 1 𝑧 r ar ∑ |𝑆𝑛 (𝐴)| = ∑∏ ( ) =∏∑ ( ) , n! ar ! r! ar ! r! 𝑛=0 𝑛=0 𝑟∈𝐴 r∈A ar =0 и мы приходим к (12.1). Итак, для любого подмножества 𝐴 ⊆ 𝑋𝑛 можем записать, что |𝑆𝑛 (𝐴)| = 𝑛! [𝑧 n ] exp {∑ 𝑟∈𝐴 𝑧𝑟 } 𝑟! (12.2) Применим этот общий результат к ряду конкретных примеров заданий множества А, представляющих особый интерес для приложений. 1.Инволюции. В теории подстановок важную роль играет вопросы решения управлений вида 12 … 𝑛 𝑠𝑑 = 𝑒 = ( ) , 12 … 𝑛 𝑠 ∈ 𝑆𝑛 , (12.3) где 𝑑 ≥ 2 – заданное целое число. Решениями управления (12.3) являются подстановками s, у которых длины циклов представляют собой делители числа d (их обозначают i|d (i - делитель d). Другими словами, решения этого уравнения – это А-подстановки при А = { i; i|d} . Если в (12.3) степень d=2, то решение называется инволюцией, оно имеет только циклы длины 1 и 2, т.е. инволюция есть А-подстановка при 𝐴 = {1,2}. Пусть для данного случая |𝑆𝑛 (𝐴)| = 𝑄𝑛 (𝑑). Тогда из (12.2) следует, что 𝑄𝑛 (𝑑) = 𝑛! [𝑧 n ] exp {∑ 𝑖|𝑑 𝑧𝑖 }. 𝑖! Если d является простым числом, то 𝐴 = {1, 𝑑} и в этом случае для 𝑄𝑛 (𝑑) можно выписать явную формулу: 𝑄𝑛 (𝑑) = 𝑛! [𝑧 n ] ∞ ∞ 𝑘=0 𝑟=0 𝑧𝑑 𝑧𝑘 𝑧 𝑟𝑑 1 exp {𝑧 + } = 𝑛! [𝑧 n ] (∑ ) (∑ 𝑟 ) = 𝑛! ∑ 𝑟 = 𝑑 𝑘! 𝑑 𝑟! 𝑑 𝑟! (𝑛 − 𝑟𝑑)! [𝑛/𝑑] = 𝑛! ∑ 𝑟=0 𝑟:𝑟𝑑≤𝑛 1 . − 𝑟𝑑)! (12.4) 𝑑 𝑟 𝑟! (𝑛 В частности, число инволюций есть [𝑛/2] 𝑄𝑛 (2) = 𝑛! ∑ 𝑟=0 1 . − 2𝑟)! 2𝑟 𝑟! (𝑛 При больших значениях n для этого числа (12.4) известна асимптотическая оценка: 1 𝑄𝑛 (𝑑)~ → ∞. 𝑛(1−𝑑)𝑛 √𝑑 1 1 exp {− (1 − ) 𝑛 + 𝑛𝑑 } , n 𝑑 (12.6) 2. Подстановки с длинами циклов, кратными числу 𝒅 ≥ 𝟐. (12.5) Обозначим 𝐶𝑛 (𝑑) = |𝑆𝑛 (𝐴)| при 𝐴 = {𝑘𝑑, 𝑘 = 1,2, … }. Тогда из (12.2) имеем: ∞ 𝐶𝑛 (𝑑) = 𝑛! [𝑧 𝑛 ] exp {∑ 𝑘=1 𝑧 𝑘𝑑 }. 𝑘𝑑 Здесь ∞ ∑ 𝑘=1 𝑧 𝑘𝑑 1 = − ln(1 − 𝑧 𝑑 ), 𝑘𝑑 𝑑 поэтому (см. (5.5)) 𝐶𝑛 (𝑑) = 𝑛! [𝑧 𝑛 ](1 − 1 𝑧 𝑑 ) −𝑑 1 1 1 [ ] [ ] , если 𝑛 = 𝑛0 𝑑, 𝑑 𝑘 𝑘𝑑 𝑛 = 𝑛! [𝑧 ] ∑ 𝑧 = 𝑛! {𝑛0 ! 𝑑 𝑛0 𝑘! 𝑘=0 0, если 𝑛 не кратно 𝑑. ∞ (12.7) В частности, при 𝑑 = 2 речь идёт о подстановках с чётными длинами циклов, и из (12.7) заключаем, что число таких -подстановок есть при чётном 𝑛 = 2𝑛0 𝐶2𝑛0 (2) = (2𝑛0 )! 1 [ ] 𝑛0 ! 2 𝑛0 (12.8) и 𝐶𝑛 (2) = 0 при нечётном 𝑛. 3. Подстановки с нечётными длинами циклов, т.е. -подстановки при 𝐴 = {1, 3, 5, … }, их число обозначается 𝐶𝑛0 . В этом случае в показателе экспоненты в (12.2) стоит ряд ∞ ∞ 𝑧3 𝑧5 𝑧𝑘 𝑧 2𝑘 1 𝑧+ + +⋯= ∑ −∑ = − ln(1 − 𝑧) + ln(1 − 𝑧 2 ) = 3 5 𝑘 2𝑘 2 𝑘=1 𝑘=1 1 1 1 1+𝑧 = − ln(1 − 𝑧) + ln(1 + 𝑧) = ln , 2 2 2 1−𝑧 поэтому (см. разложения (5.3)и (5.5)) 𝐶𝑛0 = 𝑛! [𝑧 𝑛 ] ∞ ∞ 𝑘=0 𝑟=0 1 + 𝑧 1/2 ( ) = 𝑛! [𝑧 𝑛 ] (∑ 𝐶 𝑘 1 𝑧 𝑘 ) (∑ 𝐶1𝑟 𝑧 𝑟 ) 𝑘− 1−𝑧 2 2 𝑛 = 𝑛! ∑ 𝐶 𝑘 𝑘=0 𝑘− (12.9) 𝑛−𝑘 . 1 𝐶1 2 2 В контексте вероятностного подхода к исследованию -подстановок можно подходить двояко. С одной стороны, можно ставить вопрос о том, насколько «типична» случайная -подстановка среди всех 𝑛 -подстановок 𝑆𝑛 = {𝑠} , т.е. какова вероятность случайной и равновероятной 𝑛 подстановке быть 𝐴-подстановкой? Формально этот вопрос решается просто (см. (12.2)): P(𝑠 ∈ 𝑆𝑛 (𝐴)) = |𝑆𝑛 (𝐴)| 𝑧𝑟 = [𝑧 𝑛 ] exp {∑ }. 𝑛! 𝑟 (12.10) 𝑟∈𝐴 Проблемой здесь является получение явных выражений (или, хотя бы, асимптотик при больших 𝑛) правой части (12.10). Приведённые выше примеры иллюстрируют возможные на этом пути варианты решения. Так, из соотношения (12.6) с использованием формулы Стирлинга (см. Замечание 2 в §4) следует, например, что вероятность случайной подстановке быть инволюцией есть [𝑛⁄2] 𝑛 𝑄𝑛 (2) 1 𝑒 2 +√𝑛 = ∑ 𝑟 ∼ 0, 𝑛+1 → 𝑛→∞ 𝑛! 2 𝑟! (𝑛 − 2𝑟) 2√𝜋𝑛 2 𝑟=0 т.е. «инволюция» не является «типичным» свойством -подстановок при больших 𝑛. Другой подход к исследованию -подстановок состоит в том, чтобы априори ограничиваться множеством 𝑆𝑛 (𝐴) и считать, что любая 𝐴-подстановка может наблюдаться с одной и той же вероятностью |𝑆𝑛 (𝐴)|−1 (т.е. здесь речь идёт об условной вероятностной модели, когда мера сосредоточена лишь на множестве 𝑆𝑛 (𝐴) ). Тогда можно ставить вопросы об исследовании различных конкретных свойств -подстановки, выбираемой случайно и равновероятно из множества 𝑆𝑛 (𝐴). Приведём в качестве иллюстрации один результат такого типа (общая асимптотическая теория 𝐴-подстановок изложена в книге Якымива А. Л. «Вероятностные приложения тауберовых теорем». ― М.: ФИЗМАТЛИТ, 2005). Пусть 𝐴 = {𝑖: 𝑖 ≤ 𝑟} , т.е. рассматриваются лишь подстановки с длинами циклов, не превосходящими заданного числа 𝑟 < 𝑛. Число всех таких -подстановок есть (см. (12.2)) 𝑟 𝐻𝑛𝑟 = 𝑛! [𝑧 𝑛 ] exp {∑ 𝑖=1 𝑧𝑖 }, 𝑖 (12.11) Если считать, что все эти -подстановки равновероятны, то для производящей функции их цикловой структуры имеем представление: 𝑟 𝛼 E𝐴 ∏ 𝑡𝑖 𝑖 𝑖≤𝑟 = 𝑛! [𝑧 𝑛 ] 𝑧𝑖 exp {∑ 𝑡𝑖 }⁄𝐻𝑛𝑟 𝑖 𝑖=1 𝑟 = [𝑧 𝑛 ] exp {∑ 𝑖=1 𝑟 (12.12) 𝑧𝑖 𝑧𝑖 𝑡𝑖 }⁄[𝑧 𝑛 ] exp {∑ }. 𝑖 𝑖 𝑖=1 Основываясь на представлении (12.12), можно исследовать асимптотические свойства различных характеристик цикловой структуры таких -подстановок. Приведём в качестве иллюстрации один из соответствующих результатов. Пусть 𝑛, 𝑟 → ∞ так, что ln 𝑟 / ln 𝑛 ∈ [𝜀, 1 − 𝜀] , 𝜀 > 0 (𝑟 растёт как некоторая степень 𝑛 , и 𝑛/𝑟 → ∞ также степенным образом). Введём функцию 𝑟 h𝑛𝑟 (𝑧) = ∑ 𝑖=1 𝑧𝑖 − 𝑛 ln 𝑧, 𝑖 𝑟 и пусть 𝑧𝑛 есть корень уравнения h′𝑛𝑟 (𝑧) = 0, т. е. ∑ 𝑧 𝑖 = 𝑛. 𝑖=1 Тогда 𝑛 ln ln 𝑟 1 𝑛 𝑛 𝑧𝑛 = 1 + {ln + ln ln + 𝑂 ( 𝑛 )}, 𝑟 𝑟 𝑟 ln 𝑟 (12.13) 𝑧𝑛𝑖 и E𝐴 𝛼𝑖 ∼ , ∀𝑖. 𝑖 В частности, E𝐴 𝛼𝑟 ∼ 𝑧𝑛𝑟 1 𝑛 𝑛 𝑛 𝑛 ∼ exp {ln + ln ln + 𝑜(1)} ∼ 2 ln . 𝑟 𝑟 𝑟 𝑟 𝑟 𝑟 (12.14) Если 𝑟 ∼ √𝑛 ln 𝑛, то E𝐴 𝛼𝑟 = 𝑂(1) ― число циклов максимальной длины 𝑟 в -подстановке ― в среднем конечно; если 𝑟⁄√𝑛 ln 𝑛 → 0, то E𝐴 𝛼𝑟 → ∞; если 𝑟⁄√𝑛 ln 𝑛 → ∞, то E𝐴 𝛼𝑟 → 0. Для общего числа циклов 𝛼(𝑛) = ∑𝑟𝑖=1 𝛼𝑖 такой -подстановки справедлив следующий результат: 𝑟 𝑟 𝑧𝑛𝑖 𝑧𝑛𝑖 ℒ(𝛼(𝑛)) ∼ 𝑁 (∑ , ∑ ), 𝑖 𝑖 𝑖=1 (12.15) 𝑖=1 при этом 𝑟 ∑ 𝑖=1 𝑧𝑛𝑖 𝑛 ∼ , 𝑖 2 т.е. гораздо больше, нежели ln 𝑛, как в безусловной модели. Отметим также следующий факт. Поскольку должно выполняться равенство ∑𝑟𝑖=1 𝑖𝛼𝑖 = 𝑛, то 𝑛 ≤ 𝑟 ∑𝑟𝑖=1 𝛼𝑖 = 𝑟𝛼(𝑛), т.е. 𝛼(𝑛) ≥ 𝑛⁄𝑟 , причём этот минимум достигается, только если все циклы имеют максимально возможную длину 𝑟. А так как E𝐴 𝛼(𝑛) ∼ 𝑛⁄𝑟, то в рассматриваемом случае подстановок в среднем почти все циклы имеют максимально возможную длину 𝑟. Таким образом, ограничение длин циклов в случайной 𝑛-подстановке величиной 𝑟 при условии, что ln 𝑟 / ln 𝑛 ∈ [𝜀, 1 − 𝜀] , 𝜀 > 0, приводит к резкому увеличению (в сравнении с ln 𝑛) общего числа её циклов и к концентрации их длин вблизи границы 𝑟. Так компенсируется отсутствие в равенстве ∑𝑛𝑖=1 𝑖𝛼𝑖 = 𝑛 членов с 𝑖 > 𝑟. Задача. Используя следующие формулы для гамма-функции Γ(𝑥): 1) 𝑥Γ(𝑥) = Γ(𝑥 + 1) и, следовательно, Γ(𝑛 + 𝑎) = 𝑎(𝑎 + 1) ∙∙∙ (𝑎 + 𝑛 − 1) = [𝑎]𝑛 ; Γ(𝑎) (12.16) 1 Γ(𝑛 + 𝑎) = 𝑛𝑛+𝑎−1 𝑒 −𝑛 √2𝜋𝑛 (1 + 𝑂 ( )) , 𝑛 → ∞ 𝑛 (формула Стирлинга для гамма-функции), получить асимптотическую формулу для чисел (12.6) (и (12.8)): 2) (12.17) 1 𝐶𝑛 (𝑑) 1 𝑑 1−𝑑 ∼ ( ) , если 𝑛 кратно 𝑑. 1 𝑛! Γ( ) 𝑛 𝑑 (12.18) §13.Неполные подстановки 1.В криптографических приложениях довольно типичными являются ситуации, когда (n) исследователь не располагает всей информацией о графе Гs отображения (подстановки) s: ему могут быть известны лишь некоторые фрагменты изучаемого отображения. Во многих случаях вполне адекватной моделью для таких ситуаций является следующая модель неполного графа (n) (неполной подстановки): из полного графа Гs удалено некоторое число m его ребер, 0 < m < n, n причем все ( ) вариантов выбора удаляемых ребер равновозможны. В результате получается m (n,m) ̅ граф Гs , состоящий из n вершин и N = n − m ребер (в соответствующей подстановке известны лишь N переходов из n). (n,m) Как устроен такой неполный граф Г̅s ? Его компонентами связности будут либо (n) замкнутые цепочки (циклы исходного графа Гs , из которых не удаляются ребра), либо (n) незамкнутые цепочки, образовавшиеся в результате разрывов циклов графа Гs ; при этом число незамкнутых цепочек всегда равно m-числу удаляемых ребер (изолированная вершина также считается незамкнутой цепочкой). Будем называть длиной (любой) цепочки число занятых в ней вершин. Тогда число ребер в замкнутой цепочке будет равно ее длине, а в незамкнутой – на 1 меньше ее длины. Поэтому, если (n,m) обозначать через k i число замкнутых цепочек длины i в графе Г̅s , а через lj – число незамкнутых (n,m) цепочек длины j то набор {k i , lj } - структура графа Г̅s - удовлетворяет условиям LNm = { ∑i≥1 ik i + ∑j≥1(j − 1)lj = N } ∑j≥1 lj = m (13.1) (n,m) Обозначим CNm ({k i , lj }) число всех неполных подстановок (графов Г̅s ) со структурой {k i , lj }, а СNm = ∑ СNm ({𝑘𝑖 , lj }) LNm (n,m) общее число неполных подстановок (графов Г̅s ). Для этих чисел известны следующие представления: СNm ({𝑘𝑖 , lj }) = СNm = N! ( (N + m)! , ∏i,j≥1 k i ! iki lj ! (13.2) N+m 2 ) . m Замечание. При m = 0 все сводится к полным подстановкам: нет незамкнутых цепочек (все lj = 0, N = m) и (13.2) совпадает с (4.3). (𝐧,𝐦) 2.Производящая функция случайной структуры графа Г̅𝐬 (n,m) Зададим на множестве всех графов Г̅s (или, что тоже самое, на множестве всех неполных подстановок рассматриваемого вида) равномерное распределение, т.е. будем считать, что каждый (каждая) из них может наблюдаться с одной и той же вероятностью (CNm )−1. Соответствующую случайную структуру будем обозначать {сi (N, m), dj (N, m)}. Для распределения этой случайной величины, с учетом (13.2), можем записать представление CNm ({k i , lj }) CNm 2 N! m! 1 = I(LNm ) ∏ . (N + m)! k i ! iki lj ! P( {ci (N, m), dj (N, m)} = {k i , lj }) = (13.3) i,j≥1 Введем также соответствующую производящую функцию (пр.ф.) c (N,m) ФNm (x, y) = E ∏ xi i d (N,m) yj j i,j≥1 = lj xi ki yj N! m!2 1 ∑∏ ( ) (N + m)! ki! i (13.4) lj ! LNm i,j≥1 (здесь x = (xi , i ≥ 1), y = (yj , j ≥ 1)). Нетрудно заметить, что если рассмотреть функцию Fm (u) m = (∑ uj−1 yj ) exp {∑ j≥1 i≥1 ui x} i i (13. 5) и разложить ее по степеням u, то (см. (13.1)) ∞ [uN ] Fm (u) = [uN ] ( ∑ ∑𝑗≥1 lj =m k m! 1 ui i i lj j−1 ∏(u yj ) ) ∏ ∑ ( x) = l1 ! l2 !. . . ki ! i j≥1 i≥1 kj =0 l j 1 xi ki yj = m! ∑ ∏ ( ) , ki ! i lj ! LNm i,j≥1 т. е. ФNm (x, y) = N! m! [uN ] Fm (u) (N + m)! (13.6) Это представление является основой для дальнейшего анализа структуры случайной неполной подстановки. 3.Замкнутые цепочки Для упрощения записи далее будем писать ci = ci (N, m), i ≥ 1. Совместная пр. ф. этих характеристик есть c E ∏ xi i = ФNm (x, 1) 𝑖 = N! m! ui [uN ](1 − u)−m exp {∑ xi }. (N + m)! i (13.7) i≥1 Если здесь положить все xi = x, то получим пр. ф. для общего числа замкнутых цепочек С(N, m) = ∑ ci (N, m) ∶ i≥1 Ex C(N,m) = N! m! N! m! [uN ](1 − u)−m exp{−x ln(1 − u)} = [uN ](1 − u)−m−x = (N + m)! (N + m)! m! m! Г(N + m + x) [m + x]N = = (13.8) (N + m)! (N + m)! Г(m + x) (см. формулу (12.16)). Из (13.8) легко получаем, что: a) P(C(N, m) = 0) = Ex C(N,m) |x=0 = m! Г(N + m) m N = = 1− , (N + m)! Г(m) N+m n ′ m+N−1 b) EC(N, m) = (Ex C(N,m) ′ ) |x=1 m! = ( ∏ (k + x)) = (N + m)! k=m m+N−1 n m k=m r=1 r=1 1 1 1 = ∑ = ∑ −∑ . k+1 r r Будем далее предполагать, что m, n → ∞ так, что 0 <∝0 ≤∝= N n ≤∝1 < 1. (∗) Тогда из предыдущих формул следует, что с положительной вероятностью 1−∝ в случайной (n,m) неполной подстановке (графе Г̅s ) замкнутые цепочки будут отсутствовать, а их среднее число u 1 будет конечным и асимптотически равным ln m ~ ln 1−∝. с) Наконец, применение формулы Стирлинга (12.17) даст, что в условиях (∗) Ex C(N,m) = Г(n + x) Г(m + 1) n x−1 1 ~( ) ~ exp {(x − 1) ln }. Г(n + 1) Г(m + x) m 1−∝ Таким образом, в условиях (∗) число замкнутых цепочек имеет асимптотически 1 распределение Пуассона с параметром ln 1−∝. Задача. Доказать, что в условиях (∗) ECi ~ ∝i i , i ≥ 1, эти с. в. асимптотически независимы и ∝i L(Ci ) → П ( i ). Рассмотрим теперь с.в. ( N , m) i C i i 1 – суммарное число вершин (или ребер), занятых в образовании замкнутых цепочек. Чтобы получить ее пр. ф., надо в (13.7) положить х Z ( N ,m ) uх i N !m! N !m! m m 1 u N 1 u eхp u N 1 u 1 uх i 1 ( N m)! i ( N m)! х i =Х i , i 1 : (13.9) Отсюда, в частности, имеем: N , m Eх Z N ,m N!m! m2 u N 1 1 u Х 1 ( N m)! N!m! (m 2)( m 3)...( m N ) N ~ , ( N m)! ( N 1)! m 1 1 / т.е. среднее конечно. Далее, PZ N , m k Х k Eх Z N ,m N!m! m u N K 1 u N m! N!m! mm 1...m N k 1 N! m n k ! N m! N k ! N K ! n K n! m N k 1 N k 2 N ~ 1 k , k 0,1,2,... n k n k 1 n k 2 n (13.10) Таким образом, в условиях (*) с.в. Z (N, m) имеет асимитотически геометрическое распределение с параметром α . Итак, как общее число замкнутых цепочек, так и суммарное число занятых в них вершин (ребер) в условиях (*) остаются в пределе ограниченными, т.е. практически все вершины и ребра заняты в образовании незамкнутых цепочек. 4.Незамкнутые цепочки графа __ Гs ( n ,т ) . Как следует из предыдущего, основные структурные особенности неполной подстановки __ ( n ,т ) (графа Г s ) в условиях (*) связаны с незамкнутыми цепочками. Совместная пр.ф. совокупности ( dj = dj (N,m),j ≥ 1), как следует из соотношений (13.4) –(13.6), имеет вид E y j j Nm (1, y) d j 1 N!m! u N (1 u) 1 ( u j 1 y j ) m j 1 ( N m)! (13.11) Отсюда для отдельной с.в. dr имеем: Ey dr N !m! 1 u N (1 u ) 1 u r 1 ( y 1) ( N m)! 1 u m (13.12) Дифференцируя это соотношение в точке y = 1, найдем среднее Ed r m2 N !m! N !m! m(m 1)...m N r m u N r 1 (1 u ) m m N r 1! n! n! ( N r 2)( N r 3)... N N r 1 ~ m 2 r 1 n(1 ) 2 r 1 , r 1 (n r 1)( n r 2)...n n Таким образом, в условиях (*) среднее число незамкнутых цепочек любой фиксированной длины неограниченно растет, имея порядок n. В частности, число изолированных вершин d1. в среднем растет как n (1-α )2. Рассмотрим более детально характеристику d1. Из (13.12) следует, что Ey d1 N !m! u u N (1 u ) 1 y ( N m)! 1 u m Выделяя здесь коэффициент при y , находим, что Pd1 N!m! m N m u u (1 u ) m 1 n! m m N!m! N m N! 1 u m1 N!m! u n! n! (m )!( N m )! Дальнейший анализ этого выражения с применением формулы Стирлинга приводит к следующему результату. Теорема 7. В условиях (*) равномерно по α и Pd1 ( N , т) n(1 ) 2 nt , t c , t2 1 eхх (1 0( )) 2 2 2 2 n 2n (1 ) 2 (1 ) 1 __ (13.13) ( n ,т ) Таким образом, для числа изолированных вершин d1 в графе Г s в условиях (*) имеет место локальная нормальная предельная теорема. Справедлива также и интегральная предельная теорема: 2 2 2 £ (d1 ( N , m)) ~ N(n(1 ) , n (1 ) ) (13.14) Для произвольного фиксированного r≥1 соответствующий результат имеет следующий вид: в условиях (*) 2 r 1 2 £ (d r ( N , m)) ~ N(n(1 ) , n r ( )) , (13.15) где r2 ( ) (1 ) 2 r 1 1 (1 ) r 1 1 ((1 )r 1) 2 . . Задача. Используя утверждение (13.14), убедиться в справедливости также и следующих утверждений: 1. Число незамкнутых цепочек с переходами (с ребрами) d j m d1 j 2 асимитотически нормально N (n (1 ), n (1 ) ) ; 2 2 2. Число вершин в незамкнутых цепочках с переходами jd j N ic i d j j 2 i 1 j 2 2 2 в условиях (*) асимитотически нормально N (n (2 ), n (1 ) ) в условиях (*) 5. Максимальная длина незамкнутой цепочки. Из изложенного следует, что средняя длина незамкнутой цепочки с переходами в условиях (*) n (2 ) 2 n ( 1 ) 1 , т.е. конечна. Но могут быть и очень длинные асимитотически равна незамкнутые цепочки. Пусть __ Гs ( N , m) max j : d j ( N , m) 0 есть максимальная длина незамкнутой цепочки в графе ( n ,т ) 1 Можно показать, что эта характеристика μ в условиях (*) имеет порядок lnn /ln , а число цепочек с максимальной длиной ведет себя асимитотически как пуасоновская случайная величина с некоторым параметром. Именно: если 1 DM N М s ln N / ln r , r 0,1,2, и d j M N j ( N , m) - - число цепочек с длиной, большей MN, то £ ( D M ы ) ~ П ( N ) N (1 ) r , N ln N / ln N , где 1 - дробная часть, а Р( M N ) Р( DM N 0) ~ e N (13.16) §14. Неравновероятные подстановки. 1.Модель равновероятных подстановок, когда каждая подстановка s ∈ Sn может наблюдаться с 1 одной и той же вероятностью 𝑛!, удобна для решения различных задач, когда требуется подсчитать или оценить число n-подстановок, обладающих тем или иным заданным свойством. Однако в приложениях возникают и другие задачи, для решения которых равновероятная модель уже не является адекватной: требуется учитывать различного рода возможные отклонения от равновероятности. Если мера P на Sn отлична от равномерной, то мы говорим о неравновероятных подстановках. Общая параметрическая модель случайных подстановок была предложена Г.И.Ивченко и Ю.И.Медведевым в 2003 г. и она имеет следующий вид: произвольная подстановка s ∈ Sn с цикловой a структурой ā=(a1 , a2 , … , an ) наблюдается с вероятностью, пропорциональной ∏𝑖 θi i , где θ̅ = (θ1 , θ2 , … , θn ) (все θi ≥ 0) – параметр меры P (в этом случае используется олбозначение 𝑃𝜃̅ ). Именно: n n (14.1) a Pθ̅ (s) = I (∑ iai = n) ∏ θi i ⁄Hn (θ̅ ). i=1 i=1 Здесь Hn (θ̅ ) - необходимый нормирующий множитель, определяемый условием (см.(4.2)) n 1 = ∑ Pθ̅ (s) = ∑ n a K n (ā) ∏ θi i ⁄Hn (θ̅ ), ā: ∑ iai =n s∈Sn i=1 т.е. n Hn (θ̅ ) = n a ∑ K n (ā) ∏ θi i ā: ∑ iai =n i=1 n n! [𝑧 𝑛 ]exp n θ i ai 1 = n! ∑ ∏ ( ) = i ai ! zi {∑ θi } = n! Fn (θ̅ ) i ā i=1 (14.2) i=1 (см.(4.6)). Модель, определяемую соотношениями (14.1) и (14.2), далее будем кратко называть МИМ. Достоинством этой модели явялется наличие в ней большого числа свободных параметров (степеней свободы) . Это придает модели большую гибкость, так как выбирая соответствующим образом значения этих параметров, можно задавать на множестве подстановок различные конкретные распределения, позволяющие изучать различные особенности подстановок, проводить их более глубокий вероятностный и статистический анализ. Отметим некоторые частные случаи МИМ. 1). Все 𝜃𝑖 = 1 ⇒ Hn (1̅) = n! ⇒ P1ֿ (s) = I(∑ni=0 iai = n)⁄n! , т.е. получаем модель равновероятных подстановок. 2). Пусть 𝑆𝑛 (A), 𝐴 ⊆ 𝑋𝑛 = {1,2, … , 𝑛}, есть множество А-подстановок. Если в МИМ положить 𝜃𝑖 = 0 для 𝑖 ∉ 𝐴 , то получим меру,сосредоточенную на 𝑆𝑛 (A): n Hn (θ̅ ) = HnA (θ̅ ) = n! [z n ]exp {∑ i=1 zi θ} i i Если здесь дополнительно все 𝜃𝑖 = 1 для 𝑖 ∈ 𝐴, то имеем модель равновероятных А-подстановок: каждая −1 подстановка s ∈ Sn (A) имеет вероятность (HnA (1̅)) , где HnA (1̅) = n! [ [z n ]exp {∑ i∈A zi θ} i i 3).Если все 𝜃𝑖 = 𝜃 > 0 ,то получается однопараметрическая модель 𝑃θ (зависит от одного параметра 𝜃) : каждая подстановка 𝑠 ∈ 𝑆𝑛 имеет вероятность, пропорционнальную 𝜃 |𝑠| , где |𝑠| = 𝑎1 + 𝑎2 +. . . +𝑎𝑛 общее число циклов подстановки s. В этом случае Hn (θ) = n! [z n ]exp n ∞ i=1 i=1 zi zi {θ ∑ } = n! [z n ]exp {θ ∑ } = n! [z n ] exp{−θln(1 − z)} = i i = 𝑛! [𝑧 𝑛 ](1 − z)−θ = [θ]n = θ(θ + 1) … (θ + n − 1) и n θ|s| Pθ (s) = I (∑ iai = n) , s ∈ Sn . [θ]n i=1 Модель (14.3) была впервые введена Эвенсом2 в 1972 году и называется его именем. 2 Ewens W.Y. The sampling theory of selectively alleles. -Theoret. Population Biol., 1972, v.3, p. 87-112. (14.3) 2.Цикловая структура случайной подстановки в МИМ. Распределение цикловой структуры 𝛼̅ = (𝛼1 , … , 𝛼𝑛 ) в МИМ имеет вид n n a Pθ̅ (α ̅ = a̅) = I (∑ iai = n) K n (a̅) ∏ θi i ⁄Hn (θ̅ ) = i=1 i=1 n n i=1 i=1 θi ai 1 = I (∑ iai = n) n! ∏ ( ) ⁄H (θ̅) i ai ! n Отсюда для производящей функции случайного вектора 𝛼̅ получаем (см. (14.2)): n Fn,θ̅ (t̅) = n ∑ ā: ∑ iai =n n α Eθ̅ ∏ t i i i=1 a = ∑ Pθ̅ (α ̅ = a̅) ∏ t i i = 𝑎̅ i=1 a (14.4) tiθ i 1 n! ∏ ( i ) ⁄H (θ̅ ) = Hn (t̅ ∙ θ̅ )⁄Hn (θ̅ ) = Fn (t̅ ∙ θ̅ )⁄Fn (θ̅ ), i ai ! n i=1 где t̅ ∙ θ̅ = (t1 θ1 , … , t n θn ). Таким образом, и в этой модели пр. ф. цикловой структуры может быть выписана в явном виде, что дает, в принципе, возможность проводить (как и для равновероятной модели) всестороннее исследование структурных свойств таких случайных подстановок, хотя соответствующие технические трудности здесь неизмеримо возрастают. В качестве примера использования представления (14.4) получим формулы для моментов : n ∂Fn,θ̅ (t̅) Eθ̅ αj = | ∂t j ̅ = ̅ t=1 [z n ] zj zi θj exp {∑ θi }⁄Fn (θ̅ ) = j i i=1 n θj θj zi ̅)⁄Fn (θ̅ ) , j = 1,2, … = [z n −j ] exp {∑ θi } ⁄Fn (θ̅ ) = Fn−j (θ j i j (14.5) i=1 Вообще, ∂∑j rj Fn,θ̅ (t̅) Eθ̅ ∏(αj ) = rj | rj ∏ ∂t j j j ̅ t̅=1 r = [z n ] n θj j zi ∏ ( ) z jrj exp {∑ θi }⁄Fn (θ̅ ) = j i j r ̅) θj j Fn−m (θ = ∏( ) , m = ∑ jzj . ̅) j F (θ n j j i=1 (14.6) Помимо прямого использования производящей функции Fn,θ̅ (t̅), при анализе цикловой структуры возможно использование также и следующих методов. Метод условных распределений. Пусть {Z𝑖 , 𝑖 ≥ 1} - независимые случайные величины, причем EZi = λi = θi , i 𝑖 ≥ 1. Тогда n ℒθ̅ (α ̅) = ℒ (Z1 , … , Zn | ∑ iZi = n). (14.7) i=1 Метод рандомизации степени n. Если степень подстановки является случайной величиной 𝜂 с распределением Pθ̅ (η = n) = x n [x n ]fθ̅ (𝑥) , fθ̅ (𝑥) (14.8) где функция ∞ fθ̅ (x) = exp {∑ λi x i } , λi = i=1 θi , i ≥ 1, x > 0, i то случайные величины {𝛼𝑖 , 𝑖 ≥ 1} становятся независимыми и ℒθ̅ (αi ) = ∏(λi x i ), 𝑖 ≥ 1. (14.9) Здесь x > 0 -свободный параметр, выбором которого можно распорядиться в зависимости от цели исследования. Замечание. Последние два метода можно, конечно, использовать и при исследовании равновероятных подстановок (когда все θi = 1). 3.Модель Эвеиса. Эта однопараметрическая модель неравновероятных подстановок исследована к настроящему времени весьма детально и приведем здесь сводку основных результатов для нее, чтобы сравнить их с соответствующими результатами для равновероятной модели (детали доказательств см. в работе Ивченко Г.И., Медведев Ю.И. «Метод В.Л.Гончарова и его развитие в анализе различных моделей случайных подстановок.» - Теория вероят. и ее примен., т.47, вып.3, 2002, с.558-566). Для этой модели (см.14.3)) при 1 более вероятны подстановки с малым числом циклов, при 1 - с большим числом циклов, при 1 все подстановки равновероятны. Пр.ф. цикловой структуры (1 ,..., n ) здесь имеет вид n Fn , (t ) E ti i i 1 а для общего числа циклов ( n) n i 1 E t i 1 (14.10) - вид (все t i t ) n 1 [t ]n n! n t [ I ](1 I ) t (qiq piq ) , [ ]n [ ]n i 1 (n) где pi 1 qi n n! n Ii [ I ] exp{ ti } , [ ]n i 1 i (14.11) . Отсюда, как и в §6, получаем как точное распределение: k P ( (n) k ) S (n, k ) , k 1,..., n , [ ]n (14.12) так и ЦПТ: при любом фиксированном 0 и n I ( (n) ln n ) N (0,1) ln n (14.13) (здесь D (n) ~ E (n) ~ ln n при n ). Далее, из пр.ф. E t j n! n Ij [ I ](1 I ) exp{ (t 1)} [ ]n j (14.14) можно получитьчто при n для любого конечного j I ( j ) ( ) j (14.15) и эти с.в. асимптотически независимы. Наконец, длина максимального цикла (n) max{ i : i 0} имеет следующее предельное распределение: (1) k 1 k ( n ) lim P ( x) 1 I k ( x) , n n k ! 1 1 k x (14.16) Ik ( x) где (1 t1 ... t k ) 1 t1 x ,..., tk x t1 ... t k 1 dt1 ...dt k t1 ...t k . Таким образом, в модели Эвеиса при фиксированном значении параметра 0 цикловая структура подстановки (1 ,..., n ) устроена асимптотически при n в основных чертах так же, как и для равновероятных подстановок (при 1 ); зависимость от параметра проявляется лишь в параметрах предельных распределений. Для модели Эвеиса проведён также полный анализ асимптотического поведения цикловой структуру подстановок с рандомизированной степенью. Приведем в качестве иллюстрации некоторые результаты на эту тему из работы Ивченко Г.И. и Медведева Ю.И. «Об одном классе неравновероятных подстановок случайно степени».- Труды по дискретной математике, т.7, с.75-78, 2003г. Как следует из (14.8) - (14.9)в этом случае (все i ) xi f ( x) exp{ } (1 x) , i 1 i и P ( n) [ ]n n x (1 x) , n=0,1,2,…, n! (14.17) т.е. с.в. (степень подстановки) имеет отрицательное биномиальное распределение Bi ( , x ) , а числа {i : i 0} циклов являются независимыми с.в. с пуассоновскими распределениями L ( i ) ( x i ) , i=1,2,… i Следовательно, общее циклов ( x) i 1 i (14.18) распределено по закону Пуассона 1 ( ln 1 x ) (сравни с (14.12)). Для длины максимального цикла (n) max{ i : i 0} в данном случае получаем следующий результат (сравни с §9) xi P ( ( x) r ) P ( i 0, i r ) P( i 0) exp{ } exp{E (r , x)} , i r i i r x xi t2 E ( r , x) dt 1 t i r i 0 Если выбрать свободный параметр x виде x 1 (14.19) 1 , a , то E (a 1) (аналог a ситуации, когда степень n ), и тогда (сравни с (14.13)) L ( (1 1 )) ~ N ( ln a, ln a ) (14.20) и (сравни с (14.16)) 1 1 dy P ( (1 ) u ) exp{ E (u )}, E (u ) e uy . a a y 1 (14.21) Таким образом, введение дополнительной рандомизации (14.17) в модель Эвеиса существенно упрощает структуру цикловой последовательности случайной подстановки, превращая её в последовательность независимых с.в. и тем самым облегчая анализ ее свойств, а выбор параметра рандомизации х в виде x 1 1 , a , делает асимптотические свойства цикловой последовательности a похожими (но своей спецификой) на аналогичные свойства в стандартной модели. §15. Статистика случайных подстановок. 1. Для криптографических приложений, как правило, используются равновероятные подстановки, поэтому процессы генерирования таких случайных подстановок (об этом речь будет идти ниже) нуждаются в соответствующем статистическом контроле. В этом контексте речь идет о проверке статистической гипотезы H0 о том, что генерируемые (наблюдаемые) случайные подстановки являются равновероятными. В случае справедливости гипотезы H0 различные свойства различные свойства случайных подстановок хорошо исследованы (о чем шел разговор выше) и эти результаты могут быть использованы для построения соответствующих критериев согласия для гипотезы H0 по стандартной схеме. Например, если мы можем подсчитать для наблюдаемой n-подстановки общее число ее циклов α(n), то, основываясь на этой тестовой статистике и ее асимптотическом распределении (см. §6) Lan H 0 ~ N ln n, ln n, n , можно предложить следующий критерий согласия: по заданному уровню значимости γ, 0<γ<1, (вероятности ошибочно отвергнуть гипотезу H0, когда она верна) вычисляем границу uγ/2 по формуле Ф(-uγ/2) = γ/2, где Ф(х) – стандартная нормальная функция распределения, и строим критическое множество для гипотезы H0 в виде u ln n n u / 2 ln n (15.1) Таким образом, в данном случае критерий формулируется следующим образом: если для наблюдаемой подстановки число ее циклов α(n) таково, что выполняется событие (15.1), то гипотеза H0 откланяется; в противном случае считается, что наблюдаемые данные подтверждают гипотезу H0 (или согласуются с ней). Этот критерий асимптотически (или n → ∞) имеет уровень значимости γ, так как n ln n P u H 0 1 P u / 2 u / 2 H 0 ln n 1 u / 2 u / 2 2 u / 2 Недостатком такого критерия является то, что он ничего не говорит о вероятности ошибки 2-го рода, т.е. о вероятности ошибочно принять гипотезу H0, когда она неверна. Чтобы отвечать на такого рода вопросы, надо учитывать возможные альтернативы (т.е. отклонения от гипотезы H0) и исследовать распределения тестовой статистики при справедливости альтернатив. Результаты, изложенные в §14, открывают возможности решения этих задач, и полученные уже на этом пути продвижения приводятся ниже. Итак, далее мы будем работать в рамках модели Эвенса, т.е. считать, что возможные альтернативы нулевой гипотезе H0 имеют вид (14.3) при 1 . Таким образом, в данном случае статистическая модель определяется одним неизвестным параметром θ, и мы рассмотрим задачи точечного и интервального оценивания этого параметра и проверки гипотезы H 0 : 1 против альтернатив H 1 : 1 , H 1 : 1 и H 1 H 1 H 1 : 1 . При этом мы будем исходить из того, что исходные статистические данные представляют собой цикловую последовательность 1 ,..., n одной n-подстановки, наблюдаемой в соответствии с мерой (14.3). 2. Несмещенные оценки с минимальной дисперсией (н.о.м.д.) Рассмотрим сначала задачу построения точечных оценок для параметрических функций τ(θ). При этом будем ограничиваться классом несмещенных оценок (н.о.), то есть такими статистиками T , которые удовлетворяют уравнению несмещенности E T , 0 (15.2) Прежде всего в этом случае необходимо описать класс тех функций τ(θ), для которых это уравнение имеет решение (такие функции от параметра называются оцениваемыми). Далее для произвольной оцениваемой функции τ(θ) мы будем искать оценку с равномерно (по θ) минимальной дисперсией, которую будем обозначать символом * * . Таким образом, оптимальная (н.о.м.д.) оценка τ* для заданной оцениваемой функции τ(θ) должна удовлетворять следующим условиям: E * , 0 , D * D T для любого θ > 0 и любой другой н.о. T T (т.е. решения уравнения (15.2)). Стандартный метод решения таких задач состоит в отыскании полной достаточной статистики для рассматриваемой модели (в данном случае – для параметра θ) и использовании теоремы РБК (РаоБлекуэлла-Колмогорова), согласно которой всякая функция от полной достаточной статистики является оптимальной оценкой для своего математического ожидания (см., напр., Ивченко Г.И., Медведев Ю.И. Математическая статистика, 2-е изд. М: Высшая школа, 1992. §2.3). Что касается полной достаточной статистики для модели Эвенса, то известно (см. работу Ивченко Г.И. и Медведева Ю.И. «Статистика параметрической модели случайных подстановок» в сб. Трудш по дискретной математике, т.8, 2004, с. 116-127, - ниже излагаются некоторые результаты этой работы), что таковой является общее число циклов n u i наблюдаемой подстановки. i 1 Распределение этой статистики дано в (14.12). Как известно, при наличии полной достаточной статистики все статистические выводы о неизвестном параметре модели основываются на этой статистике. В частности, решение уравнения несмещенности (15.2) достаточно искать лишь в классе функций вида φ(α(n)), т.е. в нашем случае это уравнение принимает вид (см. (14.12)) n k E n k s n, k k 1 n Но при любой функции φ выражение k sn, k n , 0 (15.3) k есть многочлен от θ степени ≤n, обращающийся в k 1 нуль при θ = 0. Отсюда следует, что оцениваемыми в модели Эвенса являются лишь функции вида a , где a(θ) – многочлен степени ≤n и a(0) = 0. n Далее, оптимальная оценка τ* для заданной оцениваемой параметрической функции τ(θ) единственна и является решением уравнения (15.3), поэтому, если a n тождественного равенства n n k 1 k 1 k sn, k k a k k , 0, следует, что k ak / sn, k , k 1,2,..., n. , где a n a k 1 k k , то из Таким образом, н.о.м.д. для такой функции τ(θ) имеет вид * n a n / sn, n (15.4) Соотношение (15.4) – это общий результат, из которого уже просто получить решение в различных конкретных случаях. Задачи. 1. Показать, что оптимальная оценка для функции r r n 1 r ... n 1 , rn (15.5) имеет вид r sr, n / sn, n (15.6) эта оценка отлична от нуля лишь при n r 2. Пусть многочлен a задан разложением n a br r . r 1 Тогда н.о.м.д. для функции a n n br r является линейной комбинацией оценок (15.6): r 1 n br r* . * r 1 3. Убедиться в том, что для функций и 1 несмещенных оценок не существует (т.е. они не являются оцениваемыми) 3. Асимптотические доверительные интервалы. Из изложенного в п.2 следует, что возможность точного анализа в задачах оценивания в рассматриваемой модели довольно ограничены: оптимальные оценки удается здесь построить для сравнительно узкого класса параметрических функций, при этом для самого параметра модели несмещенная оценка вообще отсутствует. Более широкие возможности в обсуждаемой проблематике представляет асимптотический подход, когда порядок подстановок n . В этом случае удается весьма просто сконструировать асимптотически несмещенные и асимптотически эффективные оценки не только для параметра , но и для широкого класса функций от него, а также рассчитать соответствующие асимптотические доверительные интервалы. Основой для асимптотического анализа является утверждение об асимптотической нормальности n числа циклов n (см. (14.13)), которые можно записать для нормированной статистики ~ в виде nn , n . L ~n ~ N , n n (15.7) Более того, для любой дифференцируемой функции имеет место аналогичное утверждение и ~n : для статистики 2 , n . L ~n ~ N , n n (15.8) ~n ) является Соотношение (15.7) ((15.8)) означает, что статистика ~n (статистика асимптотически несмещенной параметрической функции ). и асимптотически эффективной оценкой для параметра (для Эти же соотношения позволяют рассчитать и соответствующие асимптотические доверительные интервалы. Например, для параметра такой интервал строится следующим образом. Соотношение (15.7) можно переписать в виде ~n L n n ~ N 0 ,1 и заменить здесь в знаменателе параметр его оценкой ~n : ~ n L ~ n n ~ N 0 ,1 . n На основании (15.9) заключаем, что (15.9) ~ n ~ n ~ n P z ~ n n z P ~ n z ~ n z ~ n n n n n ~ z z 2 ( z ) 1. Если теперь z z выбрать так, чтобы 2 z 1 , то получаем -доверительный интервал для : ~ ~ n n z , т.е. этот интервал с вероятностью накрывает неизвестное значение . n n Аналогично, на основании (15.8), строится асимптотический -доверительный интервал для : если, дополнительно, производная непрерывна, то искомый интервал есть ~ ~ n n z ~ n . n n 4. Параметрические критерии для гипотезы о равновероятности подстановок. В этом разделе мы обсудим проблему проверки статистических гипотез о параметре Модели (14.3). Мы будем акцентировать внимание на проверке наиболее важной для приложений гипотезы о равновероятности подстановок H 0 : 1. Альтернативными гипотезами здесь могут быть утверждения H 1 : 1 , H 1 : 1 и H1 H1 H1 : 1 . Прежде чем переходить к построению соответствующих критериев, напомним кратко ключевые моменты общей теории проверки статистических гипотез. Решающую роль здесь играет правдоподобие данных (распределение наблюдаемой последовательности 1 , 2 ,..., n или заданном значении параметра ) (см п.2) n n! i ai n 1 P a P a1, , a2 ,..., an P a I ia i n ai i 1 i ai ! i 1 n и отношение правдоподобия L a P a n n! i ai I ia i n . P1 a i 1 n (15.10) В нашем случае отношение правдоподобия L a при любом 1 является монотонной функцией от a i – значения достаточной статистики n , следовательно, в задачах H 0 , H 1 и H 0 , H 1 проверки i гипотезы H 0 при односторонних альтернативах H 1 и H 1 существуют равномерно наиболее мощные (р.н.м.) критерии, которые совпадают с соответствующими критериями Неймана–Пирсона для проверки H 0 при простой фиксированной альтернативе (в нашем случае – это альтернативы вида H1 : 1 1 и H1 : 2 1 ). Как известно, критическое множество в критерии Неймана–Пирсона задается неравенством вида L a c , поэтому, как следует из (15.10), это неравенство при 1 1 эквивалентно неравенству a i z , а при 2 1 – неравенству i a z . i i Это означает, что в задаче H 0 , H 1 проверки гипотезы H 0 против левосторонней альтернативы H 1 р.н.м. критерий при уровне значимости задается критической областью вида , n n z n (15.11) где критическая граница z n определяется условием P1 n . (15.12) Аналогичный критерий в задаче H 0 , H 1 с правосторонней альтернативой задается критической областью вида , n n z n (15.13) где z n определяется условием (15.12), в котором n заменено на n . Наконец, при двусторонней альтернативе H 1 H 1 H 1 критерий задается объединением двух односторонних областей, т.е. имеет вид n / 2 n / 2 n . (15.14) Для расчета критических границ в (15.11) и (15.13) используется уже известный нам асимптотический результат (14.13): L n ~ N n n, n n , n , на основании которого в итоге конструируются асимптотические варианты соответствующих критериев. Рассмотрим детальнее, как реализуется эта программа в задаче Ho, H1 с левосторонней альтернативой. Если положить в (n) un u (15.11) un , (u ) , (15.15) то при n P1 ( (n)) P1 ( (n) u un ) P1 ( (n) un un u ) (u ) , т.е. условие (15.12) будет выполняться асимптотически. Таким образом, р.н.м. критерий уровня значимости в задаче Ho, H имеет вид (15.11), где при 1 больших и граница (n) задается в виде (15.15) : если наблюдается событие (n) , то гипотеза Но отклоняется в пользу альтернативы H1 ; вероятность ошибочно отвергнуть истинную гипотезу Но при больших n приблизительно равна . Исследуем мощность Wn ( ) P ( (n)) этого критерия, т.е. вероятность реализации события (n) (попадания наблюдаемого значения статистики ( n ) в критическое множество) при произвольном значении параметра 1 ( т.е. при справедливости альтернативы). При n (n) un 1 W ( ) P un n , если (1 ) 1 (t u ) , если (1 ) , если (1 ) Вторым условием (1 ) u un un , un t 0, un 0. (15.16) un t 0 определяются, так называемые, “пороговые” альтернативы, т.е. для которых предельная мощность определена от 1 и от : в данном случае они имеют вид H1n : n 1 t , t 0, un (15.17) т.е. это “близкие” (к значению 1, определяющему основную гипотезу Но ) альтернативы, их скорость сближения с Но имеет порядок ( un)1 2 . Итак, при альтернативах вида (15,17) мощность критерия удовлетворяет предельному соотношению Wn (n ) (t u ). im n0 Более близкие альтернативы, т.е. когда (1 n ) (15.18) un 0 , данный критерий асимптотически от Но не отличает (т.к. вероятность попадания в критическую область при альтернативе асимптотически такая же, как и при нулевой гипотезе), а против более далеких альтернатив т.е. когда (1 n ) un , он является самостоятельным(если такая альтернатива верна, то мы попадем в критическую область с вероятностью, близкой к 1 и отвергнем гипотезу Но ,т.е.примем правильное решение). Аналогично анализируется задача ( Ho, H1 ) с правосторонней альтернативой. В этом случае критерий (15.13) асимптотически задается границей (n) un u un (15.19) и его мощность при “близких” альтернативах вида H1n : n 1 t , t 0, удовлетворяет un предельному соотношению im Wn (n ) im P n ( (n)) (t u ). n0 n0 Наконец, в задаче с двусторонней альтернативой Но, Н1 Н1 (15.20) Н1 критерий (15.14) принимает вид (n) un ( n) u 2 , un (15,21) т.е. совпадает с (15.1), но теперь мы находим, что его мощность при “близких” альтернативах вида H1n : n 1 t , t 0, ведет себя при n следующим образом: un Wn ( n ) P n ( (n)) (t u 2 ) (t u 2 ) (15.22) (последнее неравенство означает несмещенность критерия). §16.Методы генерации подстановок. Подстановки (перестановки) используются в криптографии как простейшие формы шифров и при конструировании различных сложных форм шифров. В основе метода подстановки лежит принцип кодировочной таблицы. В простейшей форме его можно применять к любой букве исходного текста. Например, если в алфавите ABCD…Z\ ABC каждая буква заменяется на букву, стоящую на три позиции впереди: A→D, B→E,…, Z→C, то слово SOFTWAREPROTECTION (защита программного обеспечения) преобразуется в VRIWZDUHSURWHFWLRQ. В связи с такой ключевой ролью в криптографии потребность в подстановках чрезвычайно велика, причем в различных ситуациях требуются подстановки самых различных порядков n и самого высокого “качества”, т.е. чтоб они удовлетворяли требованию равновероятности. Поэтому методы генерации подстановок играют в криптографической практике важную роль, и разработке таких эффективных методов уделяется большое внимание. Ряд соответствующих алгоритмов мы и рассмотрим в этом разделе. 1. Выбор без возвращения. Пусть из урны, содержащей шары номерами 1,2,…, n , последовательно и без возвращения извлекают наугад шары, каждый раз по одному шару и вплоть до исчерпания урны. Пусть s1 , s 2 ,..., s n - номера извлекаемых шаров. Тогда это некоторая перестановка чисел 1,2,…, n , и каждая из очевидно, вероятность (n!) 1 n! возможных перестановок имеет, . Это простейший способ получения равновероятных перестановок, но он имеет, скорее, теоретическое значение. 2. Независимые эксперименты. Рассмотрим следующий процесс из n 1 простых независимых экспериментов. Запишем сначала 1. Первый шаг состоит в постановке 2 перед 1 или после, т.е. возможны два исхода 21 или 12 и каждый из них имеет вероятность 1 2 . Теперь имеется три места для постановки числа 3, и второй шаг состоит в его выборе и 1 ; в результате упорядочиваются числа 1, 2 и 3. Вообще, когда числа 3 1,2,..., k , уже расположены в некотором порядке, производим k -й эксперимент, который состоит в выборе 1 одного из k 1 мест для числа k 1 , причем все варианты имеют вероятность . Так как ê 1 каждый вариант имеет вероятность эксперименты независимы, то вероятности перемножаются и в итоге каждая перестановка чисел имеет вероятность 1 1 1 , ,…, 2 3 n = 1 . n! 3. Бесповторный набор с постоянным модулем. На практике для генерации подстановок используются случайные последовательности чисел, вырабатываемые датчиками случайных чисел. В общем случае мы будем считать, что имеется исходная N -ичных чисел, т.е. чисел из множества {1,2,..., N } , с помощью которой надо построить случайную n -подстановку, n N . Соответствующий алгоритм весьма прост: пусть s1 -первое из чисел 1,2,…, n , встречающееся в исходной последовательности, s 2 s1 следующее после s1 число из 1,2,…, n в исходной последовательности и т.д. В результате получаем последовательность независимых и равновероятностных 1 простейшую и, очевидно, равновероятную подстановку s s1 2 s2 ... n . ... s n Этот метод характеризуется длиной X исходно последовательности, необходимой для получения подстановки s . Нетрудно показать (задача для слушателей ! ), что эта случайная величина имеет следующее математическое ожидание (см. (5.8)): N n 1 jN j 1 1 nn C O , n (16.1) Откуда следует, что метод требует достаточно большого исходного материала для генерации подстановок, т.е. он не экономичен, хотя его логика очень проста и он легко реализуем на ЭВМ. Чтобы сделать это заключение более обоснованным, введем важное понятие эффективности для произвольного метода генерации подстановок. Если метод позволяет получить любую n -подстановку на длине Õ N -ичной последовательности, то ясно, что должно удовлетворяться неравенство NX n ! Или неравенство ÕnN n n ! Отсюда следует, что эффективность метода можно оценивать величиной отношения n n! 1 XnN или, поскольку X-случайная величина, величиной Это число n n! nN . (16.2) и называют коэффициентом эффективности метода. Чем ближе к значению 1, тем меньше N -ичных знаков, затрачиваемых на генерацию подстановки, тем он эффективнее с этой точки зрения, и, наоборот, чем меньше значение , тем он менее данный метод требует затрат, измеряемых в числе эффективен. Для описания в этом пункте метода при больших значениях следует из (16.1), ведет себя асимптотически как n коэффициент эффективности, как n n n 1 0, Nn n nN nN т.е. этот метод мало эффективен. 4. Бесповторный набор с переменным модулем (БНПМ). В этом пункте мы опишем усовершенствованный и гораздо более эффективный метод генерации случайных из последовательности N -ичных чисел. Предварительно сделаем следующее важное замечание. В реальной практике исходная последовательность случайных чисел обычно представляет собой n -подстановок двоичную последовательность из 0 и 1, т.е. N 2 , и если датчик работает “идеально”, то это равновероятная бернуллиевская последовательность. Как в этом случае строится n -подстановка для любого значения n ? Пусть степень подстановки удовлетворяет соотношению 2 k 1 n 2 k (16.3) Тогда подстановка строится в последовательности по k k этапов. На первом этапе мы берем из исходной двоичной последовательных её элементов (они называются k -граммами), k k получая, таким образом, каждый раз некоторое число от 1 до 2 (набор из k нулей считается как 2 ); если впервые получаем число s1 ∈ Xn = {1,2,…,n}, то его ставим на первое место в подстановке. Далее продолжаем просматривать следующие k-граммы до тех пор, пока не получили число s2≠s1 и s2 ∈ Xn – его ставим на второе место в подстановке и т.д. до тех пор, пока не получим первые n-2k-1 элементов подстановки 𝑠1,𝑠2,…,𝑠𝑛−2𝑘−1 Оставшиеся n-2k-1 элементов множества Xn k-1 перенумеровываются в естевственном порядке, т.е. получают номера от 1 до 2 ; множество этих элементов (1) обозначим 𝑋𝑛 = {𝑥 1,…,𝑥2𝑘−1 }. На этом заканчивется первый этап. На втором этапе всё повторяется с той лишь разницей, что теперь берутся (k-1)-граммы бернуллиевской (1) последовательности до тех пор, пока не получим 2k-1-2k-2 различных элементов множества 𝑋𝑛 – или мы (1) заполняем следующие 2k-1-2k-2 мест в нижней строке подстановки. Оставшиеся 2k-2элементов множества 𝑋𝑛 снова перенумеровываются, т.е. получают номера от 1 до 2k-2, и мы переходим к третьему этапу: с помощью (k-2)-грамм бернуллиевских чисел формируем следующие 2k-2-2k-3 элементов подстановки, и тд. На последнем, k-м этапе используются [k-(k-1)]-граммы, т.е отдельные двоичные знаки (напомним, что 0 считается как 2) исходной последовательности, истроятся 2-1=1 новых элементов подстановки. В итоге построится (n-2k-1) + (2k-1-2k-2) + … +(2-1) = n-1 элементов s1,s2,…,sn-1 нижней строки подстановки. ставится оставшееся число sn. На последнее место Исследуем эффективность этого метода. Пусть случайная величина Y обозначает длину исходной бернуллиевской последовательности, порождающей подстановку, а Yi есть её длина для i-го этапа, i=1,2,…,k. Тогда Y = Y1 + Y2 + …+Yk (16.4) и слагаемые здесь, очевидно, независимы. Рассмотрим i-й этап. Напомним, что он заключается в просмотре последовательных (k+1-i)-грамм исходной бернуллиевской последовательности, задающих числа от 1 до 2k+1-i, с помощью которых строятся 2k+1-i-2k-i=2ki элементов подстановки, если i≥2, и n-2k-1 элементов на 1-м этапе (при i=1); при этом любой (k+1-i)-граммы с вероятностью 2-(k+1-i) и независимо друг от друга (ведь это непересекающиеся участки равновероятной бернуллиевской последовательности). Пусть уже получено (на i-ом этапе) j некоторых чисел из множества {1,2,…,2k+1-i}. Обозначим 𝜇j(i) случайную величину, означающую число испытаний (т.е. число (k+1-i)-грамм) после появления j-го числа до первого появления нового, (j+1)-го, числа включительно. Тогда (1) (1) (1) (𝜇0 + 𝜇1 + ⋯ + 𝜇𝑛−2𝑘−1 −1 ) 𝑘 Yi={ (𝑖) (𝑖) (1 + 𝜇1 + ⋯ + 𝜇2𝑘−𝑖−1 ) (𝑘 + 1 − 𝑖) для 𝑖 = 1, для 𝑖 = 2,3, … , 𝑘. (16.5) (𝑖) (𝑖) Очевидно также, что все 𝜇𝑗 имеют геометрическое распределение: (𝑖) (𝑖) (𝑖) (𝑞𝑗 )𝑟−1 𝑝𝑗 , P(𝜇𝑗 = 𝑟) = (𝑖) 𝑟 = 1,2, … , 𝑝𝑗 + 𝑞𝑗 , где 𝑛−𝑗 (𝑖) 2𝑘 𝑝𝑗 ={2𝑘+1−𝑖−𝑗 для 𝑖 = 1, (16.6) для 𝑖 = 2,3, … , 𝑘. 2𝑘+1−𝑖 (𝑖) Поскольку E𝜇𝑗 = 1 (𝑖) 𝑝𝑗 , то из (16.4) - (16.6) имеем следующую формулу для EY: 𝑘 𝐸𝑌 = ∑ 𝐸𝑌𝑖 = 𝑘2𝑘 𝑖=1 𝑛 = 𝑘2𝑘 ∑ 𝑗=2𝑘−1 +1 2𝑘−𝑖 𝑛−2−𝑖 𝑘 𝑗=0 𝑖=2 1 1 ∑ + ∑(𝑘 + 1 − 𝑖 ) 2𝑘+1−𝑖 ∑ 𝑘+1−𝑖 = 𝑛−𝑗 2 −𝑗 𝑘 1 + ∑(𝑘 + 1 − 𝑖)2𝑘+1−𝑖 𝑗 𝑖=2 𝑗=0 2𝑘+1−𝑖 ∑ 𝑗=2𝑘−𝑖 +1 1 𝑗 Переписав её в виде 𝑛 2𝑘−1 𝑘 2𝑘+1−𝑖 2𝑘−𝑖 𝑗=1 𝑗=1 𝑖=2 𝑗=1 𝑗=1 1 1 1 1 𝐸𝑌 = 𝑘2𝑘 (∑ − ∑ ) + ∑(𝑘 + 1 − 𝑖)2𝑘+1−𝑖 ( ∑ − ∑ ) = 𝑗 𝑗 𝑗 𝑗 𝑛 2𝑘−1 2𝑘−2 𝑗=1 𝑗=1 𝑗=1 1 1 1 = 𝑘2𝑘 ∑ −(𝑘2𝑘 − (𝑘 − 1) 2𝑘−1 ) ∑ − ((𝑘 − 1)2𝑘−1 − (𝑘 − 2)2𝑘−2 ) ∑ − 𝑗 𝑗 𝑗 21 20 j=1 j=1 1 1 − ⋯ − (2 ∙ 22 − 1 ∙ 21 ) ∑ − 1 ∙ 21 ∑ = j j n k 2k−i j=1 i=1 j=1 1 1 = 𝑘2 ∑ − ∑(k − i + 2)2k−i ∑ , j j 𝑘 Окончательно получим, что 𝑛 𝑘−1 2𝑟 𝑗=1 𝑟=0 𝑗=1 1 1 𝐸𝑌 = 𝑘2𝑘 ∑ − ∑(𝑟 + 2)2𝑟 ∑ 𝑗 𝑗 (16.7) Чтобы получить асимптотику этого выражения при больших n, воспользуемся представлением (5.8), в силу которого для любого 𝑟 2𝑟 1 1 𝜃2 ∑ = 𝑟 ln 2 + 𝐶 + 𝑟+1 + 2𝑟+3 , 𝑗 2 2 |𝜃| < 1 𝑗=1 Подставляя это выражение в (16.7) и производя суммирование, получаем такое представление для EY: 𝑘−1 1 𝜃𝑛 𝑘(𝑘 + 3) (𝑟 + 2)𝜃𝑟 𝐸𝑌 = 𝑘2 (ln 𝑛 + + 2 ) − (𝑘 2 − 2𝑘 + 2)2𝑘 ln 2 − −∑ 2𝑛 8𝑛 4 2𝑟+3 𝑘 𝑟=0 Это выражение уже удобно для получения асимптотики при 𝑛 → ∞: 𝐸𝑌~𝑘2𝑘 ln 𝑛 − (𝑘 2 − 2𝑘 + 2)2𝑘 ln 2 Так как n и k связаны соотношением (16.3), которое можно переписать в виде 𝑛 = 2𝑘 𝜃, 1 2 < 𝜃 ≤ 1, то окончательно получаем следующую асимптотику для EY: 𝐸𝑌~𝑘2𝑘 ln(4𝜃) (16.8) С другой стороны, из формулы Стирлинга следует, что в нашем случае ln 𝑛! ~ 𝑛 ln 𝑛 ~𝑘 2𝑘 𝜃 ln 2 следовательно, коэффициент эффективности (16.2) для данного метода ведет себя асимптотически (при больших n) следующим образом: 𝐾 ~ 𝑓(𝜃) = 𝜃 ln(𝑛𝜃) 1 2 График функции 𝑓(𝜃), 𝜃 ∈ ( , 1] имеет вид 𝑓(𝜃) (ln 𝑛)−1 𝑒 4 1 2 𝑒 4 1 𝜃 т.е. 0,68. . = 𝑒 1 ≤ 𝑓(𝜃) ≤ = 0,72.. 4 ln 𝑛 Таким образом, при больших значениях порядка подстановки коэффициент эффективности метода БНПН не превосходит 68 – 72 % и, следовательно, этот метод не является асимптотически эффективным. Существуют ли методы генерации подстановок с помощью равновероятной бернуллиевской последовательности, обладающая 100% эффективностью при 𝑛 → ∞ , т.е. асимптотически эффективная? Ответ на этот вопрос положителен и мы приведем в заключении один из таких известных методов. 5. Метод многоступенчатой рандомизации (МР) Этот метод состоит из последовательной реализации нескольких этапов с помощью бернуллиевской последовательности 𝑎1 , 𝑎2 , . . . , 𝑎𝑖 , … , 𝑎𝑖 ∈ {0,1} 1. Числа 1,2, … , 𝑛 распределяются по двум колонкам по правилу: число 𝑖 (𝑖 = 1,2, .. , 𝑛) записывается в 𝑎𝑖 - ую колонку. 2. С каждой колонкой, содержащей больше двух чисел, повторяют 1-ый этап, т.е. распределяют числа колонки снова по двум колонкам в соответствии ьсо следующими знаками последовательности (16.10). 3. Числа в колонках, содержащих два числа, распределяют по правилу: оставляют порядок их следования, если соответствующий знак 𝑎𝑖 = 0, и меняют знак, если 𝑎𝑖 = 1. 4. Выписывают последовательно все числа, которые распределились в колонках по одному, а также и в колонках по два с учетом их порядка, определяемого этапом 3. Данный ряд и есть нижняя строка подстановки. Рассмотрим иллюстративный пример для n=6. Пусть бернуллиевская последовательность есть 101011| 0110 |101… 1. Числа 1,2, .. ,6 распределяются по двум колонкам так: 0 1 2 1 4 3 5 6 2. Распределяются числа второй колонки, используя следующие 4 элемента последовательности: 0 1 1 3 6 5 3. Теперь у нас имеются три колонки длины 2 и мы их упорядочиваем, использую следующие элементы 101 последовательности и получая в итоге подстановку (4 2 1 6 5 3). Метод МР порождает равновероятные подстановки и он асимптотически эффективен. Заключение. Случайные подстановки – практически неисчерпаемый объект вероятностной комбинаторики. Их современная теория настолько многопланова и посвященная им литература настолько обширна, что и то и другое практически необозримы. Да это и не было нашей задачей. Наш курс – учебный, и его цель – ввести слушателей в эту чрезвычайно интересную и практически важную область дискретной математики, рассказать о ряде ключевых результатов этой теории и на этих примерах показать (научить), какими путями и какими методами достигаются подобные результаты. При этом мы включали в круг рассмотрения как уже ставшие классическими, так и самые последние достижения в этой области. Все же для полноты картины и для желающих углубить свои представления о предмете мы приводим небольшой дополнительный список последних публикаций по теме (помимо уже упоминавшихся по тексту), в которых более детально отражена как история вопроса, так и другие результаты с указанием первоисточников. В.Ф. Колчин. Случайные отображения. – М.: Наука,1984. В.Ф. Колчин. Случайные графы. – М.:Физматлит,2000. В.Н. Сачков. Введение в комбинаторные методы дискретной математики. – М.:МЦНМО, 2004. А.Л. Якымив. Вероятностные приложения тауберовых теорем. –М.:Физматлит,2005. Г.И. Ивченко, Ю.И.Медведев. Случайные комбинаторные объекты.- Даклады РАН, т.396, №2, с.151-154, 2004. Г.И. Ивченко, Ю.И. Медведев. Статистические выводы для случайных подстановок по неполным данным. – Труды по дискретной математике. Т.9, с.66-76, 2006. Г.И. Ивченко, Ю.И. Медведев. Случайные комбинаторные объекты в общей параметрической модели. – Труды по дискретной математике, Т.10, с. 73-86, 2007. Г.И.Ивченко, Ю.И. Медведев. Случайные неполные подстановки. – Труды по дискретной математике. Т.11, 2008. Оглавление. §1. Введение. §2. Отображения. §3. Подстановки и их цикловая структура. §4. Распределение цикловой структуры. §5. Некоторые вспомогательные результаты. §6. Число циклов в случайной подстановке. §7. Циклы конечной длины. §8. Циклы большой длины. §9. Длина максимального цикла. §10. Общая картина и некоторые дополнения к ней. §11. Другие характеристики подстановок. §12. А – подстановки. §13. Неполные подстановки. §14. Неравновероятные подстановки. §15. Статистика случайных подстановок. §16. Методы генерации подстановок. Заключение.