Сравнительное исследование предвыборных партийных программ 2007 и 2011 гг. на основе латентно-семантического анализа А.П.Петров, Е.Д.Корнилина Институт прикладной математики им. М.В.Келдыша РАН petrov.alexander.p@yandex.ru, ekornilina@gmail.com Настоящий доклад посвящен сравнительному анализу предвыборных программ политических партий на выборах 2007 и 2011 годов в Государственную Думу, методика которого была предложена на прошлогодней конференции по проблемам развития экономики и общества (см. также, напр., [Kornilina and Petrov, 2010]). Основой данной методики является латентно-семантический анализ (ЛСА), разработанный группой американских ученых в 1988 году, и представляющий собой реализуемый на современных вычислительных средствах метод анализа текстов естественного языка (напр., [Landauer et al, 1998]). Основной сферой применения ЛСА являются задачи интеллектуального поиска. Среди других приложений отметим эпизодические исследования произведений художественной литературы [напр., Nakov, 2001]. Работы, предшествующие нашим, и использующие ЛСА в целях политического анализа, нам неизвестны. ЛСА основан на «гипотезе о том, что между отдельными словами и обобщенным контекстом <...>, в которых они встречаются, существуют неявные (латентные) взаимосвязи, обуславливающие совокупность взаимных ограничений» [Митрофанова, 2005]. Контекст, в понимании ЛСА – это слова, близкие к данному слову по расположению в тексте. Более конкретно: исследуемый текст в целях проведения анализа нарезается на фрагменты, и контекст образуется всеми словами, входящими в один фрагмент с данным. Далее, ЛСА устанавливает для каждых двух фрагментов меру их близости, которую мы называем синтагматической близостью. Фактически, наша основная гипотеза заключается в том, что близость политических позиций связана с синтагматической близостью текстов (фрагментов, образующих тексты), выражающих эти позиции. Оставляя в стороне описание технологии ЛСА, перейдем к изложению результатов. Одним из способов представления результатов анализа являются диаграммы, подобные изображенным на Рис.1,2. Каждому фрагменту соответствуют одна строка и один столбец диаграммы. Ячейка, находящаяся на пересечении, например, 10-ой строки и 25-ого столбца (так же, как ячейка 245-ой строки и 10-ого столбца) описывает степень синтагматической близости 10-ого и 25-ого фрагментов. При этом, чем более синтагматически близкими являются два фрагмента, тем более темным цветом закрашена ячейка. На Рис.1а фрагменты 1-15 принадлежат программе Единой России, фрагменты 16–46 – программе партии «Яблоко» на выборах 2007 года. Черный квадрат, составленный из строк и столбцов 1-15, свидетельствует о высокой синтагматической близости этих фрагментов, и в соответствии с нашей гипотезой – о внутренней целостности программы ЕР. Программа Яблока является менее цельной, она состоит из двух слабо связанных между собой (но каждая из них хорошо внутренне связна) частей: до и после фрагмента 31 (в тексте программы этот фрагмент соответствует началу «шагов по преобразованию России»). а) б) Рис.1 Диаграмма сходства программ ЕР и Яблока 2007 года (а) и 2011 года (б). Перед дальнейшим обсуждением напомним, что в 2011 году на съезде Единой России было принято решение считать предвыборной программой тексты выступлений Д.Медведева и В.Путина. Априори можно было бы предположить, что выступление Медведева, имеющего репутацию либерала, окажется более близким программе Яблока, чем выступление Путина. Однако латентно-семантический анализ показывает (Рис.2б), что это не так: пересечение «медведевских» столбцов 1-10 и «яблочных» строк 37-45 является одним из самых белых пятен на диаграмме. Среди других особенностей Рис 2. отметим некоторую рыхлость выступления Путина, а также программы ЕР в целом (ср. с «черным квадратом» программы ЕР 2007 года). Заметим также, что большая часть фрагментов выступления Медведева сильно связана друг с другом (эти фрагменты посвящены изложению общей позиции, взглядов на роль ЕР, и объяснению причин того, почему Медведев согласился возглавить ее список); выделяется лишь фрагмент 6 (перечисление «наших восьми целей»). Сопоставление программ КПРФ и ЕР 2011 года показывает, в частности, что они слабо различимы, если рассматривать программу ЕР как целое. Если же (Рис.2) рассмотреть корреляцию строк 1-26 (КПРФ) отдельно со столбцами 27-37 (Медведев) и 3864 (Путин), то можно увидеть несходство программы КПРФ с выступлением Медведева, высокую близость с первой частью и несходство с последней частью выступления Путина. Рис.2. Диаграмма сходства предвыборных программ КПРФ и ЕР 2011 года (показаны только строки, соответствующие программе КПРФ). В заключение отметим, что на выборах 2011 года менее различимыми стали программы не только указанных трех, но и остальных партий. Список литературы E. Kornilina, A. Petrov. Research of poitical blogs by means of LSA // Intellectualization of information processing-2010 conf. proceedings – 2010 P. 508-511. T. Landauer, P.W. Foltz, D. Laham. Introduction to Latent Semantic Analysis. Discourse Processes 25: 259–284 (1998). Nakov P. Latent Semantic Analysis for German literature investigation. // Proceedings of the 7th Fuzzy Days'01, International Conference on Computational Intelligence. B. Reusch (Ed.): LNCS 2206. pp. 834-641. Dortmund, Germany. October 1-3, 2001. Митрофанова О.А. Семантические расстояния: проблемы и перспективы // XXXIV Международная филологическая конференция: Вып. 21. Прикладная и математическая лингвистика. СПб., 2005.