20
Филип А. Шродт Семь смертных грехов современного количественного политического анализа Версия 1.0: 23.08.2010. (перевод. ЧЕРНОВИК! НЕ ССЫЛАТЬСЯ БЕЗ РАЗРЕШЕНИЯ) Резюме Сочетание технологических изменений, методологический дрейф и определенная степень интеллектуальной неряшливости и нерасторопности, особенно в философии науки, привели к тому, что современная количественная политическая методология накопила ряд опасных привычек, которые делают значительную часть современных исследований практически бесполезными. Прививка от этого – не в том, чтобы отбросить количественные методы, и не в нигилистическом отрицании любого метода, а в том, чтобы, обратившись к началам, рассмотреть некоторые неприятные проблемы, а не пытаться приращивать знание увеличением количества регрессий в минуту. «Семь смертных грехов» - это: 1. Модели с подбором переменных «до кучи», игнорирующие эффект коллинеарности. 2. Донаучное объяснение в отсутствие прогноза. 3. Затирание до дыр одних и тех же данных. 4. Использование сложных методов без понимания исходных предпосылок. 5. Интерпретация частотной 1 статистики, как будто бы она была байесовской 2 . 6. Линейная статистическая монокультура, поддерживаемая в ущерб альтернативам. 7. Смешение статистического и экспериментального контроля. Ответ на эти проблемы – не паника, а серьезная, продуманная, оригинальная работа, учитывающая и теорию, и практику. В заключении приводится короткий обзор того, как мы пришли к такому положению, с точки зрения философии науки, и высказывается ряд предложений по изменению философского и педагогического подхода с целью решения некоторых из изложенных проблем. Постановка проблемы В последние годы я часто замечаю, что количественные исследования, которые мне приходят на рецензию из журналов или накануне конференций, сильно меня расстраивают. Попадаются и самородки, поэтому, в духе афоризма С. Джонсона, что «второй брак – торжество надежды над опытом», я продолжаю работать рецензентом. Однако для типичной работы, которую я получаю на чтение, характерен ряд (или весь набор) следующих признаков: 1 Частотный вывод (от frequency – «частота»), или частотная статистика, – один из многих способов формулировки схем статистического вывода (вывода заключений из статистических выборок). На ч.в. основана методология проверки статистических гипотез и доверительных интервалов. Альтернативы ч.в. – байесовский вывод, фидуциальный вывод. 2 Байесовский вывод (по имени Т. Байеса) – метод статистического вывода, использующий теорему Байеса для вычисления того, как степень веры в истинность предпосылки события (суждения) изменяется на основе доказательств. Байесовский вывод обосновывается философией байесовской вероятности, которая утверждает, что степень уверенности в истинности суждения можно отразить в вероятности и что теорема Байеса позволяет рационально оценить ее при наличии подтверждений.

Schrodt.version

Embed Size (px)

Citation preview

Page 1: Schrodt.version

Филип А. Шродт Семь смертных грехов современного количественного политического анализа Версия 1.0: 23.08.2010. (перевод. ЧЕРНОВИК! НЕ ССЫЛАТЬСЯ БЕЗ РАЗРЕШЕНИЯ) Резюме Сочетание технологических изменений, методологический дрейф и

определенная степень интеллектуальной неряшливости и нерасторопности, особенно в философии науки, привели к тому, что современная количественная политическая методология накопила ряд опасных привычек, которые делают значительную часть современных исследований практически бесполезными. Прививка от этого – не в том, чтобы отбросить количественные методы, и не в нигилистическом отрицании любого метода, а в том, чтобы, обратившись к началам, рассмотреть некоторые неприятные проблемы, а не пытаться приращивать знание увеличением количества регрессий в минуту.

«Семь смертных грехов» - это: 1. Модели с подбором переменных «до кучи», игнорирующие эффект

коллинеарности. 2. Донаучное объяснение в отсутствие прогноза. 3. Затирание до дыр одних и тех же данных. 4. Использование сложных методов без понимания исходных предпосылок. 5. Интерпретация частотной1 статистики, как будто бы она была

байесовской2. 6. Линейная статистическая монокультура, поддерживаемая в ущерб

альтернативам. 7. Смешение статистического и экспериментального контроля. Ответ на эти проблемы – не паника, а серьезная, продуманная, оригинальная

работа, учитывающая и теорию, и практику. В заключении приводится короткий обзор того, как мы пришли к такому положению, с точки зрения философии науки, и высказывается ряд предложений по изменению философского и педагогического подхода с целью решения некоторых из изложенных проблем. Постановка проблемы

В последние годы я часто замечаю, что количественные исследования, которые мне приходят на рецензию из журналов или накануне конференций, сильно меня расстраивают. Попадаются и самородки, поэтому, в духе афоризма С. Джонсона, что «второй брак – торжество надежды над опытом», я продолжаю работать рецензентом. Однако для типичной работы, которую я получаю на чтение, характерен ряд (или весь набор) следующих признаков:

1 Частотный вывод (от frequency – «частота»), или частотная статистика, – один из многих способов формулировки схем статистического вывода (вывода заключений из статистических выборок). На ч.в. основана методология проверки статистических гипотез и доверительных интервалов. Альтернативы ч.в. – байесовский вывод, фидуциальный вывод. 2 Байесовский вывод (по имени Т. Байеса) – метод статистического вывода, использующий теорему Байеса для вычисления того, как степень веры в истинность предпосылки события (суждения) изменяется на основе доказательств. Байесовский вывод обосновывается философией байесовской вероятности, которая утверждает, что степень уверенности в истинности суждения можно отразить в вероятности и что теорема Байеса позволяет рационально оценить ее при наличии подтверждений.

Page 2: Schrodt.version

• Около дюжины кореллирующих независимых переменных, забитых в линейную модель.

• Новая первоклассная и невероятно сложная статистическая процедура (доступная в Stata или в R), которая в лучшем случае совершенно избыточна для решения поставленной задачи, в то время как обычный t-тест или ANOVA вполне справились бы с задачей извлечь несколько правдоподобных результатов, а в худшем – совершенно неоправданна с учетом характеристик данных и теории.

• Работа анализирует данные, которые были проанализированы тысячу раз до этого.

• Объем работы составляет 30-40 страниц, хотя результаты могли бы быть изложены на десяти (или менее) страницах – как в естественных науках.

Наконец, не в самой работе, но по факту: • Сообщаемые результаты – итог десятков (а может, и сотен)

альтернативных формулировок и оценок. Проблема в том, что, когда я вижу подобную работу, я не верю ее

результатам. Я понимаю, что автору(-ам), вероятно, нужно кормить детей, родителей, домашних питомцев и отчитываться перед научным советом, который подсчитает количество опубликованных статей в рецензируемых журналах. Однако, к сожалению, такие работы всего лишь отражают практику, которая стала «нормальной наукой» в количественном политическом анализе. Не помогают даже рекомендации в стиле: «Измените тему, данные, модель и интерпретацию, тогда, возможно, это будет интересным». При этом многое можно исправить, и, в целом, я оптимистично смотрю на будущее количественного политического анализа. Если избавиться от этих грехов.

Цель данной статьи - подробнее остановиться на указанных проблемах без риска для конкретного рецензируемого ввиду общей картины. Первоначально мой список грехов был ближе к двадцати. В чем-то эта статья перекликается с моей работой 2006 г., работой Ахена (2002) и Ворда (2010).

Если коротко обозначить мой вывод, то, в целом, эти проблемы делятся на следующие категории:

1. То, что, как мы знаем из вводного курса статистики, делать нельзя, но мы все равно делаем: регрессии с огромным количеством переменных, анализ с применением комплексных методов без соблюдения необходимых предпосылок.

2. Вопросы, связанные с дрейфом концепций: объяснение вплоть до исключения прогноза, байесовская интерпретация частотных оценок, интерпретация независимых переменных как «контрольных».

3. Когда технологии делают нас ленивыми: бесконечный повторный анализ небольшого количества баз данных с использованием небольшого количества методов.

4. Вопросы, которые обсуждаются со времен появления современной статистики и которые, возможно, неразрешимы: частотный вывод в целом, интерпретация тестов значимости на основе данных о генеральной совокупности.

5. Просто сложные вопросы, работа над которыми может принести прогресс целой области анализа: философия статистического вывода на основе байсовской вероятности и ее внедрение взамен частотного вывода и логического позитивизма середины ХХ в. в преподавание методологии.

Наконец, хочу отметить, что в моих наблюдениях неизбежен уклон в сторону исследований, которые я чаще всего рецензирую, - количественного анализа политических конфликтов в сравнительной перспективе. Вопросы, которые я поднимаю, могут в меньшей степени касаться других областей даже

Page 3: Schrodt.version

политических исследований, хотя сомневаюсь. В целом, статья не уходит от полемики.

1. Подбор переменных «до кучи» и проблема коллинеарности Модель по принципу «все включено» (Ахен использует термин «модель

мусорного бака») – это анализ, включающий «длинный список независимых переменных из социальной психологии, социологии и обычного шарлатанства, беспорядочно перемешанные в консервах из линейных регрессий» (2002:424). Эта проблема выставлена первой не потому, что ее никто не касался, а потому что это причина примерно 80% моего недоверия к современным количественным исследования.

Ахен обосновываем «правило трех»: «Где более трех независимых переменных, невозможен анализ данных, где была бы доказана точность модели и где предпосылки анализа были соблюдены с указанной точностью… Кроме того, при тщательном анализе трех объяснительных переменных обычно хватает, чтобы сделать анализ достаточно трудным - не слишком сложным и не слишком легким – для любой статьи» (Ахен 2002:446).

В других статьях (2006) я уже касался того, где эта проблема обычно возникает и какие серьезные последствия возникают, когда коррелирующие переменные используются в регрессии или логистических моделях. В отличие от контролируемого эксперимента (на котором выросли современные статистические методы), где необходимые переменные можно изменять ортогонально, политический аналитик чаще сталкивается с ситуацией, когда ряд одинаково подходящих теорий предлагает в качестве возможных причинных факторов несколько тесно связанных (и поэтому коррелирующих) переменных.

Линейные модели не справляются с подобными ситуациями! Коллинеарность может вылиться в том, что все искомые коэффициенты будут казаться незначимыми, а часто приведут и оценке с противоположным знаком. Уберите нужную переменную (проблема влияния пропущенной переменной) – и ее объяснительная способность отразиться на всех связанных с ней переменных, оставшихся в уравнении. Включите любые категориальные переменные, помимо простейших, - и от анализа не осталось живого места от dummy-переменных (чьи коэффициенты тоже зачастую интерпретируются неправильно).

В отсутствие сильного линейного эффекта в основной массе генеральной совокупности регрессии усиливает, а не изолирует влияние аномальных подсовокупностей. Какая часть из опубликованных результатов – это франкенштейны, состоящие из облака некоррелирующих наблюдений, где все значимые коэффициенты определяются несколькими группами выбросов? Неизвестно; потому лишь малая часть статей оговаривает этот вопрос.

В общем, практически для всех проблем политического анализа линейные модели не просто плохи, а очень, очень плохи. Сложнее выдумать что-то менее подходящее. Вследствие этого, результаты линейных регрессий очень нестабильны, так что даже небольшие изменения в модели приводят к тому, что коэффициенты пляшут, как тушканчики на метамфитаминах… В таких условиях можно развести много исследований, но редко прийти к нормальному выводу. Обычный ответ на такой упрек – «это надо прояснить на теоретическом уровне». Проблема лишь в том, что обычно сами модели строят, чтобы проверить, какая теория верна на эмпирическом уровне, и так прививка становится болезнью.

2. Донаучное объяснение в отсутствие прогноза

Page 4: Schrodt.version

Нередко относительно прогнозов можно прочитать фразы вроде следующей: «Многие исследователи международных отношений до сих пор рассматривают прогноз как второстепенную задачу, по сравнению с объяснением». Мое обдуманное и взвешенное отношение к подобным утверждениям таково: это в высшей степени, совершенно и полностью своекорыстный абсурд, лишенный и следа философского обоснования и при этом невероятно вредный для всего нашего интеллектуального предприятия. Лучше всего такие утверждения прямиком посылать на свалку истории.

В чем я вижу проблему? Я постоянно наталкиваюсь на подобные высказывания, но до сих пор никто не смог привести ни одной подходящей цитаты из философии науки. По-видимому, это обыденное знание, полученное из силлогизма:

Модели, с которыми мы работаем, практически бесполезны для прогноза. Мы доблестные ученые несравненного интеллекта и интуиции. Следовательно, Научные модели не должны служить для прогноза. Конечно, это понятное человеческое стремление, но в данном контексте оно

приводит меня в смущение, поскольку создавать успешные прогнозы политического поведения – прямое назначение моделей (недавние примеры включают в себя Political Instability Task Force (Goldstone et al 2010) и Integrated Conflict Early Warning System (O'Brien 2010)). При этом совершенно очевидно, что первопроходцы международных отношений были напрямую заинтересованы в моделях, которые могли бы точно предсказывать события. Более того, эти модели создавались учеными как раз с целью снизить риски термоядерного конфликта между СССР и США.

С тех пор в понимании вещей произошел определенный дрейф. Позиция современников понятна, но при этом философски не обоснована, и больше всего раздражает, что сторонники этого утверждения просто твердят его из текста в текст, будто от этого оно станет истинным. При этом трудно найти его опровержение, так как здесь мы наталкиваемся на полный разрыв между самим утверждением и философией науки ХХ в., которая исходила из прогностических детерминистских традиций Ньютона, Лапласа, Максвелла и всего опыта естественных наук XVII в. Центральное место прогноза (а не только объяснения) принимается как должное в большинстве научных дискуссий.

Покопавшись, можно найти классическую работу Карла Гемпеля «Объяснение и предсказание методом охватывающих законов» (Hempel 2001), где утверждается, что оба процесса идут бок о бок в научной теории. Гемпель рассматривает объяснение как эквивалент предсказания. Логические позитивисты, будучи достаточно строгими логиками (вплоть до утверждения, что желтый карандаш – доказательство того, что все вороны черные, поскольку утверждение «Все вороны черные» эквивалентно утверждению «Все нечерные предметы не вороны»), были бы, несомненно, возмущены подобным утверждением. Поскольку если две вещи эквивалентны, то одновременно одна из них не может быть слабее другой!

Как пишут Гемпель и Оппенгейм (1948), «отметим, что тот же формальный анализ, включая четыре необходимых условия, приложим к научному прогнозу и объяснению. Разница между ними носит прагматический характер. Если дано E, то есть если мы знаем, что феномен, описываемый E, предшествует набору утверждений C1, C2,..., Ck, L1, L2, ..., Li, то мы говорим об объяснении данного феномена. Если же сначала даны утверждения и E выводится до возникновения феномена, который оно описываем, то мы говорим о предсказании. Поэтому

Page 5: Schrodt.version

можно сказать, что объяснение конкретного события недостаточно адекватно, если его эксплананс, с учетом времени, не может служить основой предсказания данного события. Следовательно, все, что будет сказано в этой статье в отношении логических характеристик объяснения или предсказания, будет касаться их обоих, даже если будет упомянут лишь один из процессов […] Многие объяснения, которые обычно предлагаются, особенно в донаучном дискурсе [курсив мой. – Ф.Ш.], грешат отсутствием предсказательной силы. Так, нам могут сказать, что машина перевернулась, «потому что» одна из шин лопнула во время быстрой езды. Очевидно, что на основе этой информации несчастный случай нельзя было предсказать, поскольку эксплананс не дает никаких общих законов, которые могли бы обеспечить объяснение, а также не определяет должным образом антецедальных условий, которые бы потребовались для предсказания» (Hempel and Oppenheim 1948:138-139).

Для Гемпеля (и всех логических позитивистов) объяснение в отсутствие предсказания не является научно превосходным по отношению к прогнозу и даже не является научным! Оно «донаучно».

Донаучный характер объяснения в отсутствие предсказания можно проиллюстрировать на феномене молнии. На протяжении многих столетий широко принятым и достаточно хорошо разработанным объяснением молнии среди норманнов было то, что молнии посылает им Тор. Для тех, кто верил в Тора, это «объяснение» обладало такой же интеллектуальной сложностью и связностью, как, скажем, теория рационального выбора. Была у него и предсказательная ценность, поскольку в качестве целей Тор предпочитал одиноко стоящие деревья и горные вершины. При всем при этом теория молнии Тора не выдержала критического испытания, когда миссия Св. Бонифация срубила священный дуб Тора во Фритцларе в 723 г. и Тор не встал на защиту дуба. В общем смысле, знание способов появления молнии требовало знания поведения Тора (как теория рационального выбора требует знания непознаваемой полезности политических акторов), но при этом обладало ограниченной практической полезностью. Сравним его с пониманием молнии, которое было развито в XVIII в. путем экспериментов Франклина в Америке и Далибара и Делора во Франции. Они установили, что молния является формой электричества. По дедукции, если молния – это электричество, то она пройдет по электрическим проводникам вроде железа и меди быстрее, чем через изоляторы дерево и камень. Значит, металлические молниеотводы могут защитить здание от молнии, и это практически и эмпирически проверенное предсказание. А также бесспорный прорыв, по сравнению с угадыванием мыслей Тора или жертвоприношением с целью защиты дома. Свен жертвует козла Тору; сарай Свена сгорает. Хельга устанавливает новенький молниеотвод; сарай Хельги цел. Теория электричества хороша; теория Тора - не очень.

Перенесемся в ХХ в., к теориям и экспериментам по искусственному генерированию молнии Тесла и Ван де Граафа и растущему эмпирическому пониманию условий появления молнии, и увидим, что для предсказания того, где вероятнее всего молния вызовет лесной пожар и где разместить ресурсы борьбы с огнем, используются математические модели. Иногда предсказания неверны: системы погоды сложно предсказать, а уж тем более конкретные удары молнии, - но, по сравнению с попытками прочесть мысли Тора, это значительное улучшение.

Почему я привел эту аналогию? <...> Потому что отличие научного объяснения от мифического (или ненаучного) объяснения – одна из главных тем работы логических позитивистов. И без предсказания сделать это невозможно. Есть, конечно, и место для донаучных обоснований. Астрология дала

Page 6: Schrodt.version

эмпирическую основу астрономии, алхимия – химии, и даже научный разум Ньютона посвятил немало времени алхимии. Таким образом, научный способ создания знания не единственный проверенный путь, чтобы узнать о политике. Прозрение может дать и донаучная эвристика теории рационального выбора, беседы с жителями зоны военных действий или поиски в архивах. Но ничто из этого не является строго научным, и только прогноз сделал бы их таковыми.

3. «Безумие – это повторять одно и то же действие каждый день и ждать

разных результатов» Когда все становится очень простым, это или радикальным образом

трансформирует нашу жизнь (транспорт в 1820-1960-е гг., антибиотики, Интернет, мобильные телефоны), или позволяет нам совершать очень глупые поступки (мировые войны, телевидение, Твиттер). По этой логике, в науке происходит прорыв, когда относительно рутинные процедуры, которые можно систематически внедрить среди большого количества людей, ведут к увеличению роста знания, и наука останавливается в развитии, когда прирост знания, который достижим рутинным способом, исчерпывает себя.

Сейчас мы находимся именно в таком «ступоре»: многие простые вещи уже были освоены, а рутинизированные процедуры сегодня только усиливают смятение, поскольку любой результат можно опровергнуть, слегка видоизменив анализ тех же данных, так что даже эксперт (не говоря уже о публике) с трудом сможет различить их. Именно поэтому я верю лишь малой части того, что читаю в журналах, а это плохо.

В естественных науках есть поговорка, что нужно попытаться написать или первую статью по какой-то теме или хотя бы последнюю. В политической науке все иначе: работа Раммеля (1999) была интересной, как и оригинальный анализ Онилом и Рассетом (1999) их же базы данных. Вполне возможно, что авторы упустили что-то важное, и несколько других статей могли бы восполнить пробел. Но сейчас есть уже больше сотни ссылок на эту статью, и большинство из них дают лишь небольшие прояснения, видоизменяют операционализацию или методологию и повально страдают проблемой коллинеарности! Что мы получим в итоге, кроме случайных вариаций в коэффициентах и стандартной ошибке?! Предположим, что только половина из этой сотни статей заново анализируют данные, что публикуется одна из трех научных работ и что средняя статья появляется после двадцати (а может, и ста) попыток анализа. Это означает, что данные были повторно проанализированы около 3 тысяч раз… И это еще не самая популярная база данных!

Данные нельзя анализировать до точки накаливания, как сталь самурайских мечей. От сгибания и расплющивания они не становятся более сильными. Теоретически в каждой базе данных содержится конечное количество информации (включая модификации и добавление индикаторов). При компетентном анализе (обычно если данные не просто скачиваются, а предварительно собираются) основную информацию можно найти в первых пяти-десяти публикациях. Пусть читатель сам найдет хотя бы один пример, когда повторный анализ базы данных, проведенный года через два после публикации базы, давал надежные новые и важные результаты (кроме тех случаев, когда предпосылки первоначального анализа были ошибочными, включая временные ряды, кластеры или перекрестное влияние). Добавление или замена индикатора на похожий также обычно не несут большой нагрузки - если первоначальные индикаторы, опять-таки, не содержали систематических ошибок измерения или пропущенных переменных. При этом методы, справляющиеся с коллинеарностью (кластерный анализ или метод главных компонент) просто проигнорируют данный

Page 7: Schrodt.version

факт, поскольку они обнаруживают латентные измерения. Хрупкие методы вроде регрессии или логистического анализа в таком случае начнут выдавать сумасшедшие результаты, меняя знаки у коэффициентов от малейших взаимодействий переменных в результате обращения и ковариации матриц. Никакого отношения к реальному миру все это не имеет.

Самое трагичное в этом – это то количество данных, которое в результате остается недоисследованным. Систематический сбор данных сейчас действительно процветает. Количество доступных документированных и собранных данных завораживает; ничего подобного просто не существовало еще тридцать лет назад, и сейчас мы разрабатываем методологию для работы со всем этим объемом данных.

Кроме того, сбор данных не является монокультурой: мы можем получать похожие результаты на основе множества индикаторов. Но обычно этого не происходит, потому что большинство исследователей занимается повторным анализом небольшого количества канонических баз данных, даже(!) если у тех есть известные проблемы или если множество факторов в регрессии превращается в горючую смесь. Поскольку у нас есть необходимые методы и никто не принуждает анализировать одни и те же данные, основную проблему я вижу в сложившихся привычках, которые можно исправить.

4. Использование сложных методов без понимания исходных

предпосылок Недавно мне прислали на рецензию статью, использовавшую ранее мне не

известный метод конкурирующих моделей риска. Проделав соответствующие поиски, я обнаружил, что ключевое предположение для вычисления оценки состояло в том, что «механизмы неуспеха, ведущий к определенному типу провала, действует независимо друг от друга, пока не наступит провал» [курсив мой. – Ф.Ш.]. В самой статье модели не были даже отдаленно независимыми, и я написал в рецензии, что в результате нарушения этой предпосылки результаты, вероятно, не имели смысла; на этом мое общение с конкурирующими моделями риска было завершилось. Но спустя некоторое время в презентации одного из наших лучших аспирантов я снова о них услышал. Причем речь шла о факторах риска, которые коррелировали друг с другом теоретически и, скорее всего, практически. На мой вопрос о нарушении предпосылок модели я услышал довольно обескураживающий ответ, что «все остальные так тоже делают»...

Коротко говоря, ЭТО не статистические исследования, а просто кликанье мышкой. Сам метод, возможно, и не зависит от нарушения предпосылки независимости факторов (хотя в первоначальном варианте результаты очень сильно зависели от этого, и при нарушении предпосылки результаты практически не поддавались подсчету) <…> Стоит иметь в виду, что нередко сложные методы, используемые с нарушением предпосылок, работают хуже, чем простые методы с выдержанными предпосылками. В этом смысле одна сложная модель не лучше другой: за годы работы я видел столько случаев, когда в работе используется сложный метод и автор, по-видимому, его даже не до конца понимает, но применяет в ситуациях, которые прямо нарушают необходимые предпосылки. Часто такие работы не проходят рецензирования, а потом кто-нибудь замечает, что полученные оценки вместе не образуют единства и что такие результаты можно было получить и на генераторе случайных чисел. Подробнее об этом пишет Ахен (2002).

И еще пара наблюдений.

Page 8: Schrodt.version

1. Сложные модели не всегда неуместны; в некоторых ситуациях они имеют очевидное преимущество перед простыми моделями, например – в использовании поперечных оценок (cross-sectional) двойных временных рядов в международных отношениях (Beck, Katz and Tucker 1998). В международных отношениях было проанализировано много поперечных данных с двойными временными рядами, а существующие методы с легкостью могут неправомерно сузить стандартную ошибку вдвое. Новая, хотя и сложная методология, примененная в этой работе, соответствовала теории и данным и, таким образом, была на своем месте.

Другой хороший пример – рост использования в последние двадцать лет иерархических линейных моделей в случае с гнездовыми наблюдениями.<...>

Но на каждый удачный пример найдется десяток неудачных, где исследователь находит сложность ради самой сложности в надежде, что головокружительная техника анализа приведет довольно обычный анализ в один из пяти (sic!) «трех священных журналов» по политике. На самом деле, головокружительные методы часто лишь незначительно изменяют коэффициенты и стандартную ошибку, потому что они эффективны, только если мы знаем то, чего не знаем (матрицу вариаций-ковариаций ошибок в уравнениях, например). Другой частый случай – головокружительный метод сводится к чему-то намного более простому… <…>

2. Тем временем увлечение сложностью ради сложности (и публикации) вытесняет более надежные методы. Зачем? Если можно аргументировать свою позицию простым тестом о равенстве средних, то я гораздо охотнее поверю результату, потому что t-тест надежен и требует немного вспомогательных предпосылок. Зачем делать регрессию с одними независимыми dummy-переменными, когда, на самом деле, нужна модель ANOVA (очень надежная). А если есть относительно короткий временной ряд и теоретическое обоснование автокорреляции зависимой переменной и ошибки (как часто бывает в политических исследованиях) – можно, конечно трансформировать переменные до неузнаваемости в моделях Бокса-Дженкинса и Бокса-Тиао, а можно сделать регрессию наименьших квадратов, но в любом случае невозможно будет отличить корреляцию и автокорреляцию (зато коэффициенты регрессии хотя бы можно будет интерпретировать!).

Вывод: использовать самый простой статистический метод, подходящий под характеристики теории и данных.

5. Если данные говорят с вами, значит, вы – байесовец На уровне преподавания и мейнстримных публикаций мы узаконили

неповторимую частотную методологию статистики, порой противоречащую здравому смыслу. Это почтенное наследство непростого компромисса, образовавшегося после горячих, но сегодня почти забытых философских дебатов Фишера, Неймана, Пирсона, Сэвиджа, Уолда и других в первой половине ХХ в. (Gill 1999), целью которого было решить проблемы, довольно далекие от политической науки. По замечанию Джила, Фишер, Нейман и Пирсон образовали «синтез ABBA» (расшифровывающийся как «Что угодно, кроме байесовского анализа»), который не был даже логически последовательным (возможно, именно это обстоятельство объясняет трудности студентов при изучении статистики).

Патологические последствия частотного вывода во всех областях, кроме его первоначального применения (индукция из случайных выборок) бесконечны, и сегодня они образуют значимую часть статистической литературы (напр. Freedman 2005). Перечислю лишь некоторые (sic!) из них, которые встречаются в политической науке:

Page 9: Schrodt.version

• Исследователям чрезвычайно трудно придерживаться правильной интерпретации критерия значимости. Уровень p говорит только о вероятности получения результата при (обычно) совершенно нереалистичных условиях нулевой гипотезы. А это совсем не то, что мы хотим узнать, - обычно мы хотим знать величину эффекта независимой переменной с учетом имеющихся данных. Это байесовский вопрос, а не частотный! Вместо этого мы постоянно видим, что значение p интерпретируется так, будто бы оно показывало силу ассоциации, - вот он, вездесущий Мистический Культ Звездочек и Статистической Значимости (пришедший на смену Культу Максимального R-квадрата, развеянному Кингом (1986)). По опыту, этой ошибки почти невозможно избежать: даже тщательный аналитик, осознающий проблему, часто осекается, когда устно описывает полученные результаты. И лучше не вспоминать, сколько чернил мы извели, исправляя эту ошибку у студентов.

• Частотная парадигма, в общем ключе, не касаясь внутренних противоречий, работает достаточно хорошо в двух случаях, для которой она была изначально разработана: в случайных выборках и в реальных экспериментах. Нужно признать, что эти характеристики описывают лишь часть исследований политики, прежде всего – опросы. Но есть куда большие области политической науки, к которым они никогда не будут применимы: большая часть международных отношений, сравнительные исследования (кроме опросов) и большинство национальных политических исследований политического поведения (кроме опросов общественного мнения). В подобной ситуации ученый исследует генеральную совокупность, а не выборку, и хотя можно бесконечно верить в невероятное: в ошибку измерения, альтернативные вселенные и т.д., - лишь бы оправдать использование выборочных методов на генеральной совокупности, но основания у них разные, и об этом давно известно.

• Легкость работы с разведывательной компьютерной статистиков сделала традиционные частотные тесты значимости просто бессмысленными. Сейчас можно проверять альтернативные модели всего парой кликов мышки (или парой строчек кода) за микросекунды вычислений. Практически все публикуемые работы сейчас сообщают лишь о верхушке айсберга десятков, если не сотен перепробованных формулировок. Уровни значимости можно было бы скорректировать с учетом этого, но на практике этого не происходит. Само количество обрабатываемой информации в тысячах моделей в рамках даже одного проекта масштаба EuroBarometer делают такую коррекцию невозможной.

• Наконец, существует очень серьезное несоответствие между частотными предположениями и гипотетико-дедуктивным анализом, основанным на теории («микрооснованиями», по выражению Ахена). С теорией все в порядке; теория позволяет не терять голову и не тонуть в индикаторах вроде «количество попугаев на душу населения»… В большинстве моделей. Но если ваша модель уже основана на теории, опровержение нулевой гипотезы не скажет вам ничего нового: теория говорит, что одна переменная должна влиять на другую, иначе бы мы не включили ее в модель, так что опровержение нулевой гипотезы лишь подтверждает это. Конечно, если работать в строгой парадигме фальсификации и как-то обойти проблемы измерения и

Page 10: Schrodt.version

коллинеарности, неточность статистической значимости в оценке влияния связанных факторов и так далее – и при этом больше, чем собственным инстинктам, доверять результатам и оценке очередной альтернативной модели, - вот тогда принятие нулевой гипотезы становится полезным. А если при множестве альтернативных формулировок переменная все же не значима, то, наверное, это достаточно хорошее подтверждение того, что ее нужно выбросить, и это будет прогресс работы. Но есть здесь еще один момент. Во многих работах показано – и это стало одной из отправных точек для Куна, - что научное исследование, хотя и принимает принцип фальсификации, но редко продвигается в соответствии со строгими нормами фальсификации. Общая тенденция такова, что сначала проводится значительная разведывательная работа, а парадигмы сменяются, только когда доступна более совершенная альтернатива (Лакатос; близко к этому мыслили Дюэм и Куайн). Когда мы работаем не в строгой фальсификационной парадигме – а в стохастическом царстве социального поведения это почти всегда так, - невозможность отвергнуть нулевую гипотезу в одном-единственном случае (а именно так работает частотный подход) фактически ни о чем не говорит нам.

Итак, какова альтернатива? Очевидно: байесовский подход. На уровне элит он уже широко принят; по крайней мере, пятнадцать лет назад какой-то из августейших членов Общества политической методологии произнес фразу: «Мы все теперь байесовцы». Как я покажу далее, к сожалению, этот тезис не просочился ни в нашу педагогическую практику, ни в практику самой дисциплины. Если говорить о журналах, байесовские подходы характерны для журналов с самым высоким рейтингом, вроде Political Analysis, но статьи в основной массе журналов – это частотный вывод.

Я верю, что в каждом аспиранте или кандидате, стремящемся выяснить, зачем проверять нулевую гипотезу на генеральной совокупности (подсказка: незачем…), в каждом из них пытается вырваться наружу байесовец. Освободите ваших внутренних байесовцев!

6. Хватит линейных моделей! Даже поверхностный взгляд на количественные исследования в

мейнстримных журналах за последние двадцать лет покажет, что, помимо свежих приложений байесовского метода, политическая наука превратилась в статистическую монокультуру: практически каждый представленный анализ основывается на линейной регрессии или logit-анализе.

С линейных моделей хорошо начинать: они эффективны в компьютерной обработке, легко интерпретируются, асимптоты критериев оценки обладают удобными свойствами. Используя ряд Тейлора, линейная функция – это достойное начало любого исследования. У любого преподавателя количественных методов найдется папка диаграмм рассеяния, демонстрирующих, как реальные данные выстраиваются в линию, возможно, с несколькими интересными выбросами. Элитные медиа вроде «The Economist» даже иногда включают в диаграммы значения коэффициентов корреляции.

Но в любой сельской школе знают, что монокультуры всегда плохо кончают: развиваются болезни и паразитизм, а затем следует коллапс (это еще одна формулировка главной идеи данной статьи).

Проблемы данной монокультуры мы рассмотрели выше; сейчас я хочу показать, что существуют альтернативы. В соответствии с моей метафорой

Page 11: Schrodt.version

монокультуры, статистика в социальных науках раньше была намного богаче и креативнее с методологической точки зрения, корректируя тесты, основанные на теории вероятности, для конкретных проблем, теорий и данных (см. напр. Anderson 1958, Lazarsfeld 1937, Richardson 1960). Можно также утверждать, что мы также отстаем от коммерческого анализа данных (см. The Economist (2010), Schrodt (2009)). Как бедный городской ребенок, который никогда не видел нетепличных овощей, так и многие исследователи политики сегодня полагают, что «статистика» означает «регрессия» и, как следствие, считают, например, что статистический вывод невозможен, если число потенциальных объяснительных переменных превышает количество наблюдений. На деле же почти всякий человеческий вывод происходит в подобной ситуации, и это обстоятельство является ограничением лишь в мире линейного вывода.

Поражает количество методов, которые мы не используем. В 2000 году американские методологи политической науки посетили встречу методологической секции МСА в Кельне. Во-первых, мы были удивлены тем, насколько она огромна, а во-вторых – тем, как много было представлено исследований со сложной методологией, в частности с использованием анализа корреспонденции. Другой пример - метод опорных векторов, рабочая лошадка современного классификационного анализа, понятная, надежная, готовая (уже сейчас есть как минимум четыре варианта реализации в R). Наконец, в чисто качественной области машинного обучения уже разработано множество алгоритмов классификационных деревьев для категориальных данных, начиная с методов ID3 и C4.5 и заканчивая CART и CHAID, – опять-таки, надежных, понятных, уже готовых и написанных в открытом коде, но фактически невидимых в политических исследованиях.

И это лишь верхушка айсберга. Беглый обзор всего лишь трех современных текстов по компьютерному распознаванию паттернов (2001, 2006, 2009) прибавляет к списку следующие методы:

− множественные вариации нейронных сетей; − множественные вариации с анализом Фурье; − множественные вариации МГК; − скрытые марковские модели; − алгоритмы последовательного поиска, функциональные, топологические

алгоритмы, алгоритмы иерархического разбиения на кластеры; − множественные вариации моделей с латентными переменными; − генетические алгоритмы и алгоритм имитации отжига…

Вопрос не в том, что нелинейные модели «хороши только потому, что они инновационны», нет. Вопрос в том, что все эти приемы как минимум используют нелинейные пути установления закономерностей в данных; ведь если многие вещи изменяются линейно, это еще не значит, что линейно всё, особенно в политике. Метод опорных векторов и методы деревьев решений, например, идеально подходят для случаев, когда количество независимых переменных больше, чем количество случаев, а большинство алгоритмов кластеризации не выдвигают требования корреляции переменных. Многие из этих методов могут использовать пропущенные значения как потенциальный классификатор, что очень пригодилось бы там, где данные не проходят тест на случайность пропусков (а это - большинство случаев для международных данных).

Но в этом отношении я все-таки оптимист; и большую часть этого оптимизма можно выразить одной буквой – «R». Статистический пакет R стал lingua franca системного анализа данных во всех сферах (включая даже анализ текстов!), - и это сломало прежние барьеры анализа, налагаемые специализированным

Page 12: Schrodt.version

коммерческим ПО. Скоро мы достигнем точки, когда каждый новый статистический метод будет отражен в пакете R, в обязательном порядке самим автором, а затем, возможно, и CRAN. В конце концов, последняя версия R находится на расстоянии в несколько кликов, и здесь нет проблем с обновлением до новой версии.

Доступность метода, конечно, еще не гарантирует его правильного использования. Думаю, нам предстоит изменить некоторые принципы преподавания. Пока что мы пытаемся объяснить методологам все возможности линейной модели через продвинутую эконометрику Гуджарати или Мэддала. Думаю, что со временем нам придется прийти к подходу, который использует больше простых и надежных методов из разных сфер (включая даже ANOVA) вместо последовательного и глубокого изучения одного методологического подхода (как сейчас).

7. Смешение статистического и экспериментального контроля Однажды мне пришлось участвовать в увлекательном методологическом

опровержении (1990, 1997) статьи из JCR, целью которой было заявлено установить эффективность трансцендентальной медитации на расстоянии по снижению уровня политического насилия (1988). Хотя в статье было много проблем, главной была интерпретация дополнительных независимых переменных как «контрольных». Авторы той работы были не уникальны, просто они попались на горячем.

За исключением тщательно рандомизированных выборок (т.е. практически никогда, кроме экспериментов) статистический «контроль» служит лишь для того, чтобы разбросать объясненную вариацию по (часто) случайным изменениям в значениях оцениваемого параметра. Он ни в коем случае не равносилен экспериментальному контролю. Так или иначе часто эти «контролирующие переменные» вбрасываются в модель с таким видом, будто это не приносит вреда и даже поможет уберечь исследование от ошибочных выводов. Нельзя быть более далеким от истины.

Здесь мы, возможно, опять могли постепенно и неосознанно прийти к языку, который, несмотря на удобство (что может быть лучше рандомизированных экспериментов для установления причинных связей!) и корни (в экспериментах использовалась частотная, а не байесовская логика!), просто ошибочен в современном контексте, когда мы пытаемся оценить линейные коэффициенты на основе набора коррелирующих независимых переменных, измеренных на негомогенных генеральных совокупностях. Причем мы знаем, что этот язык ошибочен, но забываем об этом, так же, как забывает о том, что p – это не показатель силы влияния независимой переменной.

На протяжении ряда лет первым заданием, которое я давал своим студентам в курсе многомерных методов, было создать на основе базы данных международного исследования какую-нибудь совершенно нелепую модель, чтобы получились значимые коэффициенты или бессмысленный набор независимых переменных как следствие эффекта коллинеарности или ложной корреляции. Ни у кого с этим проблем не было! К счастью, ни один студент не попытался опубликовать свою модель, но у меня сложилось впечатление, будто редколлегии многих журналов каждый день сталкиваются с чем-то подобным.

Другая порочная сторона этой медали – предположение, что статистическая значимость что-то говорит нам о каузальности. К счастью, за последние двадцать лет мы сильно продвинулись в понимании этого вопроса. В контролируемом и рандомизированном эксперименте сильное влияние переменной обычно

Page 13: Schrodt.version

переходит в предсказанное влияние на зависимую переменную (если нет ложной корреляции или неучтенных переменных), – но ведь это не верно для уравнения, составленного на основе нестройных данных из генеральной совокупности!

Последствия этой ошибки губительны. Например, значительная часть ранних работ Political Instability Task Force зашла в тупик, потому что статистически значимые переменные не переходили в лучший уровень предсказания – и эта проблема характерна для многих исследований политических конфликтов (2010). Лишь когда методология PITF стала учитывать предсказательную валидность (включая, например, тестовые и классификационные матрицы с разделением выборки), их модели смогли преодолеть эту проблему. А ведь именно предсказание, а не объяснение, определяет статус исследования как науки.

Что делать? Несмотря на длинный список претензий, я категорически заявляю, что не

предлагаю выбросить научный метод и обратиться к беспорядочному или интуитивному познанию или к нарциссическому нигилизму, отрицающему возможность объективной реальности. Учитывая количество хорошо изученных патологий интуитивного человеческого размышления (Vertzberger 1990, Tetlock 2005) даже среди экспертов, нам нужна будет любая помощь, чтобы разобраться с изучением политического поведения. Я предлагаю серьезно отнестись к этой критике как к стимулу к развитию новой, более совершенной философии статистического вывода, которая была бы создана специально для политического анализа, а не просто перенимала то, что хорошо работало в отделе контроля качества пивоварни Гиннес в 1908 г.

Как было отмечено в первом разделе, ряд моих замечаний направлен на то, чтобы просто избавиться от вредных привычек, о которых мы знаем из вводного курса по методологии, как-то: модели с огромным количеством независимых переменных не имеют смысла, статистическая значимость не говорит нам почти ничего нового, не стоит использовать методы, не подходящие к данной теории и данным. В некоторых случаях (дрейф в донаучное объяснение за счет предсказания и терпимое отношение к бесконечному анализу одних и тех же данных) нам нужно вернуться к основаниям и навести там порядок. Наконец, те же технологии, которые стали проклятием в некоторых вопросах, могут помочь перейти от частотных оценок к байесовским, а также открывают перед нами многообразие новых техник анализа, многие из которых уже используются в коммерческих проектах. Ну и, наконец, есть ряд общих вопросов, у которых до сих пор нет решений. Круг этих вопросов я сейчас попытаюсь обрисовать.

Взглянем «с высоты птичьего полета» на философию науки, на которой выстроен количественный анализ: сегодня мы завязли в незавершенной философской рамке, унаследованной вместе со многими идеями от логических позитивистов, в сочетании с философски несвязным подходом частотного вывода. Выход из ситуации – в обновлении интереса к вопросам логического позитивизма с учетом стохастических подходов, а также – в общем фокусе на социальных науках. Многое из этого уже было сделано в последнее десятилетие для качественных и смешанных методов. В количественном анализе такой работы еще не проделано, несмотря на то, что у нас есть непосредственная альтернатива частотному выводу в лице байесовского вывода, которое может решить большинство противоречий первого, на которые мы по привычке закрываем глаза. Необходимо также систематически ввести байесовский подход в преподавание. То есть, хотя мы и застряли, выход есть.

Page 14: Schrodt.version

Как мы оказались в таком положении Снова взглянем с высоты птичьего полета: после целого тысячелетии

гипердедуктивного интеллектуального оцепенения, вершиной которого стала схоластика, было изобретено нечто похожее на современный научный метод. Начал работу Бэкон около 1600 г., а более-менее завершил Декарт около 1640 г. Этого было достаточно, чтобы проложить путь в XVII в. прославленной ньютоновской механике и Просвещению. На протяжении XVIII в., за исключением радикального скептицизма Юма, все развивалось в этом направлении. В XIX в. начались попытки приложить эти методы к социальным науках (Милль, Бентам, Маркс, Парето), хотя намного больший успех сопутствовал приложению философских критериев (Джеймса, Маха) и экспериментального метода (Вундт, Пирс, Дьюи) в науке о поведении (современная психология).

Вот в такой обстановке в начале ХХ в. появился Венский кружок логических позитивистов. Общая цель логических позитивистов заключалась в том, чтобы систематизировать основания научного исследования на уровне, сравнимом с математикой (Кантор, Гильберт и, конечно же, Рассел и Уайтхед) и с обобщением физических законов (уравнения Максвелла). Кроме того, в ответ на прославление науки со времен Просвещения и еще больше - со времен промышленной революции, Венский кружок занимался попытками различения между «правоверной наукой» и вызовами со стороны фрейдизма в психологии и марксизма – в политике.

Многое из того, что систематизировали логические позитивисты, останется в науке (бихевиористские концепции измерения, концепты экспериментирования, фальсификации, различие между дедуктивным и индуктивным и т.д.). Но логическим позитивистам не хватало, как минимум, двух вещей. Во-первых, развитого понимания вероятностных механизмов и рассуждения. Статистика была к тому времени относительно новой и маргинальной наукой, поскольку она считалась прикладной дисциплиной (как и во многих университетах вплоть до конца ХХ в.). Венский кружок работал в рамках детерминистских систем Ньютона и Максвелла, а недетерминистские системы в то время доверия не вызывали. Детерминизм позволил им, вслед за Расселом и Уайтхедом в математике, развернуть всю мощь логики по отношению к науке. Во-вторых, первоначальная цель позитивистов зашла в тупик (или «достигла своих логических пределов») в 1950-х гг., когда Карнап, Куайн, Дюэм и другие установили, что различение синтеза и анализа не может быть основано лишь на логическом основании в связи с проблемой бесконечного регресса дополнительных предположений (ancillary assumptions) в теории. Косвенным образом это привело к сегодняшним неясностям с предсказанием и объяснением. Интересно замечание Куайна: «Как эмпирик, я продолжаю считать концептуальную схему науки инструментом для предсказания будущего опыта в свете прошлого опыта. Физические объекты концептуально вводятся в ситуацию как удобные посредники, причем не путем их объяснения в терминах опыта, но просто как несводимые постулируемые сущности, эпистемологически сопоставимые с богами Гомера. Что касается меня, то я, как правоверный физик, верю в физические объекты, а не в гомеровских богов, поскольку было бы научной ошибкой думать иначе. Но с точки зрения эпистемологии физические объекты и боги Гомера отличаются только по степени, а не в принципе. Оба типа сущностей входят в наше познание только как культурные постулируемые сущности» [Куайн, У. Ван Орман. Две догмы эмпиризма / Слово и объект. М.: Логос, Праксис, 2000 [1951].] Обратите внимание, что Куайн не говорит, что «научно» читать разум богов: Куйан верит в прогностические модели как ученый. Но, в связи с проблемой вспомогательных

Page 15: Schrodt.version

предположений, Куайн как логик не может установить научность этого убеждения. Схожая проблема возникла в математике за двадцать лет до этого, когда теорема Гёделя о неполноте застопорила работу над фундаментальными подходами к математике, так что к 1950-м гг. квантовая механика стала признанной альтернативой детерминизму Ньютона и Лапласа. Так что философия науки была готова к не слишком счастливому финалу.

Случайность ли, но как раз в это время, когда логические позитивисты исчезают со сцены, начали развиваться современные исследования политического поведения, что во многом было обусловлено прогрессом в программировании и вливанием денег в образование во время «холодной войны». В результате вся «философия науки» до конца ХХ в. приняла социологически-исторический подход, начиная от Куна и Лакатоса, прошла через постмодернистские культурные войны в 1990-х гг. и очутилась в относительном вакууме дня сегодняшнего. В начале XXI в. мы находимся в ситуации, сравнимой с кульминацией фильма-погони: постмодернистская машина сорвалась со скалы и теперь лежит на дне ущелья в языках пламени, все «плохие парни» (философски) мертвы, и теперь остается лишь подняться обратно на вершину и подобрать все свободные концы в сценарии, которые остались незавершенными.

Мы уже сейчас можем отказаться от частотного вывода, поскольку он (несмотря на практическую полезность) никогда не представлял собой никакого логического смысла (что, возможно, может хотя бы частично объяснить пренебрежение Венского кружка к статистике или сложность в объяснении частотного вывода студентам).

В применении к социальным наукам частотный вывод страдает от трех недостатков, каждый из которых фатален. Во-первых, уже упоминавшийся компромисс Фишера, Неймана и Пирсона «Что угодно, кроме Байеса». Там, где дело касается доверительных интервалов в случайных выборках, это совершенно обоснованно. Но частотный вывод как целое не имеет логического смысла, и хотя нам удавалось уходить от этого факта полстолетия, дальше идти некуда, впереди тупик.

Во-вторых, совместить дедуктивно-гипотетический метод и частотный подход нулевой гипотезы просто невозможно. Если у нас есть теория для модели, тогда tabula rasa нулевой гипотезы – это и интеллектуальное лицемерие, и информационная пустышка.

В-третьих, в огромном количестве случаев, где мы применяем частотные тесты статистической значимости, мы имеем дело не с выборками, а с генеральными совокупностями. Некоторые области (например, данные по военным конфликтам) напрямую требуют собрать 100% случаев, так что исследователям приходится изрядно попотеть, собирая последние 10%, чтобы обеспечить смысловую валидность всего исследования. В других случаях (анализ законодательства или постановлений Верховного суда) генеральная совокупность налицо. В таком случае без философской гимнастики становится сложно понять, как здесь можно использовать статистическую значимость, рассчитанную для выборки. Возможно, поэтому столь многие и ошибаются, стремясь расценивать уровень значимости как силу причинной связи, а не вероятность, что такой же результат будет получен в выборке при условии нулевой гипотезы.

Два открытых вопроса: какой прогноз и какое байесовский вывод? Обозначив, в какой тупик ведет нас прежняя дорога, стоит сказать, куда нам

стоит идти, предварительно разобравшись с двумя вопросами:

Page 16: Schrodt.version

Прогноз чего нас интересует? Для логических позитивистов первенство предсказания было очевидно, но,

как я отметил, они жили в мире детерминизма – а детерминистские предсказания могут быть очень точными. Пример: аномалия «Пионеров»: когда все известные силы, действующие на космический корабль, приняты во внимание, остается небольшая, но необъяснимая сила, которая вызывает постоянное ускорение обоих кораблей в сторону солнца величиной (8,74 ± 1,33) × 10−10 м/с². Измеримая ошибка порядка 10−10 после 30 лет наблюдений – вот это детерминизм.

В социальных науках мы всегда будем в другой ситуации. Наши модели всегда будут содержать ошибки хотя бы по следующим причинам:

- ошибка детализации (ни одна модель не содержит всех действующих переменных);

- ошибка измерения (за очень редким исключением, переменные будут включать в себя ошибку измерения, даже если существует согласие по поводу «правильного» измерения в идеальной ситуации);

- свобода воли (как говорят коллеги из наук о поведении, в общем случае «генетически стандартизированное экспериментальное животное, подвергнутое точно контролируемым стимулам в стандартизированном лабораторном окружении будет вести себя как ему вздумается». Безусловно, это касается и людей.)

- квазислучайная структурная ошибка (мы имеем дело с комплексными и хаотическими системами, по крайней мере при некоторых комбинациях параметров).

Таким образом, поскольку мы не можем зависеть от детерминистского определения прогноза, а прогноз вроде уровня «значительно отличается» для многих ситуаций тоже не годится, что нам остается? На мой взгляд, есть минимум три возможности.

1. Использовать норму, возникшую в метеорологии – естественной науке, которой свойственны ошибки детализации, измерения и структурные ошибки, но отсутствие свободы воли (если, конечно, не верить в теорию Тора), а именно: предсказанная вероятность и наблюдаемое проявление (в случайных наборах данных или вне выборки) на графике примерно совпадают с линией 45 градусов. Это значит, что гроза, предсказанная с вероятностью 20%, будет наблюдаться 20% всего времени. Этот подход применяется в политическом исследовании PITF и других (см. King and Zeng 2001) и требует logit-моделей, которые на выходе дают вероятность.

2. Предсказанное влияние изменения значений переменных должны соответствовать распределению изменения, предсказанному по модели. Это можно сделать просто: оценить последствия стандартной ошибки оценки в частотной модели (это будет нормальное распределение) – или сложно: через апостериорную вероятность байесовской оценки. В идеале это можно оценить в естественных экспериментах вне выборки, но в их отсутствие – с помощью подвыборок из генеральной совокупности.

3. Во многих классификационных моделях критерием становится ROC-кривая (этот метод использован в PITF) В частности, этот подход очень хорош для определения того, насколько наша модель лучше случайной модели.

Этот список, конечно, неполный, но смысл в том, что у нас нет работающей вероятностной модели объяснения ни с точки зрения логического позитивизма, ни с точки зрения частотного вывода. И нам известно гораздо больше, чем даже в середине ХХ в. Например, теория хаоса показала, что даже очень простая нелинейная детерминистская система будет вести себя внешне случайным

Page 17: Schrodt.version

образом при некоторых комбинациях параметров. Логические позитивисты не знали о теории хаоса: Пункаре получил первые результаты в 1880-х гг., впервые они были включены в теорию вероятности в первой половине ХХ в., признание применимости полученных моделей в реальном мире пришло лишь с поздними работами Лоренца и Мандельброта в 1960-х гг., а изучением темы начали заниматься только в 1980-х, то есть намного позже зенита славы логических позитивистов. То же можно сказать и о развившейся в 1980-е гг. теории сложности. То есть даже если бы социальные системы были детерминистскими (как считали логические позитивисты), поведение, которое мы наблюдаем, все равно казалось бы неотличимым от поведения стохастической системы.

Народный байесовский вывод или WinBUGS? Байесовский вывод решает многие проблемы: это логически

последовательная идея, и, следовательно, она может служить основой для настоящей теории каузальности; она решает вопрос интеграции теории и данных и соответствует действительному мышлению; она решает парадокс логического позитивизма о желтых карандашах и черных воронах, а также успешно справляется с ситуацией, когда исследователи считают одни случаи более интересными, чем другие; наконец, она дает понятный метод интеграции неформальной априорной информации с систематическим анализом данных.

Недостатком байесовских подходов является сложность вычислений, которая даже с ПО WinBUGS может занять 48 часов на одну регрессию. Кроме того, пока что основания байесовского вывода мало используются.

Вопрос стоит так: нужно ли нам строгий или «народный байесовский вывод» (1999), где отбрасываются только самые проблематичные стороны частотного вывода – тиранию (бесполезного) уровня значимости и ритуальной нулевой гипотезы, несочетаемость основанных на выборке предположений с анализом генеральной совокупности. Этих ограничений можно избежать, даже учесть хотя бы некоторые из следствий теоремы Байеса.

С этим связана задача разработки видов вывода/ интерпретации для широкого класса закономерностей в данных, которые можно обнаружить с помощью частотного или байесовского анализа. По сути, мы уже делаем это при оценке генеральной совокупности, поскольку частотные интерпретации не выдерживают логики и поскольку мы подчитываем описательную, не предсказательную статистику. Но пока что эти интерпретации не включены в компьютерные методы распознавания закономерностей. Например, одна из причин, по которым в США редко используется анализ соответствий – это неопределенность по поводу того, описательным или относящимся к выводу. При этом многие из методов «data mining» имеют намного большую предсказательную способность, чем господствующие сегодня частотные подходы.

Что дальше? На мой взгляд, нужно рассмотреть еще два взаимосвязанных, но до сих пор

еще рассматриваемых отдельно вопроса: 1. Если частотный вывод ни к чему не ведет, то незачем и ходить туда.

Байесовская альтернатива существует, и в последние двадцать лет именно ей была посвящена большая часть статистических исследований. На уровне элит ее преимущество полностью признается; проблема в том, что мы до сих пор продолжаем обучать статистике так, будто ничего не происходило. Так мы приближаемся к классическому различению знания для простолюдинов и для

Page 18: Schrodt.version

посвященных. Мы учим частотному выводу, но хотим современной науки?! И этот педагогический вызов весьма серьезен. Сегодняшний выпускник, обученный по Кингу, Кеохейну и Вербе и Мэддала, считается достаточно хорошо подготовленным для политолога. Просто добавить к этому Джеринг для качественных методов, Кинга, Кеохейна и Вербу кроме частотной части, Джилл – для байесовских методов, Мэддала – для продвинутых линейных моделей, а еще Теодорис и Кутрумбас – для компьютерного распознавания паттернов, ну и, конечно, один-два спецкурса по временным рядам и иерархическим моделям (не говоря об ANOVA и анализе соответствий) – это нереально. Лучше использовать избирательный подход с упором на основы, а не на конкретные приемы анализа.

Проблема, к сожалению, действительно сложнее, чем «добавить тему здесь, убрать там», потому что она задает вопрос по основаниям. Несмотря на критику в литературе (1986, 2002), мы продолжаем безумствовать в частотном выводе. Конечно, его можно применять хотя бы для разведывательного анализа генеральных совокупностей, в опросах и экспериментах. Но я не уверен, что частотный вывод нам нужен там, где дело касается причин и прогнозов: здесь нам, пожалуй, целиком придется перенять байесовский вывод и его методы. В худшем случае мне, вслед за Максом Планком, придется отметить, что новая научная истина завоевывает сердца не когда оппоненты после долгих споров прозревают, а когда они в конце концов умирают, а новое поколение растет уже с новым знанием.

2. Нужно возобновить работу в области философии науки с того места, где остановились в 1950-х гг. логические позитивисты. Нам нужна связная теория стохастического вывода (основанная на байесовском, не на частотном выводе) относительно социального поведения, которая была бы свободна от обломочных пород, накопленных в попытках построить такую теорию на основе логического детерминизма.

Многое уже делается в этом ключе, хотя, в основном, в качественных исследованиях. Проблема в том, что байесовская логика сейчас находится в количественной области, где философская мысль практически отсутствовала в последние тридцать лет, а там, где мы ее находим, она очень слаба. Как и многие другие, я увлекся всеми новыми техническими приемами, которые появляются каждый год, и теперь сложно сесть за Куайна и Поппера (не говоря уже о Бэконе и Декарте). Но я сам признаю правоту «качественников» в философской безосновательности разделения дисциплины по принципу «уровня измерений». Нам нужна единая научная философия исследования, которая бы включала как количественные, так и качественные переменные.

В теоретическом плане многое еще предстоит, чтобы опровергнуть и радикальный скептицизм Юма (и постмодернистов!), и требования частотного вывода для больших выборок. Ведь люди получают информацию постепенно, из небольших выборок (с которыми напрямую работает байесовский вывод) и из ситуаций, где число потенциальных объяснительных переменных намного больше числа наблюдаемых кейсов (а корреляция между индикаторами – скорее удача, чем обязательный атрибут). Отвергать данные факты – значит, принудительно ограничивать себя небольшим кругом линейных аналитических моделей и моделей с контролируемой случайной выборкой.

Возможно, сейчас мы просто переживаем период «предрассветной темноты». Тем временем философия науки движется вперед, и сегодня уже нет нужды делать вид, что Кун - это «последняя из новинок». В частности, в рамках «научного реализма» были введены элементы прагматизма, которые прибавляют гибкости к строгой логике Венского кружка, и сегодня социальные науки уже намного ближе к науке.

Page 19: Schrodt.version

Почему это важно В заключение подниму еще два вопроса: почему это важно и нужно ли

серьезно относиться к критике ученого предпенсионного возраста? <...> Научный метод – один из многих методов постижения мира, часто не самый

эффективный. Политическая жизнь требует понимания, и, как показывают некоторые опыты, развитие политических структур в значительной степени связаны с развитием человеком умственных способностей. Что-то в политическом поведении бессознательно, но, как отметил Уильям Уайт, многие вещи мы делаем, потому что думаем, что мы их делаем. Например, за последние десять лет было много исследований о важности норм справедливости и охоты людей вести себя «иррационально», когда эти нормы нарушаются. Хотя у Гомера эта тема тоже раскрыта достаточно полно.<...>

В то же время научный подход к исследованию политики может показать нам то, что другие подходы не могут, и показать прозрачно, с воспроизводимыми результатами, да так, что было бы не под силу индивидуальному гению. Пример – аналитические системы PITF и ICEWS. Тридцать лет назад их нельзя бы было создать даже совместными усилиями, а сегодня – можно.

Возможно, нам нужно признать, что в словосочетании «политическая наука» второе слово пока что является скорее уловкой, и стоит вернуться к узкому определению науки, которое бы давало четкое и связное определение научного метода (которое бы не стремилось объять всех, кто работает на соответствующей кафедре). Тогда методы интерпретации, хотя и помогают понять политическое поведение, не являются научными, потому что они не могут обеспечить систематическую и воспроизводимую методологию. Теория рационального выбора, несмотря на математический аппарат и эвристическую ценность в дилемме заключенного или играх с ультиматумом, в большинстве случаев тоже не достигает уровня валидности прогноза. Узкое определение позволило бы нам улучшить уровень исследований и преподавания, а также отделить методологические зерна от плевел. Именно такой подход часто подразумевается, например, при финансировании исследований.

Ну и, наконец, стоит ли верить еще одной диатрибе, которая отчасти повторяет уже сказанное Ахеном (2002)? Во-первых, я был бы очень рад, если бы вместо того чтобы призывать других отказаться от моделей, подбирающих факторы «до кучи», я стал бы свидетелем восстания молодого поколения под лозунгом «Долой линейные модели с 12 переменными!» Некоторые примеры у нас есть, но и они, к сожалению, выплескивают с водой не только ребенка, но и, собственно, ванночку. Во-вторых, как рецензент и оппонент, я действительно часто сталкиваюсь с этими проблемами и чего только не перевидал на своем веку. Разум стоит беречь, а не тратить его на 3001-й анализ одной и той же базы данных. Возможные параллели со схоластикой просто пугают: начиная с 1650 г., европейское общество переживало невиданный политический, культурный и технологический расцвет, а университеты до конца XIX века продолжали жить, как в Средневековье… В конце концов, есть первый закон Кларка: если заслуженный, но престарелый учёный говорит, что нечто возможно, он почти наверняка прав; если же он говорит, что нечто невозможно, он почти определённо ошибается. Могу лишь добавить, что, хотя сейчас не все гладко, но есть достаточно очевидный выход, по направлению к которому мы продвигаемся.

Anderson, T. W. 1958. The Statistical Analysis of Time-Series. New York: Wiley.

Page 20: Schrodt.version

Achen, Christopher. 2002. Toward a New Political Methodology: Microfoundations and ART. Annual Review of Political Science 5: 423-450 The Economist. 2010. Data, Data Everywhere: A Special Report on Managing Information. The Economist. 27 February 2010. Freedman, David A. 2005. Statistical Models: Theory and Practice. Cambridge University Press (2005) Gill, Je_. 1999. The Insigni_cance of Null Hypothesis Signi_cance Testing. Political Research Quarterly 52:3, 647-674. Hempel, Carl G. and Paul Oppenheim, "Studies in the Logic of Explanation." Philos- ophy of Science 15,2: 135-175. King, Gary, Robert O. Keohane and Sidney Verba. 1994. Designing Social Inquiry. Princeton University Press. King, Gary and Langche Zeng. 2001. Improving Forecasts of State Failure. World Politics 53(4): 623-658. Lazarfeld, Paul F. 1937. Some Remarks on Typological Procedures in Social Research. Zietschrift Fuer Sozialforschung 6: 119-39 O'Brien, Sean. 2010. Crisis Early Warning and Decision Support: Contemporary Approaches and Thoughts on Future Research. International Studies Review 12,1:.87-104 Orme-Johnson, D.W., Alexander, C.N., Davies, J.L., Chandler, H.M., and Larimore, W.E. 1988. International peace project in the Middle East: The e_ects of the Maharishi Technology of the Uni_ed Field. Journal of Conict Resolution 32: 776-812. Quine, Willard Van Orman. 1951, \Two Dogmas of Empiricism." The Philosophical Review 60: 20-43. Schrodt, Philip A. 2009. Reections on the State of Political Methodology. The Political Methodologist 17,1:2-4. Theodoridis, Sergios and Konstantinos Koutroumbas. 2009. Pattern Recognition, 4th ed. Springer.