Головная боль, сотрясение мозга, энцефалопатия
Поиск по сайту

Репрезентативность - что это за процесс? Ошибка репрезентативности. Генеральная совокупность и выборочный метод

Репрезентативность выборки

Наименование параметра Значение
Тема статьи: Репрезентативность выборки
Рубрика (тематическая категория) Психология

Требования к выборке

К выборке применяется ряд обязательных требований, опре­делœенных, прежде всœего, целями и задачами исследования. Плани­рование эксперимента должно включать в себя учет, как объёма выборки, так и ряда ее особенностей. Так, в психологических ис­следованиях важно требование однородности выборки. Оно озна­чает, что психолог, изучая, к примеру, подростков, не может, включать в эту же выборку взрослых людей. Напротив, исследо­вание, выполненное методом возрастных срезов, принципиаль­но предполагает наличие разновозрастных испытуемых. При этом и в данном случае должна соблюдаться однородность выборки, но уже по другим критериям, в первую очередь таким, как возраст, пол. Основаниями для формирования однородной выборки могут служить разные характеристики, такие, как уровень интеллекта͵ национальность, отсутствие определœенных заболеваний и т.д., исходя из целœей исследования.

В общей статистике имеется понятие повторной и безповторной выборки, или, иначе говоря, выборки с возвратом и без возврата. В качестве примера приводится, как правило, выбор шара, доставаемого из какой-либо емкости. В случае выборки с возвратом каждый выбранный шар опять возвращается в емкость и, следовательно, должна быть выбран снова. При бесповторном выборе однажды выбранный шар откладывается в сторону и больше не может участвовать в выборке. В психологических исследованиях можно найти аналоги подобного рода способам организации выборочного исследования, поскольку психологу нередко приходится несколько раз тестировать одних и тех же испытуемых при помощи одной и той же методики. При этом, строго говоря, повторной в данном случае является процедура тес­тирования. Выборка испытуемых при полной тождественности состава в случае повторных исследований всœегда будет иметь не­которые отличия, обусловленные функциональной и возрастной изменчивостью, присущей всœем людям. Подобная выборка по ха­рактеру проведения процедуры является повторной, хотя смысл термина здесь, очевидно, иной, чем в случае с шарами.

Важно подчеркнуть, что всœе требования, предъявляемые к любой выборке, сводятся к тому, что на ее базе психологом должна быть получена наиболее полная, неискаженная инфор­мация об особенностях генеральной совокупности, из которой взята эта выборка. Иными словами, выборка должна как можно более полно отражать характеристики изучаемой генеральной со­вокупности.

Состав экспериментальной выборки должен представлять (моделировать) генеральную совокупность, поскольку выводы, полученные в эксперименте, предполагается в дальнейшем пе­ренести на всю генеральную совокупность. По этой причине выборка должна обладать особым качеством - репрезентативностью, позволяющим распространить полученные на ней выводы на всю генеральную совокупность.

Репрезентативность выборки очень важна, тем не менее, по объективным причинам соблюдать её крайне сложно. Так, хоро­шо известен факт, что от 70% до 90% всœех психологических ис­следований поведения человека проводились в США в 60-х годах XX века с испытуемыми-студентами колледжей, причем боль­шинство из них были студентами психологами. В лабораторных исследованиях, выполняемых на животных, наиболее распрост­раненным объектом изучения являются крысы. По этой причине неслу­чайно психологию называли раньше ʼʼнаукой о студентах-второ­курсниках и белых крысахʼʼ. Студенты психологических коллед­жей составляют всœего 3% от общей численности населœения США. Очевидно, что выборка студентов нерепрезентативна в качестве модели, претендующей на представительство всœего населœения страны.

Репрезентативная выборка, или, как еще говорят, предста­вительная выборка, - это такая выборка, в которой всœе основ­ные признаки генеральной совокупности представлены прибли­зительно в той же пропорции и с той же частотой, с которой данный признак выступает в данной генеральной совокупности. Иными словами, репрезентативная выборка представляет собой меньшую по размеру, но точную модель той генеральной сово­купности, которую она должна отражать. В той степени, в какой выборка является репрезентативной, выводы, основанные на изучении этой выборки, можно с большой долей уверенности считать применимыми ко всœей генеральной совокупности. Это распространение результатов принято называть генерализуемостью.

В идеале репрезентативная выборка должна быть такой, чтобы каждая из базовых изучаемых психологом характерис­тик, черт, особенностей личности и т.п. была бы представлена в ней пропорционально этим же особенностям в генеральной совокупности. Согласно этим требованиям процедура форми­рования выборки должна иметь внутреннюю логику, способ­ную убедить исследователя, что при сравнении с генеральной совокупностью она действительно окажется репрезентатив­ной, представительной.

В своей конкретной деятельности психолог действует следую­щим образом: устанавливает подгруппу (выборку) внутри гене­ральной совокупности, подробно изучает эту выборку (проводит с ней экспериментальную работу), а затем, в случае если это позволяют результаты статистического анализа, распространяет полученные выводы на всю генеральную совокупность. Это и есть основные этапы работы психолога с выборкой.

Начинающий психолог должен иметь в виду часто повторяю­щуюся ошибку: каждый раз, когда он осуществляет сбор любых данных любым методом и из любого источника, у него всœегда появляется соблазн распространить свои выводы на всю гене­ральную совокупность. Для того чтобы избежать подобной ошиб­ки, нужно не просто обладать здравым смыслом, но, прежде всœе­го, хорошо владеть основными понятиями математической ста­тистики.

Репрезентативность выборки - понятие и виды. Классификация и особенности категории "Репрезентативность выборки" 2017, 2018.

Есть два основных типа выборок: репрезентативные и нерепрезентативные. Что это означает и почему важно их различать?

Репрезентативной выборочной совокупности (от англ, represent - представлять) такова, что дает нам возможность распространить как качественные, так и количественные результаты ее исследования на определенную большую совокупность. В контексте опросов общественного мнения репрезентативная выборка - это та, что дает нам возможность расширить количественные результаты интервью не только на участников исследования, но и на многих других людей.

Например, на основе опроса мы узнали, что мнение X имеют 18% респондентов, которые попали в нашей выборки, репрезентативной для взрослого населения Украины. Итак, можем сказать, что примерно 18% взрослого населения Украины имеет мнению X. Если бы выборка была нерепрезентативной, то мы могли бы разве что предположить: "меньшинство взрослого населения Украины имеет мнение X", "менее трети имеет мнение X "," менее четверти имеет мнение X ". Но эти предположения смогли бы проверить только благодаря репрезентативном опросу. Итак, в контексте исследования взглядов людей нерепрезентативная выборка - это и выборка, количественные результаты исследования которой НЕ можно распространять на других людей, кроме тех, которые приняли участие в исследовании. Или более общее: нерепрезентативная выборочная совокупность - это та, что не дает возможности распространить количественные результаты ее исследования на определенную большую совокупность.

Представим, что теплого летнего дня мы выходим на улицу и опрашиваем 10 прохожих у нашего дома или офиса, нравится ли им такая погода, как сейчас. Пусть 7 скажут, что нравится; 1 колебаться с ответом, 2 укажут, что не любят такую погоду и чувствуют себя комфортнее при более низкой температуре. На основе этого опроса мы НЕ сможем утверждать, что 70% людей нравится такая погода, как сейчас. И даже НЕ сможем быть уверенными, что большинству людей нравится такая погода, как сейчас. Мы можем выразить предположение, что большинству она нравится, но не можем знать наверняка. Это была нерепрезентативная выборка.

Одно из ошибочных представлений о выборки: любая большая выборка является репрезентативной; чем больше опросим, тем она более репрезентативна. Это не так. Если мы продолжим наше уличный опрос о погоде, пока не опросим 100 или даже 1000 человек, все равно не сможем ничего с уверенностью сказать о тех, кого не спросили. Почему так? Разве 100, а тем более 1000 человек недостаточно, чтобы сделать определенные выводы о предпочтениях других?

Дело в том, что для обеспечения репрезентативности важно не только количество респондентов, но и то, как и"х было отобрано. В приведенном выше примере мы не продумывали, кого, где и как отбираем, а просто начали общаться с прохожими. Оглянемся вокруг. Возможно, мы находимся вблизи университета в учебный день? Тогда среди прохожих в основном молодые люди, которые в целом легче переносят высокую температуру, чем старшие, и поэтому процент довольных погодой может оказаться искусственно завышенным. Или, возможно, мы попали туда, где среди прохожих больше пожилых людей, которым, вероятно, трудно переносить духоту жарких летних дней? Тогда процент довольных погодой может оказаться заниженным по сравнению со всеми жителями населенного пункта.

Один из главных компонентов тщательно продуманного исследования – определение выборки и что такое репрезентативная выборка. Это как в примере с тортом. Ведь не обязательно съедать весь десерт, чтобы понять его вкус? Достаточно небольшой части.

Так вот, торт – это генеральная совокупность (то есть все респонденты, которые подходят для опроса). Она может быть выражена территориально, например, лишь жители Московской области. Гендерно – только женщины. Или иметь ограничения по возрасту – россияне старше 65 лет.

Высчитать генеральную совокупность сложно: нужно иметь данные переписи населения или предварительных оценочных опросов. Поэтому обычно генеральную совокупность «прикидывают», а из полученного числа высчитывают выборочную совокупность или выборку .

Что такое репрезентативная выборка?

Выборка – это чётко определенное количество респондентов. Её структура должна максимально совпадать со структурой генеральной совокупности по основным характеристикам отбора.

Например, если потенциальные респонденты – всё население России, где 54% — это женщины, а 46% — мужчины, то выборка должна содержать точно такое же процентное соотношение. Если совпадение параметров происходит, то выборку можно назвать репрезентативной. Это значит, что неточности и ошибки в исследовании сводятся к минимуму.

Объем выборки определяется с учётом требований точности и экономичности. Эти требования обратно пропорциональны друг другу: чем больше объем выборки, тем точнее результат. При этом чем выше точность, тем соответственно больше затрат необходимо на проведение исследования. И наоборот, чем меньше выборка, тем меньше на неё затрат, тем менее точно и более случайно воспроизводятся свойства генеральной совокупности.

Поэтому для вычисления объема выбора социологами была изобретена формула и создан специальный калькулятор :

Доверительная вероятность и доверительная погрешность

Что означают термины «доверительная вероятность » и «доверительная погрешность »? Доверительная вероятность – это показатель точности измерений. А доверительная погрешность – это возможная ошибка результатов исследования. К примеру, при генеральной совокупности более 500 00 человек (допустим, проживающие в Новокузнецке) выборка будет равняться 384 человека при доверительной вероятности 95% и погрешности 5% ИЛИ (при доверительном интервале 95±5%).

Что из этого следует? При проведении 100 исследований с такой выборкой (384 человека) в 95 процентов случаев получаемые ответы по законам статистики будут находиться в пределах ±5% от исходного. И мы получим репрезентативную выборку с минимальной вероятностью статистической ошибки.

После того, как подсчет объема выборки выполнен, можно посмотреть есть ли достаточное число респондентов в демо-версии Панели Анкетолога . А как провести панельный опрос можно подробнее узнать .

Конечной целью изучения выборочной совокупности всегда является получение информации о генеральной совокупности. Для этого выборочное исследование должно удовлетворять определенным условиям. Одно из главных условий - репрезентативность (представительность) выборки . Как обсуждалось ранее, выделяют качественную и количественную репрезентативность.

Случайность, гарантирующая качественную (структурную) репрезентативность статистических исследований, достигается выполнением ряда условий формирования выборочных групп (совокупностей):

1. Каждый член генеральной совокупности должен иметь равную вероятность попасть в выборку.

2. Отбор единиц наблюдения из генеральной совокупности необходимо проводить независимо от изучаемого признака. Если отбор проводится целенаправленно, то и при этом необходимо соблюдать условия независимости распределения изучаемого признака.

3. Отбор должен проводиться из однородных групп.

Соблюдение условий, гарантирующих максимальную близость выборочной и генеральной совокупностей, обеспечивается специальными способами отбора. В зависимости от способа формирования различают следующие выборки:

1. Выборки, не требующие разделения генеральной совокупности на части (собственно, случайная повторная или бесповторная выборка).

2. Выборки, требующие разбиения генеральной совокупности на части (механическая, типическая или типологическая выборки, когортная, парно-сопряженная выборки).

Собственно, случайная выборка формируется случайным отбором - наудачу. В основе случайного отбора лежит перемешивание. Например: выбор шара в спортлото после перемешивания всех шаров, выбор выигрышных номеров лотереи, случайный выбор карточек больных для исследования и т.п. Иногда используют случайные числа, получаемые из таблиц случайных чисел или с помощью генераторов случайных чисел. Согласно этим числам из заранее пронумерованного массива генеральной совокупности выбираются единицы наблюдения с номерами, соответствующими выпавшим случайным числам.

При составлении случайной выборки после того, как объект выбран, и все необходимые данные о нем зарегистрированы, можно поступать двояко: объект можно вернуть, или не вернуть в генеральную совокупность. В соответствии с этим выборку называют повторной (объект возвращается в генеральную совокупность) или бесповторной (объект не возвращается в генеральную совокупность). Поскольку в большинстве статистических исследований разница между повторной и бесповторной выборками практически отсутствует, то априорно принимается условие, что выборка повторная.

Оценка необходимой численности выборки

Для того, чтобы выборочная совокупность была количественно репрезентативной по отношению к генеральной, необходимо первоначально оценить количество данных, которое требуется включить в выборочную совокупность.

При неизвестной величине генеральной совокупности величину повторной выборки, гарантирующую репрезентативные результаты, если результат отражается показателем в виде относительной величины (доли) , определяют по формуле:

где р – величина показателя изучаемого признака, в %; q = (100- p ) ;

t – доверительный коэффициент, показывающий, какова вероятность того, что размеры показателя не будут выходить за границы предельной ошибки (обычно берется t = 2, что обеспечивает 95% вероятность безошибочного прогноза);

 - предельная ошибка показателя.

Например: одним из показателей, характеризующих здоровье рабочих промышленных предприятий, является процент не болевших в течение года работников. Предположим, что для промышленной отрасли, к которой относится обследуемое предприятие, этот показатель равен 25%. Предельная ошибка, которую можно допустить, чтобы разброс значений показателя не превышал разумные границы, 5%. При этом показатель может принимать значения 25% ±5%, т.е. от 20% до 30%. Допуская t = 2, получаем

В том случае, если показатель - средняя величина , то число наблюдений можно установить по формуле:

где σ - среднее квадратическое отклонение, которое можно получить из предыдущих исследований, либо на основании пробных (пилотажных) исследований.

При бесповторном отборе и при условии известной генеральной совокупности для определения необходимого размера случайной выборки в случае использования относительных величин (доли) применяется формула:

для средних величин используется формула:

где N - численность генеральной совокупности.

Исходя из условий приведенного выше примера и принимая численность генеральной совокупности N =500 рабочих, получаем:

Нетрудно заметить, что необходимая численность выборки при бесповторном отборе меньше, чем при повторном (соответственнo, 188 и 300 рабочих).

В целом, число наблюдений, необходимое для получения репрезентативных данных, изменяется обратно пропорционально квадрату допустимой ошибки.

Механическая выборка - выборка, когда из обследуемой совокупности единицы наблюдения отбираются механически. Например: отбор каждого пятого или каждого десятого рабочего по карточкам отдела кадров предприятия или по амбулаторным картам поликлиники МСЧ.

Типическая, типологическая или районированная выборка предполагает разбивку генеральной совокупности на ряд качественно однородных групп. Например: при изучении заболеваемости студентов вуза для углубленного обследования на каждом курсе выбираются типичные по своему составу студенческие группы. Часто этот способ отбора комбинируется с другими способами. Например: территория города делится в зависимости от степени загрязнения на типичные районы, в этих районах путем случайного отбора формируются группы наблюдения.

Когортный отбор относится к целенаправленным отборам. При этом способе из генеральной совокупности отбираются лица (распределение на подгруппы при этом является неслучайным), объединенные моментом появления какого-либо признака или изучаемого воздействия, играющего существенную роль в исследовании (год рождения, начало болезни, прием препарата и т.п.).

Исследование по типу случай-контроль (СК) – тип эпидемиологического исследования, в котором распределение фактора риска сравнивается в группе пациентов с заболеванием и контрольной группе. Исследование (СК) относится к ретроспективным, поскольку исследователь, разделив пациентов на группы, по тому, есть или нет у них заболевание, выясняет у них информацию из прошлого.

Следует отдельно остановиться на использовании выборочного метода в санитарной статистике при изучении общей заболеваемости населения. Теоретические предпосылки выборочного метода были проверены в ходе специальных исследований. Так, В.С. Быховский и соавт. в 1928 году сделали параллельную обработку 132,8 тыс. карт с данными о заболеваниях сплошным методом и методом механического отбора каждой пятой карты. Анализ результатов этой обработки показал высокую репрезентативность данных выборочного исследования заболеваемости. Однако, вплоть до сегодняшнего дня, отсутствуют единые методические подходы проведения в широкой практике выборочных санитарно-статистических исследований.

Это означает,что если вы, опросив, предположим, 400 человек в районном городе, где численность взрослого платежеспособно­го населения составляет 100 тыс. человек, выявили, что 33% оп­рошенных покупателей предпочитают продукцию местного мясо­комбината, то с 95%-ной 39 вероятностью можете утверждать, что постоянными покупателями этой продукции являются 33+5% (т.е. от 28 до 38%) жителей этого города.

Можно также воспользоваться расчетами института Гэллапа для оценки соотношения размеров выборки и ошибки выборки (см. выше).

Сегодня многие трудные расчеты берет на себя техника, а стати­стические программы можно получить по Интернету. Вот и с рас­четом выборки ленивому социологу предоставили такую возмож-

ность на веб-сайте Аналитического центра «Бизнес и маркетинг» (http://www.bma.ru/enter.htm), где пользователю надо лишь внести необходимые данные, а затем нажать на кнопку «Рассчитать».

Контроль и ремонт выборки

Качество социологической информации может снизить множе­ство факторов: неправильно сформулированные анкетные вопро­сы, не так выбранный метод исследования, пропущенные ответы в анкетах, нечетко спланированная выборка и др.

Практика эмпирических исследований - зарубежных и отече­ственных, фундаментальных и прикладных - свидетельствует, что ошибки, в том числе при составлении выборки, встречаются по­чти в каждом исследовании. Другой вопрос - значимые или незна­чимые смещения такого рода. А поскольку ошибки, накладки и сме­щения происходят всегда, то для специалистов, занятых контролем и ремонтом выборки, работа всегда найдется. Да и саму эту область методической науки преждевременная старость не ожидает. Не только в науке, но и в любой другой сфере профессия контролеров и ремонтников всегда была хлебной и престижной.

Контролем выборки будем называть процесс научного сравне­ния генеральной и выборочной совокупностей, выявление степе­ни их расхождения, обнаружение причин отклонения и разработку возможных способов устранения погрешностей. В узком смысле - это уравнивание выборочных и генеральных распределений социаль­но-демографических характеристик респондентов.

Под ремонтам выборки надо понимать сам процесс устранения погрешностей, т.е. расхождения двух совокупностей, теми способами, методами и инструментами, которые предлагает методическая наука.

Таким образом, второй прием выступает практической реали­зацией первого, аналитического, а оба они составляют два обяза­тельных этапа проведения социологического исследования.

Часто контроль выборки употребляют в расширенном значении, включая в него также ремонт выборки. В этом случае говорят о широком понимании ремонта выборки как первичной статистичес­кой обработки данных, включающей коррекцию: а) выборочной совокупности; б) распределений социально-демографических ха­рактеристик респондентов; в) резко выделяющихся и пропущенных ответов, а также взвешивание исходных данных. Указанные виды коррекции призваны отремонтировать самое главное - выборку исследования, повысить степень ее репрезентативности. Почему это главное? Анкета может быть исключительно интересной, глубокой

Основная цель ремонта выборки - повышение качества уже собранной информации. Процедура ремонта выборки включает несколько операций 40 .

Коррекция выборочной совокупности. Далеко не всегда отобран­ные респонденты, по самым разным обстоятельствам, могут или желают отвечать на вопросы. Кто-то заболел или уехал в срочную командировку, другой отказывается по идейным соображениям или не способен отвечать в силу умственной недостаточности. Кого-то трудно застать дома, хотя анкетер приходил к нему не единожды.

Возникает проблема замены респондентов, которая может быть решена с помощью нескольких методов: выбор следующего по списку респондента (например, следующего номера в телефонном справочнике), использование первоначальной выборки больших размеров и формирование повторной выборки. В последнем слу­чае, если процент ответов оказался намного ниже, чем ожидалось, основа выборки расширяется за счет дополнительных имен, най­денных, например, случайным образом. Самым эффективным способом считается поиск эквивалентной замены. Если, к приме­ру, в вашу выборку попал работающий пенсионер такой-то наци­ональности и овдовевший, то желательно подыскать ему в каче­стве замены другого пенсионера сходного возраста, национально­сти, овдовевшего и работающего. Нередко подобный способ превращается в трудо- и времязатратное мероприятие. Если спи­сок генеральной совокупности невелик и найти замену не удает­ся, следует отказаться от эквивалентного метода и перейти к дру­гому.

Коррекция распределений демографических характеристик респон­дентов. Если по окончании исследования в паспортичке вашего исследования получилось, что у вас, к примеру, перебор женщин, людей с высшим образованием или пожилых людей в сравнении с теми процентными долями, которые они имеют в генеральной со­вокупности, то можно применить три способа: 1) удалить те груп­пы респондентов, которые оказались представлены в избыточном количестве; 2) доопросить те группы, которые оказались представ-

ленными в недостаточном количестве; 3) математически повысить значение ответов, представленных недостаточно, или снизить - представленных избыточно. Но сначала желательно выяснить, а влияет ли то и другое на содержание ответов. Может быть, все мож­но оставить и так.

Взвешивание исходных данных - математический способ повы­шения или понижения значения ответов конкретной группы рес­пондентов (например, незамужних сельских женщин в возрасте от 30 до 45 лет). Взвешивание означает присваивание каждому респон­денту определенного веса (коэффициента, на который нужно ум­ножить все мнения-ответы одного или группы респондентов ради восстановления репрезентативности). По мнению А. Балабанова 41 , взвешивание - единственный способ восстановления репрезента­тивности в панельных исследованиях без потери точности. По­скольку способов взвешивания существует очень много, то перед социологом возникают достаточно непростые методологические проблемы, которые без соответствующей подготовки и знаний ре­шить невозможно. Весовые коэффициенты можно определять по-разному, а сам процесс присвоения коэффициентов почти невоз­можно контролировать со стороны, другим исследователям. Самый простой способ - численность конкретной социально-демографи­ческой группы, например подростков от 13 до 17 лет, из генераль­ной совокупности (N) делят на количество респондентов, представ­ляющих данную возрастную группу (п), полагая, что один респон­дент представляет мнение jVчеловек генеральной совокупности.

Сотрудники Института социологии АН СССР А.А. Давыдов и А. О. Крыштановский в свое время установили любопытные фак­ты 42 . Оказывается, демофафические признаки респондентов почти никак не связаны с ответами об удовлетворенности работой и жиз­нью, оценкой темпов перестройки, одобрением деятельности по­литических лидеров, оценкой внешнеполитических событий и т.д. Другими словами, мужчины и женщины одинаково отвечают на вопросы об удовлетворенности жизнью или о политических собы­тиях. Для этих индикаторов перевзвешивание проводить не нуж­но. Если же одна характеристика, например пол, тесно связана со всеми содержательными вопросами или разные вопросы связаны с различными характеристиками, то коррекцию придется делать по схеме, описанной в пособии.

Специалисты ВЦИОМ обеспечивают при анализе данных тща­тельный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста.

Коррекция резко выделяющихся ответов респондентов. При опросе иногда попадаются такие ответы респондентов, которые резко выделяются на общем фоне. Причины могут быть самые разные: респондент неправильно понял вопрос анкеты, у него оригинальные взгляды на мир или попросту решил подшутить над учеными. Могут быть и другие причины. Но вернуться к нему и переспросить уже нельзя. В таком случае, особенно если анкет много, бракованный экземпляр лучше удалить из обще­го массива.

Коррекция пропущенных ответов. Пропуски чаще всего воз­никают в открытых и табличных вопросах. Самый простой спо­соб коррекции - исключить их или всю анкету из научного ана­лиза. При пропуске не содержательного вопроса, а того, что. имеется в паспортичке, поступают так. Если социально-демо­графические характеристики не связаны с содержательными от­ветами, то анкете с пропущенными значениями следует присво­ить наиболее часто встречающиеся в выборке социально-демо­графические характеристики либо определить их случайным образом или пропорционально (если таких анкет много). Если же связь есть, то следует определить, к ответам какой группы (например, мужчин или женщин) ближе ответы в анкете, где графа «пол» не указана, и внести этот признак 44 .

Если данных получено много, то ремонт выборки может осу­ществляться за счет сокращения выборочной совокупности. Это, по мнению А.А. Давыдова и А.О.Крыштановского, наиболее ра­циональный подход к ремонту выборки, поскольку данная стра­тегия не опирается ни на какие дополнительные допущения. Если объем выборки незначителен, то для ее ремонта нужно принимать ряд дополнительных допущений, которые не следу­ют из собранного материала и истинность которых трудно про­верить.

Переформирование выборки осуществляется тогда, когда про­верка показала, что выборка не представляет совокупность в це­лом. В этом случае выбираются новые респонденты, и они добав­ляются к ранее использованной выборке, пока не достигается удовлетворительный уровень репрезентативности.

Далеко не все социологи, организующие эмпирическое иссле­дование, включают данные о контроле и ремонте выборки в его «паспортичку». Так, среди 300 исследований, содержавшихся в Банке данных ИС АН СССР на 1988 г., лишь в десяти осуществ­лялся ремонт выборки 45 . Для сравнения отметим: за рубежом ре­монт выборки уже давно стал распространенным методом повы­шения качества социологической информации.

Раньше причины отставания таились в отсутствии вычисли­тельной техники, специализированного программного обеспе­чения, методических пособий, недостаточной квалификации исследователей. Сегодня есть и техника, и нужные программы, но проблема не решена. Видимо, ее нельзя свести лишь к тех­ническим аспектам.

На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочны­ми средними. В социологии при обследованиях взрослого насе­ления чаще всего используют данные переписей населения, теку­щего статистического учета, предшествующих опросов на том же объекте. В качестве контрольных параметров обычно применяются социально-демографические признаки (пол, возраст, националь­ность, семейное положение). Поскольку сравнение своих и чужих данных можно сделать по завершении исследования, такой спо­соб контроля называется апостериорным, т.е. осуществляемым после опыта.

Например, институт Дж. Гэллапа, использующий выборки объемом 1500 чел., контролирует репрезентативность по имею­щимся в национальных цензах данным о распределении населе­ния по полу, возрасту, образованию, доходу, профессии, расовой принадлежности (белый - цветной), месту проживания, величи­не населенного пункта 46 . В исследованиях, проводимых ВЦИОМ, надежность выборочных данных определяется методом апосте­риорного контроля. В анкету мониторинга обязательно включа­ют несколько вопросов, по которым имеется надежная информа­ция в Госкомстате РФ. К ним обычно относятся пол, возраст, об­разование, тип поселения, семейное положение, сфера занятости, должностной статус респондента. Четыре показателя - пол, воз­раст, образование и место жительства респондента используются для выделения контролируемых групп при определении весов

опрошенных - они должны соответствовать аналогичным группам в генеральной совокупности 47 . Поскольку из официальной статистики известно, сколько в России мужчин и женщин, то легко сравнить по этим цифрам данные мониторинга и определить погрешность.

В обследованиях Центра «Социо-Экспресс» Института социо­логии РАН репрезентативность всероссийской выборки (проект­ный объем 2 тыс. чел.) контролируется по региональным пропор­циям численности населения, пропорциям между городским и сельским населением, пропорциям между населением указанных типов населенных пунктов. Опрос производится методом форма­лизованного интервью по месту жительства. В основе размещения выборки лежат десять экономико-географических зон, в каждой из которых выделяются крупные города (численностью свыше 500 тыс. населения), средние города (50-500 тыс.), малые города (до 50 тыс.) или поселки городского типа, а также сельские насе­ленные пункты. Авторы полагают, что предельная ошибка их вы­борки не превышает 3% 48 .

Эффективным контролем выборки и вообще качества данных в исследовании служит публикация ключевых характеристик ис­следования, прежде всего методического инструментария. Если автор исследования скрывает информацию, указывая на коммер­ческую тайну, то обязательно должно возникнуть подозрение в его нечистоплотности. Как справедливо замечает А. Балабанов, все методики измерений, даже в сфере маркетинговых исследований и масс-медиа, давно известны, они абсолютно открыты и не мо­гут являться объектом коммерческой тайны. Более того, отсут­ствие данных о методике измерений является нарушением всех имеющихся в мире соглашений, в частности о медиаизмерениях 49 .

Паспортичка выборки

При написании научного отчета и публикации статьи в акаде­мическом журнале от авторов исследования всегда требуют чет­ких разъяснений относительно самого исследования и выбороч-

ной совокупности: кто и когда проводил исследование, какие ме­тоды исследования использовались, каковы тип, объем и харак­тер выборки, ошибка репрезентативности, состав выборочной со­вокупности по главным параметрам (например, пол, возраст, на­циональность, образование), контроль данных и др. Если эти сведения отсутствуют, то статью в журнал обычно не принимают, а если они присутствуют лишь частично, то им не доверяют серь­езные исследователи. Таким образом, паспортичка исследования и паспортичка выборки необходимы авторам не меньше, чем ре­дакторам и читателям.

Паспортичка выборки появляется у социолога дважды. Первый раз характеристику типа выборки с кратким обоснованием целе­сообразности ее использования в соответствии с целями исследо­вания, требованиями репрезентативности и организационными возможностями исследования социологу приходится давать в Методическом разделе программы своего исследования. Раздел о выборке содержит ответы на следующие вопросы:

♦ Каков эмпирический объект исследования?

♦ Является ли исследование сплошным или выборочным?

♦ Если оно является выборочным, то претендует ли оно на репрезентативность?

♦ Если оно претендует на репрезентативность, то какова ге­неральная совокупность?

♦ Сколько ступеней отбора применяется в выборке?

♦ Какова единица отбора на каждой ступени?

♦ Какая стратегия отбора применяется на каждой ступени (случайная, квотная)?

♦ Какая конкретно разновидность случайного отбора приме­няется?

♦ Какие параметры используются при квотной выборке?

♦ Что является основой выборки (список, картотека, карта)?

♦ Какова единица наблюдения на последней ступени отбора?

Принципы выборки описываются не только для метода опро­са, но и для каждого метода, используемого в исследовании: ана­лиз документов, наблюдение и т.д.

Условный пример описания выборки. В исследовании эффек­тивности бригадных форм организации труда возможна такая стратегия. 1. В качестве эмпирического объекта принимаются ра­бочие, объединенные в бригадную форму организации труда. 2. Исследование выборочное. 3. Генеральной совокупностью вы­ступают все рабочие, объединенные в бригадную форму. 4. При­меняются три ступени отбора. 5. На первой ступени выделяют­ся бригады, занятые в основном и вспомогательном произвол-

стве. Для последних применяется сплошной опрос (в связи с их малочисленностью), а для первых - выборочный. 6. Вторая сту­пень - отбор бригад, занятых в основном производстве. По по­казателям, характеризующим конечные результаты, бригады раз­деляются на три группы: а) передовые; б) средние; в) отстающие. В зависимости от числа бригад на каждую группу составляют список, и по нему делается случайный непропорциональный отбор (например, по три бригады в каждой) с помощью опреде-ленного «шага выборки». 7. Третья ступень - в отобранных бри­гадах проводится сплошной опрос. Единицей наблюдения выс­тупает отдельный работник 50 .

Второй раз с описанием выборки социолог встречается уже после проведения исследования - когда пишет научный отчет или научную статью в журнал.

Неполное описание паспортных данных исследования, к сожа-лению, самая распространенная болезнь российских ученых. Не-которые не знают, как именно их составлять, другие считают та-кие сведения необязательными или неважными. А есть и такая ка-тегория исследователей, которым сообщить просто нечего, поскольку, описав все сведения о выборке, они разоблачат свою неграмотность. Распространенный случай - социолог как-то про-вел исследование, каким-то образом построил выборку и что-то там получил. Но сформулировать паспортичку, выразить на на­учном языке свои действия он не может.

Хроническая болезнь отечественных социологов - отсутствие или недостаточно высокая методическая культура. Она касается не только организации и проведения полевого исследования, но и публикации его результатов в открытой печати. Подобный факт известен всем и о нем переодически говорят с 1960-х по 2000-е гг. Иногда наших социологов и психологов удается, что называется, застичь на месте преступления.

Согласно данным исследования В.В. Солодникова, который провел вторичный анализ публикаций в трех академических жур- налах: «Социологические исследования», «Вопросы психологии»

и «Психологический журнал» за 1986-1992 гг., ни социологи, ни психологи не утомляют себя выдвижением, обоснованием и про­веркой гипотез. Большинство ученых (от 61 % у психологов до 92% у социологов) обходится без такого познавательного инструмен­та, нарушая все каноны научного метода. Только в 8% социоло­гических публикаций гипотезы формулируются в явном виде. Плохо обстоит дело у социологов и психологов с описанием объек­та исследования: мало кто указывает количество опрошенных, пол и возраст респондентов, редко сообщается уровень образования опрошенных, место проживания, продолжительность семейной жизни (для состоящих в браке), доход и профессиональный ста­тус. Проблема репрезентативности, т.е. сравнение выборочной и генеральной совокупностей по указанным признакам, почти со­всем не обсуждается. Кроме того, единичны упоминания социо­логов о пилотаже инструментария, об использовании ранее апро­бированных методик. Хотя самым распространенным методом сбора эмпирической информации выступает опрос, редко кто опи­сывает, какой именно его вид применялся в зависимости от мес­та, времени или способа заполнения анкеты.

2.12. Репрезентативность

Репрезентативность (франц. representatif - показательный) - свойство выборочной совокупности представлять характеристики генеральной совокупности. Репрезентативность выборки означа­ет, что с некоторой наперед заданной или вычисленной на фак­тической выборке погрешностью установленное на выборочной совокупности можно отождествить с генеральной совокупностью или, если использовать язык статистики, найти оценки парамет­ров генеральной совокупности. Во-первых, каждая единица гене­ральной совокупности должна иметь равную вероятность попасть в выборку. Во-вторых, во избежание направленного отбора выбор единиц генеральной совокупности нужно производить независи­мо от изучаемого признака. В-третьих, отбор должен производить­ся по возможности из однородных совокупностей. В-четвертых, число единиц генеральной совокупности, отобранных для обсле­дования, должно быть достаточно большим.

Процесс непосредственного определения репрезентативнос­ти выборки складывается из этапов: сопоставление средних по­казателей распределений выборочной и генеральной совокупно­стей; сопоставление форм распределения этих показателей. Сред­ний показатель распределения обычно берется как средняя 144

арифметическая или средневзвешенная арифметическая этого распределения.

В случае изучения совокупностей с альтернативными призна­ками вместо средней арифметической вычисляется доля единиц, обладающих рассматриваемой характеристикой, относительно всей совокупности. Если обозначить объем совокупности симво­лом N, а явление с данным признаком - М, то Р - доля явлений с этим признаком определяется:

где Q - доля явлений с альтернативным признаком.

Пользоваться выводами, полученными на основании исследо-вания выборочной совокупности, можно в том случае, если раз-ность между средними арифметическими (или средними долями)" признаков выборочной и генеральной совокупностей стремится к нулю. Предполагается, что это требование удовлетворяется при выполнении четырех условий, оговоренных выше. Правда, зная только выборочные средние показатели, нельзя дать точные оцен-ки их разности, так как неизвестны средние показатели генераль-ной совокупности. Кроме того, сами значения выборочных сред­них могут колебаться в зависимости от того, какие единицы ге­неральной совокупности попадут в выборку. Поэтому оценка репрезентативности выборочной совокупности по средним пока­зателям ее распределения сводится к поиску ошибки репрезента­тивности.

Сравнение выборочной и генеральной совокупностей по сред­ним показателям не дает полного представления о генеральной совокупности. Так, в двух совокупностях с одинаковыми средни­ми показателями расхождения между максимальным и минималь­ным значением признака, определяющие форму его распределе­ния, могут быть различны. Если представить такое распределение графически, то оно образует симметричную колоколообразную (нормальную) кривую, отражающую тот факт, что сумма многих независимых произвольно распределенных случайных перемен­ных приближенно распределяется по нормальному закону. Орди­ната у, которая определяет высоту кривой для каждой точки х, представляет собой плотность вероятности для значения х г

Максимум плотности вероятности приходится на среднее зна­чение переменной и равен единице. Это означает, что чем меньше

случайное значение переменной отличается от ее среднего значе­ния, тем больше вероятность его проявления. И наоборот, чем боль­ше отклонение значений переменной от ее средней величины, тем вероятность их появления меньше. Таким образом, значения откло­нений от средних величин, т.е. значения вида х (- х, несут инфор­мацию о вариации изучаемых переменных. Если бы все значения признака были одинаковы и совпадали с его средней величиной, то совокупность значения этого признака была бы предельно од­нородной.

Обычно число положительных отклонений от среднего ариф­метического значения совокупности примерно равно числу отри­цательных отклонений, т.е. сумма всех отклонений неизбежно стремится к нулевому значению. Поэтому, если бы потребовалось просуммировать все отклонения признака в совокупности, эта сумма всегда была бы равна нулю:

Во избежание этого каждое отклонение возводят в квадрат и находят сумму квадратов - дисперсию.

Нормальное распределение в полной мере характеризуется параметрами: jc - среднее значение признака и а - среднее квад­ратичное (стандартное) отклонение. Среднее х определяет поло­жение распределения относительно оси х; стандартное отклоне­ние показывает форму кривой; чем больше значение а, тем шире кривая и тем ниже ее максимум.

Площадь под нормальной кривой располагается таким образом, что в границах х ± о находится 68% всего распределения призна­ка, в границах х ± 2<т - 95,5, в пределах х ± Зет - 99,7%. Вероят­ность того, что разность между случайной переменной, распреде­ленной примерно по нормальному закону, и ее средним значением по абсолютной величине превосходит Зет, меньше 0,3%. Отсюда следует, что практически со стопроцентной точностью можно ут­верждать:

Оценка репрезентативной выборочной совокупности по фор­ме распределения показателей представляет собой сравнение мер вариации этих показателей в выборочной и генеральной совокуп­ностях. Дисперсия генеральной совокупности известна далеко не в сегда, однако в математической статистике доказано, что меж-

ду генеральной и выборочной дисперсиями существует соотно­шение вида:

где п - объем выборки.

Проблема репрезентативности выборки имеет важное значение как проблема правомерности экстраполяции выводов, полученных при анализе выборочной совокупности, на всю генеральную со-вокупность 52 .

Глава 3. ПРОГРАММА


Похожая информация.