ЧАСТЬ ЧЕТВЕРТАЯ.
МЕТОДОЛОГИЯ И МЕТОДЫ СОЦИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ
Раздел 10.
СТАТИСТИЧЕСКАЯ ОБРАБОТКА И АНАЛИЗ ЭМПИРИЧЕСКОЙ ИНФОРМАЦИИ
10. 2. Подготовка эмпирических данных к обработке и анализу
Информация (лат. Informatio - ознакомление, разъяснение, представление, понятие) - сведения о чем-то (о окружающий мир и процессы, в нем происходящие), которые можно хранить, перерабатывать и передавать от одного субъекта наблюдения к другой, и которые уменьшают неопределенность у получателя информации. Для того, чтобы это можно было осуществить, информацию следует структурировать и формализовать.
Структурирование информации предусматривает определение показателей и объектов, на которых необходимо их измерить, а также индикаторов, которые для этого следует зафиксировать. Формализация обычно включает процедуры построения выборки, доступа к информации и ее фиксации, а также измерительные процедуры. Структуризована и формализованная информация - это данные исследования, а процесс формализации - это сбор данных.
Как правило, статистические программы представляют в виде матрицы типа "объект-признак". В матрице данных каждая строка отводится одному объекту (1, 2,.., п), а каждый столбец - одному признаку переменной (X 1, X2,..., Хк). На пересечении i-той строки и j - того столбца находится значение хij . признака j для объекта с номером и.
Матрица данных
Можно выделить (условно) несколько этапов подготовки данных к обработке и анализу:
И) сбор и кодирование данных; 2) ввод данных в компьютер; 3) проверка и чистка данных; 4) специальная подготовка данных.
Этап сбора и кодирования данных включает заполнения инструментария: проверку на правильность и полноту заполнения; кодирование открытых вопросов, вопросов со сложной структурой и пропущенных значений. Как правило, качество заполнения инструментария зависит от условий труда анкетерів, интервьюеров, места опроса и других факторов. Контроль за качеством заполнения инструментария начинается с проверки правильности ответа на каждый вопрос и при необходимости ответ корректируется. Например, на вопрос: "знаете Ли вы основные положения Закона "О выборах Президента Украины?" чаще всего отвечают: "Да, знаю".»Но дальше в опроснике (анкете) стоит открытое контрольный вопрос: "Если знаете, назовите их, пожалуйста". Он остается незаполненным. Если с респондентом работал интервьюер, анкетер, то у этого вопроса должна стоять отметка: "трудно ответить", "не знает" и т. п. Тогда становится понятным, что респондент ознакомлен с содержанием этого документа. Но если респондент заполнял вопросник самостоятельно, то здесь получение однозначного ответа затруднено. В этом случае альтернативу "да, знаю" надо зачеркнуть и отметить другую, скорее всего "нет ответа", "затрудняюсь ответить" и т. п. Затем подсчитываются неправильные ответы. При исправлении каждой третьей ответа в опроснике его лучше не готовить к машинной обработки. В случае, если респондент не ответил на 10-15 процентов основных вопросов, против них контроллер ставит отметку "нет ответа", и анкета идет на обработку в ЭВМ.
Более строгими являются требования к вопросов, касающихся социально-демографических характеристик респондентов (пол, возраст, образование и т. д.). Если нет ответов на эти вопросы, инструментарий вынимается из общего массива. Исключается из обработки на ЭВМ документы, заполненные неразборчиво, а также записи, которые не поддаются однозначной трактовке.
Допущенные к обработке документы нумеруются, начиная с № 1,с целью контроля за их прохождением. В дальнейшем массив документов передается кодувальникам. Но перед тем, как передать анкеты в руки операторов, следует закодировать открытые вопросы. На каждый открытый вопрос, как правило, составляют не менее пяти шифров - кодов. Выше уже приводилось одно из открытых вопросов: "Если знаете, назовите, пожалуйста". Ответы на него могут быть самыми разнообразными: от полных, глубоких, основательных - до ответов - схем. Шифры - коды должны отражать шкалу интенсивности ответов на открытый вопрос. Обычно кодирование таких ответов проходит в два - три этапа. Сначала варианты ответов выписываются отдельно, подсчитывают количество употреблений каждого варианта - частота его повторения. Затем варианты группируются по смысловой близостью, совпадением. Таких групп, как доказывает практика, набирается четыре - пять, и каждой из них присваивается свой шифр или код.
Кодирование - звено, что связывает качественную и количественную информацию. На данной основе и осуществляются числовые операции с информацией, введенной в память электронной машины. Если во время кодирования происходит сбой, замена или потеря кода, то информация становится неправильной. В относительно простых случаях кодирование иногда сочетают с заполнением или проверкой инструментария; однако в исследованиях сложных и ответственных рекомендуется, чтобы кодирование осуществлялось отдельным исполнителем.
Ввод данных в компьютер осуществляется по специальным макетом, который создается в соответствии с тем или иным статистическим пакетом. Например, макет ввода для пакета SPSS, кроме формата переменных, может предусматривать проверку данных на значение, допускаются, и логическую совместимость, автоматический пропуск вопросов, которые не относятся к респондента, что позволяет значительно сократить количество ошибок ввода.
Проверка данных на значение, допускаются, и логическую совместимость может осуществляться одновременно с введением или после его завершения. В первом случае выявленные ошибки исправляются немедленно, во втором - исправление ошибок выделяют в отдельный этап, который называется чисткой данных.
Специальная подготовка данных представляет собой преобразование их в форму, удобную для обработки и анализа. На этом этапе окончательно формулируют измерительные шкалы, вычисляют вторичные переменные - индексы, осуществляют различные группировки данных.