АНАЛИЗ КЛАСТЕРНЫЙ - многомерный статист, метод автоматической классификации объектов на основе выбранной формальной степени расстояния (различия) или близости (сходства) между объектами. Применяется А. к. также для классификации признаков. Другие названия метода - таксономический анализ, автоматическое распознавание образов.
А. к. разделяет объекты на несколько сравнительно однородных групп, наз. кластерами (другое название - таксоны). Кластеры строятся так, чтобы расстояние между объектами одного кластера была значительно меньшей, чем расстояние между объектами, принадлежащими к разным кластерам. Иначе говоря, объекты внутри одного кластера более сходны между собой, чем объекты из разных кластеров. Выделенные кластеры могут быть достаточно хорошо наполненными (содержать в себе достаточное количество объектов) и интерпретироваться как содержательно важные классы объектов. Так, напр., если выполнить А. к. стран мира на основе важнейших социально - экон. показателей (таких как, напр., производительность труда, доли трудоспособного населения, занятого в различных отраслях в-ва, средняя продолжительность жизни, средний уровень образования, количество врачей на 1000 жителей и т.д.), то до одного кластера попадут страны с примерно одинаковым уровнем развития, тогда как уровень развития стран, попавших в различных кластеров, будет значительно отличаться. Есть примеры применения А. к. для группировки определенных территориальных единиц при построении выборки для классификации потенциальных покупателей в маркетинговых исследованиях, для определения и изучения различных способов проведения свободного времени и т.п.
А. к. может использоваться как для поиска структуры в множестве объектов (разведывательный подход, выдвижение гипотез), так и для построения вполне определенной структуры (поддерживающий подход, проверки определенных гипотез исследователя).
Основные этапы А. к.: 1) отбор объектов для кластеризадії; 2) отбор признаков, в пространстве которых будет выполняться кластеризация; 3) выбор способа определения расстояния между объектами; 4) применение одного из методов А. к.; 5) проверка надежности и интерпретация полученной кластерной структуры.
При подборе объектов для классификации нужно учитывать, что, если есть предположение о возможном значительное влияние определенного признака на ожидаемые результаты кластеризации, то необходимо распределить объекты на группы по значениям этого признака и затем выполнять кластеризацию в каждой группе отдельно. Так, напр., если у исследователя есть гипотеза о том, что пол респондента имеет значительное влияние на классификацию респондентов по их отношению к проблеме преступности, то необходимо выполнить классификацию отдельно для мужчин и для женщин. Отбор переменных, в пространстве которых будет выполняться кластеризация осуществляется прежде всего конечно на основании цели классификации. Но, кроме того, нужно учитывать шкалы измерения выбранных переменных (это влияет на возможности использования мер относительности), их скорельованість, а также даже то, в каких единицах измерены эти переменные (довольно часто выбранные переменные перед применением алгоритма А. к. стандартизируют).
Расстояние между объектами определяется как некоторая функция си (х, у), которая любой паре объектов х и в (заданных своими координатами в выбранном пространстве признаков) ставит в соответствие некоторое неотрицательное число. Такая функция обязательно должна иметь следующие четыре свойства (т. н. стандартные свойства метрики): быть симметричной (d (х, у) = d (у, х) ), фиксировать различие между разными объектами (х ≠ у тогда и только тогда, когда d (х, у) ≠ 0), не фиксировать различия между идентичными объектами (d (х, у ) =0 тогда и только тогда, когда х = у), а также удовлетворить "неравенства треугольника" (d (x,y)≤ d (x,z)+(d (z,y)). Существует достаточно большое количество различных мер расстояния. При выборе конкретной меры расстояния исследователь руководствуется прежде всего тем, в каких шкалах измерения переменных, в пространстве которых будет выполняться кластеризация. Для метрических переменных часто применяют обычную геометрическую (или ее часто наз. евклидовой) расстояние. Для дихотомических номинальных переменных используют меры расстояния, построенные на количестве совпадений и розбігів соответствующих значений (расстояние по Хемингом, коэффициент Джекарда т.д.). Так, напр., если мы пытаемся выделить группы депутатов одинаковой ориентации в определенном парламенте, то расстояние между объектами (депутатами) может быть оценена количеством разногласий ("за" или "против") в результатах их голосований из серии взаимосвязанных законопроектов. Номинальные переменные с несколькими возможными значениями могут быть преобразованы без потери информации на совокупность дихотомических фиктивных переменных. Разработаны способы вычисления расстояния и для случае порядковых шкал. Если классифицируются не объекты , а признаки, то довольно часто используют расстоянии, построенные на основе коэффициентов корреляции (чем больше скоррелированы между собой две переменные, тем меньше расстояние между ними).
Существует большое количество алгоритмов, различающихся последовательностью построения кластеров, методами объединения или распределения кластеров на промежуточных этапах классификации, возможностями учесть при построении кластеров некоторые дополнительные условия (напр., необходимость получить кластеры, содержащие не менее, чем определенное количество объектов) и т.д. Необходимо заметить, что разные методы могут давать различные кластерные структуры для одних и тех же данных. Среди наиболее известных следует назвать иерархические алгоритмы А. к. итерационные алгоритмы оптимизации в соответствии с некоторого критерия качества, алгоритмы поиска "скоплений" объектов.
Надежность кластеризации часто оценивают путем случайного разделения всей совокупности объектов на несколько частей и выполнения кластеризации каждой из этих частей отдельно. Выделение одинаковых или близких кластерных структур (по количеству, размеру и статист, показателями кластеров) в каждой из частей свидетельствует о надежности полученных результатов.
Интерпретация выделенных классов объектов выполняется на основе статист, распределений в кластерах как переменных, по которым проводилась кластеризащя, так и "внешних" переменных (то есть таких, которые не принимали участия в кластеризации).
Алгоритмы А. к. являются очень трудоемкими и поэтому их применение требует наличия вычислительной техники и соответствующего программного обеспечения.