WWW.PDF.KNIGI-X.RU
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - Разные материалы
 

Pages:   || 2 |

«Министерство образования и науки РФ Федеральное агентство по образованию Казанский государственный технический университет им. А.Н.Туполева Барковский С.С., Захаров В.М., ...»

-- [ Страница 1 ] --

Министерство образования и науки РФ

Федеральное агентство по образованию

Казанский государственный технический университет им. А.Н.Туполева

Барковский С.С., Захаров В.М., Лукашов А.М.,

Нурутдинова А.Р., Шалагин С.В.

Многомерный анализ данных

методами прикладной статистики

Учебное пособие

Под редакцией В.М.Захарова

Рекомендовано к изданию Учебно-методическим центром

КГТУ им. А.Н.Туполева

Казань 2010

УДК 519.23

Барковский С.С., Захаров В.М., Лукашов А.М., Нурутдинова А.Р., Шалагин С.В. Многомерный анализ данных методами прикладной статистики:

Учебное пособие – Казань: Изд. КГТУ, 2010. – 126 с. Табл. 5. Ил. 105. Библиогр.: 12 наим.

Излагаются теоретические основы и методика применения методов многомерного статистического анализа. Рассмотрены методы: кластеризации (кластерный анализ), идентификации (дискриминантный анализ), выявления статистической зависимости (корреляционно-регрессионный анализ) и снижения размерности многомерного пространства факторов (факторный анализ). Изложение иллюстрируется решением практических задач при использовании интегрированной системы Statistica 8.0.

Для студентов вузов направления «Информатика и вычислительная техника», аспирантов, преподавателей и специалистов, занимающихся вопросами компьютерного моделирования и многопараметрического анализа данных.

Рецензенты:

кафедра систем информационной безопасности КГТУ им. А Н, Туполева;



доцент кафедры теоретической кибернетики Казанского государственного университета, к.ф.-м.н. Еникеев А.И.

ISBN 978-5-7579-1526-5 © Казанский государственный технический университет им. А.Н.Туполева, 2010.

© Барковский С.С., Захаров В.М., Лукашов А.М., Нурутдинова А.Р., Шалагин С.В.

СОДЕРЖАНИЕ Введение

1. Кластерный анализ

1.1. Задача кластерного анализа

1.2. Меры расстояния между кластерами

1.3. Методы кластерного анализа

1.4. Методика решения задачи при использовании кластерного анализа

1.5. Задания для самостоятельной работы

2. Дискриминантный анализ

2.1. Дискриминантные функции.

2.2. Проведение дискриминантного анализа и интерпретация результатов

2.3. Интерпретация дискриминантных функций

2.4. Методика решения задачи методом дискриминантного анализа

2.5. Обобщенный дискриминантный анализ

2.6. Задания для самостоятельной работы

3. Корреляционно-регрессионный анализ

3.1. Корреляционный анализ

3.2. Линейный регрессионный анализ

3.3. Методика решения задачи методом корреляционно-регресссионного анализа

3.4. Автокорреляция последовательности

3.5. Методика решения задачи при использовании автокорреляции

3.6. Задания для самостоятельной работы

4. Факторный анализ

4.1 Модель факторного анализа

4.2 Статистическое оценивание факторных нагрузок и остаточных дисперсий.

4.3. Метод главных компонент.

4.4. Задача о количестве факторов

4.5. Методика решения задачи факторного анализа

4.6. Задания для самостоятельной работы

Список использованной литературы

Введение Рассматриваются возможности применения методов многопараметрического анализа для исследования различных систем и процессов. Данные для анализа представляются в виде таблицы «объект-признак», количество строк которой определяется мощностью множества объектов анализа, а количество столбцов – набором признаков для анализа.

При использовании данных методов возможно поэтапное решение задач многопараметрического анализа, в частности:

разбиение множества объектов анализа на группы-кластеры;

1) определение достоверности разбиения на кластеры;

2) построение дискриминантных функций по заданному множеству объектов, 3) разделенному на априори заданные группы и набору признаков;

определение статистической зависимости – между двумя признаками (корреляции или парной регрессии), между зависимым и двумя и более независимыми признаками (множественной регрессии), а также между реализациями одного и того же признака (автокорреляции);

редукция множества признаков из набора путем выделения значимых факторов, описывающих два и более признаков.

Решение задач 1-5 производится при использовании методов кластерного анализа (задачи 1 и 2), дискриминантного анализа (задачи 2 и 3), регрессионного, корреляционного и автокорреляционного анализа (задача 4), а также факторного анализа (задача 5). Процесс решения задач многопараметрического анализа предопределил порядок рассмотрения в работе вышеуказанных методов.

Пособие состоит из четырех тем.

Тема 1, «Кластерный анализ», содержит описание различных метрик и методов, используемых при решении задач кластеризации, а также критериев качества полученного кластерного решения.

Тема 2, «Дискриминантный анализ», посвящена описанию методов вычисления дискриминантных функций по заданному набору признаков, а также описанию критериев адекватности полученной дискриминантной модели.

В теме 3, «Корреляционно-регрессионный анализ», описаны методы построения корреляционной и регрессионной моделей, а также критерии проверки адекватности данных моделей. Автокорреляция позволяет изучить метод построения автокорреляционной функции на примере псевдослучайных последовательностей.

В теме 4, «Факторный анализ», рассмотрены методы построения факторного решения (факторной модели) для таблицы «объект-признак», а также оценить достоверность полученного решения.

В каждой теме приведены методики и примеры решения различных задач соответствующими методами при использовании версии интегрированной системы (ИС) Statistica 8.0 (http://www.statistica.ru).

Основу пособия составляет обширный отечественный и зарубежный опыт решения задач многопараметрического анализа, а также опыт работы авторов по решению задач с использованием ИС Statistica 8.0.

При изложении материала пособия использованы источники, указанные в списке литературы [1-12].

–  –  –

Методы кластерного анализа позволяют построить классификации многомерных данных, выявить внутренние связи между единицами наблюдаемой совокупности, а также могут использоваться с целью сжатия информации.

Методы кластерного анализа позволяют решать следующие задачи:

Проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о совокупности классифицируемых объектов;

Проверка выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры;

Построение новых классификаций для слабоизученных явлений, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.

Как правило, при практическом использовании кластерного анализа одновременно решается несколько из указанных задач.

Методы кластерного анализа можно применять в различных ситуациях, встречающихся в исследованиях как научных, так и чисто прикладного характера.

Задача кластеризации состоит в разделении исследуемого множества объектов на группы "похожих" объектов, называемых кластерами. Ввиду особого положения задачи кластеризации в списке задач интеллектуального анализа данных было разработано множество способов ее решения. Один из них — построение набора характеристических функций классов, которые показывают, относится ли объект данных к данному классу или нет.

Характеристическая функция класса может быть двух типов:

1) дискретная функция, принимающая одно из двух определенных значений, смысл которых в принадлежности/непринадлежности объекта данных заданному классу;

2) функция, принимающая вещественные значения, например, из интервала 0... 1. Чем ближе значение функции к единице, тем больше объект данных принадлежит заданному классу.

Обычно перед началом классификации данные стандартизируются. Иногда различные независимые переменные измеряются в разных шкалах с различными диапазонами.





Соответственно, не оговорив дополнительных условий, можно получить некачественное решение: влияние большого количества переменных на результат кластеризации упущен. Действительно, если значения одной переменной измеряются в сотнях и изменяются в пределах десяти, в то время как другая переменная в среднем равна нулю и изменяется в пределах единицы, то вклад последней в евклидово расстояние будет пренебрежительно малым. Чтобы избежать подобных неприятностей проводят процедуру стандартизации переменных. Результатом стандартизации является приведение всех переменных к единой шкале.

–  –  –

ний (для j-го индивида). Таким образом, для множества индивидов I исследователь располагает множеством векторов измерений X X 1, X 2,..., X n, которые описывают множество I. Отметим, что множество X может быть представлено как n точек в р-мерном евклидовом пространстве E p.

Пусть m — целое число, меньшее, чем n. Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся в множестве X, разбить множество объектов I на m кластеров (подмножеств) 1, 2,..., m так, чтобы каждый объект I i принадлежал одному и только одному подмножеству разбиения и чтобы объекты, принадлежащие одному и тому же кластеру, были сходными, в то время как объекты, принадлежащие разным кластерам, были разнородными (не сходными).

Для того чтобы «решить» задачу кластерного анализа, необходимо количественно определить понятия сходства и разнородности. Задача решена, если i-й и j-й объекты попадут в один и тот же кластер, если расстояние (отдаленность) между соответствующими точками X i и X j будет «достаточно малым», и, наоборот, попадут в разные кластеры, если расстояние между точками X i и X j будет «достаточно большим». Различие (схожесть) объектов определяется на основе понятия расстояния (метрики) d ( X i, X j ) между точками X i и X j.

–  –  –

Квадрат евклидова расстояния (Squared Euclidean distances). Стандартное евклидово расстояние возводят в квадрат, если нужно придать большие веса более отдаленным друг от друга объектам.

Это расстояние вычисляется следующим образом:

–  –  –

Расстояние городских кварталов (манхэттенское расстояние, City-block distances). Это расстояние является просто средним разностей по координатам.

В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида. Однако отметим, что для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат).

Манхэттенское расстояние вычисляется по формуле:

n d ( X i, X j ) xik x jk (1.3) k 1 Расстояние Чебышева (Chebychev distance metric). Это расстояние может оказаться полезным, когда желают определить два объекта как "различные", если они различаются по какой-либо одной координате (каким-либо одним измерением).

Расстояние Чебышева вычисляется по формуле:

d ( X i, X j ) max xi x j (1.4)

Степенное расстояние. Иногда желают прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Это может быть достигнуто с использованием степенного расстояния.

Степенное расстояние вычисляется по формуле:

–  –  –

где r и p - параметры, определяемые пользователем. Несколько примеров вычислений могут показать, как "работает" эта мера. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра - r и p, равны двум, то это расстояние совпадает с расстоянием Евклида.

Процент несогласия (percent disagreement). Эта мера используется в тех случаях, когда данные являются категориальными.

Это расстояние вычисляется по формуле:

–  –  –

где xik, x jk - значения k-й переменной i-го и j-го объекта; X i, X j - векторы значений переменных у i-го и j-го объектов; S * - общая ковариационная матрица.

1.3. Методы кластерного анализа

В ИС Statistica 8.0 реализованы следующие методы кластеризации:

1. Иерархический кластерный анализ(tree clustering);

2. Двухвходовое объединение(two-way joining);

3. Метод k средних(k-means clustering).

Иерархический кластерный анализ Из всех методов кластерного анализа самыми распространенными являются иерархические агломеративные методы. Сущность этих методов заключается в том, что на первом шаге каждый объект выборки рассматривается как отдельный кластер. Процесс объединения кластеров происходит последовательно: на основании матрицы расстояний или матрицы сходства объединяются наиболее близкие объекты. Если матрица сходства первоначально имеет размерность m х m, то полностью процесс кластеризации завершается за m – 1 шагов, в итоге все объекты будут объединены в один кластер. Последовательность объединения легко поддается геометрической интерпретации и может быть представлена в виде графа.

Дендрограмма (dendrogram) - древовидная диаграмма, содержащая n уровней, каждый из которых соответствует одному из шагов процесса последовательного укрупнения кластеров. На дендрограмме указываются номера объединяемых объектов и расстояние (или иная мера сходства), при котором произошло объединение (рис. 1.1).

–  –  –

Дендрограмма на рисунке 1.1 показывает, что в данном случае на первом шаге были объединены в один кластер объекты n2 и n3. Расстояние между ними 0,15. На втором шаге к ним присоединился объект n1. Расстояние от первого объекта до кластера, содержащего объекты n2 и n3, было 0,3 и т. д.

Множество методов иерархического кластерного анализа различается не только используемыми мерами сходства (различия), но и алгоритмами классификации. Из них наиболее распространены метод одиночной связи, метод полных связей, метод средней связи, метод Уорда.

Метод одиночной связи (Single linkage). Алгоритм образования кластеров следующий: на основании матрицы сходства (различия) определяются два наиболее схожих или близких объекта, они и образуют первый кластер. На следующем шаге выбирается объект, который будет включен в этот кластер. Таким объектом будет тот, который имеет наибольшее сходство хотя бы с одним из объектов, уже включенных в кластер. Например, имеется матрица евклидовых расстояний между объектами (см. табл. 1.1).

–  –  –

В первый кластер будут включены первый и второй объекты, так как расстояние между ними минимальное (d12 = 2,06). На следующем шаге к этому кластеру будет подключен третий объект, так как расстояние d23 = min { d13, d23, d14, d24}. На последнем шаге в кластер будет включен четвертый объект.

Графически это будет выглядеть следующим образом (рис. 1.2). При совпадении данных на основании одинаковых мер сходства (различия) будет идти образование сразу нескольких кластеров.

Рис. 1.2. Дендрограмма кластеризации методом одиночной связи Метод полных связей (Complete linkage). Включение нового объекта в кластер происходит только в том случае, если расстояние между объектами не меньше некоторого заданного уровня. На рис.

1.3 изображены два случая:

а) если задано предельное расстояние 0,3, то третий объект не будет включен в кластер S, так как d13 0,3 и d23 0,3

б) если задано предельное расстояние 0,7, то третий объект будет включен в кластер S, так как d13 0,7 и d23 0,7

–  –  –

Метод средней связи. Для решения вопроса о включении нового объекта в уже существующий кластер вычисляется среднее значение меры сходства, которое затем сравнивается с заданным пороговым уровнем. Для примера на рис. 1.3 в случае а) среднее расстояние будет равно (d13 + d23)/2 = (0,65 + 0,32)/2 = 0,485 0,3 – третий объект не будет включен в кластер S; в случае б) среднее расстояние будет равно (d13 + d23)/2 = (0,64 + … +0,57)/2 = = 0,605 0,7, значит третий объект будет включен в кластер S.

Если речь идет об объединении двух кластеров, то вычисляют расстояние между их центрами и сравнивают пороговым значением. Рассмотрим геометрический пример с двумя кластерами (рис. 1.4).

Каждый кластер содержит по три объекта. Чтобы решить вопрос об объединении этих двух кластеров, нужно определить их центры тяжести и расстояние между ними. Звездочками (*) отмечены центры тяжести:

Рис. 1.4. Объединение двух кластеров па методу средней связи Если расстояние между центрами (d S1, S 2 ) будет меньше заданного уровня, то кластеры S1 и S2 будут объединены в один.

Невзвешенное попарное среднее (Unweighted pair-group average). В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. Метод эффективен, когда объекты в действительности формируют различные "рощи", однако он работает одинаково хорошо и в случаях протяженных ("цепочного" типа) кластеров.

Взвешенное попарное среднее (weighted pair-group average). Метод идентичен методу невзвешенного попарного среднего, за исключением того, что при вычислениях размер соответствующих кластеров (т.е. число объектов, содержащихся в них) используется в качестве весового коэффициента. Поэтому предлагаемый метод должен быть использован (скорее даже, чем предыдущий), когда предполагаются неравные размеры кластеров.

Невзвешенный центроидный метод (unweighted pair-group centroid average). В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести.

Взвешенный центроидный метод (медиана, weighted pair-group centroid average). Данный метод идентичен предыдущему, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (т.е. числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего.

Метод Уорда. Данный метод предполагает, что на первом шаге каждый кластер состоит из одного объекта. Первоначально объединяются два ближайших кластера.

Для них определяются средние значения каждого признака и рассчитывается сумма квадратов отклонений Vk :

–  –  –

где k - номер кластера, i - номер объекта, j - номер признака, p - количество признаков, характеризующих каждый объект, n k — количество объектов в k-м кластере.

В дальнейшем на каждом шаге работы алгоритма объединяются те объекты или кластеры, которые дают наименьшее приращение величины Vk. Метод Уорда приводит к образованию кластеров приблизительно равных размеров с минимальной внутрикластерной вариацией. В конечном итоге, все объекты оказываются объединенными в один кластер.

Алгоритм иерархического кластерного анализа можно представить в виде последовательности процедур:

–  –  –

Процедуры 2, 3, 4 повторяются до тех пор, пока все объекты не будут объединены в один кластер или до достижения заданного порога сходства.

Метод k-средних. Наряду с иерархическими методами классификации, рассмотренными в ранее, существует многочисленная группа так называемых итеративных методов кластерного анализа. Предположим, мы уже имеем гипотезы относительно числа кластеров (по наблюдениям или по переменным). Вы можете указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода k-средних.

В общем случае метод k-средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга. Сущность их заключается в том, что процесс классификации начинается с задания некоторых начальных условий (количество образуемых кластеров, порог завершения процесса классификации и т. д.).

Итеративные методы в большей степени, чем иерархические, требуют от пользователя интуиции при выборе типа классификационных процедур и задания начальных условий разбиения, так как большинство этих методов очень чувствительны к изменению задаваемых параметров. Например, выбранное случайным образом число кластеров может не только сильно увеличить трудоемкость процесса классификации, но и привести к образованию «размытых»

или мало наполняемых кластеров. Поэтому целесообразно сначала провести классификацию по одному из иерархических методов или на основании экспертных оценок, а затем уже подбирать начальное разбиение и статистический критерий для работы итерационного алгоритма.

Как и в иерархическом кластерном анализе, в итерационных методах существует проблема определения числа кластеров. В общем случае их число может быть неизвестно. Не все итеративные методы требуют первоначального задания числа кластеров. Но для окончательного решения вопроса о структуре изучаемой совокупности можно испробовать несколько алгоритмов, меняя либо число образуемых кластеров, либо установленный порог близости для объединения объектов в кластеры. Тогда появляется возможность выбрать наилучшее разбиение по задаваемому критерию качества.

В отличие от иерархических процедур метод k-средних не требует вычисления и хранения матрицы расстояний или сходств между объектами. Алгоритм этого метода предполагает использование только исходных значений переменных. Для начала процедуры классификации должны быть заданы k случайно выбранных объектов, которые будут служить эталонами, т.е. центрами кластеров. Считается, что алгоритмы эталонного типа удобные и быстродействующие. В этом случае важную роль играет выбор начальных условий, которые влияют на длительность процесса классификации и на его результаты.

С вычислительной точки зрения можно рассматривать этот метод, как дисперсионный анализ "наоборот". Программа начинает с K случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы: 1) минимизировать изменчивость внутри кластеров, и 2) - максимизировать изменчивость между кластерами.

Обычно, когда результаты кластерного анализа методом к- средних получены, можно рассчитать средние для каждого кластера по каждому измерению, чтобы оценить, насколько кластеры различаются друг от друга. В идеале вы должны получить сильно различающиеся средние для большинства, если не для всех измерений, используемых в анализе. Значения F-статистики, полученные для каждого измерения, являются другим индикатором того, насколько хорошо соответствующее измерение дискриминирует кластеры.

Двухвходовое объединение (Two-way joining). Кластеризация, как по наблюдениям, так и по переменным может привести к достаточно интересным результатам. Например, представьте, что исследователь собирает данные о различных характеристиках (переменные) состояний объектов (наблюдений). Исследователь может захотеть кластеризовать наблюдения для определения кластеров со сходными признаками. В то же самое время исследователь может захотеть кластеризовать переменные для определения кластеров переменных, которые связаны.

После этого обсуждения, относящегося к тому, кластеризовать наблюдения или переменные, можно задать вопрос, а почему бы не проводить кластеризацию в обоих направлениях? Модуль Кластерный анализ содержит эффективную двувходовую процедуру объединения, позволяющую сделать именно это.

Однако двувходовое объединение используется (относительно редко) в обстоятельствах, когда ожидается, что и наблюдения и переменные одновременно вносят вклад в обнаружение осмысленных кластеров.

1.4. Методика решения задачи при использовании кластерного анализа Рассмотрим пример из области экономики. Требуется разбить множество субъектов РФ на группы в зависимости от экономических показателей, используя кластерный анализ. Данные взяты с сайта http://www.rg.ru/2006/03/24/regiony-razvitie-dok.html. Исходные данные: файл

Stat.xls(лист 1). Показатели:

X1-среднемесячная заработная плата работников по полному кругу организаций;

X2-среднемесячная заработная плата работников в % к соответствующему месяцу предыдущего года;

X3-среднемесячная заработная плата работников по полному кругу организаций, всего (нарастающим итогом с начала года);

X4-среднемесячная заработная плата работников в % к соответствующему периоду предыдущего года (полный круг) ;

X5-ввод в действие жилых домов;

X6-вод в действие жилых домов;

X7-сводный индекс потребительских цен на товары и платные услуги X8Численность безработных граждан на конец периода;

X9-уровень официально зарегистрированной безработицы в % к экономически активному населению;

X10-производство скота и птицы на убой (в живом весе);

X11-производство молока в хозяйствах всех;

X12-производство яиц в хозяйствах всех;

X13-индекс физического объема по виду деятельности "Строительство";

X14-перевезено грузов автомобильным транспортом организаций;

X15-индекс физического объема оборота розничной торговли;

X16-индекс физического объема оборота общественного питания;

X17-среднедушевые денежные доходы;

X18-реальные денежные доходы.

Решение.

Шаг 1. Создание документа размерностью 18 на 14 (см. рис. 1.5)

–  –  –

Строка Amalgamation [linkage] rule (Правило объединения [связи]) содержит установки для выбора следующих мер сходства:

Single Linkage (Метод одиночной связи “принцип ближайшего соседа”);

1.

Complete Linkage (Метод полной связи “принцип дальнего соседа”);

2.

Unweighted pair-group average (Невзвешенное попарное среднее);

3.

Weighted pair-group average (Взвешенное попарное среднее);

4.

Unweighted pair-group centroid (Невзвешенный центроидный метод);

5.

Weighted pair-group centroid (Взвешенный центроидный метод);

6.

Ward’s method (Метод Уорда).

7.

Для решения данной задачи выбираем метод Уорда.

Перейдите к строке Missing data [MD deletion] (Пропущенные данные) В системе Statistica 8.0 в модуле Cluster Analysis (Кластерный анализ) предусмотрено два способа обработки некомплектных наблюдений, содержащих пропуски хотя бы одной переменной:

Casewise deleted (Построчное удаление) - обработки некомплектные наблюдения полностью исключаются из дальнейшего анализа. Однако подобный метод приводит к смещенности и несостоятельности полученных статистических оценок, а также к искажению эмпирического распределения.

Substituted by means (Замена средними значениями) – пропущенные данные заменяются средними значениями показателя, полученным по комплектным (полным) данным, что также имеет свои недостатки. В данном примере пропуски отсутствуют, поэтому выбор того или иного метода не актуален.

Шаг 6. В окошке Distance measure (Мера расстояния) (рис. 1.12) предлагаются различные виды расстояний. Выберите Евклидову метрику.

После установки всех необходимых параметров для проведения кластеризации щелкните на кнопке Ok и рассмотрите окно с результатами классификации.

–  –  –

Результаты кластеризации Через несколько секунд появится окно результатов (Рис. 1.13). В верхней части окна записана информация: число переменных, число случаев, метод кластеризации и все установленные параметры. Кнопки в нижней части позволяют провести анализ результатов кластеризации.

Рис 1.13. Результаты кластеризации.

Щелкнув по кнопке Amalgamation schedule (Схема объединения), можно выбрать таблицу результатов со схемой объединения. Первый столбец таблицы содержит расстояния для соответствующих кластеров. Каждая строка показывает состав кластера на данном шаге классификации.

Рассмотрим Vertical icicle plot (Вертикальную древовидную дендрограмму), приведенную на рисунке 1.14. На этой дендрограмме вертикальная ось представляет наблюдения, горизонтальная – расстояние объединения. Таким образом, на первом шаге были объединены Удмуртская и Ульяновская область, как имеющие минимальное расстояние, а на последнем все, уже объединенные в какие-либо кластеры. Проанализируем дендрограмму для того, чтобы определить на каком шаге следует принять полученную классификацию как окончательную. При числе кластеров равным двум: в первый войдет Республика Татарстан, во второй все остальные; при k=3 в первый войдут Республика Мордовия, Республика Марий Эл, Удмуртская Республика, Чувашская Республика, Кировская область, Пензенская область, Самарская область, Саратовская область, во второй: Республика Башкортостан, Нижегородская область, Оренбургская область, Пермский край, в третий - Республика Татарстан и так далее.

Предпочтительнее взять количество кластеров равное 3 или 5, так как при большем их числе теряется наглядность классификации.

–  –  –

Щелкнув по кнопке Graph of amalgamation schedule (График схемы объединения) (рис. 1.15), просмотрим результаты древовидной кластеризации в графическом виде.

–  –  –

Строка Descriptive statistics (Описательные характеристики) открывает таблицу результатов со средними значениями и стандартными отклонениями для каждого объекта, включенного в кластерный анализ (рис.1.17).

Рис. 1.17. Описательные статистики Кластеризация методом K-средних (K-means clustering). Рассмотрим работу метода k-средних на данных нашего примера.

Выделив строку – K-means clustering (Кластеризация методом k-средних) стартовой панели модуля Cluster analysis (Кластерный анализ). На экране появится окно настройки параметров кластеризации (рис. 1.18).

Рис. 1.18. Окно K-means clustering С помощью кнопки Variables (Переменные) выберем показатели, по которым будет происходить кластеризация. В строке Cluster (Кластер) укажем объекты для классификации Cases [rows].

Поле Number of clusters (Число кластеров) позволяет ввести желаемое число кластеров, которое должно быть больше 1 и меньше чем количество объектов.

Метод k-средних является итерационной процедурой, в результате которой на каждой итерации объекты перемещаются в различные кластеры. Поле Number of iterations (Число итераций) предназначено для указания их максимального числа.

Важным моментом при настройке параметров является выбор Initial cluster centers (Начальных центров кластеров), так как конечные результаты зависят от начальной конфигурации.

Опция Choose observations to maximize initial between-cluster distances (Выбрать наблюдения, максимизирующие начальные расстояния между кластерами) выбирает первые k в соответствии с количеством кластеров, наблюдений, которые служат центрами кластеров.

Последующие наблюдения заменяют ранее выбранные центры в том случае, если наименьшее расстояние до любого из них больше, чем наименьшее расстояние между кластерами. В результате этой процедуры начальные расстояния между кластерами максимизируются.

Если выбрана опция Sort distances and take observations at constant intervals(Сортировать расстояния и выбрать наблюдения на постоянных интервалах), то сначала сортируются расстояния между всеми объектами, а затем в качестве начальных центров кластеров выбираются наблюдения на постоянных интервалах.

Choose the first N (Number of cluster) (Выбрать первые N [количество кластеров] наблюдений). Эта опция берет первые N (количество кластеров) наблюдений в качестве начальных центров кластеров.

Для нашего примера сделаем установку - Sort distances and take observations at constant intervals (Сортировать расстояния и выбрать наблюдения на постоянных интервалах).

Опция MD deletion (Пропущенные данные) устанавливает режим работы с теми наблюдениями (или переменными, если установлен режим Variables (columns)) в строке Cluster, в которых пропущены данные. По умолчанию установлен режим Casewise (Случай удаления). Тогда наблюдения просто исключаются из рассмотрения. Если установить режим Mean subsitution (Заменять на среднее), то вместо пропущенного числа будет использовано среднее по этой переменной (или наблюдению).

Если установлена опция Batch processing and reporting (Пакетная обработка и сообщение), тогда система Statistica 8.0 автоматически осуществит полный анализ и представит результаты в соответствии с установками.

После соответствующего выбора нажмем кнопку OK. STATISTICA произведет вычисления и появится новое окно: k-Means Clustering Results (рис.

1.19).

Рис. 1.19. Окно k-means clustering

Анализ результатов.

В верхней части окна:

Количество переменных –18;

Количество наблюдений – 14;

Классификация наблюдений (или переменных, зависит от установки в предыдущем окне в строке Cluster) методом k-средних;

Наблюдения с пропущенными данными удаляются или изменяются средними значениями. Зависит от установки в предыдущем окне в строке MD deletion.

Количество кластеров – 5;

Решение достигнуто после: 2 итераций.

В нижней части окна расположены кнопки для вывода различной информации по кластерам.

Analysis of Variance (Дисперсионный анализ). После нажатия появляется таблица, в которой приведена межгрупповая и внутригрупповая дисперсии (рис. 1.20). Где строки – переменные (наблюдения), столбцы – показатели для каждой переменной: дисперсия между кластерами, число степеней свободы для межклассовой дисперсии, дисперсия внутри кластеров, число степеней свободы для внутриклассовой дисперсии, F - критерий, для проверки гипотезы о неравенстве дисперсий. Проверка данной гипотезы похожа на проверку гипотезы в дисперсионном анализе, когда делается предположение о том, что уровни фактора не влияют на результат.

Cluster Means & Euclidean Distances (средние значения в кластерах и евклидово расстояние). Выводятся две таблицы. В первой (рис. 1.21) указаны средние величины класса по всем переменным (наблюдениям). По вертикали указаны номера классов, а по горизонтали переменные (наблюдения).

Рис. 1.20. Окно дисперсионного анализа Во второй таблице (рис. 1.22) приведены расстояния между классами. И по вертикали и по горизонтали указаны номера кластеров. Таким образом, при пересечении строк и столбцов указаны расстояния между соответствующими классами. Причем выше диагонали (на которой стоят нули) указаны квадраты, а ниже просто евклидово расстояние.

Рис. 1.21. Средние значения в кластерах Щелкнув по кнопке Graph of means (График средних), можно получить графическое изображение информации содержащейся в таблице, выводимой при нажатии на кнопку Analysis of Variance (Дисперсионный анализ). На графике показаны средние значения переменных для каждого кластера (рис. 1.23).

Рис. 1.22. Средние значения в кластерах По горизонтали отложены участвующие в классификации переменные, а по вертикали - средние значения переменных в разрезе получаемых кластеров.

–  –  –

Descriptive Statistics for each cluster (Описательная статистика для каждого кластера). После нажатия этой кнопки выводятся окна, количество которых равно количеству кластеров (рис. 1.24). В каждом таком окне в строках указаны переменные (наблюдения), а по горизонтали их характеристики, рассчитанные для данного класса: среднее, несмещенное среднеквадратическое отклонение, несмещенная дисперсия.

Save classifications and distances (сохранение кластерной структуры и расстояния). Позволяет сохранить в формате программы статистика таблицу, в которой содержатся значения всех переменных, их порядковые номера, номера кластеров к которым они отнесены, и евклидовы расстояния от центра кластера до наблюдения. Записанная таблица может быть вызвана любым блоком или подвергнута дальнейшей обработке.

Двухвходовое объединение – Two-way joining. Идея метода Two-way joining (Двухвходовое объединение) состоит в том, чтобы одновременно классифицировать как наблюдения, так и переменные.

Трудность с интерпретацией полученных результатов возникает вследствие того, что получающиеся кластеры являются по своей природе часто неоднородными.

Рис. 1.24. Описательная статистика каждого кластера Вызовем исходное меню Cluster analysis (Кластерный анализ) (рис.1.25) и выберем строку Two-way joining (Двухвходовое объединение). В появившемся диалоговом окне укажем переменные для анализа.

–  –  –

Группа операций Threshold Value (Значение порога) содержит два режима: User defined (Заданное пользователем) и Computed from data (Std.Dev./2) (Вычисленное по данным).

Пороговый параметр определяет принадлежность элементов матрицы данных к формируемым кластерам. Если эта величина слишком велика по сравнению со значениями элементов в матрице, то будет сформирован только один кластер; если очень мала, то кластером будет являться каждая точка данных.

Для большинства случаев берут пороговое значение, равное половине величины общего стандартного отклонения (режим Computed from data (Std.Dev./2) (Вычисленное по данным)). После задания всех параметров нажмем Ok. Окно с результатами вычислений представлено на рис. 1.26.

Рис. 1.26. Результаты анализа Опция Reordered statistics for variables (Переупорядоченная матрица данных) формирует таблицу с наблюдениями в соответствии с результатами двухвходового объединения (рис. 1.27).

–  –  –

Кнопка Summary: Two-way joining graph выводит графическое изображение результатов двухвходового объединения. В данном случае переупорядоченная матрица данных отображается в виде карты линий уровня (рис. 1.28).

–  –  –

На графике по горизонтали отложены участвующие в классификации переменные, а по вертикали – наблюдения. Цвета ячеек, находящихся на пересечении, указывают на принадлежность элементов матрицы к определенному кластеру.

1.5. Задания для самостоятельной работы Задача 1. По выборке Ноутбуки.xls и алгоритму кластерного анализа провести классификацию объектов иерархическим методом.

Переменные: модель ноутбука, страна-производитель, год выпуска, время непрерывной работы от комплекта аккумуляторов, размер диагонали матрицы дисплея, объем установленной видеопамяти, вес ноутбука, платформа, оперативная память, предлагаемая цена.

1) В качестве расстояния между объектами принять евклидово расстояние, а расстояния между кластерами измерять по принципу: ближайшего соседа. Исходные данные не нормировать.

2) Решить задачу, предварительно нормировав исходные данные.

3) Решить задачу при условии, что расстояния между кластерами измеряются по принципу “дальнего соседа”, предварительно нормируя исходные данные.

4) Решить задачу, но в качестве расстояния между объектами принять “расстояние городских кварталов (Манхэттенское расстояние)”, а расстояния между кластерами измерять по методу Варда.

5) Решить задачу методом k-средних, предварительно нормируя исходные данные. Число кластеров принять равным 3 и затем 4. Выбрать оптимальное число кластеров.

Задача 2. В файле Cars.

sta (папка Datasets системы Sratistica) рассматриваются автомобили разных марок, которые различаются ценой, расходом горючего и некоторыми техническими характеристиками. Разбить автомобили на несколько групп, в которых автомобили мало отличаются друг от друга. Таблица данных - Cars.sta

Ответить на вопросы:

1) С помощью какого иерархического метода было наиболее точно определено количество кластеров?

2) Какая при этом использовалась мера расстояния между объектами? Какой метод оказался наименее точным?

3) Какой из иерархических методов дал наиболее точное разбиение объектов на кластеры?

4) Какая при этом использовалась мера расстояния между объектами? Какой метод оказался наименее точным?

5) На основе использования, какого типа исходных данных (количественные, качественные) получено более точное разбиение объектов на классы?

6) Какие признаки вносят наибольший вклад в разделение объектов на кластеры и почему? Проранжируйте признаки в порядке значимости.

–  –  –

Дискриминантный анализ (ДА) является статистическим методом, который позволяет изучать различия между двумя и более группами объектов по нескольким переменным одновременно. ДА помогает выявлять различия между группами и дает возможность идентифицировать (классифицировать) объекты по принципу максимального сходства.

При интерпретации межгрупповых различий необходимо ответить на следующие вопросы: возможно ли, используя данный набор переменных, отличить один класс от другого, насколько сильны и информативны данные признаки.

Классификация же связана с получением одной или нескольких дискриминантных функций, обеспечивающих возможность отнести (идентифицировать) данный объект к одной из групп.

Характеристики, применяемые для того, чтобы отличать один класс от другого называются дискриминантными переменными. Эти переменные должны измеряться либо по интервальной шкале, либо по шкале отношений. В общем случае, число дискриминантных переменных не ограничено, но в сумме число объектов должно всегда превышать число переменных по крайней мере на два.

Объекты анализа должны принадлежать одному из двух или более классов. Класс должен быть определен таким образом, чтобы каждое наблюдение принадлежало одному и только одному классу. Допускаются и объекты, которые нельзя отнести ни к одной из групп (классов). Такие объекты будут классифицироваться позже, на основе математических функций, полученных из анализа наблюдений с известной принадлежностью.

Данный метод классификации применяется при распознавании сигналов, образов, диагностике состояний сложных технических, биологических, экономических систем, при прогнозировании будущих отказов и неисправностей систем.

Существуют определенные ограничения, касающиеся статистических свойств дискриминантных переменных.

Во-первых, ни одна переменная не может быть линейной комбинацией других переменных. Переменная, являющаяся линейной комбинацией других, не несет какой-либо новой информации помимо той, которая содержится в компонентах суммы, поэтому она является лишней и ее можно исключить.

Во-вторых, закон распределения для каждого класса является многомерным нормальным, т.е. каждая переменная имеет нормальное распределение при фиксированных остальных переменных. Данное предположение позволяет получить точные значения вероятности принадлежности к данному классу и критерия значимости. При нарушении допущения о нормальности распределения значения вероятности вычислить точно уже нельзя, но соответствующие оценки могут быть полезны.

2.1. Дискриминантные функции.

На рис. 2.1 изображены объекты, принадлежащие двум различным множествам M1 и M2. Каждый объект характеризуется в данном случае двумя переменными x1 и x2. Если рассматривать проекции объектов (точек) на каждую ось, то эти множества пересекаются, т.е. по каждой переменной отдельно некоторые объекты обоих множеств имеют сходные характеристики. Чтобы наилучшим образом разделить два рассматриваемых множества, нужно построить соответствующую линейную комбинацию переменных x1 и x2. Для двумерного пространства эта задача сводится к определению новой системы координат.

Причем новые оси L и C должны быть расположены таким образом, чтобы проекции объектов, принадлежащих разным множествам на ось L, были максимально разделены. Ось С перпендикулярна оси L и разделяет два «облака» точек наилучшим образом, т.е. чтобы множества оказались по разные стороны от этой прямой. При этом вероятность ошибки классификации должна быть минимальной.

Сформулированные условия должны быть учтены при определении коэффициентов a1 и a2 следующей функции:

–  –  –

Обозначим xij – среднее значение j-го признака у объектов i-го множества (класса).

Тогда для множества M1 среднее значение функции f 1 ( x ) будет равно:

–  –  –

Геометрическая интерпретация этих функций – две параллельные прямые, проходящие через центры классов (множеств) (рис. 2.2).

Рис. 2.2. Центры разделяемых множеств и константа дискриминации Коэффициенты дискриминантной функции a i определяются таким образом, чтобы f 1 ( x) и f 2 ( x) как можно больше различались между собой, т.е.

чтобы для двух множеств (классов) было максимальным выражение

–  –  –

p – число переменных, характеризующих каждое наблюдение.

При необходимости можно проводить разбиение множества объектов на k классов, нужно рассчитать k дискриминантных функций, так как классы будут отделяться друг от друга индивидуальными разделяющими поверхностями.

–  –  –

Дискриминантный анализ позволяет выяснить, действительно ли группы различаются между собой, и если да, то каким образом (какие переменные вносят наибольший вклад в имеющиеся различия). При сравнении двух групп (бинарная зависимая переменная) формируется одна дискриминантная функция.

Если данный метод применяется к анализу трех или более групп (множественный дискриминантный анализ), то могут формироваться несколько дискриминантных функций.

Все процедуры дискриминантного анализа можно разбить на две группы:

первая группа позволяет интерпретировать различия между имеющимися группами (сравнивая средние), вторая – проводить классификацию новых объектов в тех случаях, когда неизвестно заранее, к какому из существующих классов они принадлежат. С вычислительной точки зрения дискриминантный анализ очень похож на дисперсионный анализ (ANOVA – Analysis of variance), который сравнивает размеры вариации (изменчивости, неоднородности), обусловленной разными факторами и используется для изучения различий средних значений количественной зависимой переменной, вызванных влиянием качественных независимых переменных (факторов). В дискриминантном анализе коэффициенты (или веса) b0, b1,..., bk определяют таким образом, чтобы группы максимально возможно отличались значениями дискриминантной функции.

Это происходит тогда, когда отношение межгрупповой суммы квадратов к внутригрупповой сумме квадратов для дискриминантных показателей максимально.

Важной проблемой дискриминантного анализа является определение дискриминантных переменных (переменных, входящих в дискриминантную функцию). Возможны два подхода. Первый предполагает одновременное введение всех переменных, в этом случае учитывается каждая независимая переменная, при этом ее дискриминирующая сила не принимается во внимание.

Альтернативой является пошаговый (stepwise) дискриминантный анализ, при котором переменные вводятся последовательно, исходя из их способности различить (дискриминировать) группы.

При пошаговом анализе «с включением» на каждом шаге просматриваются все переменные, и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу.

При пошаговом анализе «с исключением» движутся в обратном направлении, в этом случае все переменные сначала будут включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в различение. Тогда в качестве результата успешного анализа можно сохранить только «важные» переменные в модели, т.е. те переменные, чей вклад в дискриминацию больше остальных. Пошаговый дискриминантный анализ основан на использовании уровня значимости F-статистики.

Когда определен окончательный вид дискриминантной функции, можно переходить к решению задачи классификации. Сразу следует отметить, что для корректного применения дискриминантной функции для решения этой задачи должны использоваться две выборки: одна для вычисления дискриминантной функции (ее называют анализируемой), вторая – проверочная, которую используют для проверки результатов расчета на основании первой выборки. Такую процедуру проверки называют кросс-проверкой (перекрестной проверкой).

Смысл процедуры классификации, т.е. предсказания, к какой совокупности принадлежит конкретный объект, можно проиллюстрировать на простейшем примере, отраженном на следующем рисунке(две переменные и две группы).

<

–  –  –

Для нового объекта находится его проекция на дискриминантную ось (т.е.

значение дискриминантной функции – дискриминантный показатель) и определяется, к какому из центроидов (для первой или второй группы) он более близко расположен. Соответственно, он будет отнесен к этой группе. Степень «близости» может определяться с помощью пороговых значений (если размеры групп равны, то пороговое значение – среднее арифметическое двух центроидов, если же группы не равны, то вычисляется средневзвешенная).

Для двух групп дискриминантный анализ может рассматриваться также как процедура множественной регрессии. Если кодируются две группы как 1 и 2, и затем используются эти переменные в качестве зависимых переменных в множественной регрессии, то получится результаты, аналогичные тем, которые получили бы с помощью Дискриминантного анализа.

группа a b1 x1 b2 x 2... bm x m, (2.6) где a является константой, и b1...bm являются коэффициентами регрессии. Интерпретация результатов задачи с двумя совокупностями тесно следует логике применения множественной регрессии: переменные с наибольшими регрессионными коэффициентами вносят наибольший вклад в дискриминацию.

Дискриминантные функции для нескольких групп. Если имеется более двух групп, то можно оценить более, чем одну дискриминантную функцию.

Например, когда имеются три совокупности, можно оценить: (1) - функцию для дискриминации между совокупностью 1 и совокупностями 2 и 3, взятыми вместе, и (2) - другую функцию для дискриминации между совокупностью 2 и совокупности 3. Например, можно иметь одну функцию, дискриминирующую между теми выпускниками средней школы, которые идут в колледж, против тех, кто этого не делает (но хочет получить работу или пойти в училище), и вторую функцию для дискриминации между теми выпускниками, которые хотят получить работу против тех, кто хочет пойти в училище. Коэффициенты b в этих дискриминирующих функциях могут быть проинтерпретированы тем же способом, что и ранее.

Канонический анализ. Когда проводится дискриминантный анализ нескольких групп, не нужно указывать, каким образом следует комбинировать группы для формирования различных дискриминирующих функций. Вместо этого, можно автоматически определить некоторые оптимальные комбинации переменных, так что первая функция проведет наилучшую дискриминацию между всеми группами, вторая функция будет второй наилучшей и т.д. Более того, функции будут независимыми или ортогональными, то есть их вклады в разделение совокупностей не будут перекрываться. С вычислительной точки зрения системы проводится анализ канонических корреляций, которые будут определять последовательные канонические корни и функции. Максимальное число функций будет равно числу совокупностей минус один или числу переменных в анализе в зависимости от того, какое из этих чисел меньше.

2.3. Интерпретация дискриминантных функций.

Прежде чем интерпретировать дискриминантную функцию следует убедиться в ее статистической значимости. Для этого проверяют нулевую гипотезу о равенстве центроидов во всех группах (чтобы дискриминантная функция была статистически значимой, эта гипотеза должна быть отвергнута). Эта гипотеза проверяется с помощью коэффициента лямбда ( ? ) Уилкса (Wilks’s ).

Как было установлено ранее, получают коэффициенты b (и стандартизованные коэффициенты бета) для каждой переменной и для каждой дискриминантной (теперь называемой также и канонической) функции. Они могут быть также проинтерпретированы обычным образом: чем больше стандартизованный коэффициент, тем больше вклад соответствующей переменной в дискриминацию совокупностей. Однако эти коэффициенты не дают информации о том, между какими совокупностями дискриминируют соответствующие функции. Можно определить характер дискриминации для каждой дискриминантной (канонической) функции, взглянув на средние функций для всех совокупностей. Также можно посмотреть, как две функции дискриминируют между группами, построив значения, которые принимают обе дискриминантные функции (см., например, рис. 2.4).

–  –  –

В этом примере Корень1 (root1), в основном дискриминирует между группой Setosa и объединением групп Virginic и Versicol. По вертикальной оси (Корень2) заметно небольшое смещение точек группы Versicol вниз относительно центральной линии (0).

Матрица факторной структуры. Другим способом определения того, какие переменные "маркируют" или определяют отдельную дискриминантную функцию, является использование факторной структуры. Коэффициенты факторной структуры являются корреляциями между переменными в модели и дискриминирующей функцией. Можно рассматривать эти корреляции(их называют структурные коэффициенты) как факторные нагрузки переменных на каждую дискриминантную функцию.

По величине структурных коэффициентов судят о связи между переменными и дискриминантными функциями. Структурные коэффициенты позволяют также в случае необходимости присвоить имя каждой функции. Они могут быть рассчитаны в целом по всей совокупности объектов и для каждого класса отдельно.

Различные знаки у структурных коэффициентов можно интерпретировать следующим образом. Исходные переменные, имеющие различное направление связи с дискриминантной функцией, т.е. положительные или отрицательные структурные коэффициенты, будут ориентировать объекты в различных направлениях, удаляя или приближая их к центрам соответствующих классов.

Значимость дискриминантной функции. Можно проверить число корней, которое добавляется значимо к дискриминации между совокупностями.

Для интерпретации могут быть использованы только те из них, которые будут признаны статистически значимыми. Остальные функции (корни) должны быть проигнорированы.

Итак, при интерпретации дискриминантной функции для нескольких совокупностей и нескольких переменных, вначале хотят проверить значимость различных функций и в дальнейшем использовать только значимые функции.

Затем, для каждой значащей функции вы должны рассмотреть для каждой переменной стандартизованные коэффициенты бета. Чем больше стандартизованный коэффициент бета, тем большим является относительный собственный вклад переменной в дискриминацию, выполняемую соответствующей дискриминантной функцией. В порядке получения отдельных "осмысленных" значений дискриминирующих функций можно также исследовать матрицу факторной структуры с корреляциями между переменными и дискриминирующей функцией. В заключение, вы должны посмотреть на средние для значимых дискриминирующих функций для того, чтобы определить, какие функции и между какими совокупностями проводят дискриминацию.

Функции классификации не следует путать с дискриминирующими функциями. Функции классификации предназначены для определения того, к какой группе наиболее вероятно может быть отнесен каждый объект. Имеется столько же функций классификации, сколько групп.

Каждая функция позволяет вам для каждого образца и для каждой совокупности вычислить веса классификации по формуле:

–  –  –

В этой формуле индекс i обозначает соответствующую совокупность, а индексы 1, 2,..., m обозначают m переменных; сi являются константами для iой совокупности, wij - веса для j-ой переменной при вычислении показателя классификации для i-ой совокупности; x j - наблюдаемое значение для соответствующего образца j-ой переменной. Величина S i является результатом показателя классификации.

Поэтому можно использовать функции классификации для прямого вычисления показателя классификации для некоторых новых значений.

Классификация наблюдений. Как только вычислены показатели классификации для наблюдений, легко решить, как производить классификацию наблюдений. В общем случае наблюдение считается принадлежащим той совокупности, для которой получен наивысший показатель классификации (кроме случая, когда вероятности априорной классификации становятся слишком малыми; см. ниже). Поэтому, если вы изучаете выбор карьеры или образования учащимися средней школы после выпуска (поступление в колледж, в профессиональную школу или получение работы) на основе нескольких переменных, полученных за год до выпуска, то можете использовать функции классификации, чтобы предсказать, что наиболее вероятно будет делать каждый учащийся после выпуска. Однако вы хотели бы определить вероятность, с которой учащийся сделает предсказанный выбор. Эти вероятности называются апостериорными, и их также можно вычислить. Однако для понимания, как эти вероятности вычисляются, вначале рассмотрим так называемое расстояние Махаланобиса.

Качество классификации оценивается с помощью так называемой классификационной матрицы (classification matrix), которую еще называют смешанной матрицей или матрицей предсказания. Эта матрица содержит ряд правильно и ошибочно классифицированных случаев. Доля общего количества правильно классифицированных случаев называется коэффициентом результативности (hit ratio). Этот коэффициент варьируется в пределах от 50% до 100%. На практике удовлетворительной считается классификация с коэффициентом результативности не меньше 70%.

Другие предостережения. При повторной итерации апостериорная классификация того, что случилось в прошлом, не очень трудна. Нетрудно получить очень хорошую классификацию тех образцов, по которым была оценена функция классификации. Для получения сведений, насколько хорошо работает процедура классификации на самом деле, следует классифицировать (априорно) различные наблюдения, то есть, наблюдения, которые не использовались при оценке функции классификации. Можно гибко использовать условия отбора для включения или исключения из вычисления наблюдений, поэтому матрица классификации может быть вычислена по "старым" образцам столь же успешно, как и по "новым".

–  –  –

Шаг 1. Ввод данных в Statistica 8.0 (Рис.2.5).

Рис 2.5 Таблица с данными Для каждого предприятия определена переменная “ Уровень организации управления производством”, которая отражает мнение эксперта о степени организации управления на производстве. Данная оценка имеет 2 уровня: низкий, высокий. Используя эти данные, покажем, как можно построить классификатор c помощью дискриминантного анализа, реализованного в пакете Statistica 8.0.

Запустите модуль Дискриминантный анализ (Рис. 2.6).

–  –  –

Шаг 2. В диалоговом окне Model Definition предложен выбор метода выбора значимых переменных (Рис 2.10). Method может быть задан Standart (Стандартный), Forward stepwise (Пошаговый с включением) и Backward stepwise (Пошаговый с исключением).

Если выбран Standart (Стандартный метод), то все переменные будут одновременно включены в модель.

В методе Forward stepwise (Пошаговый с включением) на каждом шаге в модель выбирается переменная с наибольшим F – значением. Процедура заканчивается, когда все переменные, имеющие F – значение больше значения, указанного в поле F to enter (F -включить), вошли в модель.

Если выбран метод Backward stepwise (Пошаговый с исключением), то в уравнение будут включены все выбранные пользователем переменные, которые затем удаляются в зависимости от величины F – значения. Шаги заканчиваются, когда нет переменных, имеющих F – значение меньше определенного пользователем в поле F to remove (F - исключить).

Если при проведении анализа пользователь хочет включить все переменные, то следует установить в поле F to enter (F - включить) очень маленькую величину, например 0.0001, а в поле F to remove (F – исключить) – 0.0.

Если же требуется исключить все переменные, то в поле F to enter (F включить) следует установить большое значение, например 0.9999, а в поле F to remove (F – исключить) – 9998.

Поле Number of steps (число шагов) определяет максимальное число шагов анализа, по достижении которых процедура заканчивается.

Поле Tolerance (толерантность) позволяет исключить из модели неинформационные переменные. Значение толерантности вычисляется как 1- R2 переменной со всеми другими переменными в модели. Если толерантность имеет значение меньшее, чем значение по умолчанию 0.01 (или установленное специально пользователем), то эта переменная признается не информативной и не включается в модель.

В отличие от стандартного метода для пошаговых процедур предусмотрено два режима Display of results (вывода результатов) анализа:

At each step (на каждом шаге) – программа выводит на экран диалоговое 1.

окно полных результатов на каждом шаге, начиная с нулевого.

Summary only (на заключительном шаге) выводит окно с результатами 2.

только на последнем шаге, однако оно содержит опцию для просмотра основных итоговых статистик и для пошаговой процедуры.

Descriptives \ Review Descriptive Statistics (Обзор описательных статистик) позволяет получить описательные статистики для выбранных переменных:

Pooled within-groups covariances & correlations (объединенные внутригрупповые ковариации и корреляции);

Total covariances & correlations (полные ковариации и корреляции);

5.

Graph (графики корреляционных функций для всех переменных);

6.

Means & number of cases (средние значения для каждой переменной);

7.

Box & wh (диаграммы размаха);

8.

Standart deviations (стандартные отклонения переменных в каждой 9.

группе);

10. Categjrized histogram (by group) (категоризованные гистограммы по группам для каждой переменной);

11. Box & whisker plot (by group) (диаграммы размаха по группам – категоризованную диаграмму рассеяния (по группам));

12. Categorized scatterplot (by group) (для двух любых переменных);

13. Categorized normal probability plot (by group) (категоризованный нормальный график для любой переменной по группам).

Выберем в качестве метода (Method) – Forward stepwise (см. рис. 2.10) и нажмем OK.

Рис 2.10. Выбор режима пошаговой дискриминации В ходе вычислений системой получены результаты, которые представлены в окне Discriminant Function Analisis Results (Результаты анализа дискриминантных функций) (рис. 2.11).

Данное диалоговое окно состоит из двух частей: верхней – информационной, и нижней, где содержатся функциональные кнопки и закладки, позволяющие всесторонне просмотреть результаты анализа.

Рис 2.11. Диалоговое окно Результаты дискриминантного анализа функции (Discriminant Function Analysis Results).

Информационная часть окна (рис. 2.12) сообщает, что Stepwise Analysis (Пошаговый анализ), Step 2(Final step) – Шаг 2 (Заключительный шаг);

2. Number of variables in the model (Число переменных в модели) – 2;

Last variable enter (Последняя включенная переменная): Производительность, соответствующее значение статистики F-критерия F(1, 7)=2,687814, уровень значимости p 0,1451;

4. Wilks lambda (Значение лямбды Уилкса) – 0,0509148 approx. F(2,7)= 65,24233– Приближенное значение F-статистики, связанной с лямбдой Уилкса; p – уровень значимости F-критерия для значения 0,0000.

–  –  –

Значения статистики лямбда Уилкса лежат в интервале 0,1. Значения статистики Уилкса, лежащая около 0, свидетельствуют о хорошей дискриминации; а значения статистики Уилкса, лежащие около 1, свидетельствуют о плохой дискриминации. По данным показателя Wilks’ Lambda (значение лямбды Уилкса) и по значению F-критерия, можно сделать вывод, что данная классификация корректная. То есть, значение статистики F–критерия: F(2,7)= 65,24233 больше табличного значения F-распределения: F(2,7)= 9,34908, т.е.

нулевая гипотеза о том, что наблюдения принадлежат к одному классу, отвергается. Поэтому, дискриминантный анализ возможен.

Нажмите вкладку Classification (Рис. 2.13)

Рис 2.13. Параметры вкладки Classification

В качестве проверки корректности обучающих выборок посмотрим результаты классификационной матрицы, нажав кнопку Classification matrix (Классификационная матрица) (рис. 2.14), предварительно выбрав Same for all groups (см. ниже) в правой части окна Discriminant Function Analisis Results.

Рис 2.14. Матрица классификации

Из классификационной матрицы можно сделать вывод, что объекты были правильно отнесены экспертным способом к выделенным группам. Если есть случаи, неправильно отнесенные к соответствующим группам, можно посмотреть Classification ofcases (Классификация случаев) (рис. 2.15).

Рис. 2.15. Классификация случаев

В таблице классификации случаев некорректно отнесенные объекты помечаются звездочкой (*). Таким образом, задача получения корректных обучающих выборок состоит в том, чтобы исключить из обучающих выборок те объекты, которые по своим показателям не соответствуют большинству объектов, образующих однородную группу.

Нажмите кнопку Итог: Переменные в модели (Рис. 2.16).

–  –  –

На основе полученных обучающих выборок можно проводить повторную классификацию тех объектов, которые не попали в обучающие выборки, и любых других объектов, подлежащих группировке. Результат приведен в табл. 2.2.

–  –  –

Для решения данной задачи, существуют два варианта: первый – провести классификацию на основе дискриминантных функций, второй – на основе классификационных функций. В первом случае необходимо, не закрывая диалогового окна Discriminant Function Analisis Results, добавить в таблицу исходных скорректированных данных новые случаи.

Для того чтобы понять, к какому классу относится этот объект, нажмите кнопку Posterior probabilities (Апостериорные вероятности).

В системе имеется три способа задания априорной вероятности:

1. Proportional to group sizes (Пропорциональные размерам групп)

2. Same for all groups (Одинаковые для всех групп)

3. User defined (Заданные пользователем) После этого вы увидите таблицу с апостериорными вероятностями (рис. 2.17). К тем группам (классам), которые будут иметь максимальные вероятности, можно отнести новые случаи.

Так как расстояние от нового наблюдения до центра групп минимально для класса «Высокий», то с высокой степенью вероятности новый объект относится ко второму классу управления.

–  –  –

Во втором варианте необходимо в окне диалогового окна Discriminant Function Analisis Results нажать кнопку Classification functions (Классификационные функции).

Появится окно (Рис. 2.18), из которого можно выписать классификационные функции для каждого класса. С помощью этих функций можно будет в дальнейшем классифицировать новые случаи. Новые случаи будут относиться к тому классу, для которого классифицированное значение будет максимальное.

Просмотрите функции классификации, нажав кнопку Функции классификации (Classification functions).

–  –  –

С помощью этих функций можно вычислить классификационные значения (или метки) для вновь наблюдаемых данных по формулам:

Низкий = «Производительность»* 0,13869+ «Рентабельность»*1,46795 Высокий = «Производительность»* 1,3899 + «Рентабельность»* 3,3921 Замечание: Функции классификации будут отличаться, если будет разное количество данных.

Для того чтобы данное предприятие отнести к одному из двух классов формально следует подставить эти значения в приведенные выше формулу и вычислить классификационные значения «Низкий» и «Высокий»

Новое предприятие относится к тому классу, для которого классификационное значение максимально.

Нажмите кнопку Квадрат расстояния Махаланобиса (Squared Mahalanobis distance) и вы увидите таблицу с квадратами Махаланобиса от точек (случаев) до центра групп (Рис.

2.19):

–  –  –

Случай относится к группе, до которой расстояние Махаланобиса минимально.

2.5. Обобщенный дискриминантный анализ Дана таблица, содержащая информацию об известных ноутбуках (например, файл MS Excel Ноутбуки.xls). Для каждого ноутбука определена переменная “экспертная оценка”, которая отражает мнение эксперта о соответствии цены состоянию ноутбука. Оценка, определяемая экспертами имеет 3 уровня:

плохой, средний, хороший. Переменные: модель ноутбука, странапроизводитель, год выпуска, время непрерывной работы от комплекта аккумуляторов, размер диагонали матрицы дисплея, объем установленной видеопамяти, вес ноутбука, платформа, оперативная память, предлагаемая цена. Используя эти данные, требуется, при использовании ИС Statistica 8.0, построить классификатор при использовании метода дискриминантного анализа. Цель задачи

– построить автоматическую классификацию и в дальнейшем использовать ее вместо того чтобы прибегать к оценкам эксперта.

В данной задаче классический дискриминантный анализ неприменим, так как имеются категориальные предикторы.

Шаг 1. Ввод данных (Рис. 2.20)

–  –  –

Выбираем в меню General Discriminant Analysis Models(Рис. 2.21) Рис 2.21. Выбор анализа GDA Нажав кнопку Переменные, зададим переменные анализа(Рис. 2.22).

Оценка эксперта – зависимая переменная;

Вес, Платформа – категориальные предикторы;

Год выпуска, Объем видеопамяти, оперативная память, цена, время работы аккумулятора, диогональ дисплея – непрерывные предикторы.

–  –  –

Нажимаем Variables и выбираем значения переменных и предикатов (Рис.

2.23).

Рис 2.23. Выбранные параметры Шаг 2. Анализ вклада переменных в дискриминацию между классами Чтобы увидеть, как переменные разделяют две совокупности, вычисляется дискриминантная функция. Посмотрим на коэффициенты дискриминантной функции, нажав на Standardized coefficients из вкладки Functions окна результатов (Рис. 2.24).

<

–  –  –

Делаем вывод, что первая дискриминантная функция взвешивается наиболее тяжело переменной Цена.

Вывести можно не только стандартизованные коэффициенты (Рис. 2.25), но и исходные, нажав кнопку исходные коэффициенты во вкладке функции.

Рис. 2.25. Стандартизованные коэффициенты Получим таблицу исходных коэффициентов (Рис. 2.26). Дискриминантная функция представляет собой линейную комбинацию эффектов с такими коэффициентами.

–  –  –

Чтобы увидеть, как переменные разделяют две совокупности, вычисляются дискриминантные функции. Определим, является ли построенные дискриминантные функции статистически значимыми. Для этого нажмём на кнопку

–  –  –

Рис. 2.27. Проверка стат. значимости дискриминантной функции Шаг 3. Проведение классификации Коэффициенты построенных функций классификации можно вывести на экран,

–  –  –

Каждая функция классификации представляет собой линейную комбинацию эффектов с такими коэффициентами. Заметим, что число функций классификации равно количеству уровней зависимой переменной. Т.е., в данном случае их три.

<

–  –  –

где f i - i-ая функция классификации, x j - j -ый эффект плана, aij - коэффициент i-ой функции классификации при j-ом эффекте плана, a 0 - свободный член.

Если учитывать только главные эффекты (пренебречь взаимодействиями), то функция классификации для уровня good зависимой переменной в нашем случае примет вид (коэффициенты взяты из таблицы на рис. 2.28):

Fплохой 6427005 6402 * год выпуска 13 * объемвидеопамяти 1772 * Оперативная память 919 * Цена 6078 * время работы аккумулятора 183 * Размер дисплея Аналогично записываются функции классификации для остальных уровней. Затем для каждого конкретного наблюдения, которое должно быть классифицировано, вычисляются все функции классификации. Наблюдение будет отнесено к тому классу, для которого функция классификации примет наибольшее значение.

Посмотрим на матрицу классификации (Рис. 2.30)., нажав на кнопку для выборки из вкладки Cases окна результатов (Рис. 2.29).

Рис 2.29. Вкладка Cases(наблюдения)

Рис 2.30. Матрица классификации Построенная модель правильно определяет экспертную оценку с точностью 100%. Это отличный результат, но он завышен, т.к. классифицировались те же наблюдения, которые использовались для построения модели.

Проведём более точную проверку точности классификации, воспользовавшись процедурой кросс-проверки. Для этого выведем матрицу классификации для кросс-проверочной выборки (Рис. 2.31).

–  –  –

Добавим 10 наблюдений (Рис. 2.32).

Рис 2.32. Дополнительные наблюдения для кросс проверки.

Точность общей классификации равна 98%, для хороших 96%, для плохих 100%. Как и ожидалось, точность классификации для кросс-проверочной выборки оказалась меньше, чем для выборки, по которой строилась модель, но эти результаты имеют небольшую точность, т.к. объём кросс-проверочной выборки был мал (10 наблюдений).

2.6. Задания для самостоятельной работы В файле Hurrdata.sta имеются данные о координатах циклонов, достигающих силы урагана, по двум классификациям циклонов - Baro и Trop. Приведенный модельный набор данных использовался для целей иллюстрации в работе Elsner, Lehmiller, и Kimberlain (1996), авторы которой исследовали различия между бароклинными и тропическими циклонами в Северной Атлантике.

Провести линейный дискриминантный анализ циклонов на предмет их принадлежности к Классу - Baro или Trop на основе данных.

–  –  –

Корреляционный анализ и регрессионный анализ предназначаются для изучения по выборочным данным статистической зависимости ряда случайных величин.

Регрессионный анализ используется по двум причинам:

1) описание зависимости между переменными помогает установить наличие возможной причинной связи;

2) для получения предиктора для зависимой переменной, так как уравнение регрессии позволяет предсказывать значения зависимой переменной по значениям независимых переменных.

Величина линейной зависимости между двумя переменными измеряется посредством простого коэффициента корреляции. В то время как величина линейной зависимости одной переменной от нескольких измеряется множественным коэффициентом корреляции. Другая мера зависимости — частный коэффициент корреляции — измеряет линейную зависимость между двумя переменными после устранения части линейной зависимости, обусловленной зависимостью этих переменных с другими переменными. Методы корреляционного анализа позволяют делать статистические выводы об этих трех мерах линейной зависимости.

Методы определения связи признаков отличаются в зависимости от вида шкалы измерений этих признаков:

1) для изучения связи признаков, измеренных в номинальной шкале, например, признаков вида «да или нет», применяются таблицы сопряженности и статистика Фишера-Пирсона Х ;

2) для признаков, измеренных в порядковой шкале – данных типа «лучше - хуже», тестовых баллов и т.д., - применяются ранжирование и коэффициенты корреляции Спирмена и Кендэла;

3) для данных, измеренных в количественных шкалах, применяются коэффициент корреляции Пирсона и модель простой линейной регрессии.

Таким образом, на первом шаге анализа, необходимо определить вид шкалы измерений.

–  –  –

Коэффициент корреляции Пирсона характеризует наличие только линейной связи между признаками, обозначаемыми, как правило, символами X и Y. Формула расчета коэффициента корреляции построена таким образом, что, если связь между признаками имеет линейный характер, коэффициент Пирсона точно устанавливает тесноту этой связи. Если же связь между переменными X и Y не линейна, то для оценки тесноты этой связи применяется так называемое корреляционное отношение.

Величина коэффициента линейной корреляции Пирсона не может превышать +1 и быть меньше чем -1. Эти два числа +1 и -1 — являются границами для коэффициента корреляции. Когда при расчете получается величина большая +1 или меньшая -1 — следовательно произошла ошибка в вычислениях.

Если знак коэффициента линейной корреляции — плюс, то связь между коррелирующими признаками такова, что большей величине одного признака (переменной) соответствует большая величина другого признака (другой переменной).

Иными словами, если один показатель (переменная) увеличивается, то соответственно увеличивается и другой показатель (переменная). Если же получен знак минус, то большей величине одного признака соответствует меньшая величина другого.

Корреляция высокая, если на графике зависимость "можно представить" прямой линией с положительным или отрицательным углом наклона (Рис. 3.1).

–  –  –

где xi - значения, принимаемые в выборке Х, y i - значения, принимаемые в выборке Y, x - средняя по Х, y - средняя по Y.

Расчет коэффициента корреляции Пирсона предполагает, что переменные Х и Y распределены по нормальному закону.

Непараметрическими аналогами стандартного коэффициента корреляции Пирсона являются статистики Спирмена R, тау Кендалла и коэффициент Гамма.

Статистику R Спирмена можно интерпретировать так же, как и корреляцию Пирсона в терминах объясненной доли дисперсии (имея, однако, в виду, что статистика Спирмена вычислена по рангам). Предполагается, что переменные измерены как минимум в порядковой шкале.

Статистика тау Кендалла эквивалентна R Спирмена при выполнении некоторых основных предположений. Также эквивалентны их мощности. Однако обычно значения R Спирмена и тау Кендалла различны, потому что они отличаются как своей внутренней логикой, так и способом вычисления.

Более важно то, что статистики Кендалла тау и Спирмена R имеют различную интерпретацию: в то время как статистика R Спирмена может рассматриваться как прямой аналог статистики Пирсона, вычисленный по рангам, статистика Кендалла тау скорее основана на вероятности. Более точно, проверяется, что имеется различие между вероятностью того, что наблюдаемые данные расположены в том же самом порядке для двух величин и вероятностью того, что они расположены в другом порядке.

Множественная корреляция. Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной (результативной) и остальными, входящими в модель; изменяется в пределах от 0 до 1. Квадрат множественного коэффициента корреляции называется множественным коэффициентом детерминации. Он характеризует долю дисперсии одной переменной (результативной), обусловленной влиянием всех остальных (аргументов), входящих в модель.

<

3.2. Линейный регрессионный анализ

Регрессионные процедуры позволяют рассчитать модель, описываемую некоторым уравнением и отражающую функциональную зависимость между экспериментальными количественными переменными, а также проверяют гипотезу об адекватности модели экспериментальным данным. По полученным результатам можно оценить природу и степень зависимости переменных и предсказать новые значения зависимой переменной.

Предположим, вы наблюдаете значения пары переменных X и Y и хотите найти зависимость между ними.

Например:

1) между ценой покупки акции — X и ценой ее продажи — Y;

2) производительностью процессора — X и его ценой — Y;

3) процентом жидкости в газе, добываемом из скважины, —X и стоимостью добычи единицы газа — Y и т.д.

Переменная X носит название независимой переменной, или предиктора, переменная Y называется зависимой переменной, или откликом.

Значение переменной X в i-м опыте будем обозначать через X(i), соответствующее значение величины Y обозначим через Y(i), 0 i n.

Итак, вы наблюдаете значения независимой X(i) и соответствующие им значения зависимой Y(i), 0 i n, и хотите оценить зависимость Y от X.

Наблюдаемые величины связаны между собой регрессионной зависимостью вида:

–  –  –

0 i n, где B1, B0 – неизвестные константы, e(i) – ненаблюдаемые случайные величины (наблюдаются только X(i), Y(i), 0 i n ) со средним 0 (как говорят, являются несмещенными) и неизвестной дисперсией, не меняющейся от опыта к опыту.

Иногда случайные величины e(i), 0 i n называют ошибками наблюдения.

Относительно e(i) предполагается, что они не коррелированны в разных опытах.

Кроме того, часто предполагается, что ошибки имеют нормальное распределение. В этом случае некоррелированность влечет независимость.

Можно рассматривать и более общие линейные модели, например, с несколькими независимыми переменными(множественная регрессия):

–  –  –

Общая задача состоит в том, чтобы по наблюдениям (X(1),Y(2)),... (X(n),Y(n)):

- оценить параметры модели B1, B0 наилучшим образом;

- построить доверительные интервалы для B1, B0 ;

- проверить гипотезу о значимости регрессии;

- оценить степень адекватности модели и т.д.

Итак, пусть наблюдаемые данные на плоскости (X,Y) имеют вид (рис.3.2 а):

–  –  –

Вы видите 7 точек с координатами: (X(1),Y(1)), (X(2),Y(2))... (X(7),Y(7)).

Представьте, перед вами стоит задача – провести прямую, максимально близко лежащую ко всем этим точкам. Будем понимать под словами «прямая, максимально близко лежащая к точкам» прямую, сумма квадратов расстояний до которой от наблюдаемых точек, вычисленное по оси Y, является минимальным.

На рисунке (Рис 3. 2. б) эта прямая проведена. Про такую линию говорят, что она построена методом наименьших квадратов.

Уравнение прямой, полученное из условия минимизации суммы квадратов отклонений, измеренных по оси Y, имеет следующий вид:

–  –  –

Данное уравнение называют также уравнением регрессии.

Оценка свободного члена B0 равна 141.124, оценка коэффициента B1 – угла наклона – равна 178.118. Эти оценки являются наилучшими оценками неизвестных параметров B0, B1, так как прямая Y = 141.124 + 178.118*Х в определенном выше смысле максимально близко проходит к наблюдаемым точкам. Такие оценки называют оценками, построенными методом наименьших квадратов, или, более кратко, оценками наименьших квадратов.

Заметим, что тот же принцип минимизации суммы квадратов отклонений сохраняется в случае, когда имеется несколько независимых переменных X 1,... X k, k 1 (только вы строите не прямую, а гиперплоскость в пространстве).

В условиях нормального распределения ошибок оценки параметров модели, построенные методом наименьших квадратов, являются оптимальными. Если распределение отличается от нормального, то свойство оптимальности может быть утрачено.

Следующие понятия используются в таблицах вывода в модуле ИС Statistica Множественная регрессия (Multiple regression).

–  –  –

Коэффициент детерминации измеряет долю разброса относительно среднего значения, которую «объясняет» построенная регрессия. Коэффициент детерминации лежит в пределах от 0 до 1. Он измеряет качество построенной регрессии. Чем ближе коэффициент детерминации к 1, тем лучше регрессия «объясняет» зависимость в данных.

Заметим, что коэффициент детерминации может максимально близко приблизиться к 1, если все предикторы различны.

В случае, если некоторые значения предикторов совпадают – имеются так называемые повторные опыты, – коэффициент детерминации не достигает 1.

Значение коэффициента детерминации возрастает с ростом числа переменных в регрессии, что не означает улучшения качества предсказания. Поэтому для оценки качества подгонки регрессионной модели к наблюдаемым значениям вводится скорректированный (adjusted) коэффициент детерминации. Различные регрессии (с различным набором переменных) можно сравнивать по этому коэффициенту и принять тот вариант регрессии, для которого он максимален.

Регрессионный анализ в системе Statistica 8.0 проводится в модуле Множественная регрессия.

–  –  –

Задача 1. Автосервисное предприятие имеет следующие данные по стоимости ежегодного технического обслуживания автомобилей определенной марки в зависимости от времени эксплуатации (табл.

3.1).

–  –  –

Найдите уравнение регрессии и проведите статистический анализ регрессионной модели.

Решение.

Ввод данных.

Шаг 1. Запустить ИС Statistica 8.0. Создать таблицу с двумя переменными и одиннадцатью случаями (строками) (Рис. 3.3).

–  –  –

Шаг 2. Проведем анализ в модуле Multiple regression (Множественная регрессия). Выберите меню Statistics (Статистика) и в выпадающем меню выберите Multiple Regression (Множественная регрессия) (рис. 3.4) Рис. 3.4. Окно программы статистика. Выбор модуля Multiple regression Как показано на рисунке 3.5, в нижнем левом углу окна нажмите на Start menu for commonly used tools (Меню Пуск для обычно используемых средств), затем выберите Statistics (Статистика) и Multiple Regression (Множественная регрессия).

–  –  –

Появится начальное окно модуля (3.6).

Рис. 3.6. Начальное окно модуля Multiple Linear Regression Шаг 3. Необходимо выбрать переменные для анализа. Для этого нажмите на кнопку Variables (Переменные) в окне на рисунке 3.7, появится окно Select

dependent and independent variable lists (Выбрать списки зависимых и независимых переменных):

–  –  –

В левой части окна выберите (нажатием левой кнопки мыши) зависимую переменную, а в правой части окна выберите независимую переменную. Или просто наберите номера переменных в строках: Dependent var.(or list of batch) (Зависимая переменная) и Independent variable list (Список независимых переменных).

В нашей задаче Y – зависимая, а Х – независимая переменная. Выбрав переменные, нажмите OK. Вы снова окажетесь в начальном окне модуля (рис.

3.8).

Мы видим, что переменные выбраны. Они появились под кнопкой Variables (Переменные): Dependent (Зависимая):Y и Independent (Независимая):X.

Шаг 4. Нажмите OK в начальном окне модуля (рис. 3.8). Программа произведет анализ параметров стандартным методом и выдаст окно результатов Multiple Regression Results (Результаты Множественной регрессии).

Рис. 3.8. Начальное окно модуля Multiple Linear Regression с уже выбранными переменными Просмотрите результаты анализа (Рис. 3.9).

–  –  –

Анализ результатов.

Окно состоит из двух основных частей: нижняя содержит функциональные кнопки, с помощью которых можно белее детально просмотреть результаты анализа, а в верхней части представлены основные параметры регрессионной модели. В верхней части окна приводятся наиболее важные параметры полученной регрессионной модели:

Dependent (зависимая переменная) – В нашем случае - Y - Стоимость тех.

1.

обслуживания No. Of cases (Число случаев) – число случаев, по которым построена регрессия - 11. Multiple R (Умножение R) - коэффициент множественной корреляции; характеризует тесноту линейной связи между зависимой и всеми независимыми переменными. Может принимать значения от 0 до 1.

R2- R-square - квадрат коэффициента множественной корреляции (коэффициент детерминации). Значение R-квадрата является индикатором степени подгонки модели к данным (значение R-квадрата близкое к 1.0 показывает, что модель объясняет почти всю изменчивость соответствующих переменных).

adjusted R2 - Adjusted R-square - скорректированный коэффициент множественной корреляции (детерминации). Скорректированный коэффициент детерминации определяется, как Adjusted R-square=1–(1–R-square)*(n/(np)), где n – число наблюдений в модели, p – число параметров модели (число независимых переменных плюс 1, так как в модель включен свободный член). Этот коэффициент лишен недостатков коэффициента множественной корреляции.

Standard error of estimate - стандартная ошибка оценки (уравнения). Эта 5.

статистика является мерой рассеяния наблюдаемых значений относительно регрессионной прямой;

Intercept (Разрыв) - свободный член уравнения. Значение коэффициента B0 6.

в уравнении регрессии;

Std.Error - стандартная ошибка свободного члена уравнения; Стандартная 7.

ошибка коэффициента В0 в уравнении регрессии;

F - F-критерий; значение F – критерия;

8.

df - число степеней свободы для F-критерия;

9.

10. p - вероятность нулевой гипотезы для F-критерия или уровень значимости;

11. t - t-критерий для свободного члена уравнения. T-критерий используется для проверки гипотезы о равенстве нулю свободного члена регрессии.

12. p - вероятность нулевой гипотезы для свободного члена уравнения.

13. X Beta - -коэффициент уравнения. Это стандартизированные регрессионные коэффициенты, рассчитанные по стандартизированным значениям переменных. По их величине можно сравнить и оценить значимость зависимых переменных, так как - коэффициент показывает на сколько единиц стандартного отклонения изменится зависимая переменная при изменении на одно стандартное отклонение независимой переменной при условии постоянства остальных независимых переменных. Свободный член в таком уравнении равен 0.

14. В нашей задаче коэффициент детерминации R2=0.92. Это отличное значение, которое означает, что построенная регрессия объясняет 92% разброса значения переменной Y относительно среднего.

Для проверки гипотезы о значимости регрессии используется F – критерий. Поэтому рассмотрим значение F – критерия и уровень значимости p. В нашем случае для проверки гипотезы, утверждающей, что между зависимой переменной Y нет линейной зависимости, то есть B1=0, против альтернативы В1 не равен 0. В нашей задаче мы имеем большое значение F – критерия =

111.2242 и уровень значимости р=0.0000, значит построенная регрессия сильно значима.

Во второй половине информационной части окна показаны коэффициенты регрессии. В нашем случае это X beta=0.962. Значимые beta в информационном окне подсвечиваются красным цветом. X beta и есть стандартизированный коэффициент B1, т.е. коэффициент при независимой переменной Х.

Шаг 5. Нажмите кнопку Summary: Regression results (Итоговая таблица регрессии) в окне на рисунке 3.10. На экране появится таблица Regression Summary for Dependent Variable: Y - результат регрессии для зависимой переменной: Y (рис. 3.10).

Рис. 3.10. Результат регрессии для зависимой переменной Y В столбце Beta показаны стандартизованные коэффициенты регрессии, а в столбце В — нестандартизованные коэффициенты. Все коэффициенты в таблице значимы, так как p-значения для каждого из них меньше заданной величины 0.05. В столбце Std.Err. of Beta (Стандартная ошибка beta) представлены стандартные ошибки beta, а в столбце Std.Err. of B (Стандартная ошибка В) представлены стандартные ошибки В.

Итак, свободный член B0=1.760544, а коэффициент В1 (при независимой Х)=0,696145.

переменной Следовательно, наша модель имеет вид Y=1.760544+0,696145*X.

Шаг 6. Теперь нужно оценить адекватность модели. Выводы об адекватности модели делаются на основании результатов анализа остатков. Остатки – это разница между наблюдаемыми значениями зависимой переменной и значениями зависимой переменной, полученными с помощью нашей модели.

Чтобы вернуться к главному окну результатов регрессии, достаточно нажать на него, как показано на рисунке 3.11:

–  –  –

И главное окно результатов регрессии снова появится на экране (рис.

В окне результатов на рисунке 3.12 нажмите на вкладку 3.12).

Residuals/assumptions/prediction (Остатки/Допущения/Прогноз) Затем нажмите на Perform residual analysis (Выполнить анализ остатков), появится окно Residual Analysis (Анализ остатков) (рис. 3.13).

Рис. 3.12. Главное окно результатов регрессии с выбранной вкладкой Residuals/assumptions/prediction Шаг 7. Для просмотра таблицы с наблюдаемыми, предсказанными значениями, а также значение остатков, достаточно в окне на рисунке 3.13 нажать на кнопку Summary:Residuals & predicted (Результат остатков и предсказанных).

–  –  –

Появится соответствующая таблица (рис. 3.14).

Рис. 3.14. Таблица результатов остатков и предсказанных значений В данной таблице на рисунке 3.14 присутствуют значения: Observed Value (Наблюдаемые значения), Predicted Value (Предсказанные значения), Residual (остатки), Standart Pred. v. (Стандартная предсказанная величина), Standard Residual (Стандартный остаток), Std. Err. Pred.Val (Стандартная ошибка предсказанной величины), Mahalanobis Distance (Расстояние Махланобиса), Deleted Residual (Удаленные остатки), Cook’s Distance (Расстояние Кука).

Шаг 8. В окне на рисунке 3. 15 перейдите на вкладку Scatterplots (Графики рассеяния). Затем нажмите на кнопку Observed vs. Resudials (Наблюдаемые/Остатки) на рисунке 3.15.

–  –  –

Появится график Observed vs. Resudials (Наблюдаемые/Остатки) (Рис.

3.16).

Рис. 3.16. График рассеяния наблюдаемых значений и остатков Чтобы посмотреть, как наблюдаемые значения связаны с предсказанными с помощью построенной модели, нужно в окне на рисунке 3.15 нажать на соответствующую кнопку Predicted vs. Observed (Предсказанные/Наблюдаемые).

Появится график Predicted vs. Observed (Предсказанные/Наблюдаемые) (рис.

3.17).

Рис. 3.17. График рассеяния наблюдаемых значений и предсказанных Из графиков видно, что модель достаточно адекватно описывает данные.

Значит, с ее помощью можно строить достаточно надежные выводы о зависимости Стоимость тех. Обслуживания(Y) от Время эксплуатации(X).

Графически результат множественной регрессии можно просмотреть, нажав кнопку Bivariate correlation (Двумерная корреляция) в окне на рисунке 3.15, на экране появится окно (рис. 3.18).

–  –  –

В данном окне необходимо выбрать переменные для осей. Выбор сделайте, как показано на рисунке 3.18. и нажмите кнопку OK. На экране появится корреляционное поле, где по оси X расположены значения остатков переменной X, а по оси Y – переменной Y (рис. 3.19).

–  –  –

Автокорреляция - корреляция ряда X с самим собой, с задержкой на k наблюдений.

Пусть X(t) - значение случайного процесса в момент времени t.

Если X(t) имеет среднее значение m и дисперсию D, то вычисление коэффициентов автокорреляции r(k) осуществляется следующим образом.

–  –  –

В статистике имеется несколько выборочных оценок теоретических значений автокорреляции r(k) процесса по конечному временному ряду из n наблюдений. Наиболее популярной оценкой является нециклический коэффициент автокорреляции с задержкой k:

–  –  –

Наиболее важным из различных коэффициентов автокорреляции является первый - r1, измеряющий тесноту связи между уровнями x(1), x(2),..., x(n -1) и x(2), x(3),..., x(n).

Последовательность коэффициентов корреляции rk, где k 1, 2,..., n, как функция интервала k между наблюдениями называется автокорреляционной функцией (АКФ).

Вид выборочной автокорреляционной функции тесно связан со структурой ряда. Автокорреляционная функция rk для "белого шума", при k 0, также образует стационарный временной ряд со средним значением 0. Для стационарного ряда АКФ быстро убывает с ростом k. При наличии отчетливого тренда автокорреляционная функция приобретает характерный вид очень медленно спадающей кривой. В случае выраженной сезонности в графике АКФ также присутствуют выбросы для запаздываний, кратных периоду сезонности, но эти выбросы могут быть завуалированы присутствием тренда или большой дисперсией случайной компоненты.

3.5. Методика решения задачи при использовании автокорреляции

Во многих практических приложениях необходимы генераторы (псевдо) случайных чисел, например для генерации секретных криптографических ключей [10]. Стандартные генераторы случайных чисел, входящие в состав библиотек многих языков программирования и прикладных программ, генерируют статистически случайные (псевдослучайные) последовательности чисел. Однако далеко не всегда они подходят для нужд криптографов, и им важно убедиться в том, что используемый генератор положительно проходит автокорреляционный тест [10]. Данный тест основан на том, что в идеальной случайной последовательности нет (либо мало) повторяющихся подпоследовательностей.

Протестировать генераторы псевдослучайных последовательностей. Получить последовательности длины N = 1000 в программе Генератор.exe по определенному методу. Сохранить в файле Autocor.sta. Рассчитать коэффициенты автокорреляции и значение стандартной ошибки автокорреляционной функции.

Построить графики автокорреляций.

Решим задачу при следующих условиях:

1. Генерирование последовательности ПСЧ с помощью функции rand().

2. Параметры для стандартной функции rand: Инициализирующая переменная-115, количество выводимых чисел-1000, генерирование матричным методом.

–  –  –

Получите последовательность с помощью программы Генератор.exe Шаг 1. Создайте новый файл Autocor.sta и заполните файл полученными данными. Запустите ИС Statistica 8.0, затем запустите модуль Временные ряды (рис. 3.20).

–  –  –

Шаг 2. После запуска модуля Временные ряды а с помощью кнопки Переменные на стартовой панели модуля выберите переменную сначала первую переменную. Теперь нажмите кнопку Arima & autocorrelation (рис.3.21).

Рис.3.21. Окно модуля Временные ряды Прежде чем оценивать параметры, надо определить их количество, т.е.

выбрать модель. Для идентификации используют автокорреляционные и частные автокорреляционные функции, доступные в этом диалоговом окне (рис.

3.22).

–  –  –

Шаг 3. Рассмотрим соответствующие автокорреляционные и частные автокорреляционные функции. Выберите вкладку Autocorrs (рис. 3.23).

Рис. 3.23. Окно Преобразования переменных Нажмите кнопку Autocorrelations, чтобы построить таблицу результатов с автокорреляциями (рис. 3.24) и график автокорреляционной функции (рис.

3.25).

–  –  –

По задаче о ноутбуках (Ноутбуки.xls) проверить зависимость цены ноутбука от его параметров (Модель ноутбука, страна-производитель, Год выпуска, Время непрерывной работы от комплекта аккумуляторов, Размер диагонали матрицы дисплея, Объем установленной видеопамяти, Вес ноутбука, Платформа, Оперативная память). Найдите уравнения регрессии.

2. Задания по автокорреляционному анализу Решить вышеописанную задачу для последовательностей, полученных одним из следующих методов:

1. Генерирование методом дихотомия.

2. Генерирование последовательности ПСЧ методом последовательного перебора.

3. Генерирование последовательности ПСЧ конгруэнтным методом.

Параметры для конгруэнтного метода следующие: Множитель L-251, начальное значение(вводимое пользователем) X- 115, Аддитивная константа N-351, делитель по модулю U-32768, количество выводимых чисел-98304.

4. Генерирование последовательности ПСЧ “клавиатурным методом”. Этот режим не требуется непосредственно выбирать, а достаточно лишь вводить символы с клавиатуры в соответствующее поле.

4. Факторный анализ Главными целями факторного анализа (ФА) являются: сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных. Поэтому факторный анализ используется или как метод сокращения данных или как метод классификации.

Факторный анализ — это выявление и обоснование действия различных признаков и их комбинаций на исследуемый процесс путем снижения их размерности. Такая задача решается, как правило, путем «сжатия» исходной информации и выделения из нее наиболее «существенной» информации, т.е. описание объектов меньшим числом обобщенных признаков, называемых факторами.

<

При использовании методов факторного анализа решаются следующиезадачи:

1) отыскание скрытых, но объективно существующих закономерностей исследуемого процесса, определяемых воздействием внутренних и внешних причин;

2) описание изучаемого процесса значительно меньшим числом факторов по сравнению с первоначально взятым количеством признаков;

3) выявление первоначальных признаков, наиболее тесно связанных с основными факторами;

4) прогнозирование процесса на основе уравнения регрессии, построенного по полученным факторам.

4.1 Модель факторного анализа

Задача состоит в выявлении общих факторов (обобщенных признаков) и определении их как существенных характеристик анализируемых данных. Для проведения факторного анализа получил развитие метод, основанный на матричных преобразованиях. В качестве исходных данных для него служат результаты корреляционного анализа признаков, представленных в виде матрицы их выборочных попарных коэффициентов корреляции, обозначаемой как R.

Модель факторного анализа имеет вид:

–  –  –

где F1, F2,..., Fk - общие факторы; U j - характерный фактор; a j1, a j 2,..., a jk факторные нагрузки, характеризующие существенность влияния каждого фактора; d j - нагрузка характерного фактора; l - число исходных переменных в модели. Модель предполагает, что каждый из признаков (параметров z j ) может быть представлен в виде линейной комбинации небольшого числа общих факторов F1, F2,..., Fk ( k l ) и характерного фактора U j.

Результаты ФА удобно представить в виде табл. 4.1, в которой факторные нагрузки представлены в виде матрицы A (a ji ), j 1, l, i 1, k, каждая строка которой соответствует параметру z j, а столбец - фактору Fi, i 1, k. Общность

h 2 есть сумма квадратов факторных нагрузок:

j

–  –  –

Замечание. Факторные нагрузки указывают на корреляции параметров с соответствующими факторами и дают основание для их наименования (идентификации). При подборе факторам подходящего названия руководствуются значениями факторных нагрузок. Однако задачей ФА как раздела математической статистики не является присвоение названий факторам.

Отметим, что если для дальнейшего анализа оставить все найденные параметры, то будет использована вся информация, заложенная в матрице R. Это позволяет точно аппроксимировать корреляции между параметрами. Однако на практике обычно оставляют небольшое число компонент (параметров), особенно, если на их долю приходится достаточно большой процент суммарной дисперсии параметров.

Среди методов ФА широкое распространение получили, в частности, методы главных факторов и главных компонент.

–  –  –

Оценивание производится либо методом максимального правдоподобия, либо центроидным методом.

Центроидный метод (Centroid method). Этот метод основан на предположении о том, что каждый из исходных признаков X j, j 1, m, может быть представлен как функция небольшого числа общих факторов F1, F2, …, Fk и характерного фактора U j. При этом считается, что каждый общий фактор имеет существенное значение для анализа всех исходных признаков, т.е. фактор F j - общий для всех X 1, X 2, …, X m. В то же время изменения в характерном факторе U j воздействуют на значения только соответствующего признака X j.

Таким образом, характерный фактор U j отражает ту специфику признака X j, которая не может быть выражена через общие факторы.

Основные предположения факторного анализа связаны с допущением о линейности связи исходных признаков с факторами

–  –  –

Общие факторы F1, F2, …, Fk в модели предполагаются независимыми стандартизованными показателями, распределенными по нормальному закону;

характерные факторы U 1, U 2, …, U m рассматривают как некоррелированные стандартизованные показатели, независящие от общих факторов; числа a ji, i 1, k, j 1, m, - факторные нагрузки, а числа d j, j 1, m, оценивают степень влияния характерного фактора U j на X j. Исходные признаки также считаются стандартизованными переменными с нормальным распределением.

Задачу факторного анализа можно сформулировать следующим образом:

определить минимальное число k таких факторов F1, F2, …, Fk после учета которых исходная корреляционная матрица “исчерпается”, внедиагональные элементы ее станут близкими к нулю. Другими словами, это значит, что после учета k факторов все остаточные корреляции между исходными признаками должны стать незначимыми.

–  –  –

В основе модели для выражения исходных признаков через факторы здесь лежит предположение о том, что число общих факторов равно числу исходных признаков (k=m), а характерные факторы вообще отсутствуют:

–  –  –

где Fi, i 1, m, обладает теми же свойствами, что и в модели (4.3).

Очевидно, уравнения (4.4) определяют здесь систему преобразования одних параметров в другие. Поскольку число общих факторов равно числу исходных параметров, задача искомого преобразования решается однозначно, т.е.

факторные нагрузки определяются в этом методе однозначно.

Каждая из переменных Fi называется здесь i-й главной компонентой. Метод главных компонент состоит в построении факторов - главных компонент, каждый из которых представляет линейную комбинацию исходных признаков.

Первая главная компонента F1 определяет такое направление в пространстве исходных признаков, по которому совокупность объектов (точек) имеет наибольший разброс (дисперсию). Вторая главная компонента F2 строится с таким расчетом, чтобы ее направление было ортогонально направлению F1 и она объясняла как можно большую часть остаточной дисперсии, и т.д. вплоть до i-й главной компоненты Fm. Так как выделение главных компонент происходит в убывающем порядке с точки зрения доли объясняемой ими дисперсии, то признаки, входящие в первую главную компоненту с большими коэффициентами a1i, i 1, m, оказывают максимальное влияние на дифференциацию изучаемых объектов.

Достаточное число компонент (факторов) определяется здесь обычно на основе некоторого заданного уровня объясненной дисперсии исходных признаков с помощью факторов.

Анализ главных компонент является методом сокращения или редукции данных, т.е. методом сокращения числа переменных. Возникает естественный вопрос: сколько факторов следует выделять? Отметим, что в процессе последовательного выделения факторов они включают в себя все меньше и меньше изменчивости. Решение о том, когда следует остановить процедуру выделения факторов, главным образом зависит от точки зрения на то, что считать малой "случайной" изменчивостью.

4.4. Задача о количестве факторов.

Как только получена информация о том, сколько дисперсии выделил каждый фактор, необходимо определить количество факторов. По своей природе это решение произвольно. Однако имеются некоторые общеупотребительные рекомендации, и на практике следование им дает наилучшие результаты.

Критерий Кайзера. Сначала вы можете отобрать только факторы, с собственными значениями, большими 1. По существу, это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается. Этот критерий предложен Кайзером (Kaiser, 1960), и является, вероятно, наиболее широко используемым. В приведенном выше примере на основе этого критерия вам следует сохранить только 2 фактора (две главные компоненты).

Критерий каменистой осыпи является графическим методом, впервые предложенным Кэттелем. Собственные значения, представляются в виде простого графика. Кэттель предложил найти такое место на графике, где убывание собственных значений слева направо максимально замедляется. Предполагается, что справа от этой точки находится только "факториальная осыпь".

На рис. 4.1, согласно критерию Кайзера выделено два, а по критерию каменистой осыпи - три фактора.

–  –  –

Вращение факторной структуры Задача вращения общих факторов решается с целью улучшения их интерпретируемости. Факторные нагрузки могут быть изображены в виде диаграммы рассеяния, на которой каждая переменная представлена точкой. Можно повернуть оси в любом направлении без изменения относительного положения точек. При этом действительные координаты точек, то есть факторные нагрузки, изменяются.

Методы вращения. Существуют различные методы вращения факторов.

Целью этих методов является получение понятной (интерпретируемой) матрицы нагрузок, то есть факторов, которые ясно отмечены высокими нагрузками для некоторых переменных и низкими - для других. Эту общую модель иногда называют простой структурой (более формальное определение можно найти в стандартных учебниках). Типичными методами вращения являются стратегии варимакс, квартимакс, и эквимакс.

Дисперсия квадратов факторных нагрузок переменной есть мера факторной сложности этой переменной:

–  –  –

где r - число столбцов факторной матрицы; bij - факторная нагрузка j-го фактора на i-ую переменную; bij - среднее значение квадратов факторных нагрузок в i-ой строке, n – число переменных.

Использование критерия кваримакс основано на вращении осей таким образом, чтобы результирующие факторные нагрузки максимизировали q.

Вращение по методу варимакс использует другой критерий. Вместо дисперсии квадратов нагрузок переменной рассматривается дисперсия квадратов нагрузок фактора. Формула критерия варимакс совпадает с (4.5).

Метод эквимакс представляет собой комбинацию методов варимакс и квартимакс.

Форма представления результатов факторного анализа Основные результаты факторного анализа выражаются в наборах факторных нагрузок и факторных весов. Можно оценить действительные значения факторов для отдельных наблюдений. Эти значения используются, когда желают провести дальнейший анализ факторов.

–  –  –

Социологи при изучении степени удовлетворенности жизнью включили 10 пунктов для измерения различных аспектов удовлетворенности домашней жизнью, работой и увлечениями. Необходимо провести анализ главных компонент. Выделить коррелированные переменные, выявить факторы.

–  –  –

Шаг 2. Анализ в модуле Factor Analysis (Факторный анализ).

Выберите меню Statistics (Статистика), в выпадающем меню выберете Multivariate Exploratory Techniques (Многомерные разведочные технологии анализа), затем выберите Factor Analysis (Факторный анализ) (Рис.

4.3):

Рис. 4.3. Окно программы статистика. Выбор модуля Factor Analysis Или, как показано на рисунке 4.4, в нижнем левом углу окна нажмите на Start menu for commonly used tools (Меню Пуск для обычно используемых средств), затем выберите Statistics (Статистика), Multivariate Exploratory Techniques (Многомерные разведочные технологии анализа) и Factor Analysis (Факторный анализ).

–  –  –

Шаг 6. Необходимо выбрать переменные для анализа. Для этого нажмите на кнопку Variables (Переменные) в окне на рисунке 4.6, появится окно Select

the variables for the factor analysis (Выбрать переменные для факторного анализа):

<

–  –  –

Удерживая клавишу CTRL или SHIFT, поочередно нажимайте левой кнопкой мыши на переменные в списке или внизу окна укажите номера переменных, как показано на рисунке 4.6.

Выбрав переменные, нажмите OK.

Вы снова окажетесь в начальном окне модуля (Рис.4.7):

–  –  –

Мы видим, что переменные выбраны. Справа от кнопки Variables: появилось слово ALL (ВСЕ), что означает выбор всех переменных.

Шаг 7. Нажмите OK в начальном окне модуля. Программа произведет выборку переменных и выдаст окно Define Method of Factor Extraction (Определение метода для выделения факторов) (Рис.

4.8):

–  –  –

Как видно на рисунке 4.8, окно состоит из двух частей информационная и функциональная. В информационной части можно увидеть число обработанных случаев - 20, число случаев, принятых для дальнейшего анализа - 20, что вычислена корреляционная матрица для 6 переменных.

Во вкладке Quick можно задать Maximum no. of factors (максимальное число факторов) и Minimum eigenvalue (минимальное собственное значение).

Рис. 4.9. Окно выбора метода выделения факторов. Вкладка Advanced.

Во вкладке Advanced (Дополнительно) на рисунке 4.9 можно выбрать метод выделения факторов:

1. Principle components (Метод главных компонент)

2. Communalities=multiple R? (Общности равны квадрату коэффициента множественной корреляции)

3. Iterated commun. (MINRES) (Итеративных общностей (минимальных остатков))

4. Maximum likelihood factors (Максимального правдоподобия)

5. Centroid method (Центроидный метод)

6. Principal axis method (метод главных осей) Выберите Метод главных компонент (Principle components).

–  –  –

Во вкладке Descriptives (Описательные статистики) на рисунке 4.10 можно, нажав на кнопку Review correlations, means, standard deviation, просмотреть корреляцию переменных, средние значения и стандартные отклонения, а при помощи кнопки Perform multiple regression (Выполнить множественную регрессию) можно произвести регрессионный анализ, не выходя из текущего модуля.

Шаг 8. Нажмите на кнопку ОК в оке на рисунке 4.10. Появится окно результатов факторного анализа на рисунке 4.11:

–  –  –

Просмотрите результаты анализа.

Окно состоит из двух основных частей: нижняя содержит функциональные кнопки, с помощью которых можно более детально просмотреть результаты анализа, а в верхней части представлена основная информация факторного анализа:

В верхней части окна приводятся наиболее важные параметры полученного анализа:

1. Number of variables (число переменных) = 10

2. Method (Метод) – Principals components (Метод главных компонент)

3. log(10) determinant of correlation matrix (детерминант корреляционной матрицы) = -4.1096

4. Number of factors extracted (число выделенных факторов) = 2

5. Eigenvalues (собственные значения) = 6,11837 и 1,80068 Шаг 9. Нажмите кнопку Eigenvalues (Собственные значения) в окне на рисунке 4.11. На экране появится таблица Eigenvalues (Собственные значения) рисунок 4.12:

–  –  –

Первый столбец рисунка 4.12 – это собственные значения, второй – процент общей дисперсии, третий – кумулятивные или накопленные собственные значения (собственные значения просто суммируются - накапливаются), четвертый – кумулятивный процент дисперсии.

Итак, первый фактор объясняет 61.18 процента общей дисперсии, а второй фактор – 18.006%.

По критерию Кайзера отбираются только факторы, с собственными значениями, большими 1.

Шаг 10.

Для просмотра графика собственных значений нужно, находясь в окне результатов на рисунке 4.11, перейти на вкладку Explained variance и затем нажать на кнопку Scree plot, как показано на рисунке 4.13:

–  –  –

Шаг 11. Для просмотра таблицы общностей, находясь в окне на рисунке 4.13, нажмите на кнопку Communalities (Общности) Появится соответствующая таблица (Рис.

4.15):

Рис. 4.15. Таблица общностей Первые два столбца таблицы (From 1 Factor и From 2 Factors) – это общности для факторного решения, состоящего из двух факторов. А последний столбец (Multiple R-Square) – это квадрат коэффициента множественной корреляции.

Шаг 12. Теперь рассмотрим значения факторных нагрузок. Для этого на рисунке 4.16, находясь во вкладке Quick, нажмите на кнопку Summary: Factor

loadings (Результат: Факторные нагрузки):

Рис. 4.16. Значения факторных нагрузок

В этой таблице факторам соответствуют столбцы, а переменным – строки и для каждого фактора указывается нагрузка каждой исходной переменной, показывающая относительную величину проекции переменной на факторную координатную ось. Факторные нагрузки могут интерпретироваться как корреляции между соответствующими переменными и факторами – чем выше нагрузка по модулю, тем больше близость фактора к исходной переменной; т.о., они представляют наиболее важную информацию для интерпретации полученных факторов. В сгенерированной таблице для облегчения трактовки красным будут выделены факторные нагрузки по абсолютной величине больше 0,7.

По-видимому, первый фактор более коррелирует с переменными, чем второй. Их трудно проинтерпретировать, возникает вопрос, какой смысл придать второму фактору. В этом случае целесообразно прибегнуть к повороту осей, надеясь получить решение, которое можно интерпретировать в предметной области.

Щелкните по меню Factor rotation (Вращение факторов) (рис. 4.11).

Цель вращения – получение простой структуры, при которой большинство наблюдений находится вблизи осей координат. При случайной конфигурации наблюдений невозможно получить простую структуру.

В статистике есть следующие методы вращения:

–  –  –

Biquartimax - биквартимакс Quartimax - квартимакс Equartimax – эквимакс Приставки normalized означает, что вращаемые нагрузки нормализированные, а raw – ненармализованные. Эти методы выбираются в окне на рисунке

4.17 Factor rotation (Вращение фактора), по умолчанию стоит значение Unrotated (Нет вращения).

–  –  –

Теперь найденное решение уже можно интерпретировать. Факторы чаще интерпретируют по нагрузкам. Первый фактор теснее всего связан с работой, хобби и увлечениями, второй фактор – домашней жизнью. Таким образом, произвели классификацию переменных на две группы.

Возникает вопрос:

сколькими же факторами следует ограничиваться на практике?

Для этого в программном пакете Statistica существует критерий Scree plot (Критерий каменистой осыпи). В окне Factor Analysis Results нажмите кнопку Scree plot получите следующий график собственных значений.

Появится график Plot of Eigenvalues (Собственные значения), так же данный график называют графиком каменистой осыпи (из-за формы графика) (

Рис. 4.18):

Рис. 4.18. График собственных значений В точках с координатами 1,2 осыпание замедляется наиболее существенно, следовательно теоретически можно ограничится двумя факторами.

Также можно просмотреть факторные нагрузки в графическом виде. В окне на рисунке 4.11 нажмите на кнопку Plot of factor loadings, 2D. Появится график (Рис.

4.19):

–  –  –

Итак, выделены два скрытых фактора, которые описывают все переменные: Фактор 1 описывает домашнюю жизнь, фактор 2 – увлечения, хобби и работу. Работа может быть выделена и в отдельный третий фактор.



Pages:   || 2 |


Похожие работы:

«УДК 371 Х. Р. Кадырова ИНТЕГРАЦИЯ КАК ОСНОВА ПОСТРОЕНИЯ МНОГОУРОВНЕВОЙ МОДЕЛИ ПОДГОТОВКИ СПЕЦИАЛИСТОВ ДЛЯ МАШИНОСТРОИТЕЛЬНОЙ ОТРАСЛИ Ключевые слова: интеграция, региональный рынок труда, профессиональное образование, машиностроите...»

«УДК 633.34 ОПТИМАЛЬНЫЕ ВАРИАНТЫ ОБРАБОТОК ПОЧВЫ ПОД ПОСЕВЫ СОИ В РАЗЛИЧНЫХ ПРИРОДНО-КЛИМАТИЧЕСКИХ УСЛОВИЯХ И ИХ ВЛИЯНИЕ НА АКТИВНОСТЬ СИМБИОТИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ И ПОКАЗАТЕЛИ СТРУКТУРЫ УРОЖАЯ Х.А. Хамоков 1, В.Х. Мишхожев 2 доктор сельскохозяйственных наук, профессор, 2 кандидат техническ...»

«И. В. Яковлев | Материалы по физике | MathUs.ru Простые механизмы Темы кодификатора ЕГЭ: простые механизмы, КПД механизма. Механизм это приспособление для преобразования силы (её увеличения или уменьшения). Простые механизмы это рычаг и наклонная плоскость. Рычаг Рычаг...»

«Современные проблемы дистанционного зондирования Земли из космоса. 2015. Т. 12. № 6. С. 59–68 Дистанционные методы в изучении коэффициента излучения поверхности по данным многозональной съемки...»

«ГОСТ 30643-98 УДК 624.042.5[083.74] Группа Ж39 МЕЖГОСУДАРСТВЕННЫЙ СТАНДАРТ КОНСТРУКЦИИ СТРОИТЕЛЬНЫЕ С ТЕПЛОВОЙ ИЗОЛЯЦИЕЙ Метод определения санитарно-химических характеристик BUILDING STRUCTURES WITH TH...»

«УЧЕНЫЕ ЗАПИСКИ №7, 2012 И. Н. Мисанова Анализ основных направлений государственного регулирования в рыночных условиях Аннотация: в контексте исследования финансового взаимодействия государства с коммерческими организациями важным представляется анализ, методы и способы изложенных методологических положений и ко...»

«ГОЛУБЕВ СЕРГЕЙ ВЛАДИМИРОВИЧ ФОРМИРОВАНИЕ ОРГАНИЗАЦИОННОЭКОНОМИЧЕСКОГО МЕХАНИЗМА УПРАВЛЕНИЯ ПРОИЗВОДСТВЕННЫМ РИСКОМ В СЕЛЬСКОХОЗЯЙСТВЕННЫХ ОРГАНИЗАЦИЯХ Специальность 08.00.05 экономика и управ...»

«УДК 357.758.2 ОБЗОР ЗАРУБЕЖНОГО ОПЫТА СОЗДАНИЯ ТЕХНОПАРКОВЫХ СТРУКТУР Максимова О. В. Сибирский федеральный университет Исследование опыта зарубежных стран позволяет прийти к выводу, что обеспечение экономического роста и конкурентоспособности экономики в современных условиях требует создания соответствующих мето...»

«ИТОГОВАЯ ГОСУДАРСТВЕННАЯ АТТЕСТАЦИЯ УЧЕБНО-МЕТОДИЧЕСКОЕ ПОСОБИЕ по подготовке к государственным экзаменам, подготовке и защите выпускной квалификационной (дипломной) работы для студентов гуманитарного факультета по специальности...»

«Чан Зуи ГОСУДАРСТВЕННЫЙ КОНТРОЛЬ НАД ИНТЕРНЕТ-СРЕДСТВАМИ МАССОВОЙ КОММУНИКАЦИИ ВО ВЬЕТНАМЕ В статье рассматривается государственная политика Вьетнама в регулировании интернет-средств массовой коммуникации. Автор изучает 2 способа государственного контроля над сетевы...»

«ХОРА. 2008. № 3 От аналитики Хайдеггера к психоанализу Фрейда: место das Man в истерической структуре Д.А. Ольшанский Группа Лакановского Психоанализа (Санкт-Петербург) 198261 г. Санкт-Петербург, а/я 16 Случай Доры впервые открывает феномен переноса в клинической практике Фрейда. Хотя эт...»

«ISSN 0202-5493.МАСЛИЧНЫЕ КУЛЬТУРЫ. культура многостороннего использования Научно-технический бюллетень Всероссийского с потенциалом урожайности до 2,5 т/га. научно-исследовательского института ма...»

«Министерство сельского хозяйства российской федерации Федеральное государственное образовательное учреждение высшего профессионального образования «Саратовский государственный аграрный университет имени Н.И. Вавилова»ТЕХНОЛОГИЯ И МАШИНЫ ЛЕСОЗАГОТОВОК И ЛЕСНОГО ХОЗЯЙСТВА Краткий курс лекций для аспирантов 2 курса Н...»

«Строительство уникальных зданий и сооружений. ISSN 2304-6295. 3 (30). 2015. 49-63 journal homepage: www.unistroy.spb.ru Категоризация загородного жилья Ю.П. Дунаевская, М.Ю. Алексеев, Т.Л. Симанк...»

«РАЗРАБОТАНА УТВЕРЖДЕНА Кафедрой общей психологии и Ученым советом факультета психологии развития психологии 05.03.2015, протокол №9 11.03.2015, протокол №12 ПРОГРАММА ВСТУПИТЕЛЬНОГО ЭКЗАМЕНА для поступающих на обучение по программам подготовки научнопедагогических кадров в аспирантуре в 2015 году...»

«Виктор ПАТАРА НЕКОТОРЫЕ ВОПРОСЫ ИЗЪЯТИЯ И АРЕСТА ИМУЩЕСТВА В статье рассматриваются вопросы проведения мер обеспечения административного процесса, таких как наложение ареста на иму­ щество и изъятие вещей и документов. В работе приводятся неко­ торые технические аспекты, возникающие в ходе проведения э...»

«354 А. П. Мотренко Оценка необходимого объема выборки пациентов при прогнозировании сердечно-сосудистых заболеваний А. П. Мотренко pastt.petrovna@gmail.com Московский физико-технический институт, ФУПМ, каф. ”Интеллектуальные системы” В работе описан алгори...»

«+7(4722)40-00-60 ТЕХНОГАЗ texnogaz.ru Усилитель трансляционный AС-100 texnogaz.ru Руководство по эксплуатации +7(4722)40-00-60 ТЕХНОГАЗ texnogaz.ru Содержание 1.Описание и работа усилителя.3 1.1.Назначение усилителя..3 1.2.Технические характеристики.3 1.3.Устройство и работа усилителя.4 1.4.Маркировка усилителя.6 2.Использование усилителя по на...»

«ПОЭТИКА ТЕКСТА ЛОГИЧЕСКИЙ И СИНТАКСИЧЕСКИЙ АСПЕКТЫ РАЗГРАНИЧЕНИЯ СИМВОЛА И МЕТАФОРЫ В ПОЭТИЧЕСКОМ ТЕКСТЕ И.В. Якушевич Кафедра русского языка и методики Московский гуманитарный педагогический институт Ходынский бул., 21А, Москва, Россия, 1252...»

«Аппарат пневматический для замены масла в АКПП (инструкция/паспорт по эксплуатации) GA-322 Технические характеристики Позиция Описание Функции Удаляет, чистит, служит для замены жидкости во всех типах и моделях автоматических коробок передач, передач гидравлического крутящего момента, радиаторов коробки Рабочее давление 70 9...»

«Государственное образовательное учреждение высшего профессионального образования «Липецкий государственный технический университет» «УТВЕРЖДАЮ» Декан экономического факультета В.В. Московцев » _ 2011 г. « РАБОЧАЯ ПРОГРАММА ДИСЦИПЛ...»










 
2017 www.pdf.knigi-x.ru - «Бесплатная электронная библиотека - разные матриалы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.