Бизнес-анализ информации. Статистические методы: Учебник
Предлагаемая книга является учебником по анализу экономической информации с использованием пакета SPSS. Она предназначена в первую очередь для магистрантов, обучающихся по специальности "Информационные системы в бизнесе" экономического факультета СПбГУ, а также для магистрантов и студентов всех экон
СОДЕРЖАНИЕ
1. ВВЕДЕНИЕ 7
Переменные и наблюдения 9
Зависимые и независимые переменные 10
Кодирование данных опроса 12
Шкалирование 14
Описание и ввод данных 21
Работа с пропущенными данными 32
Копирование и импорт данных из Microsoft Excel 34
Сохранение файла 38
Открытие данных из баз данных 38
Открытие данных, хранящихся в текстовых файлах 43
2. РАБОТА С ДАННЫМИ 48
Фильтрация данных 48
Сортировка данных 51
Вычисление новых переменных 52
Использование функций 54
Перекодирование данных 56
Создание одной категории из нескольких 56
Создание категориальной переменной из количественной 58
Создание категориальной переменной из количественной для большого числа наблюдений 62
Создание и редактирование диаграмм 68
Стандартные диаграммы 68
Столбиковая диаграмма 68
Круговая диаграмма 77
Ящиковые диаграммы 80
Редактирование стандартной диаграммы 82
Отображение меток на диаграмме 82
Удаление меток на диаграмме 83
Изменение внешнего вида элементов диаграммы 84
Создание интерактивных диаграмм 85
Редактирование интерактивной диаграммы 88
Изменение внешнего вида диаграммы 89
OLAP Кубы 90
Создание OLAP Кубов 92
3. ОПИСАТЕЛЬНЫЕ СТАТИСТИКИ 97
Описательные статистики качественных переменных 97
Описательные статистики количественных переменных 103
Нормальное распределение 112
4. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ 135
Основные понятия проверки статистических гипотез 135
Определение гипотезы 136
Ошибки первого и второго рода 138
Уровень значимости 139
Ошибка второго рода и мощность 140
Алгоритм проверки статистических гипотез (типичный случай) 140
Проверка гипотез о центрах распределений 142
Проверка нормальности распределения случайной величины 143
Выбор статистики, используемой в качестве центра распределения 153
Парные и независимые выборки 155
Сравнение медиан выборок 159
5. АНАЛИЗ КАЧЕСТВЕННЫХ ПЕРЕМЕННЫХ. ТАБЛИЦЫ СОПРЯЖЕННОСТИ 177
Критерий Хи-квадрат 177
6. КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ 188
Исследование взаимосвязей с помощью диаграмм рассеяния и корреляций 190
Функциональная и статистическая зависимость 190
Диаграммы рассеяния 193
Некоторые приемы работы с диаграммами рассеяния 196
Коэффициент корреляции 198
Коэффициент корреляции и диаграмма рассеяния 201
Вычисление коэффициента корреляции в SPSS 205
Типичные ошибки при корреляционном анализе 209
Простая линейная регрессия 213
Множественная регрессия 223
7. ДИСПЕРСИОННЫЙ АНАЛИЗ 245
Однофакторный дисперсионный анализ 246
8. ИЕРАРХИЧЕСКИЙ КЛАСТЕРНЫЙ АНАЛИЗ 254
Этапы кластерного анализа 255
Проблема интерпретации результатов 259
Расстояние между объектами и меры близости 286
Расстояние между кластерами 289
9. ДИСКРИМИНАНТНЫЙ АНАЛИЗ 293
10. ФАКТОРНЫЙ АНАЛИЗ 309
Практическое применение факторного анализа 309
Факторный анализ как метод сокращения размерности массива данных 309
Факторный анализ как метод выявления структуры зависимости в данных 311
Факторный анализ при описании характеристик, не поддающихся непосредственному измерению 312
Проведение факторного анализа 312
11. CONJOINT (совместный анализ) 338
Глоссарий 371
Литература 373
1. ВВЕДЕНИЕ 7
Переменные и наблюдения 9
Зависимые и независимые переменные 10
Кодирование данных опроса 12
Шкалирование 14
Описание и ввод данных 21
Работа с пропущенными данными 32
Копирование и импорт данных из Microsoft Excel 34
Сохранение файла 38
Открытие данных из баз данных 38
Открытие данных, хранящихся в текстовых файлах 43
2. РАБОТА С ДАННЫМИ 48
Фильтрация данных 48
Сортировка данных 51
Вычисление новых переменных 52
Использование функций 54
Перекодирование данных 56
Создание одной категории из нескольких 56
Создание категориальной переменной из количественной 58
Создание категориальной переменной из количественной для большого числа наблюдений 62
Создание и редактирование диаграмм 68
Стандартные диаграммы 68
Столбиковая диаграмма 68
Круговая диаграмма 77
Ящиковые диаграммы 80
Редактирование стандартной диаграммы 82
Отображение меток на диаграмме 82
Удаление меток на диаграмме 83
Изменение внешнего вида элементов диаграммы 84
Создание интерактивных диаграмм 85
Редактирование интерактивной диаграммы 88
Изменение внешнего вида диаграммы 89
OLAP Кубы 90
Создание OLAP Кубов 92
3. ОПИСАТЕЛЬНЫЕ СТАТИСТИКИ 97
Описательные статистики качественных переменных 97
Описательные статистики количественных переменных 103
Нормальное распределение 112
4. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ 135
Основные понятия проверки статистических гипотез 135
Определение гипотезы 136
Ошибки первого и второго рода 138
Уровень значимости 139
Ошибка второго рода и мощность 140
Алгоритм проверки статистических гипотез (типичный случай) 140
Проверка гипотез о центрах распределений 142
Проверка нормальности распределения случайной величины 143
Выбор статистики, используемой в качестве центра распределения 153
Парные и независимые выборки 155
Сравнение медиан выборок 159
5. АНАЛИЗ КАЧЕСТВЕННЫХ ПЕРЕМЕННЫХ. ТАБЛИЦЫ СОПРЯЖЕННОСТИ 177
Критерий Хи-квадрат 177
6. КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ 188
Исследование взаимосвязей с помощью диаграмм рассеяния и корреляций 190
Функциональная и статистическая зависимость 190
Диаграммы рассеяния 193
Некоторые приемы работы с диаграммами рассеяния 196
Коэффициент корреляции 198
Коэффициент корреляции и диаграмма рассеяния 201
Вычисление коэффициента корреляции в SPSS 205
Типичные ошибки при корреляционном анализе 209
Простая линейная регрессия 213
Множественная регрессия 223
7. ДИСПЕРСИОННЫЙ АНАЛИЗ 245
Однофакторный дисперсионный анализ 246
8. ИЕРАРХИЧЕСКИЙ КЛАСТЕРНЫЙ АНАЛИЗ 254
Этапы кластерного анализа 255
Проблема интерпретации результатов 259
Расстояние между объектами и меры близости 286
Расстояние между кластерами 289
9. ДИСКРИМИНАНТНЫЙ АНАЛИЗ 293
10. ФАКТОРНЫЙ АНАЛИЗ 309
Практическое применение факторного анализа 309
Факторный анализ как метод сокращения размерности массива данных 309
Факторный анализ как метод выявления структуры зависимости в данных 311
Факторный анализ при описании характеристик, не поддающихся непосредственному измерению 312
Проведение факторного анализа 312
11. CONJOINT (совместный анализ) 338
Глоссарий 371
Литература 373
1. ВВЕДЕНИЕ
Предлагаемая книга является учебником по статистическому анализу с использованием пакета SPSS. Она предназначена для магистрантов, обучающихся по специальности "Информационные системы в бизнесе" экономического факультета СПбГУ, а также для всех, кто по роду своей деятельности анализирует экономические данные.
Отметим особенности данной книги. Авторами были предприняты специальные усилия, чтобы не дублировать существующую литературу.
С одной стороны, математические модели, изучаемые в книге, описываются скорее качественно, излагается только идея метода. Одновременно с этим ссылки на учебники по математической статистике позволят заинтересованному читателю восстановить пробелы. Тем самым удается избежать дублирования существующих текстов и потенциально описать математические модели с максимально возможной полнотой. В качестве основного учебника была выбрана книга авторов С.А. Айвазяна, В.С. Мхитаряна "Прикладная статистика и основы эконометрики".
С другой стороны, в книге нет полного описания функций пакета SPSS. Такие сведения можно найти, например, в книге А. Бююль, П. Цефель "SPSS: искусство обработки информации". От читателя не требуется предварительного изучения указанных выше книг. Для освоения материала, изложенного в книге, требуется владение математической статистикой в объеме семестрового курса и знание основ работы с операционной системой Windows.
Существование хороших пособий по математической статистике и пакету SPSS, изданных на русском языке, позволило авторам сконцентрировать изложение на приемах, которые помогают при интерпретации результатов работы статистических процедур.
Поясним на примере. Несложно научиться принуждать использовать пакет SPSS к проведению факторного анализа конкретного набора данных. Гораздо сложнее ответить на следующие вопросы:
Сколько факторов надо оставить в модели?
Какие из исходных переменных стоит исключить из факторной модели?
Применим ли факторный анализ для анализируемого набора данных?
Какие именно приемы помогут при интерпретации факторов в конкретном случае?
Разумные ответы на подобные вопросы крайне важны для успешного применения модели. Они касаются интерпретации результатов и не обсуждаются в известной авторам русскоязычной литературе.
Кроме факторного анализа в книге рассматриваются:
подготовка и преобразование данных в SPSS;
визуализация, редактирование графиков;
проверка статистических гипотез: сравнение центров распределений;
линейный регрессионный анализ;
совместный (Coinjoint) анализ;
дисперсионный анализ;
дискриминантный анализ;
кластерный анализ.
Обсуждение проводится в ходе анализа задач экономического характера.
Выбор пакета SPSS обусловлен тем, что в России он чаще используется для анализа экономической информации, чем пакеты Statistica, SAS, S-Plus. Существенным аргументом при выборе программного средства для авторов было также то, что Санкт-Петербургский государственный университет обладает лицензионной версией именно SPSS. В книге используется англоязычный вариант программы SPSS (версия 13), но для всех команд и диалоговых окон приведены соответствующие команды из русифицированной версии.
Весь материал проиллюстрирован примерами, заимствованными из практики. Каждая часть пособия содержит контрольные вопросы и упражнения. В конце книги вы найдете словарь используемых терминов. В приложении приведены данные, обсуждавшиеся в книге.
Авторы предлагают слушателям магистерских программ и исследователям, знакомым с основным курсом статистики, пропустить начальные главы книги, связанные с описанием шкал и кодированием. Тем не менее мы сочли возможным включить обсуждение таких базовых понятий в книгу для того, чтобы и менее опытные читатели смогли использовать в своей деятельности возможности пакета SPSS.
Данные для примеров и упражнений расположены на сайте экономического факультета СПбГУ http:\\www.econ.pu.ru
Предлагаемая книга является учебником по статистическому анализу с использованием пакета SPSS. Она предназначена для магистрантов, обучающихся по специальности "Информационные системы в бизнесе" экономического факультета СПбГУ, а также для всех, кто по роду своей деятельности анализирует экономические данные.
Отметим особенности данной книги. Авторами были предприняты специальные усилия, чтобы не дублировать существующую литературу.
С одной стороны, математические модели, изучаемые в книге, описываются скорее качественно, излагается только идея метода. Одновременно с этим ссылки на учебники по математической статистике позволят заинтересованному читателю восстановить пробелы. Тем самым удается избежать дублирования существующих текстов и потенциально описать математические модели с максимально возможной полнотой. В качестве основного учебника была выбрана книга авторов С.А. Айвазяна, В.С. Мхитаряна "Прикладная статистика и основы эконометрики".
С другой стороны, в книге нет полного описания функций пакета SPSS. Такие сведения можно найти, например, в книге А. Бююль, П. Цефель "SPSS: искусство обработки информации". От читателя не требуется предварительного изучения указанных выше книг. Для освоения материала, изложенного в книге, требуется владение математической статистикой в объеме семестрового курса и знание основ работы с операционной системой Windows.
Существование хороших пособий по математической статистике и пакету SPSS, изданных на русском языке, позволило авторам сконцентрировать изложение на приемах, которые помогают при интерпретации результатов работы статистических процедур.
Поясним на примере. Несложно научиться принуждать использовать пакет SPSS к проведению факторного анализа конкретного набора данных. Гораздо сложнее ответить на следующие вопросы:
Сколько факторов надо оставить в модели?
Какие из исходных переменных стоит исключить из факторной модели?
Применим ли факторный анализ для анализируемого набора данных?
Какие именно приемы помогут при интерпретации факторов в конкретном случае?
Разумные ответы на подобные вопросы крайне важны для успешного применения модели. Они касаются интерпретации результатов и не обсуждаются в известной авторам русскоязычной литературе.
Кроме факторного анализа в книге рассматриваются:
подготовка и преобразование данных в SPSS;
визуализация, редактирование графиков;
проверка статистических гипотез: сравнение центров распределений;
линейный регрессионный анализ;
совместный (Coinjoint) анализ;
дисперсионный анализ;
дискриминантный анализ;
кластерный анализ.
Обсуждение проводится в ходе анализа задач экономического характера.
Выбор пакета SPSS обусловлен тем, что в России он чаще используется для анализа экономической информации, чем пакеты Statistica, SAS, S-Plus. Существенным аргументом при выборе программного средства для авторов было также то, что Санкт-Петербургский государственный университет обладает лицензионной версией именно SPSS. В книге используется англоязычный вариант программы SPSS (версия 13), но для всех команд и диалоговых окон приведены соответствующие команды из русифицированной версии.
Весь материал проиллюстрирован примерами, заимствованными из практики. Каждая часть пособия содержит контрольные вопросы и упражнения. В конце книги вы найдете словарь используемых терминов. В приложении приведены данные, обсуждавшиеся в книге.
Авторы предлагают слушателям магистерских программ и исследователям, знакомым с основным курсом статистики, пропустить начальные главы книги, связанные с описанием шкал и кодированием. Тем не менее мы сочли возможным включить обсуждение таких базовых понятий в книгу для того, чтобы и менее опытные читатели смогли использовать в своей деятельности возможности пакета SPSS.
Данные для примеров и упражнений расположены на сайте экономического факультета СПбГУ http:\\www.econ.pu.ru








