IBM SPSS數據分析實戰案例精粹(第2版)

張文彤、鐘雲飛、王清華

  • 出版商: 清華大學
  • 出版日期: 2020-05-01
  • 定價: $468
  • 售價: 7.9$370
  • 語言: 簡體中文
  • ISBN: 7302542937
  • ISBN-13: 9787302542933
  • 相關分類: SPSSData Science
  • 立即出貨 (庫存 < 4)

  • IBM SPSS數據分析實戰案例精粹(第2版)-preview-1
  • IBM SPSS數據分析實戰案例精粹(第2版)-preview-2
  • IBM SPSS數據分析實戰案例精粹(第2版)-preview-3
IBM SPSS數據分析實戰案例精粹(第2版)-preview-1

買這商品的人也買了...

相關主題

商品描述

《IBM SPSS數據分析實戰案例精粹(第2版)》以IBM SPSS Statistics 24為工具,提供了醫療、金融、保險、汽車、快速消費品、市場研究、互聯網等多個行業的數據分析/挖掘案例,基於實戰需求,詳細講解了整個案例的完整分析過程,並將模型和軟件的介紹融於案例講解之中,使讀者在閱讀時能突破方法和工具的限制,真正聚集於對數據分析精髓的領悟。本書還一並提供案例數據的下載,讀者可完整重現全部的分析內容。 《IBM SPSS數據分析實戰案例精粹(第2版)》適合從初學者到專家各個級別的數據分析人士閱讀,包括需要提升實戰能力的數據分析專業人士,在市場營銷、金融、財務、人力資源管理中需要應用數據分析的人士,從事咨詢、科研等工作的專業人士,同時也可以作為各專業的本科和研究生學習數據分析應用的參考書。

目錄大綱

目    錄

第1部分  SPSS數據分析基礎

第1章  數據分析方法體系簡介 3

1.1  數據分析方法論概述 3

1.1.1  嚴格設計支持下的統計方法論 3

1.1.2  半試驗研究支持下的統計方法論 4

1.1.3  偏智能化、自動化分析的數據挖掘應用方法論 5

1.2  統計軟件中的數據存儲格式 6

1.2.1  二維數據表 7

1.2.2  變量的存儲類型 7

1.2.3  變量的測量尺度 8

1.3  數據的統計描述與參數估計 9

1.3.1  連續變量的統計描述 9

1.3.2  連續變量的參數估計 12

1.3.3  分類變量的統計描述和參數估計 14

1.3.4  統計圖形體系 17

1.4  常用假設檢驗方法 20

1.4.1  假設檢驗的基本原理 21

1.4.2  單變量假設檢驗方法 22

1.4.3  雙變量假設檢驗方法 24

1.5  多變量模型 28

1.5.1  方差分析模型/一般線性模型 28

1.5.2  廣義線性模型和混合線性模型 29

1.5.3  回歸模型 30

1.5.4  其他常見模型 33

1.6  多元統計分析模型 35

1.6.1  信息濃縮 35

1.6.2  變量組之間內在關聯結構的探討 35

1.6.3  對數據分類 36

1.6.4  分析各元素間的關聯 38

1.7  智能統計分析方法/數據挖掘方法 39

1.7.1  樹模型 39

1.7.2  神經網絡 40

1.7.3  支持向量機 41

1.7.4  最近鄰元素分析 41

1.7.5  關聯規則與序列分析 41

第2章  顧客售後滿意度監測項目 43

2.1  案例背景 43

2.2  數據文件的讀入與變量整理 44

2.2.1  瞭解SPSS的基本操作界面 44

2.2.2  進行數據準備 46

2.3  問捲數據分析 50

2.3.1  生成頻數表 50

2.3.2  計算均值 51

2.3.3  對多選題進行描述 52

2.4  項目總結和討論 53

第3章  會員購買習慣調查 54

3.1  案例背景 54

3.1.1  項目背景 54

3.1.2  分析思路 56

3.2  問捲錄入 56

3.2.1  開放題的定義 56

3.2.2  單選題的定義 57

3.2.3  多選題的定義 57

3.3  問捲質量校驗 59

3.3.1  去除重復記錄 59

3.3.2  發現異常值 61

3.3.3  邏輯校驗 62

3.4  問捲數據分析 64

3.4.1  問捲加權 64

3.4.2  業務分析 68

3.5  項目總結和討論 69

第4章  基於背景資料的病例對照匹配 71

4.1  案例背景 71

4.2  數據清理 72

4.2.1  數據錯誤的發現 72

4.2.2  數據錯誤的更正 76

4.3  數據理解 77

4.4  利用文件合並功能進行案例匹配 80

4.5  利用Python插件直接進行匹配 81

4.5.1  傾向得分匹配 82

4.5.2  個案控制匹配 84

4.6  項目總結和討論 86

第5章  北京地區霧霾變化趨勢分析 87

5.1  案例背景 87

5.1.1  項目背景 87

5.1.2  分析思路 88

5.2  數據準備 89

5.2.1  讀入csv格式的數據文件 89

5.2.2  合並數據文件 91

5.2.3  篩選所需數據 93

5.3  數據理解 94

5.3.1  數據分佈狀況 94

5.3.2  缺失值分佈狀況 95

5.3.3  考察逐月數據趨勢 96

5.4  霧霾變化基本趨勢的分析 97

5.4.1  整體平均水平的比較 97

5.4.2  重點考察秋冬季的數據 99

5.4.3  進一步分析爆表天數變化趨勢 100

5.5  進一步展現歷史波動趨勢 101

5.5.1  逐月平均數據的提取 101

5.5.2  建模前的數據準備 102

5.5.3  用季節分解提取長期趨勢 104

5.6  項目總結和討論 107

第2部分  影響因素發現與數值預測

第6章  酸奶飲料新產品口味測試研究 111

6.1  案例背景 111

6.1.1  研究項目概況 111

6.1.2  分析思路/商業理解 112

6.2  數據理解 113

6.2.1  研究設計框架復查 113

6.2.2  均值的列表描述 114

6.2.3  均值的圖形描述 115

6.3  用方差分析模型考察同一城市內不同品牌的評分差異 116

6.3.1  單因素方差分析模型簡介 117

6.3.2  對品牌的作用進行總體檢驗 118

6.3.3  組間兩兩比較 120

6.3.4  對模型適用條件的考察:方差齊性檢驗 122

6.4  用兩因素方差分析模型進行分析 123

6.4.1  兩因素方差分析模型簡介 123

6.4.2  擬合包括交互項的飽和模型 125

6.4.3  擬合只包含主效應的模型 125

6.4.4  組間兩兩比較 127

6.4.5  嘗試將城市指定為隨機因素進行分析 128

6.5  分析結論與討論 130

6.5.1  分析結論 130

6.5.2  Benchmark:用還是不用 131

第7章  偏態分佈的激素水平影響因素分析 132

7.1  案例背景 132

7.1.1  研究項目概況 132

7.1.2  分析思路/商業理解 133

7.2  數據理解 133

7.2.1  單變量描述 133

7.2.2  變量關聯探索 136

7.3  對因變量變量變換後建模分析 141

7.3.1  常見的變量變換方法 141

7.3.2  本案例的具體操作 142

7.4  秩變換分析 145

7.5  利用Cox模型進行分析 146

7.5.1  Cox回歸模型的基本原理 147

7.5.2  本案例的具體操作 148

7.6  項目總結與討論 150

7.6.1  分析結論 150

7.6.2  八仙過海,誰為獨尊 150

第8章  某車企汽車年銷量預測 152

8.1  案例背景 152

8.1.1  研究項目概況 152

8.1.2  分析思路/商業理解 153

8.2  數據理解 154

8.3  變量變換後的線性回歸 156

8.3.1  線性回歸模型簡介 156

8.3.2  變量變換後擬合線性回歸模型 158

8.3.3  模型擬合效果的判斷 160

8.3.4  存儲預測值和區間估計值 162

8.4  曲線擬合 163

8.4.1  用曲線估計過程同時擬合多個曲線模型 163

8.4.2  模型擬合效果的判斷 166

8.4.3  模型的預測 167

8.5  利用非線性回歸進行擬合 168

8.5.1  模型簡介 168

8.5.2  構建分段回歸模型 169

8.5.3  不同模型效果的比較 171

8.6  項目總結與討論 172

8.6.1  分析結論 172

8.6.2  行走在理想與現實之間 173

第9章  腦外傷急救後遲發性顱腦損傷影響因素分析 174

9.1  案例背景 174

9.1.1  研究項目概況 174

9.1.2  分析思路/商業理解 175

9.2  數據理解 176

9.2.1  變量關聯的圖表描述 176

9.2.2  變量關聯的單變量檢驗 178

9.3  構建二分類Logistic回歸模型 181

9.3.1  模型簡介 181

9.3.2  初步嘗試建模 183

9.3.3  構建最終模型 188

9.4  利用樹模型發現交互項 189

9.4.1  模型簡介 190

9.4.2  進行樹模型分析 192

9.5  使用廣義線性過程進行分析 195

9.5.1  模型簡介 195

9.5.2  構建僅包括主效應的模型 196

9.5.3  在模型中加入交互項 199

9.6  項目總結與討論 200

9.6.1  分析結論 200

9.6.2  尺有所短,寸有所長 201

第10章  中國消費者信心指數影響因素分析 202

10.1  案例背景 202

10.1.1  項目背景 202

10.1.2  項目問捲 203

10.1.3  分析思路/商業理解 206

10.2  數據理解 207

10.2.1  圖形考察時間、地域對信心 指數的影響 207

10.2.2  圖形考察性別、職業、婚姻 狀況等對信心指數的影響 209

10.2.3  圖形考察年齡對信心指數的 影響 210

10.3  標準GLM框架下的建模分析 211

10.3.1  建立總模型 211

10.3.2  兩兩比較的結果 214

10.4  多元方差分析模型的結果 215

10.4.1  模型簡介 216

10.4.2  擬合多元方差分析模型 217

10.5  最優尺度回歸 223

10.5.1  方法簡介 224

10.5.2  利用最優尺度回歸進行 分析 225

10.6  多水平模型框架下的建模分析 228

10.6.1  模型簡介 229

10.6.2  針對時間擬合多水平模型 230

10.7  項目總結與討論 235

10.7.1  分析結論 235

10.7.2  什麽時候應當運用復雜模型 來建模 236

第3部分  信息濃縮、分類與感知圖呈現

第11章  探討消費者購買保健品的 動機 239

11.1  案例背景 239

11.1.1  研究項目概況 239

11.1.2  分析思路/商業理解 241

11.2  數據理解 241

11.2.1  單變量描述 241

11.2.2  變量關聯探索 242

11.3  利用因子分析進行信息濃縮 243

11.3.1  模型簡介 243

11.3.2  因子分析的具體操作 245

11.4  基於因子分析結果進行市場細分 251

11.4.1  不同婚姻狀況受訪者的 差異 251

11.4.2  不同品牌保健品使用者的 因子偏好差異 253

11.5  項目總結與討論 255

11.5.1  研究結論 255

11.5.2  因子分析的結果就是 一切嗎 255

第12章  全國房地產價格指數的 估算 257

12.1  案例背景 257

12.1.1  研究項目概況 257

12.1.2  分析思路 258

12.2  計算平均值進行回歸預測 259

12.2.1  計算平均值 259

12.2.2  進行回歸估計 259

12.2.3  導出模型代碼用於預測 260

12.3  提取主成分進行回歸預測 261

12.3.1  提取主成分 261

12.3.2  進行主成分回歸預測 263

12.4  利用自動線性建模過程預測 265

12.5  項目總結與討論 266

第13章  1988年漢城奧運會男子 十項全能成績分析 267

13.1  案例背景 267

13.1.1  項目概況 267

13.1.2  分析思路/商業理解 268

13.2  數據理解 269

13.2.1  單變量描述 269

13.2.2  變量關聯探索 269

13.2.3  嘗試初步建模 270

13.3  利用因子分析進行信息濃縮 272

13.3.1  初步分析 272

13.3.2  因子旋轉 274

13.3.3  繼續尋找更好的分析結果 276

13.3.4  結果存儲/發布 277

13.4  主成分回歸 278

13.5  將主成分回歸方程還原回原始 變量的形式 280

13.6  項目總結與討論 280

13.6.1  研究結論 280

13.6.2  因子的方差解釋比例有 實際意義嗎 281

第14章  生活形態問捲的信效度分析 及改進 282

14.1  案例背景 282

14.1.1  項目概況 282

14.1.2  分析思路/商業理解 284

14.2  問捲的效度分析 285

14.2.1  信效度理論簡介 285

14.2.2  用因子分析考察問捲效度 286

14.3  問捲的信度分析與優化 291

14.3.1  用極端組比較方式發現 弱關聯題項 291

14.3.2  信度分析 293

14.4  項目總結與討論 295

第15章  打敗SARS 296

15.1  案例背景 296

15.1.1  研究項目概況 296

15.1.2  分析思路/商業理解 299

15.2  數據理解與數據準備 300

15.2.1  消費者關註的信息 300

15.2.2  突發事件保險產品購買 傾向 302

15.2.3  未來消費者生活方式的  變化 304

15.3  “非典”信息關註傾向的多維偏好 分析 306

15.3.1  模型簡介 306

15.3.2  多維偏好分析的SPSS操作 界面介紹 307

15.3.3  嘗試初步建模 309

15.3.4  引入更多的背景變量 312

15.4  突發事件險種購買傾向的多重 對應分析 315

15.4.1  模型簡介 315

15.4.2  簡單對應分析 317

15.4.3  多重對應分析 321

15.5  “非典”對未來生活方式的影響 326

15.5.1  採用多維偏好分析進行 初步探索 326

15.5.2  換用因子分析進行信息 匯總 328

15.6  項目總結與討論 332

15.6.1  研究結論 332

15.6.2  對多維偏好分析等信息濃縮 方法本質的討論 333

第16章  住院費用影響因素挖掘 336

16.1  案例背景 336

16.1.1  項目概況 336

16.1.2  分析思路/商業理解 339

16.2  數據理解與數據準備 340

16.2.1  費用數據分佈 341

16.2.2  變量合並 342

16.2.3  極端值清理 343

16.2.4  病種分佈考察 343

16.2.5  變量變換 344

16.3  採用聚類分析尋找費用類型 345

16.3.1  考慮用因子分析匯總信息 345

16.3.2  聚類分析方法簡介 347

16.3.3  對費用數據進行聚類分析 349

16.4  住院費用影響因素的神經網絡 分析 352

16.4.1  模型簡介 353

16.4.2  初步嘗試用神經網絡建模 355

16.4.3  對年齡離散化後重新建模 360

16.4.4  構建雙因變量神經網絡 362

16.4.5  進一步尋找更清晰的結果 解釋 364

16.5  不同療法療效與費用比較的神經 網絡分析 365

16.5.1  生成工作用數據集 365

16.5.2  進行神經網絡的建模預測 367

16.5.3  模型預測值的比較 369

16.6  項目總結與討論 370

16.6.1  研究結論 370

16.6.2  如何在數據挖掘方法體系 和經典方法體系之間進行 取捨 372

附錄  Python插件和R插件的安裝方法 374

參考文獻 377