玩轉大數據:SAS+R+Stata+Python
孫江偉 王韻章 寧錚 李夏 王吟曦 李琳 卞偉瑋
- 出版商: 清華大學
- 出版日期: 2021-06-01
- 定價: $1,188
- 售價: 8.5 折 $1,010
- 語言: 簡體中文
- 頁數: 640
- 裝訂: 平裝
- ISBN: 7302570671
- ISBN-13: 9787302570677
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
面對日漸復雜的大數據,科技工作者很難用單一的統計軟件高效、完美地完成從數據挖掘、數據清洗、統計分析到結果呈現的全部工作,因此需要熟悉和掌握多種統計工具,各取所長、整合使用。本書立足於大數據研究的現狀,基於實際醫療案例,介紹數學基礎知識和統計學基礎知識,SAS、R語言、Stata和Python這4款大數據常用分析工具的基礎編程知識及實踐操作。 本書主要面向在校本科生、研究生,以及要掌握SAS、R語言、Stata和Python的數據工作者,熟悉四個軟件的任意一個且想要在短時間內掌握其他軟件的讀者,也適合醫科學生、臨床醫生或藥企人員等醫療相關人員學習使用。
作者簡介
孫江偉
復旦大學流行病與衛生統計學專業碩士,曾在強生公司(Johnson &Johnson)任生物統計師,對國內醫藥臨床領域及國外醫療註冊系統等大數據的數據管理、數據清洗、研究設計及統計分析,有豐富的理論及實踐經驗,現於瑞典卡羅林斯卡醫學院進行衛生統計學方面的研究深造。
在American Journal of Epidemiology、European Journal of Neurology等雜誌發表相關領域SCI論文10篇。
目錄大綱
目錄
1章數學基礎1
1.1常用的數學符號1
1.2常見概念2
1.2.1集合2
1.2.2極限3
1.3微積分5
1.3.1導數與微分5
1.3.2基本初等函數的導函數和微分公式6
1.3.3導數與微分的運算法則7
1.3.4定積分與不定積分8
1.3.5基本的不定積分公式9
1.3.6定積分與不定積分的性質10
1.4線性代數11
1.4.1標量與向量11
1.4.2矩陣與線性方程組11
1.4.3行列式的定義與運算12
1.4.4矩陣的運算法則14
1.4.5特殊的矩陣16
1.4.6矩陣的秩17
1.4.7矩陣的轉置與矩陣的逆18
1.4.8特徵向量與特徵值18
2章統計學基礎20
2.1概率論的基本概念20
2.2隨機變量與分佈21
2.2.1隨機變量21
2.2.2累積分佈函數22
2.2.3概率函數22
2.3隨機變量的數學特徵23
2.3.1數學期望23
2.3.2期望值的規律24
2.3.3條件期望25
2.3.4協方差與相關係數25
2.3.5樣本均值和方差26
2.4常見的隨機變量分佈27
2.4.1離散變量分佈27
2.4.2連續變量分佈28
2.5統計學基本概念32
2.5.1總體與樣本32
2.5.2參數和統計量32
2.5.3中心極限定理32
2.6統計描述32
2.6.1定量資料的統計描述32
2.6.2分類資料的統計描述34
2.7統計推斷34
2.7.1參數估計34
2.7.2假設檢驗38
2.8多因素回歸模型40
2.8.1多因素線性回歸模型40
2.8.2多因素Logistic回歸模型41
2.8.3多因素Co回歸模型43
3章軟件基礎總論45
3.1軟件初識45
3.1.1SAS45
3.1.2R語言45
3.1.3Stata45
3.1.4Python46
3.24個軟件的比較46
4章SAS基礎52
4.1SAS介紹與資源52
4.1.1SAS語言及程序結構52
4.1.2SAS工作界面53
4.1.3獲得幫助54
4.2數據的導入與導出55
4.2.1導入數據55
4.2.2導出數據67
4.3SAS中常用的函數70
4.3.1字符型函數70
4.3.2數值型函數80
4.3.3日期型函數84
4.3.4特殊函數86
4.3.5其他函數89
4.4SAS變量91
4.4.1變量屬性92
4.4.2自動變量92
4.4.3變量列表的縮寫規則92
4.4.4創建變量94
4.4.5改變變量屬性96
4.4.6改變變量類型96
4.5SAS數據處理97
4.5.1選取變量97
4.5.2創建變量99
4.5.3對觀測求和100
4.5.4選取並作部分觀測102
4.5.5循環和數組104
4.5.6數據集的橫向合併和縱向合併107
4.5.7增加數據集處理靈活性的SAS選項111
4.6SAS中常見的proc步113
4.6.1proc contents113
4.6.2proc datasets114
4.6.3proc freq116
4.6.4proc means118
4.6.5proc sort120
4.6.6proc transpose121
4.6.7proc univariate123
4.6.8proc corr125
4.6.9proc reg126
4.6.10proc logistic128
4.6.11proc lifetest129
4.6.12proc phreg130
4.7PROC SQL131
4.7.1檢索數據131
4.7.2合併數據集135
4.7.3使用PROC SQL管理表137
4.8SAS宏介紹143
4.8.1宏變量143
4.8.2宏函數147
4.8.3宏程序151
4.8.4宏參數152
4.8.5宏語言與data步153
4.8.6宏語言與PROC SQL157
4.8.7條件語句和循環語句在宏語言中的使用161
5章R語言基礎163
5.1R語言介紹163
5.1.1R語言的特點與資源163
5.1.2RStudio使用簡介163
5.2R語言的基本規則164
5.2.1對象165
5.2.2函數使用基礎165
5.2.3擴展包166
5.2.4幫助167
5.3數據類型167
5.3.1vector167
5.3.2factor169
5.3.3date171
5.3.4matri172
5.3.5list175
5.3.6data.frame179
5.3.7formula181
5.4常用函數介紹182
5.4.1數據的讀入和導出182
5.4.2條件判斷183
5.4.3循環186
5.4.4文本處理188
5.4.5基本作圖190
5.4.6自定義函數192
5.5常用數據處理與統計分析函數195
5.5.1單變量分析195
5.5.2雙變量、多變量分析198
5.5.3線性回歸模型200
5.5.4Logistic回歸模型202
5.5.5生存分析模型203
5.6dplyr包簡介206
5.6.1安裝dplyr包206
5.6.2dplyr包中常用的5個函數206
5.6.3用%>%運算符連接多個函數211
5.6.4dplyr包中其他實用的函數212
5.7ggplot2包簡介214
5.7.1安裝ggplot2包214
5.7.2使用ggplot2畫圖的基本思路214
5.7.3使用geom_histogram函數繪製直方圖215
5.7.4使用geom_bar函數繪製柱狀圖217
5.7.5使用geom_boplot函數繪製箱形圖217
5.7.6使用geom_point函數繪製散點圖220
5.7.7使用geom_smooth函數在散點圖上添加線性回歸結果223
5.7.8對圖中細節進行微調224
5.7.9將多個圖合併為一個圖225
5.7.10保存圖228
6章Stata基礎229
6.1Stata簡介229
6.1.1界面介紹229
6.1.2在菜單欄中選擇命令230
6.1.3輸入命令代碼230
6.2獲得幫助230
6.2.1檢索關鍵詞230
6.2.2查看幫助231
6.2.3幫助建議231
6.3語法結構231
6.3.1變量集232
6.3.2by前綴233
6.3.3命令234
6.3.4=表達式234
6.3.5if表達式236
6.3.6in範圍236
6.3.7權重237
6.3.8命令選項237
6.3.9數值集合238
6.3.10文件名238
6.4數據轉換與分析239
6.4.1導入數據239
6.4.2瀏覽數據與基本描述240
6.4.3數值變量243
6.4.4文本變量247
6.4.5日期變量252
6.4.6缺失值253
6.4.7註釋變量254
6.4.8調整數據結構256
6.4.9基本描述258
6.4.10統計檢驗260
6.4.11相關分析262
6.4.12回歸分析263
6.4.13導出數據267
6.5輸出結果調用268
6.5.1一般統計命令結果調用268
6.5.2估計命令結果調用269
6.6重複命令271
6.6.1by前綴271
6.6.2foreach循環274
6.6.3forvalues循環275
6.7編程工具275
6.7.1do文件275
6.7.2標量變量276
6.7.3宏變量277
6.7.4矩陣279
6.7.5程序283
7章Python基礎284
7.1Python的安裝284
7.1.1使用Python安裝包安裝Python 3284
7.1.2通過Anaconda安裝Python 3285
7.2常用交互式語言開發環境287
7.2.1編輯器288
7.2.2控制台289
7.2.3變量管理器290
7.3常用數據類型、數據結構與基本語句291
7.3.1Python中的變量命名規則291
7.3.2常見的數據類型及運算291
7.3.3常見的數據結構及運算291
7.3.4一個程序295
7.3.5函數295
7.3.6常用邏輯語句298
7.4數據的導入與導出302
7.4.1數據的讀取302
7.4.2數據存儲304
7.5基礎運算常用包——NumPy 304
7.5.1基本性質304
7.5.2矢量化運算306
7.5.3NumPy中的函數306
7.5.4ndarray的軸、索引與切片309
7.5.5實戰舉例: 用NumPy進行圖像處理313
7.6數據處理常用包——Pandas316
7.6.1主要數據類型316
7.6.2對DataFrame的描述318
7.6.3缺失值的檢測與處理319
7.6.4DataFrame的索引321
7.6.5常見作325
7.6.6字符處理專題328
7.6.7apply專題331
7.6.8groupby專題333
7.7統計分析常用包338
7.7.1單樣本t檢驗339
7.7.2獨立樣本t檢驗340
7.7.3兩個連續型變量的相關性341
7.7.4兩個分類變量的頻數統計341
7.7.5線性回歸模型342
7.7.6Logistic回歸模型345
7.7.7生存分析347
7.8繪圖常用包352
7.8.1Pandas352
7.8.2Matplotlib356
7.8.3Seaborn360
8章軟件實踐總論366
8.1本書使用的數據集366
8.1.1病人基本信息數據集366
8.1.2診斷信息數據集367
8.1.3實驗室檢測結果數據集(一)368
8.1.4實驗室檢測結果數據集(二)368
8.1.5用藥信息數據集368
8.1.6急性心肌梗死數據集369
8.2軟件實踐步驟369
8.2.1數據清洗369
8.2.2數據準備370
8.2.3數據分析370
8.2.4結果整理370
8.2.5代碼的重複使用370
8.3實例: 擬研究的課題371
9章SAS實踐部分372
9.1數據的清洗與管理372
9.1.1病人基本信息數據集372
9.1.2診斷信息數據集376
9.1.3實驗室檢測結果數據集(一)381
9.1.4實驗室檢測結果數據集(二)387
9.1.5用藥信息數據集390
9.2數據分析與結果整理393
9.2.1定量數據的統計描述394
9.2.2分類數據的統計描述398
9.2.3相關分析402
9.2.4線性回歸分析406
9.2.5Logistic回歸分析412
9.2.6Co回歸分析418
10章R語言實踐部分425
10.1數據的清洗與管理425
10.1.1病人基本信息數據集425
10.1.2診斷信息數據集431
10.1.3實驗室檢測結果數據集(一)435
10.1.4實驗室檢測結果數據集(二)439
10.1.5用藥信息數據集442
10.2數據分析與結果整理445
10.2.1定量數據的統計描述446
10.2.2分類數據的統計描述449
10.2.3相關分析452
10.2.4線性回歸分析453
10.2.5Logistic回歸分析457
10.2.6Co回歸分析463
11章Stata實踐部分470
11.1數據的清洗與管理470
11.1.1病人基本信息數據集470
11.1.2診斷信息數據集483
11.1.3實驗室檢測結果數據集(一)490
11.1.4實驗室檢測結果數據集(二)495
11.1.5用藥信息數據集500
11.2數據分析與結果整理504
11.2.1定量數據的統計描述504
11.2.2分類數據的統計描述511
11.2.3相關分析516
11.2.4一般線性回歸分析519
11.2.5Logistic回歸分析526
11.2.6Co回歸分析535
11.3Stata在Meta分析中的應用545
11.3.1Meta分析簡介545
11.3.2二分類變量的Meta分析548
11.3.3連續性變量的Meta分析552
11.3.4發表偏倚分析553
12章Python實踐部分557
12.1數據的清洗與管理557
12.1.1病人基本信息數據集557
12.1.2診斷信息數據集566
12.1.3實驗室檢測結果數據集(一)571
12.1.4實驗室檢測結果數據集(二)578
12.1.5用藥信息數據集582
12.2數據準備和數據分析584
12.2.1定量數據的統計描述584
12.2.2分類數據的統計描述587
12.2.3相關分析589
12.2.4線性回歸分析591
12.2.5Logistic回歸分析595
12.2.6Co回歸分析602
參考文獻609
附錄A常用假設檢驗方法610
附錄B正則表達式619
附錄C系統綜述與Meta分析技術路線圖622