R語言高效能實戰 更多數據和更快速度
劉藝非
買這商品的人也買了...
-
$296R語言實用教程
-
$301R語言入門與實踐
-
$505R語言入門經典
-
$250白話機器學習算法
-
$704R語言之書 編程與統計
-
$286圖說圖解機器學習
-
$954$906 -
$352概率、決策與博弈: 基於R語言介紹 (Probability, Decisions and Games: A Gentle Introduction Using R)
-
$403Python 數據分析
-
$419$398 -
$709高級 R語言編程指南, 2/e
-
$352深入淺出 R語言數據分析
-
$350$315 -
$780$616 -
$1,200$948 -
$305機器學習基礎
-
$599$569 -
$580$458 -
$505統計建模與 R軟件, 2/e
-
$352數學建模:基於R
-
$454R語言數據可視化實戰 : 大數據專業圖表從入門到精通 (微視頻全解版)
-
$560$504 -
$580$458 -
$560$442 -
$480$408
相關主題
商品描述
本書將目標設定為“在一臺筆記本電腦上使用R語言處理較大的數據集”,從單機大型數據集處理策略、提升計算性能、其他工具和技巧3個方面介紹了使用R語言處理數據時的實用方法。包括數據集占用空間、善用data.table處理數據、數據分塊處理、提升硬盤資源使用效率、並行編程技術、提升機器學習性能,以及其他資源管理和提高性能的實用策略。幫助讀者處理較大的數據集、挖掘R的開發潛能。
本書適合有一定R語言基礎的讀者閱讀,也適合作為R語言實踐工具書。
作者簡介
刘艺非,中山大学社会学硕士,8年数据科学相关工作经历,曾在公益慈善、房地产、电信运营商等行业担任过数据分析师及数据挖掘工程师。在工作过程中对R语言、Python、SAS、STATA、SPSS等主流数据科学工具均有使用经验和心得。
目錄大綱
第 1章 簡單直接的策略—
減少數據占用空間 1
1.1 保留必要的數據 1
1.1.1 保留必要的列 2
1.1.2 保留必要的行 4
1.2 設置合適的數據類型 13
1.3 本章小結 15
第 2章 簡單直接的策略—
減少數據占用空間 1
1.1 保留必要的數據 1
1.1.1 保留必要的列 2
1.1.2 保留必要的行 4
1.2 設置合適的數據類型 13
1.3 本章小結 15
第3章 基於內存的“快工具”—
data.table 16
2.1 數據讀入操作 17
2.1.1 讀入單個數據 17
2.1.2 讀入多個數據 20
2.2 數據基本行列操作 23
2.3 數據合並、分組匯總操作 32
2.4 dtplyr:data.table和dplyr的結合 39
2.5 本章小結 46
第4章 逐塊擊破—數據分塊處理 47
3.1 使用iotools庫實現分塊處理 47
3.2 使用readr庫實現分塊處理 57
3.3 本章小結 60
第4章 突破內存限制—
利用硬盤資源 61
4.1 實現R與關系型數據庫管理
系統協作 61
4.2 使用bigmemory體系處理大型矩陣 66
4.3 使用ff體系處理大型數據框 73
4.3.1 ff體系基本數據操作 73
4.3.2 ff體系與關系型數據庫
系統協作 81
4.4 新一代工具disk.frame 83
4.5 本章小結 93
第5章 友好的可視化工具—
trelliscope 94
5.1 實現交互式大型分面可視化 94
5.2 本章小結 100
第6章 讓R更快—並行編程 101
6.1 R並行編程技術概覽 101
6.2 並行計算第三方庫 103
6.2.1 snow庫 104
6.2.2 multicore庫 104
6.2.3 parallel庫 105
6.2.4 future庫 106
6.2.5 foreach庫 107
6.3 網絡數據爬取案例 108
6.3.1 利用foreach並行循環
進行爬取 109
6.3.2 利用tidyverse和future相結合
進行爬取 119
6.3.3 文本分詞及整潔化處理 125
6.4 本章小結 132
第7章 提升機器學習效能—
R的基礎策略 134
7.1 使用foreach實現並行循環 136
7.2 使用更優化的第三方庫 140
7.3 使用caret框架結合並行計算 145
7.4 本章小結 157
第8章 整潔流暢的框架—
tidymodels 158
8.1 建立簡單工作流 159
8.2 工作流比較 166
8.3 工作流超參數調優 169
8.4 多工作流同時調優 176
8.5 本章小結 180
第9章 靈活強大的框架—mlr3 181
9.1 數據及模型的創建 182
9.2 利用future支持mlr3計算任務 190
9.3 嵌套重抽樣過程 201
9.4 以圖管理機器學習工作流 204
9.5 本章小結 213
第 10章 強強聯合—利用
reticulate庫借力Python 214
10.1 配置Python環境 215
10.2 在R中用Python代碼編程 217
10.3 以R編程方式使用Python 223
10.4 本章小結 227
第 11章 簡單高效的自動機器學習
工具—H2O 228
11.1 H2O基本使用方法 229
11.2 H2O自動機器學習 242
11.3 本章小結 247
第 12章 善其事,利其器—
其他策略和工具 248
12.1 內存及硬盤資源管理類策略 248
12.1.1 讀取壓縮文件 248
12.1.2 以rds格式保存中間結果 250
12.1.3 垃圾回收機制 251
12.1.4 R的內存管理工具 251
12.1.5 使用pryr庫 252
12.2 計算效能提升類策略 254
12.2.1 函數編譯 255
12.2.2 使用benchmarkme庫 256
12.3 使用R的增強發行版本 258
12.3.1 Microsoft R Open 258
12.3.2 Microsoft R Client 260
12.4 其他數據科學工具 261
12.4.1 SAS(Statistical Analysis
System) 261
12.4.2 Python 262
12.5 本章小結 264