R數據科學實戰:工具詳解與案例分析

劉 健 鄔書豪 著

  • 出版商: 機械工業
  • 出版日期: 2019-07-01
  • 定價: $414
  • 售價: 7.9$327
  • 語言: 簡體中文
  • ISBN: 7111629949
  • ISBN-13: 9787111629948
  • 相關分類: Data Science
  • 立即出貨

買這商品的人也買了...

相關主題

商品描述

內容簡介
這是一部能指導零基礎的讀者快速掌握R語言並利用R語言進入數據科學領域的著作。
兩位作者在R語言和數據科學領域有豐富的實踐經驗,首先是非常有針對性地講解了利用R語言進行數據處理需要掌握和使用的4大類17種工具,然後是結合這些工具的使用給出了4個典型的綜合性案例,幫助讀者迅速將理論與實踐融會貫通。
全書一共11章,邏輯上分為兩大部分:
第一部分 R語言工具箱(第1-6章)
首先從數據導入、數據清洗、數據計算、循環和迭代等幾個方面詳細講解了R語言中相關的各種常用的工具,然後深入地講解了R語言中的“超級瑞士軍刀”data.table包。掌握這部分內容,能滿足R語言數據處理中的基本需求。
第二部分 數據科學實戰案例(第7-11章)
第7章首先對數據科學從業者的現狀和未來應該掌握的技術和工具進行了介紹;
第8-11章通過4個綜合性的案例講解了使用R語言進行數據處理和分析的一整套流程和方法,與第一部分的內容融會貫通。

R語言以其開源、靈活、強大的統計分析和可視化功能在各個領域都有著廣泛的應用。目前其商業數據科學領域的應用在國外已悄然發展起來,相信在不久的將來,國內數據科學領域的R語言應用也會不斷增多。通過本書的學習,你將具備用使用R語言進行一般數據科學問題的處理能力,並為R語言在數據科學領域的應用貢獻自己的力量。
通過閱讀本書,你將:
熟悉使用R語言進行數據分析的常見R包及主要函數
掌握一套完整的R語言函數來進行數據分析
建立起數據分析的邏輯概念
掌握數據分析的每一個步驟所需的不同函數
掌握R語言中循環的概念和運作機制
瞭解使用R語言進行數據處理時典型問題的處理方法和技巧
瞭解自定義函數的開發過程並能夠創建自定義函數
瞭解正則表達式及其在數據清理中的簡單應用
瞭解文本挖掘的概念及一般流程

作者簡介

劉健資深R語言技術專家,數據科學工程師。在新西蘭皇家植物與食品研究院工作,參與一項國際和兩項國家的級別研究項目,使用R語言開發完成氣象數據自動提取和模型文件自動化工具。由此參與編寫《Landscape Modelling and Decision Support》(在審)一書;獨立開發完成R語言程序包一個。該程序包主要針對模型軟件APSIMX的輸出數據進行整合及可視化;氣象數據自動化報告系統。使用R語言對新西蘭不同地區的氣象數據進行自動獲取、歸集和可視化報告。科研上,作為作者發表期刊一篇,作者撰寫科研報告兩篇;作為R語言技術專家合作撰寫期刊一篇,合作撰寫科研報告16篇。鄔書豪資深R語言用戶和數據分析工程師,是數據科學領域10萬粉絲的知名公眾號人工智能愛好者社區的負責人,公眾號文章閱讀量破百萬。喜歡用SQL、R和Python解決工作中的數據科學問題,致力於成為一名有深度行業實踐經驗積累的數據科學家。在天善智能社區開設有R語言視頻課程《kaggle十大案例精講課程》。個人公眾號:人工智能愛好者社區。讀者可加作者微信號:wshinvest1,進入本書專屬讀者答疑群。

目錄大綱

推薦語
前言
第一部分工具包篇
第1章數據導入工具
1.1 utils——數據讀取基本功
1.2 readr——進階數據讀取
1.3 utils vs readr——你喜歡哪個?
1.4 readxl——Excel文件讀取
1.5 DBI——數據庫數據查詢、下載
1.6 pdftools——PDF文件
1.7 jsonlite——JSON文件
1.8 foreign package統計軟件數據
1.9 本章小結
第2章數據清理工具
2.1 基本概念
2.2 tibble包——數據集準備
2.3 tidyr——數據清道夫
2.4 lubridate日期時間處理
2.5 stringr字符處理工具
第3章數據計算工具
3.1 baseR計算工具概覽
3.2 dplyr包實戰技巧
3.3 文本挖掘實操
第4章基本循環——loops和*apply
4.1 for循環
4.2 while循環
4.3 “*apply”函數家族
第5章優雅的循環——purrr包
5.1 map函數家族
5.2 探測函數群
5.3 向量操縱工具箱
5.4 其他實用函數
5.5 循環讀取、清理和計算
第6章data.table——超級“瑞士軍刀”
6.1 data.table簡介
6.2 基本函數
6.3 進階應用
第二部分案例篇
第7章數據科學從業者調查初稿
7.1 案例背景及變量介紹
7.2 簡單數據清洗
7.3 數據科學從業者探索性數據分析
7.4 封裝繪圖函數
7.5 通過柱狀圖進行探索性分析數據
7.6 未來將會學習的機器學習工具
7.7 明年將學習的機器學習方法
第8章共享單車租用頻次分析
8.1 案例簡介
8.2 數據準備及描述性統計分析
8.3 數據重塑
8.4 柱狀圖在數據分析中的簡單應用
8.5 柱狀和扇形圖在數據分析中的運用
8.6 折線圖在數據分析中的運用
8.7 相關係數圖綜合分析
第9章星巴克商業案例分析
9.1 案例背景介紹及變量介紹
9.2 數據描述性統計量分析
9.3 數據統計分析
第10章學生成績水平分析
10.1 數據集
10.2 探索性數據分析
第11章YouTube視頻觀看分析
11.1 案例背景及相關內容介紹
11.2 探索性數據分析