生物醫藥大數據與智能分析
彭紹亮
- 出版商: 人民郵電
- 出版日期: 2024-08-01
- 定價: $599
- 售價: 8.5 折 $509
- 語言: 簡體中文
- 頁數: 195
- 裝訂: 平裝
- ISBN: 7115558434
- ISBN-13: 9787115558435
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
生物醫藥大數據蘊含了非常豐富的信息和知識,是關乎人類生存與健康的重要戰略資源,但只有對生物醫藥大數據進行高效處理和智能分析,才能真正推動生物醫藥研究和產業化從原來的假設驅動向數據驅動轉變,因而近些年來生物醫藥大數據與智能分析逐漸成為潛力巨大且發展迅猛的交叉領域。本書簡要介紹了並行計算、機器學習和深度學習應用於生物醫藥大數據的相關基礎知識,並總結了作者團隊在生物醫藥大數據處理和分析領域的若乾成果,主要涵蓋基因表達譜分析、微生物基因組、藥物虛擬篩選、腫瘤基因表達譜分類、RNA編輯位點識別、增強子識別等,以作者團隊的研究成果為實際案例,詳細介紹了研究的路線和方法。 本書屬於高性能計算、大數據、機器學習和生物醫藥等專業的交叉領域,可以為這些領域的研究人員提供參考,也可作為相關專業高年級本科生和研究生的補充教材。
作者簡介
彭绍亮
国家超级计算长沙中心副主任,湖南大学信息科学与工程学院教授、博导,湖南大学教育舆情研究中心副主任(兼),2020年被聘为长江学者特聘教授,2019年获湖南省杰出青年基金支持,长期从事高性能计算、大数据、生物信息、人工智能、区块链等方面研究。担任国防科技大学“天河”系列超级计算机生命科学方向负责人,国防科技大学/华大基因兼职教授,鹏城实验室智慧医疗平台课题负责人,中央军委科技委生物交叉立项专家组成员,科技部、工信部、教育部会评专家;中国计算机学会(CCF)理事,生物信息学、计算机应用专委副主任,大数据、高性能计算专委常委,区块链专委委员,CCF杰出会员和杰出讲者;湖南省生物信息学会发起人、理事长,3个SCI期刊和多个EI期刊的主编、副主编。出版专著7部,发表学术论文上百篇,Google引用五千余次。负责“天河”系列超级计算机应用软件研发工作,主持和参与科技部、国家自然科学基金委重点项目,973/863项目等项目13项。获2019年国家科学技术进步奖二等奖,2019年湖南省技术发明奖一等奖(排名第1),2013年军队科学技术进步奖一等奖,2018年CCF科学技术奖自然科学二等奖(排名第1),2016年荣立三等功 。
王晓伟
国防科技大学计算机科学与技术专业博士、软件工程博士后科研流动站博士后。长期从事网络空间安全、生物医药、军事信息系统等领域的大数据与人工智能技术研发工作。作为骨干参与“天河”系列超级计算机应用软件研发工作,获2017年军队科学技术进步奖一等奖。参与国家863计划、国家重点研发计划、国家自然科学基金重点项目等项目6项,参与制定国家及行业标准3项,作为第一译者出版译著2部(《命令行中的数据科学》《实时分析:流数据的分析与可视化技术》),参与编写教材2部(《生物信息计算》《大数据导论》)。
目錄大綱
目錄
第 一篇 緒論
第 1 章 生物醫藥大數據與智能分析概述 2
1.1 生物醫藥大數據 2
1.2 生物醫藥大數據的高效處理 3
1.2.1 大規模並行處理技術 3
1.2.2 雲計算技術 5
1.3 生物醫藥大數據的智能分析 5
1.4 總結 6
1.5 本書的內容安排 6
第二篇 生物醫藥大數據的高效處理
第 2 章 生物醫藥大數據高效處理的基礎 9
2.1 大數據計算模型 9
2.1.1 外存模型 9
2.1.2 數據流模型 9
2.1.3 PRAM 模型 10
2.1.4 MapReduce 模型 10
2.2 並行計算 10
2.2.1 計算密集型和數據密集型 11
2.2.2 並行計算的粒度 11
2.2.3 並行編程的一般設計過程 11
2.2.4 並行編程模型 12
2.3 總結 12
第 3 章 海量基因表達譜分析 13
3.1 基因表達譜分析與生物效應評估概述 14
3.2 海量基因表達譜快速查詢 15
3.2.1 GSEA 工具 15
3.2.2 海量基因表達譜查詢算法 17
3.2.3 性能評估 25
3.3 海量基因表達譜並行比對與聚類 27
3.3.1 基因表達數據庫 CMap 28
3.3.2 基因表達譜並行比對 29
3.3.3 基因表達譜並行聚類 30
3.3.4 性能評估 34
3.4 總結 40
第 4 章 功能性前噬菌體預測 42
4.1 前噬菌體預測概述 43
4.1.1 噬菌體與功能性前噬菌體 43
4.1.2 前噬菌體與功能性前噬菌體預測的挑戰 45
4.2 功能性前噬菌體預測算法 47
4.2.1 LysoPhD 流程設計 47
4.2.2 數據質量控制流水線 49
4.2.3 前噬菌體範圍的粗略預測 50
4.2.4 前噬菌體範圍的精確預測 53
4.2.5 前噬菌體功能性分析 54
4.2.6 基於末端延伸算法的溶原性噬菌體完整序列提取 55
4.2.7 性能評估 57
4.3 預測算法並行化 62
4.3.1 多線程並行加速 63
4.3.2 溶原性噬菌體數據庫構建 64
4.4 總結 65
第 5 章 高通量藥物虛擬篩選 67
5.1 藥物虛擬篩選概述 68
5.1.1 藥物虛擬篩選 68
5.1.2 虛擬篩選軟件 D3DOCKxb 70
5.2 基於 CPU 多核的藥物虛擬篩選並行優化 71
5.2.1 D3DOCKxb 程序分析 72
5.2.2 基於 CPU 多核的 D3DOCKxb 設計與實現 73
5.2.3 性能評估 76
5.3 基於 CPU-MIC 協同的藥物虛擬篩選並行優化 79
5.3.1 基於 MIC 協處理器的 D3DOCKxb 移植 80
5.3.2 CPU-MIC 異構協同的 mD3DOCKxb 84
5.3.3 性能評估 86
5.4 基於“天河二號”超級電腦的大規模高通量藥物虛擬篩選平臺 90
5.4.1 高通量虛擬篩選的主要挑戰 90
5.4.2 高通量虛擬篩選的算法設計 91
5.4.3 性能評估 93
5.4.4 應用研究 97
5.5 總結 99
第三篇 生物醫藥大數據的智能分析
第 6 章 生物醫藥大數據的智能分析基礎 102
6.1 傳統的機器學習技術 102
6.2 深度學習在生物醫藥大數據中的應用 103
6.2.1 在組學研究中的應用 104
6.2.2 在生物醫學影像中的應用 105
6.2.3 在生物醫學信號處理中的應用 105
6.2.4 在藥物研發中的應用 106
6.3 常見的深度學習模型和框架 107
6.3.1 常見的深度學習模型 107
6.3.2 常見的深度學習框架 111
6.4 深度學習解決生物大數據問題的一般方法 112
6.4.1 數據獲取及編碼 112
6.4.2 數據預處理 113
6.4.3 模型訓練 115
6.4.4 性能評估 116
6.5 總結 117
第 7 章 基於字典學習的腫瘤基因表達譜分類 118
7.1 腫瘤基因表達譜分類概述 119
7.1.1 腫瘤與基因表達譜 119
7.1.2 分類算法 123
7.2 基於判別投影的字典學習基因表達譜分類 126
7.2.1 字典學習分類算法 126
7.2.2 基於判別投影的字典學習算法 128
7.2.3 性能評估 132
7.3 結合集成學習的字典學習基因表達譜分類 134
7.3.1 集成學習 134
7.3.2 結合集成學習的字典學習算法 136
7.3.3 性能評估 140
7.4 基於隨機序列和樣本距離的基因表達譜特徵選擇 143
7.4.1 數據預處理方法 144
7.4.2 腫瘤基因表達譜數據的特徵選擇 145
7.4.3 性能評估 148
7.5 總結 149
第 8 章 基於深度學習的 RNA 編輯位點識別 150
8.1 RNA 編輯識別概述 150
8.1.1 RNA 編輯 150
8.1.2 RNA 編輯識別面臨的挑戰 151
8.2 RNA 編輯位點金標集的構建 152
8.2.1 ENCODE 計劃 152
8.2.2 基於 ENCODE 計劃的 RNA 編輯位點金標集設計 154
8.2.3 訓練集和測試集的構建 155
8.3 基於雙向 LSTM 的 RNA 編輯位點識別 157
8.3.1 雙向長短時記憶網絡 157
8.3.2 rnnRed 算法網絡模型的構建、訓練及性能評估 158
8.4 基於 ResNet 的 RNA 編輯位點識別 165
8.4.1 殘差網絡 165
8.4.2 cnnRed 算法網絡模型的構建、訓練及性能評估 166
8.5 總結 171
第 9 章 基於深度學習的增強子識別 172
9.1 增強子識別概述 172
9.2 增強子識別神經網絡 174
9.2.1 模型的設計 174
9.2.2 模型的優化 177
9.3 增強子序列數據集的預處理 178
9.3.1 增強子數據集 178
9.3.2 增強子序列的數值映射 179
9.4 模型的訓練 180
9.4.1 訓練集及實驗平臺 180
9.4.2 參數的選擇 181
9.5 模型的預測評估 182
9.5.1 測試集及實驗平臺 182
9.5.2 性能度量指標 182
9.5.3 模型性能評估 184
9.6 總結 186
參考文獻 187