Data Mining the Web: Uncovering Patterns in Web Content, Structure, and Usage
暫譯: 網路資料探勘:揭示網頁內容、結構與使用模式
Zdravko Markov, Daniel T. Larose
- 出版商: Wiley
- 出版日期: 2007-04-01
- 定價: $1,980
- 售價: 5.0 折 $990
- 語言: 英文
- 頁數: 218
- 裝訂: Hardcover
- ISBN: 0471666556
- ISBN-13: 9780471666554
-
相關分類:
Data-mining
立即出貨
買這商品的人也買了...
-
$990Mining the Web: Discovering Knowledge for Hypertext Data
-
$2,380$2,261 -
$500$450 -
$1,730$1,644 -
$570$450 -
$1,140Designing Interactive Systems: People, Activities, Contexts, Technologies (Hardcover)
-
$1,140C++ How to Program, 5/e (美國版ISBN:0131857576)
-
$350$277 -
$880$695 -
$1,176Data Mining: Practical Machine Learning Tools and Techniques, 2/e
-
$399Data Mining with SQL Server 2005
-
$490$417 -
$550$468 -
$980$774 -
$490$387 -
$1,160$1,102 -
$880$695 -
$1,580$1,501 -
$780$663 -
$650$514 -
$990$891 -
$580$435 -
$490$323 -
$290$218 -
$600$480
商品描述
Description
This book introduces the reader to methods of data mining on the web, including uncovering patterns in web content (classification, clustering, language processing), structure (graphs, hubs, metrics), and usage (modeling, sequence analysis, performance).
Table of Contents
PREFACE.
PART I: WEB STRUCTURE MINING.
1 INFORMATION RETRIEVAL AND WEB SEARCH.
Web Challenges.
Web Search Engines.
Topic Directories.
Semantic Web.
Crawling the Web.
Web Basics.
Web Crawlers.
Indexing and Keyword Search.
Document Representation.
Implementation Considerations.
Relevance Ranking.
Advanced Text Search.
Using the HTML Structure in Keyword Search.
Evaluating Search Quality.
Similarity Search.
Cosine Similarity.
Jaccard Similarity.
Document Resemblance.
References.
Exercises.
2 HYPERLINK-BASED RANKING.
Introduction.
Social Networks Analysis.
PageRank.
Authorities and Hubs.
Link-Based Similarity Search.
Enhanced Techniques for Page Ranking.
References.
Exercises.
PART II: WEB CONTENT MINING.
3 CLUSTERING.
Introduction.
Hierarchical Agglomerative Clustering.
k-Means Clustering.
Probabilty-Based Clustering.
Finite Mixture Problem.
Classification Problem.
Clustering Problem.
Collaborative Filtering (Recommender Systems).
References.
Exercises.
4 EVALUATING CLUSTERING.
Approaches to Evaluating Clustering.
Similarity-Based Criterion Functions.
Probabilistic Criterion Functions.
MDL-Based Model and Feature Evaluation.
Minimum Description Length Principle.
MDL-Based Model Evaluation.
Feature Selection.
Classes-to-Clusters Evaluation.
Precision, Recall, and F-Measure.
Entropy.
References.
Exercises.
5 CLASSIFICATION.
General Setting and Evaluation Techniques.
Nearest-Neighbor Algorithm.
Feature Selection.
Naive Bayes Algorithm.
Numerical Approaches.
Relational Learning.
References.
Exercises.
PART III: WEB USAGE MINING.
6 INTRODUCTION TO WEB USAGE MINING.
Definition of Web Usage Mining.
Cross-Industry Standard Process for Data Mining.
Clickstream Analysis.
Web Server Log Files.
Remote Host Field.
Date/Time Field.
HTTP Request Field.
Status Code Field.
Transfer Volume (Bytes) Field.
Common Log Format.
Identification Field.
Authuser Field.
Extended Common Log Format.
Referrer Field.
User Agent Field.
Example of a Web Log Record.
Microsoft IIS Log Format.
Auxiliary Information.
References.
Exercises.
7 PREPROCESSING FOR WEB USAGE MINING.
Need for Preprocessing the Data.
Data Cleaning and Filtering.
Page Extension Exploration and Filtering.
De-Spidering the Web Log File.
User Identification.
Session Identification.
Path Completion.
Directories and the Basket Transformation.
Further Data Preprocessing Steps.
References.
Exercises.
8 EXPLORATORY DATA ANALYSIS FOR WEB USAGE MINING.
Introduction.
Number of Visit Actions.
Session Duration.
Relationship between Visit Actions and Session Duration.
Average Time per Page.
Duration for Individual Pages.
References.
Exercises.
9 MODELING FOR WEB USAGE MINING: CLUSTERING, ASSOCIATION, AND CLASSIFICATION.
Introduction.
Modeling Methodology.
Definition of Clustering.
The BIRCH Clustering Algorithm.
Affinity Analysis and the A Priori Algorithm.
Discretizing the Numerical Variables: Binning.
Applying the A Priori Algorithm to the CCSU Web Log Data.
Classification and Regression Trees.
The C4.5 Algorithm.
References.
Exercises.
INDEX.
商品描述(中文翻譯)
**描述**
本書介紹了網路上的資料挖掘方法,包括揭示網路內容中的模式(分類、聚類、語言處理)、結構(圖形、樞紐、指標)和使用(建模、序列分析、性能)。
**目錄**
前言。
**第一部分:網路結構挖掘。**
1 資訊檢索與網路搜尋。
- 網路挑戰。
- 網路搜尋引擎。
- 主題目錄。
- 語意網。
- 爬蟲技術。
- 網路基礎。
- 網路爬蟲。
- 索引與關鍵字搜尋。
- 文件表示。
- 實作考量。
- 相關性排名。
- 進階文本搜尋。
- 在關鍵字搜尋中使用 HTML 結構。
- 評估搜尋品質。
- 相似性搜尋。
- 餘弦相似度。
- Jaccard 相似度。
- 文件相似性。
- 參考文獻。
- 練習。
2 基於超連結的排名。
- 介紹。
- 社交網路分析。
- PageRank。
- 權威性與樞紐。
- 基於連結的相似性搜尋。
- 增強的頁面排名技術。
- 參考文獻。
- 練習。
**第二部分:網路內容挖掘。**
3 聚類。
- 介紹。
- 階層聚合聚類。
- k-均值聚類。
- 基於概率的聚類。
- 有限混合問題。
- 分類問題。
- 聚類問題。
- 協同過濾(推薦系統)。
- 參考文獻。
- 練習。
4 評估聚類。
- 評估聚類的方法。
- 基於相似性的標準函數。
- 機率標準函數。
- 基於 MDL 的模型與特徵評估。
- 最小描述長度原則。
- 基於 MDL 的模型評估。
- 特徵選擇。
- 類別到聚類的評估。
- 精確度、召回率與 F-度量。
- 熵。
- 參考文獻。
- 練習。
5 分類。
- 一般設定與評估技術。
- 最近鄰演算法。
- 特徵選擇。
- 朴素貝葉斯演算法。
- 數值方法。
- 關聯學習。
- 參考文獻。
- 練習。
**第三部分:網路使用挖掘。**
6 網路使用挖掘介紹。
- 網路使用挖掘的定義。
- 跨行業標準資料挖掘流程。
- 點擊流分析。
- 網路伺服器日誌檔案。
- 遠端主機欄位。
- 日期/時間欄位。
- HTTP 請求欄位。
- 狀態碼欄位。
- 傳輸量(位元組)欄位。
- 常見日誌格式。
- 識別欄位。
- Authuser 欄位。
- 擴展常見日誌格式。
- 來源欄位。
- 使用者代理欄位。
- 網路日誌記錄範例。
- Microsoft IIS 日誌格式。
- 附加資訊。
- 參考文獻。
- 練習。
7 網路使用挖掘的前處理。
- 前處理資料的必要性。
- 資料清理與過濾。
- 頁面擴展探索與過濾。
- 去蜘蛛化網路日誌檔案。
- 使用者識別。
- 會話識別。
- 路徑完成。
- 目錄與籃子轉換。
- 進一步的資料前處理步驟。
- 參考文獻。
- 練習。
8 網路使用挖掘的探索性資料分析。
- 介紹。
- 訪問行為的數量。
- 會話持續時間。
- 訪問行為與會話持續時間之間的關係。
- 每頁的平均時間。
- 個別頁面的持續時間。
- 參考文獻。
- 練習。
9 網路使用挖掘的建模:聚類、關聯與分類。
- 介紹。
- 建模方法論。
- 聚類的定義。
- BIRCH 聚類演算法。
- 相關性分析與 A Priori 演算法。
- 數值變數的離散化:分箱。
- 將 A Priori 演算法應用於 CCSU 網路日誌資料。
- 分類與回歸樹。
- C4.5 演算法。
- 參考文獻。
- 練習。
索引。