Web Content Mining with Java: Techniques for Exploiting the World's Biggest Info
暫譯: 使用 Java 進行網頁內容挖掘:利用全球最大資訊的技術

Tony Loton

  • 出版商: Wiley
  • 出版日期: 2002-04-29
  • 售價: $1,100
  • 貴賓價: 9.8$1,078
  • 語言: 英文
  • 頁數: 328
  • 裝訂: Paperback
  • ISBN: 047084311X
  • ISBN-13: 9780470843116
  • 相關分類: Java 程式語言
  • 下單後立即進貨 (約5~7天)

買這商品的人也買了...

相關主題

商品描述

What do you with information at the websites you visit? You read it, print it, and maybe do a screen grab. But you could do so much more with it if only you could get hold of the information in a more usable form: a form that you could manipulate, store and query automatically.

In this book you'll learn how to automate the:

  • discovery of websites containing interesting data
  • extraction of specific information from HTML and XML pages
  • presentation of aggregate information via your own portal
  • interpretation of data using text- and data-mining techniques
Java is the language of the web, so all practical examples are provided in the form of Java code that demonstrates HTTP communication, HTML and XML parsing, email retrieval and much more.

This is the book for you if you want some real, practical, help to get your Java-based information applications off the ground.

Table of Contents

Preface.

About the Author.

Acknowlegements.

Surveying the Scene

Language of the Web

HTML and XML Parsing

Data Filters and Structured Queries

Building a Portal with Java

Building a Search Engine with Java

Mail Mining with Java

Introduction to Text Mining

Introduction of Data Mining

Loose Ends and Looking Ahead

Appendix A: Software Installation and Configuration

Appendix B: Javadoc Extracts

Appendix C: Earlier Versions of JAXP

Appendix D: License and Copyright Statements

Appendix E: Census 1891Data XML

Appendix F: Share Price Cluster Data

Appendix G: Glossary of Acronyms

References

Further Reading

Index

商品描述(中文翻譯)

您在訪問的網站上會如何處理資訊?您會閱讀、列印,或許還會截圖。但如果您能以更可用的形式獲取這些資訊,您可以做的事情會更多:一種可以自動操作、存儲和查詢的形式。

在這本書中,您將學習如何自動化:
- 發現包含有趣數據的網站
- 從 HTML 和 XML 頁面中提取特定資訊
- 通過您自己的入口網站展示匯總資訊
- 使用文本和數據挖掘技術解釋數據

Java 是網路的語言,因此所有實用範例均以 Java 代碼的形式提供,展示 HTTP 通信、HTML 和 XML 解析、電子郵件檢索等更多內容。

如果您想要一些真正的、實用的幫助來啟動您的基於 Java 的資訊應用程式,這本書就是為您而寫的。

**目錄**

前言

關於作者

致謝

場景調查

網路的語言

HTML 和 XML 解析

數據過濾器和結構化查詢

使用 Java 建立入口網站

使用 Java 建立搜尋引擎

使用 Java 進行郵件挖掘

文本挖掘簡介

數據挖掘簡介

未解決的問題與展望

附錄 A:軟體安裝與配置

附錄 B:Javadoc 摘錄

附錄 C:早期版本的 JAXP

附錄 D:授權和版權聲明

附錄 E:1891 年人口普查數據 XML

附錄 F:股價聚類數據

附錄 G:縮寫詞彙表

參考文獻

進一步閱讀

索引