Text Mining with R: A Tidy Approach (Paperback)
暫譯: 使用 R 進行文本挖掘:整潔的方法 (平裝本)

Julia Silge, David Robinson

買這商品的人也買了...

商品描述

Much of the data available today is unstructured and text-heavy, making it challenging for analysts to apply their usual data wrangling and visualization tools. With this practical book, you’ll explore text-mining techniques with tidytext, a package that authors Julia Silge and David Robinson developed using the tidy principles behind R packages like ggraph and dplyr. You’ll learn how tidytext and other tidy tools in R can make text analysis easier and more effective.

The authors demonstrate how treating text as data frames enables you to manipulate, summarize, and visualize characteristics of text. You’ll also learn how to integrate natural language processing (NLP) into effective workflows. Practical code examples and data explorations will help you generate real insights from literature, news, and social media.

  • Learn how to apply the tidy text format to NLP
  • Use sentiment analysis to mine the emotional content of text
  • Identify a document’s most important terms with frequency measurements
  • Explore relationships and connections between words with the ggraph and widyr packages
  • Convert back and forth between R’s tidy and non-tidy text formats
  • Use topic modeling to classify document collections into natural groups
  • Examine case studies that compare Twitter archives, dig into NASA metadata, and analyze thousands of Usenet messages

商品描述(中文翻譯)

許多當前可用的數據是非結構化且以文本為主,這使得分析師在應用他們通常的數據處理和可視化工具時面臨挑戰。這本實用的書籍將帶您探索使用 tidytext 的文本挖掘技術,這是一個由作者 Julia Silge 和 David Robinson 開發的套件,基於 R 套件如 ggraphdplyr 的 tidy 原則。您將學習如何使用 tidytext 和 R 中的其他 tidy 工具,使文本分析變得更簡單且更有效。

作者展示了如何將文本視為數據框,使您能夠操作、總結和可視化文本的特徵。您還將學習如何將自然語言處理 (NLP) 整合到有效的工作流程中。實用的代碼示例和數據探索將幫助您從文獻、新聞和社交媒體中生成真實的見解。


  • 學習如何將 tidy 文本格式應用於 NLP

  • 使用情感分析挖掘文本的情感內容

  • 通過頻率測量識別文檔中最重要的術語

  • 使用 ggraphwidyr 套件探索單詞之間的關係和連結

  • 在 R 的 tidy 和非 tidy 文本格式之間進行轉換

  • 使用主題建模將文檔集合分類為自然群組

  • 檢視案例研究,對比 Twitter 檔案、深入 NASA 元數據,並分析數千條 Usenet 訊息