Fuzzy Data Matching with SQL: Enhancing Data Quality and Query Performance (Paperback)
暫譯: 使用 SQL 進行模糊數據匹配:提升數據質量與查詢性能 (平裝本)

Lehmer, Jim

  • 出版商: O'Reilly
  • 出版日期: 2023-11-07
  • 定價: $2,100
  • 售價: 9.5$1,995
  • 語言: 英文
  • 頁數: 282
  • 裝訂: Quality Paper - also called trade paper
  • ISBN: 1098152271
  • ISBN-13: 9781098152277
  • 相關分類: SQL
  • 立即出貨 (庫存 < 4)

買這商品的人也買了...

相關主題

商品描述

If you were handed two different but related sets of data, what tools would you use to find the matches? What if all you had was SQL SELECT access to a database? In this practical book, author Jim Lehmer provides best practices, techniques, and tricks to help you import, clean, match, score, and think about heterogeneous data using SQL.

DBAs, programmers, business analysts, and data scientists will learn how to identify and remove duplicates, parse strings, extract data from XML and JSON, generate SQL using SQL, regularize data and prepare datasets, and apply data quality and ETL approaches for finding the similarities and differences between various expressions of the same data.

Full of real-world techniques, the examples in the book contain working code. You'll learn how to:

  • Identity and remove duplicates in two different datasets using SQL
  • Regularize data and achieve data quality using SQL
  • Extract data from XML and JSON
  • Generate SQL using SQL to increase your productivity
  • Prepare datasets for import, merging, and better analysis using SQL
  • Report results using SQL
  • Apply data quality and ETL approaches to finding similarities and differences between various expressions of the same data

商品描述(中文翻譯)

如果你手上有兩組不同但相關的數據,你會使用什麼工具來尋找匹配項?如果你只有 SQL SELECT 的權限來訪問數據庫呢?在這本實用的書中,作者 Jim Lehmer 提供了最佳實踐、技術和技巧,幫助你使用 SQL 來導入、清理、匹配、評分以及思考異質數據。

資料庫管理員、程式設計師、商業分析師和數據科學家將學習如何識別和移除重複項、解析字串、從 XML 和 JSON 中提取數據、使用 SQL 生成 SQL、正規化數據和準備數據集,以及應用數據質量和 ETL 方法來尋找同一數據的不同表達之間的相似性和差異。

這本書充滿了現實世界的技術,書中的範例包含可運行的代碼。你將學會如何:

- 使用 SQL 識別和移除兩個不同數據集中的重複項
- 使用 SQL 正規化數據並達成數據質量
- 從 XML 和 JSON 中提取數據
- 使用 SQL 生成 SQL 以提高你的生產力
- 準備數據集以便導入、合併和更好的分析,使用 SQL
- 使用 SQL 報告結果
- 應用數據質量和 ETL 方法來尋找同一數據的不同表達之間的相似性和差異