万本电子书0元读

万本电子书0元读

顶部广告

实体消解指南:使用Python进行数据匹配电子书

本书是数据工程师的实战宝典!从实体消解基础概念切,系统拆解数据标准化、文本模糊匹配(Levenshtein距离、Metaphone算法)、概率模型(Fellegi-Sunter模型、贝叶斯因子)、聚类分块等核心技术,更独家涵盖Splink框架、谷歌云Dataproc集群部署、企业知识图谱API等前沿工具。作者以真实金融反欺诈案例贯穿全书,手把手教学Python代码实现,并前瞻隐私集合求交(PSI)等合规技术。经Splink工具作者Robin Linacre力荐,既是新手门教材,也是资深从业者的技术阶手册。

售       价:¥

纸质售价:¥50.40购买纸书

2人正在读 | 0人评论 6.7

作       者:(英)迈克尔·希勒(Michael Shearer)

出  版  社:机械工业出版社

出版时间:2025-06-17

字       数:7.1万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(条)
  • 读书简介
  • 目录
  • 累计评论(条)
在数据驱动时代,实体消解技术是通数据孤岛的核心利器。本书以Python为工具,系统讲解从数据清洗到云端大规模部署的全流程技术:·基础原理:解析实体消解5大步骤(数据标准化、分块、属性比较、匹配分类、聚类),直面姓名模糊、数据缺失、跨源匹配等实战难题;·算法攻坚:详解编辑距离、Jaro-Winkler相似度等文本匹配技术,结合贝叶斯定理、期望zui大化算法构建概率匹配模型;·工具实战:基于Splink实现企业级数据消解,通过谷歌云平台扩展至百万级数据集;·前沿拓展:引隐私增强技术(PSI),平衡数据利用与合规风险。全书配套GitHub代码库,以英国公司注册署、海事署等真实数据演示跨领域(金融风控、供应管理)场景应用,助力读者构建可复用的数据资产整合方案。<br/>【推荐语】<br/>本书是数据工程师的实战宝典!从实体消解基础概念切,系统拆解数据标准化、文本模糊匹配(Levenshtein距离、Metaphone算法)、概率模型(Fellegi-Sunter模型、贝叶斯因子)、聚类分块等核心技术,更独家涵盖Splink框架、谷歌云Dataproc集群部署、企业知识图谱API等前沿工具。作者以真实金融反欺诈案例贯穿全书,手把手教学Python代码实现,并前瞻隐私集合求交(PSI)等合规技术。经Splink工具作者Robin Linacre力荐,既是新手门教材,也是资深从业者的技术阶手册。<br/>【作者】<br/>Michael Shearer是HAWK:AI公司的首席解决方案官,该公司致力于帮助金融机构侦测金融犯罪活动。作为汇丰银行前董事总经理,他在2014—2023年间主导发了一套合规系统。此外,迈克尔还在英国政府部门拥有20年的工作经验,曾担任多个关键的管理和技术角色。<br/>
目录展开

O'Reilly Media,Inc.介绍

译者序

前言

第1章 实体消解入门

1.1 什么是实体消解

1.2 实体消解的作用

1.3 实体消解的主要挑战

1.3.1 姓名缺少唯一性

1.3.2 命名约定不一致

1.3.3 数据获取不一致

1.3.4 示例

1.3.5 故意模糊处理

1.3.6 匹配组合

1.3.7 盲目匹配

1.4 实体消解过程

1.4.1 数据标准化

1.4.2 记录分块

1.4.3 属性比较

1.4.4 匹配分类

1.4.5 聚类

1.4.6 规范化

1.4.7 示例

1.5 评估结果

1.6 正式开始

第2章 数据标准化

2.1 案例

2.2 设置环境

2.3 获取数据

2.3.1 维基百科数据

2.3.2 TheyWorkForYou数据

2.4 清洗数据

2.4.1 清洗维基百科数据

2.4.2 清洗TheyWorkForYou数据

2.5 比较属性

2.6 选区

2.7 评估结果

2.8 计算样本

2.9 总结

第3章 文本匹配

3.1 编辑距离匹配

3.1.1 Levenshtein距离

3.1.2 Jaro相似度

3.1.3 Jaro-Winkler相似度

3.2 语音匹配

3.2.1 Metaphone算法

3.2.2 MRA算法

3.3 技术比较

3.4 案例

3.5 全面相似度比较

3.6 评估结果

3.7 总结

第4章 概率匹配

4.1 案例

4.2 单一属性匹配概率

4.2.1 名字匹配概率

4.2.2 姓氏匹配概率

4.3 多属性匹配概率

4.4 概率模型

4.4.1 贝叶斯定理

4.4.2 m值

4.4.3 u值

4.4.4 λ值

4.4.5 贝叶斯因子

4.4.6 Fellegi-Sunter模型

4.4.7 匹配权重

4.5 期望最大化算法

4.5.1 第一次迭代

4.5.2 第二次迭代

4.5.3 第三次迭代

4.6 Splink入门

4.6.1 配置Splink

4.6.2 Splink匹配结果

4.7 总结

第5章 记录分块

5.1 案例

5.2 获取数据

5.2.1 维基百科数据

5.2.2 英国公司注册署数据

5.3 数据标准化

5.3.1 维基百科数据

5.3.2 英国公司注册署数据

5.4 记录分块与属性比较

5.4.1 使用Splink进行记录分块

5.4.2 比较属性

5.5 匹配分类

5.6 评估结果

5.7 总结

第6章 匹配公司

6.1 案例

6.2 获取数据

6.3 数据标准化

6.3.1 英国公司注册署数据

6.3.2 英国海事及海岸警卫署数据

6.4 记录分块与属性比较

6.5 匹配分类

6.6 评估结果

6.7 匹配新实体

6.8 总结

第7章 聚类

7.1 简单精确匹配聚类

7.2 近似匹配聚类

7.3 案例

7.3.1 获取数据

7.3.2 数据标准化

7.4 记录分块与属性比较

7.4.1 数据分析

7.4.2 期望最大化分块规则

7.5 匹配分类与聚类

7.6 簇可视化

7.7 聚类分析

7.8 总结

第8章 使用谷歌云平台进行扩展

8.1 谷歌云设置

8.2 创建Dataproc集群

8.3 配置Dataproc集群

8.4 使用Spark进行实体消解

8.5 评估结果

8.6 整理工作

8.7 总结

第9章 实体消解云服务

9.1 BigQuery简介

9.2 企业知识图谱API

9.2.1 模式映射

9.2.2 消解作业

9.2.3 处理结果

9.2.4 实体消解Python客户端

9.3 评估结果

9.4 总结

第10章 利用记录关联技术保护隐私

10.1 隐私集合求交简介

10.2 PSI原理

10.3 基于ECDH的PSI协议

10.3.1 布隆过滤器

10.3.2 格伦布编码集

10.4 案例:使用PSI

10.4.1 设置环境

10.4.2 服务器代码

10.4.3 客户端代码

10.4.4 完整的MCA和公司注册署样本示例

10.5 总结

第11章 进一步探讨

11.1 数据问题探讨

11.1.1 非结构化数据问题

11.1.2 数据质量问题

11.1.3 时效性问题

11.2 属性比较

11.2.1 集合匹配

11.2.2 地理编码位置匹配

11.2.3 汇总比较

11.3 后处理

11.4 图形表示

11.5 实时性问题

11.6 评估结果

11.6.1 成对方法

11.6.2 基于簇的方法

11.7 实体消解的未来

关于作者

关于封面

推荐阅读

累计评论(条) 个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部