当当云阅读 > 科技 > 计算机/网络 > 计算机理论与教程 > PyTorch计算机视觉实战:目标检测、图像处理与大模型(原书第2版)

PyTorch计算机视觉实战:目标检测、图像处理与大模型(原书第2版)电子书

想玩转计算机视觉，用 PyTorch 搞定目标检测、图像处理与大模型应用？这本实战宝典别错过！从深度学习基础、CNN 架构到 Transformer、稳定扩散，从传统 CV 任务到多模态融合，全流程拆解核心技术。40 + 实战案例搭配完整源码，兼顾理论与生产级部署，新手能搭建体系，资深发者可突破瓶颈。不管你是学生、软件工程师还是科研人员，都能通过本书掌握计算机视觉核心技能，在 AI 浪潮中抢占职业高地！

售价：¥

纸质售价：¥114.50购买纸书

2人正在读 | 0人评论

6.4

作者：(印)V·基肖尔·阿耶德瓦拉,(印)耶什万斯·雷迪

出版社：机械工业出版社

出版时间：2025-12-29

字数：25.9万

所属分类：科技 > 计算机/网络 > 计算机理论与教程

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(条)

读书简介
目录
累计评论(条)

本书系统介绍了基于PyTorch的计算机视觉技术，涵盖从理论基础到高级应用发的全流程。全书分为四部分，共18章，第一部分讲解深度学习基础，包括人工神经网络、PyTorch基础知识及深度神经网络构建；第二部分聚焦物体分类与检测，涉及卷积神经网络、迁移学习、物体检测技术及图像分割；第三部分探讨图像处理，涵盖自动编码器、生成对抗网络等；第四部分介绍计算机视觉与其他技术的融合，包括与强化学习、自然语言处理的结合，基础模型、稳定扩散应用及模型部署。书中包含40多种实际应用案例，GitHub提供完整源代码，每章配有习题及答案，适合具备Python和机器学习基础的学生、软件发人员及科研人员学习，助力其掌握计算机视觉与深度学习核心技能。 【推荐语】 想玩转计算机视觉，用 PyTorch 搞定目标检测、图像处理与大模型应用？这本实战宝典别错过！从深度学习基础、CNN 架构到 Transformer、稳定扩散，从传统 CV 任务到多模态融合，全流程拆解核心技术。40 + 实战案例搭配完整源码，兼顾理论与生产级部署，新手能搭建体系，资深发者可突破瓶颈。不管你是学生、软件工程师还是科研人员，都能通过本书掌握计算机视觉核心技能，在 AI 浪潮中抢占职业高地！ 【作者】 V·基肖尔·阿耶德瓦拉（V Kishore Ayyadevara）知名企业家，实干型领导者，致力于技术、数据和人工智能交叉领域，专注于发现并解决商业难题。他拥有十余年领导经验，曾在美国运通（American Express）、亚马逊（Amazon）及一家顶级健康保险公司，成功搭建并壮大应用数据科学团队。目前，他创立了一家初创公司，旨在推动人工智能技术在医疗机构的普及。工作之余，Kishore撰写了5本关于机器学习/人工智能的著作以分享专业知识。他拥有12项发明专利，并多次受邀在人工智能领域的会议上发表演讲。耶什万斯·雷迪（Yeshwanth Reddy）成就卓著的数据科学家，在深度学习与文档分析领域拥有10年以上实战经验。他为该领域做出了重大贡献，包括发端到端文档数字化软件，助力实现显著成本节约。他的专业知识还涵盖光学字符识别、单词检测与合成文档生成等模块发，其创性工作成果获得多项专利认证，同时创建了多个Python库。怀着对无监督学习与自监督学习变革的热情，他致力于减少人工标注依赖，推动数据科学领域的创新解决方案。

目录展开

前折页

书名页

版权

译者序

前言

作者简介

审校者简介

第一部分基于计算机视觉的深度学习基础

第1章人工神经网络基础

1.1 对比人工智能与传统机器学习

1.2 学习人工神经网络的构建块

1.3 实现前向传播

1.3.1 计算隐藏层的单元值

1.3.2 应用激活函数

1.3.3 计算输出层的值

1.3.4 计算损失值

1.3.5 编码实现前向传播

1.4 实现反向传播

1.4.1 编码实现梯度下降

1.4.2 利用链式法则实现反向传播

1.4.3 将前向传播与反向传播相结合

1.5 了解学习率的影响

1.5.1 学习率为0.01

1.5.2 学习率为0.1

1.5.3 学习率为1

1.6 神经网络训练过程概述

1.7 本章小结

1.8 习题

第2章 PyTorch基础

2.1 安装PyTorch

2.2 PyTorch张量

2.2.1 初始化张量

2.2.2 张量运算

2.2.3 张量对象的自动梯度

2.2.4 PyTorch张量相对于NumPy数组的优势

2.3 使用PyTorch构建神经网络

2.3.1 数据集、数据加载器与批处理大小

2.3.2 根据新的数据点进行预测

2.3.3 实现自定义损失函数

2.3.4 获取神经网络中间层的值

2.4 使用顺序方法构建神经网络

2.5 保存并加载PyTorch模型

2.5.1 使用state_dict

2.5.2 保存

2.5.3 加载

2.6 本章小结

2.7 习题

第3章使用PyTorch构建深度神经网络

3.1 图像表示

3.1.1 将图像转换为结构化数组和标量值

3.1.2 为彩色图像创建结构化数组

3.2 为什么要利用神经网络进行图像分析

3.3 准备用于图像分类的数据

3.4 训练神经网络

3.5 缩放数据集以提高模型准确率

3.6 理解批处理大小变化的影响

3.6.1 批处理大小为32

3.6.2 批处理大小为10 000

3.7 理解不同损失优化器的影响

3.8 构建更深的神经网络

3.9 理解批量归一化的影响

3.9.1 没有使用批量归一化的极小输入值

3.9.2 使用批量归一化的极小输入值

3.10 过拟合的概念

3.10.1 添加dropout的影响

3.10.2 正则化的影响

3.11 本章小结

3.12 习题

第二部分物体分类与检测

第4章卷积神经网络导论

4.1 传统深度神经网络存在的问题

4.2 卷积神经网络的构建块

4.2.1 卷积

4.2.2 滤波器

4.2.3 步长与填充

4.2.4 池化

4.2.5 整合各个构建块

4.2.6 卷积和池化在图像平移中的作用

4.3 实现卷积神经网络

4.4 利用深度卷积神经网络进行图像分类

4.5 可视化特征学习结果

4.6 构建用于真实世界图像分类的卷积神经网络

4.7 本章小结

4.8 习题

第5章用于图像分类的迁移学习

5.1 迁移学习概述

5.2 理解VGG16架构

5.3 理解ResNet架构

5.4 实现脸部关键点检测

5.5 实现年龄估计与性别分类

5.6 torch_snippets库概述

5.7 本章小结

5.8 习题

第6章图像分类的实际应用

6.1 生成类激活图

6.2 理解数据增强与批量归一化的影响

6.3 模型实现期间要注意的实际事项

6.3.1 不平衡的数据

6.3.2 图像中物体的大小

6.3.3 训练图像与验证图像之间的区别

6.3.4 扁平化层的节点数

6.3.5 图像大小

6.3.6 OpenCV实用程序

6.4 本章小结

6.5 习题

第7章物体检测基础知识

7.1 物体检测概述

7.2 创建用于训练的真实边界框

7.3 了解建议区域

7.3.1 利用SelectiveSearch生成建议区域

7.3.2 实现SelectiveSearch生成建议区域

7.4 了解交并比

7.5 非极大值抑制

7.6 平均精度均值

7.7 训练基于R-CNN的自定义物体检测器

7.7.1 R-CNN的工作细节

7.7.2 在自定义数据集上实现用于物体检测的R-CNN

7.7.3 数据集下载

7.8 训练基于Fast R-CNN的自定义物体检测器

7.8.1 Fast R-CNN的工作细节

7.8.2 在自定义数据集上实现用于物体检测的Fast R-CNN

7.9 本章小结

7.10 习题

第8章高级物体检测

8.1 更先进的物体检测算法的组成部分

8.1.1 锚框

8.1.2 建议区域网络

8.1.3 分类与回归

8.2 在自定义数据集上训练Faster R-CNN

8.3 YOLO的工作细节

8.4 在自定义数据集上训练YOLO

8.4.1 安装Darknet

8.4.2 设置数据集格式

8.4.3 配置架构

8.4.4 训练与测试模型

8.5 SSD的工作细节

8.6 在自定义数据集上训练SSD

8.7 本章小结

8.8 习题

第9章图像分割

9.1 探索U-Net架构

9.2 执行上采样

9.3 使用U-Net实现语义分割

9.4 探索Mask R-CNN架构

9.4.1 RoI对齐

9.4.2 掩码头

9.5 使用Mask R-CNN实现实例分割

9.6 预测多个类的多个实例

9.7 本章小结

9.8 习题

第10章物体检测与分割的应用

10.1 多物体实例分割

10.1.1 获取与准备数据

10.1.2 训练实例分割模型

10.1.3 在新图像上进行推理

10.2 人体姿态检测

10.3 人群计数

10.4 图像着色

10.5 基于点云的3D物体检测

10.5.1 理论

10.5.2 训练用于3D物体检测的YOLO模型

10.6 视频行为识别

10.6.1 识别视频中的行为

10.6.2 在自定义数据集上训练识别器

10.7 本章小结

10.8 习题

第三部分图像处理

第11章自动编码器与图像处理

11.1 理解自动编码器

11.1.1 自动编码器的工作原理

11.1.2 实现普通自动编码器

11.1.3 实现卷积自动编码器

11.1.4 使用t-SNE分组相似图像

11.2 理解变分自动编码器

11.2.1 变分自动编码器的需求

11.2.2 变分自动编码器的工作原理

11.2.3 KL散度

11.2.4 构建变分自动编码器

11.3 对图像进行对抗攻击

11.4 理解神经风格迁移

11.4.1 神经风格迁移的工作原理

11.4.2 执行神经风格迁移

11.5 理解深度伪造

11.5.1 深度伪造的工作原理

11.5.2 生成深度伪造

11.6 本章小结

11.7 习题

第12章基于生成对抗网络的图像生成

12.1 生成对抗网络简介

12.2 利用生成对抗网络生成手写数字

12.3 利用深度卷积生成对抗网络生成人脸图像

12.4 实现条件生成对抗网络

12.5 本章小结

12.6 习题

第13章用于图像处理的高级生成对抗网络

13.1 利用Pix2Pix GAN

13.2 利用CycleGAN

13.2.1 CycleGAN的工作原理

13.2.2 实现CycleGAN

13.3 在自定义图像中利用StyleGAN

13.3.1 StyleGAN的演化

13.3.2 实现StyleGAN

13.4 SRGAN简介

13.4.1 架构

13.4.2 编码实现SRGAN

13.5 本章小结

13.6 习题

第四部分计算机视觉与其他技术的融合

第14章计算机视觉与强化学习相结合

14.1 学习强化学习的基础知识

14.1.1 计算状态值

14.1.2 计算“状态-行动”值

14.2 实现Q学习

14.2.1 定义Q值

14.2.2 理解Gym环境

14.2.3 构建Q表

14.2.4 探索-利用策略

14.3 实现深度Q学习

14.3.1 理解CartPole环境

14.3.2 进行CartPole平衡

14.4 基于固定目标模型实现深度Q学习

14.4.1 理解应用实例

14.4.2 编写一个智能体来玩乒乓球游戏

14.5 实现一个执行自动驾驶的智能体

14.5.1 设置CARLA环境

14.5.2 训练自动驾驶智能体

14.6 本章小结

14.7 习题

第15章计算机视觉与自然语言处理技术相结合

15.1 Transformer简介

15.1.1 Transformer基础知识

15.1.2 视觉Transformer的工作原理

15.2 实现视觉Transformer

15.3 识别手写图像

15.3.1 手写识别工作流程

15.3.2 编码实现手写识别

15.4 文档布局分析

15.4.1 理解LayoutLM

15.4.2 实现LayoutLMv3

15.5 视觉问答

15.5.1 BLIP2简介

15.5.2 实现BLIP2

15.6 本章小结

15.7 习题

第16章计算机视觉中的基础模型

16.1 CLIP简介

16.1.1 CLIP的工作原理

16.1.2 从头开始构建CLIP模型

16.1.3 利用OpenAI CLIP

16.2 SAM简介

16.2.1 SAM的工作原理

16.2.2 实现SAM

16.2.3 FastSAM的工作原理

16.2.4 实现FastSAM

16.3 扩散模型简介

16.3.1 扩散模型的工作原理

16.3.2 扩散模型架构

16.3.3 从头开始构建扩散模型

16.3.4 条件图像生成

16.4 理解稳定扩散

16.4.1 稳定扩散模型的构建块

16.4.2 实现稳定扩散

16.5 本章小结

16.6 习题

第17章稳定扩散的应用

17.1 图像修复

17.1.1 模型训练工作流程

17.1.2 使用稳定扩散进行图像修复

17.2 ControlNet

17.2.1 架构

17.2.2 实现ControlNet

17.3 SDXL Turbo

17.3.1 架构

17.3.2 实现SDXL Turbo

17.4 DepthNet

17.4.1 DepthNet工作流程

17.4.2 实现DepthNet

17.5 根据文本生成视频

17.5.1 工作流程

17.5.2 实现根据文本生成视频

17.6 本章小结

17.7 习题

第18章模型部署到生产环境

18.1 了解API的基础知识

18.2 在本地服务器上创建API并进行预测

18.2.1 安装API模块及依赖项

18.2.2 部署图像分类器

18.3 封装应用程序

18.4 在云端部署并运行Docker容器

18.4.1 配置AWS

18.4.2 在AWS ECR上创建Docker存储库并推送镜像

18.4.3 提取镜像并构建Docker容器

18.5 识别数据漂移

18.6 使用向量存储

18.7 本章小结

18.8 习题

附录

支持设备

豆包AI赚钱手册￥38.80

秋叶著

￥38.80

学会提问,驾驭AI:提示词从入门到精通￥61.60

程希冀

￥61.60

DeepSeek应用大全:从入门到精通的*案例解析￥54.60

李艮基;肖灵儿;等

￥54.60

精通Excel数据统计与分析￥57.54

李宗璋著

￥57.54

AI时代生存手册:零基础掌握豆包￥38.80

秋叶朱超彭秋婷著

￥38.80

豆包*学习:AI 辅助中小学生学习的方法与技巧￥47.00

薛碧芸;郭泽德

￥47.00

更多同类图书 >