利用 Python 进行数据分析（原书第2版）

利用 Python 进行数据分析（原书第2版） 🔍

[美]韦斯·麦金尼(Wes, McKinney) 徐敬一北京：机械工业出版社, 2nd edition, Erscheinungsort nicht ermittelbar, 2018

中文 [zh] · 英语 [en] · PDF · 87.3MB · 2018 · 📘 非小说类图书 · 🚀/duxiu/lgli/upload/zlib · Save

描述

阅读本书可以获得关于在Python下操作、处理、清洗、规整数据集的完整说明。本书第2版针对Python 3.6进行了更新,并增加了实际案例向你展示如何高效地解决一系列数据分析问题。你将在阅读过程中学习到较新版本的pandas、NumPy、IPython和Jupyter。本书作者Wes McKinney是Python pandas项目的创始人。本书是对Python数据科学工具的实操化、现代化的介绍,非常适合刚学Python的数据分析师或刚学数据科学以及科学计算的Python编程者。数据文件和相关的材料可以在GitHub上找到。使用IPython shell和Jupyter notebook进行探索性计算学习NumPy(Numerical Python)的基础和高级特性入门pandas库中的数据分析工具使用灵活工具对数据进行载入、清洗、变换、合并和重塑使用matplotlib创建富含信息的可视化将pandas的groupby功能应用于对数据集的切片、切块和汇总分析并操作规则和不规则的时间序列数据利用完整的、详细的示例学习如何解决现实中的数据分析问题

备用文件名

lgli/[美]韦斯·麦金尼（Wes, McKinney）徐敬一 - 利用Python进行数据分析（原书第2版） (2018, 机械工业出版社).pdf

备用文件名

zlib/Computers/Organization and Data Processing/[美]韦斯·麦金尼（Wes, McKinney）徐敬一/利用Python进行数据分析（原书第2版）_16392799.pdf

备选标题

利用Python进行数据分析 Li yong Python jin xing shu ju fen xi

备选标题

利用 Python 进行数据分析!4x'CU!Os2版

备选标题

利用Python进行数据分析原书第2版

备选标题

ssreader

备选作者

ssreader

备用出版商

China Machinery Industry Information Institute

备用出版商

机械工业出版社 Ji xie gong ye chu ban she

备用出版商

China Machine Press

备用版本

China, People's Republic, China

备用版本

Di 1 ban, 北京 Beijing, 2018

元数据中的注释

lg2491790

元数据中的注释

producers:
PDFlib Personalization Server 6.0.3p1 (C++/Win32)

元数据中的注释

Bookmarks: p1 (p1): 前言
p2 (p7): 第1章准备工作
p2-1 (p7): 1.1 本书内容
p2-1-1 (p7): 1.1.1 什么类型的数据
p2-2 (p8): 1.2 为何利用Python进行数据分析
p2-2-1 (p8): 1.2.1 Python作为胶水
p2-2-2 (p8): 1.2.2 解决“双语言”难题
p2-2-3 (p9): 1.2.3 为何不使用Python
p2-3 (p9): 1.3 重要的Python库
p2-3-1 (p9): 1.3.1 NumPy
p2-3-2 (p10): 1.3.2 pandas
p2-3-3 (p11): 1.3.3 matplotlib
p2-3-4 (p11): 1.3.4 IPython与Jupyter
p2-3-5 (p12): 1.3.5 SciPy
p2-3-6 (p12): 1.3.6 scikit-learn
p2-3-7 (p13): 1.3.7 statsmodels
p2-4 (p13): 1.4 安装与设置
p2-4-1 (p14): 1.4.1 Windows
p2-4-2 (p14): 1.4.2 Apple（OS X和macOS）
p2-4-3 (p14): 1.4.3 GNU/Linux
p2-4-4 (p15): 1.4.4 安装及更新Python包
p2-4-5 (p16): 1.4.5 Python 2和Python 3
p2-4-6 (p16): 1.4.6 集成开发环境和文本编辑器
p2-5 (p17): 1.5 社区和会议
p2-6 (p17): 1.6 快速浏览本书
p2-6-1 (p18): 1.6.1 代码示例
p2-6-2 (p18): 1.6.2 示例数据
p2-6-3 (p18): 1.6.3 导入约定
p2-6-4 (p19): 1.6.4 术语
p3 (p20): 第2章 Python语言基础、l Python及Jupyter notebook
p3-1 (p21): 2.1 Python解释器
p3-2 (p22): 2.2 IPython基础
p3-2-1 (p22): 2.2.1 运行IPython命令行
p3-2-2 (p23): 2.2.2 运行Jupyter notebook
p3-2-3 (p25): 2.2.3 Tab补全
p3-2-4 (p27): 2.2.4 内省
p3-2-5 (p28): 2.2.5 %run命令
p3-2-6 (p30): 2.2.6 执行剪贴板中的程序
p3-2-7 (p30): 2.2.7 终端快捷键
p3-2-8 (p31): 2.2.8 关于魔术命令
p3-2-9 (p33): 2.2.9 matplotlib集成
p3-3 (p34): 2.3 Python语言基础
p3-3-1 (p34): 2.3.1 语言语义
p3-3-2 (p42): 2.3.2 标量类型
p3-3-3 (p49): 2.3.3 控制流
p4 (p54): 第3章内建数据结构、函数及文件
p4-1 (p54): 3.1 数据结构和序列
p4-1-1 (p54): 3.1.1 元组
p4-1-2 (p57): 3.1.2 列表
p4-1-3 (p61): 3.1.3 内建序列函数
p4-1-4 (p64): 3.1.4 字典
p4-1-5 (p67): 3.1.5 集合
p4-1-6 (p69): 3.1.6 列表、集合和字典的推导式
p4-2 (p72): 3.2 函数
p4-2-1 (p72): 3.2.1 命名空间、作用域和本地函数
p4-2-2 (p73): 3.2.2 返回多个值
p4-2-3 (p74): 3.2.3 函数是对象
p4-2-4 (p75): 3.2.4 匿名（Lambda）函数
p4-2-5 (p76): 3.2.5 柯里化：部分参数应用
p4-2-6 (p77): 3.2.6 生成器
p4-2-7 (p79): 3.2.7 错误和异常处理
p4-3 (p82): 3.3 文件与操作系统
p4-3-1 (p85): 3.3.1 字节与Unicode文件
p4-4 (p86): 3.4 本章小结
p5 (p87): 第4章 NumPy基础：数组与向量化计算
p5-1 (p89): 4.1 NumPy ndarray：多维数组对象
p5-1-1 (p90): 4.1.1 生成ndarray
p5-1-2 (p92): 4.1.2 ndarray的数据类型
p5-1-3 (p94): 4.1.3 NumPy数组算术
p5-1-4 (p95): 4.1.4 基础索引与切片
p5-1-5 (p100): 4.1.5 布尔索引
p5-1-6 (p103): 4.1.6 神奇索引
p5-1-7 (p104): 4.1.7 数组转置和换轴
p5-2 (p106): 4.2 通用函数：快速的逐元素数组函数
p5-3 (p109): 4.3 使用数组进行面向数组编程
p5-3-1 (p110): 4.3.1 将条件逻辑作为数组操作
p5-3-2 (p111): 4.3.2 数学和统计方法
p5-3-3 (p113): 4.3.3 布尔值数组的方法
p5-3-4 (p114): 4.3.4 排序
p5-3-5 (p115): 4.3.5 唯一值与其他集合逻辑
p5-4 (p115): 4.4 使用数组进行文件输入和输出
p5-5 (p116): 4.5 线性代数
p5-6 (p118): 4.6 伪随机数生成
p5-7 (p120): 4.7 示例：随机漫步
p5-7-1 (p121): 4.7.1 一次性模拟多次随机漫步
p5-8 (p122): 4.8 本章小结
p6 (p123): 第5章 pandas入门
p6-1 (p123): 5.1 pandas数据结构介绍
p6-1-1 (p123): 5.1.1 Series
p6-1-2 (p128): 5.1.2 DataFrame
p6-1-3 (p134): 5.1.3 索引对象
p6-2 (p135): 5.2 基本功能
p6-2-1 (p136): 5.2.1 重建索引
p6-2-2 (p138): 5.2.2 轴向上删除条目
p6-2-3 (p140): 5.2.3 索引、选择与过滤
p6-2-4 (p144): 5.2.4 整数索引
p6-2-5 (p145): 5.2.5 算术和数据对齐
p6-2-6 (p150): 5.2.6 函数应用和映射
p6-2-7 (p152): 5.2.7 排序和排名
p6-2-8 (p155): 5.2.8 含有重复标签的轴索引
p6-3 (p157): 5.3 描述性统计的概述与计算
p6-3-1 (p159): 5.3.1 相关性和协方差
p6-3-2 (p161): 5.3.2 唯一值、计数和成员属性
p6-4 (p164): 5.4 本章小结
p7 (p165): 第6章数据载入、存储及文件格式
p7-1 (p165): 6.1 文本格式数据的读写
p7-1-1 (p171): 6.1.1 分块读入文本文件
p7-1-2 (p172): 6.1.2 将数据写入文本格式
p7-1-3 (p174): 6.1.3 使用分隔格式
p7-1-4 (p176): 6.1.4 JSON数据
p7-1-5 (p177): 6.1.5 XML和HTML：网络抓取
p7-2 (p180): 6.2 二进制格式
p7-2-1 (p181): 6.2.1 使用HDF5格式
p7-2-2 (p183): 6.2.2 读取Microsoft Excel文件
p7-3 (p184): 6.3 与Web API交互
p7-4 (p186): 6.4 与数据库交互
p7-5 (p187): 6.5 本章小结
p8 (p188): 第7章数据清洗与准备
p8-1 (p188): 7.1 处理缺失值
p8-1-1 (p189): 7.1.1 过滤缺失值
p8-1-2 (p191): 7.1.2 补全缺失值
p8-2 (p194): 7.2 数据转换
p8-2-1 (p194): 7.2.1 删除重复值
p8-2-2 (p195): 7.2.2 使用函数或映射进行数据转换
p8-2-3 (p197): 7.2.3 替代值
p8-2-4 (p198): 7.2.4 重命名轴索引
p8-2-5 (p199): 7.2.5 离散化和分箱
p8-2-6 (p202): 7.2.6 检测和过滤异常值
p8-2-7 (p203): 7.2.7 置换和随机抽样
p8-2-8 (p204): 7.2.8 计算指标/虚拟变量
p8-3 (p207): 7.3 字符串操作
p8-3-1 (p208): 7.3.1 字符串对象方法
p8-3-2 (p210): 7.3.2 正则表达式
p8-3-3 (p213): 7.3.3 pandas中的向量化字符串函数
p8-4 (p215): 7.4 本章小结
p9 (p216): 第8章数据规整：连接、联合与重塑
p9-1 (p216): 8.1 分层索引
p9-1-1 (p219): 8.1.1 重排序和层级排序
p9-1-2 (p220): 8.1.2 按层级进行汇总统计
p9-1-3 (p220): 8.1.3 使用DataFrame的列进行索引
p9-2 (p221): 8.2 联合与合并数据集
p9-2-1 (p222): 8.2.1 数据库风格的DataFrame连接
p9-2-2 (p226): 8.2.2 根据索引合并
p9-2-3 (p230): 8.2.3 沿轴向连接
p9-2-4 (p235): 8.2.4 联合重叠数据
p9-3 (p236): 8.3 重塑和透视
p9-3-1 (p236): 8.3.1 使用多层索引进行重塑
p9-3-2 (p240): 8.3.2 将“长”透视为“宽”
p9-3-3 (p242): 8.3.3 将“宽”透视为“长”
p9-4 (p244): 8.4 本章小结
p10 (p245): 第9章绘图与可视化
p10-1 (p245): 9.1 简明matplotlib API入门
p10-1-1 (p246): 9.1.1 图片与子图
p10-1-2 (p250): 9.1.2 颜色、标记和线类型
p10-1-3 (p252): 9.1.3 刻度、标签和图例
p10-1-4 (p255): 9.1.4 注释与子图加工
p10-1-5 (p258): 9.1.5 将图片保存到文件
p10-1-6 (p258): 9.1.6 matplotlib设置
p10-2 (p259): 9.2 使用pandas和seaborn绘图
p10-2-1 (p259): 9.2.1 折线图
p10-2-2 (p262): 9.2.2 柱状图
p10-2-3 (p266): 9.2.3 直方图和密度图
p10-2-4 (p269): 9.2.4 散点图或点图
p10-2-5 (p270): 9.2.5 分面网格和分类数据
p10-3 (p271): 9.3 其他Python可视化工具
p10-4 (p272): 9.4 本章小结
p11 (p274): 第10章数据聚合与分组操作
p11-1 (p274): 10.1 GroupBy机制
p11-1-1 (p278): 10.1.1 遍历各分组
p11-1-2 (p279): 10.1.2 选择一列或所有列的子集
p11-1-3 (p280): 10.1.3 使用字典和Series分组
p11-1-4 (p281): 10.1.4 使用函数分组
p11-1-5 (p282): 10.1.5 根据索引层级分组
p11-2 (p282): 10.2 数据聚合
p11-2-1 (p284): 10.2.1 逐列及多函数应用
p11-2-2 (p287): 10.2.2 返回不含行索引的聚合数据
p11-3 (p288): 10.3 应用：通用拆分-应用-联合
p11-3-1 (p290): 10.3.1 压缩分组键
p11-3-2 (p291): 10.3.2 分位数与桶分析
p11-3-3 (p292): 10.3.3 示例：使用指定分组值填充缺失值
p11-3-4 (p294): 10.3.4 示例：随机采样与排列
p11-3-5 (p296): 10.3.5 示例：分组加权平均和相关性
p11-3-6 (p298): 10.3.6 示例：逐组线性回归
p11-4 (p298): 10.4 数据透视表与交叉表
p11-4-1 (p301): 10.4.1 交叉表：crosstab
p11-5 (p302): 10.5 本章小结
p12 (p303): 第11章时间序列
p12-1 (p303): 11.1 日期和时间数据的类型及工具
p12-1-1 (p305): 11.1.1 字符串与datetime互相转换
p12-2 (p307): 11.2 时间序列基础
p12-2-1 (p308): 11.2.1 索引、选择、子集
p12-2-2 (p311): 11.2.2 含有重复索引的时间序列
p12-3 (p312): 11.3 日期范围、频率和移位
p12-3-1 (p313): 11.3.1 生成日期范围
p12-3-2 (p316): 11.3.2 频率和日期偏置
p12-3-3 (p317): 11.3.3 移位（前向和后向）日期
p12-4 (p320): 11.4 时区处理
p12-4-1 (p320): 11.4.1 时区的本地化和转换
p12-4-2 (p323): 11.4.2 时区感知时间戳对象的操作
p12-4-3 (p324): 11.4.3 不同时区间的操作
p12-5 (p324): 11.5 时间区间和区间算术
p12-5-1 (p326): 11.5.1 区间频率转换
p12-5-2 (p327): 11.5.2 季度区间频率
p12-5-3 (p329): 11.5.3 将时间戳转换为区间（以及逆转换）
p12-5-4 (p330): 11.5.4 从数组生成Periodlndex
p12-6 (p332): 11.6 重新采样与频率转换
p12-6-1 (p334): 11.6.1 向下采样
p12-6-2 (p336): 11.6.2 向上采样与插值
p12-6-3 (p337): 11.6.3 使用区间进行重新采样
p12-7 (p339): 11.7 移动窗口函数
p12-7-1 (p342): 11.7.1 指数加权函数
p12-7-2 (p343): 11.7.2 二元移动窗口函数
p12-7-3 (p344): 11.7.3 用户自定义的移动窗口函数
p12-8 (p344): 11.8 本章小结
p13 (p346): 第12章高阶pandas
p13-1 (p346): 12.1 分类数据
p13-1-1 (p346): 12.1.1 背景和目标
p13-1-2 (p348): 12.1.2 pandas中的Categorical类型
p13-1-3 (p350): 12.1.3 使用Categorical对象进行计算
p13-1-4 (p352): 12.1.4 分类方法
p13-2 (p355): 12.2 高阶GroupBy应用
p13-2-1 (p355): 12.2.1 分组转换和“展开”GroupBy
p13-2-2 (p359): 12.2.2 分组的时间重新采样
p13-3 (p361): 12.3 方法链技术
p13-3-1 (p362): 12.3.1 pipe方法
p13-4 (p363): 12.4 本章小结
p14 (p364): 第13章 Python建模库介绍
p14-1 (p364): 13.1 pandas与建模代码的结合
p14-2 (p367): 13.2 使用Patsy创建模型描述
p14-2-1 (p369): 13.2.1 Patsy公式中的数据转换
p14-2-2 (p371): 13.2.2 分类数据与Patsy
p14-3 (p373): 13.3 statsmodels介绍
p14-3-1 (p374): 13.3.1 评估线性模型
p14-3-2 (p377): 13.3.2 评估时间序列处理
p14-4 (p377): 13.4 scikit-learn介绍
p14-5 (p381): 13.5 继续你的教育
p15 (p382): 第14章数据分析示例
p15-1 (p382): 14.1 从Bitly获取1.USA.gov数据
p15-1-1 (p383): 14.1.1 纯Python时区计数
p15-1-2 (p385): 14.1.2 使用pandas进行时区计数
p15-2 (p392): 14.2 MovieLens 1M数据集
p15-2-1 (p396): 14.2.1 测量评价分歧
p15-3 (p397): 14.3 美国1880～2010年的婴儿名字
p15-3-1 (p402): 14.3.1 分析名字趋势
p15-4 (p410): 14.4 美国农业部食品数据库
p15-5 (p416): 14.5 2012年联邦选举委员会数据库
p15-5-1 (p419): 14.5.1 按职业和雇主的捐献统计
p15-5-2 (p421): 14.5.2 捐赠金额分桶
p15-5-3 (p423): 14.5.3 按州进行捐赠统计
p15-6 (p424): 14.6 本章小结
p16 (p425): 附录A高阶NumPy
p17 (p457): 附录B更多IPython系统相关内容

开源日期

2021-06-19

更多信息……

🚀 快速下载

成为会员以支持书籍、论文等的长期保存。为了感谢您对我们的支持，您将获得高速下载权益。❤️

🐢 低速下载

由可信的合作方提供。更多信息请参见常见问题解答。（可能需要验证浏览器——无限次下载！）

低速服务器（合作方提供） #1 （稍快但需要排队）
低速服务器（合作方提供） #2 （稍快但需要排队）
低速服务器（合作方提供） #3 （稍快但需要排队）
低速服务器（合作方提供） #4 （稍快但需要排队）
低速服务器（合作方提供） #5 （无需排队，但可能非常慢）
低速服务器（合作方提供） #6 （无需排队，但可能非常慢）
低速服务器（合作方提供） #7 （无需排队，但可能非常慢）
低速服务器（合作方提供） #8 （无需排队，但可能非常慢）
低速服务器（合作方提供） #9 （无需排队，但可能非常慢）
下载后：在我们的查看器中打开

所有选项下载的文件都相同，应该可以安全使用。即使这样，从互联网下载文件时始终要小心。例如，确保您的设备更新及时。

显示外部下载

对于大文件，我们建议使用下载管理器以防止中断。
推荐的下载管理器：JDownloader
您将需要一个电子书或 PDF 阅读器来打开文件，具体取决于文件格式。
推荐的电子书阅读器：Anna的档案在线查看器、ReadEra和Calibre
使用在线工具进行格式转换。
推荐的转换工具：CloudConvert和PrintFriendly
您可以将 PDF 和 EPUB 文件发送到您的 Kindle 或 Kobo 电子阅读器。
推荐的工具：亚马逊的“发送到 Kindle”和djazz 的“发送到 Kobo/Kindle”
支持作者和图书馆
✍️ 如果您喜欢这个并且能够负担得起，请考虑购买原版，或直接支持作者。
📚 如果您当地的图书馆有这本书，请考虑在那里免费借阅。

📂 文件质量

通过反馈此文件的质量来改进社区！ 🙌