利用Python进行数据分析原书第2版

upload/duxiu_main/v/pdf/利用Python进行数据分析原书第2版_14453300.pdf

利用Python进行数据分析原书第2版 🔍

Wes McKinney, (美)韦斯·麦金尼(Wes McKinney) O'Reilly, 2018, 2018

中文 [zh] · PDF · 30.1MB · 2018 · 📗 未知类型的图书 · 🚀/duxiu/upload/zlibzh · Save

描述

1 (p1): 前言 7 (p2): 第1章准备工作 7 (p2-1): 1.1 本书内容 7 (p2-1-1): 1.1.1 什么类型的数据 8 (p2-2): 1.2 为何利用Python进行数据分析 8 (p2-2-1): 1.2.1 Python作为胶水 8 (p2-2-2): 1.2.2 解决“双语言”难题 9 (p2-2-3): 1.2.3 为何不使用Python 9 (p2-3): 1.3 重要的Python库 9 (p2-3-1): 1.3.1 NumPy 10 (p2-3-2): 1.3.2 pandas 11 (p2-3-3): 1.3.3 matplotlib 11 (p2-3-4): 1.3.4 IPython与Jupyter 12 (p2-3-5): 1.3.5 SciPy 12 (p2-3-6): 1.3.6 scikit-learn 13 (p2-3-7): 1.3.7 statsmodels 13 (p2-4): 1.4 安装与设置 14 (p2-4-1): 1.4.1 Windows 14 (p2-4-2): 1.4.2 Apple(OS X和macOS) 14 (p2-4-3): 1.4.3 GNU/Linux 15 (p2-4-4): 1.4.4 安装及更新Python包 16 (p2-4-5): 1.4.5 Python 2和Python 3 16 (p2-4-6): 1.4.6 集成开发环境和文本编辑器 17 (p2-5): 1.5 社区和会议 17 (p2-6): 1.6 快速浏览本书 18 (p2-6-1): 1.6.1 代码示例 18 (p2-6-2): 1.6.2 示例数据 18 (p2-6-3): 1.6.3 导入约定 19 (p2-6-4): 1.6.4 术语 20 (p3): 第2章 Python语言基础、l Python及Jupyter notebook 21 (p3-1): 2.1 Python解释器 22 (p3-2): 2.2 IPython基础 22 (p3-2-1): 2.2.1 运行IPython命令行 23 (p3-2-2): 2.2.2 运行Jupyter notebook 25 (p3-2-3): 2.2.3 Tab补全 27 (p3-2-4): 2.2.4 内省 28 (p3-2-5): 2.2.5 %run命令 30 (p3-2-6): 2.2.6 执行剪贴板中的程序 30 (p3-2-7): 2.2.7 终端快捷键 31 (p3-2-8): 2.2.8 关于魔术命令 33 (p3-2-9): 2.2.9 matplotlib集成 34 (p3-3): 2.3 Python语言基础 34 (p3-3-1): 2.3.1 语言语义 42 (p3-3-2): 2.3.2 标量类型 49 (p3-3-3): 2.3.3 控制流 54 (p4): 第3章内建数据结构、函数及文件 54 (p4-1): 3.1 数据结构和序列 54 (p4-1-1): 3.1.1 元组 57 (p4-1-2): 3.1.2 列表 61 (p4-1-3): 3.1.3 内建序列函数 64 (p4-1-4): 3.1.4 字典 67 (p4-1-5): 3.1.5 集合 69 (p4-1-6): 3.1.6 列表、集合和字典的推导式 72 (p4-2): 3.2 函数 72 (p4-2-1): 3.2.1 命名空间、作用域和本地函数 73 (p4-2-2): 3.2.2 返回多个值 74 (p4-2-3): 3.2.3 函数是对象 75 (p4-2-4): 3.2.4 匿名(Lambda)函数 76 (p4-2-5): 3.2.5 柯里化:部分参数应用 77 (p4-2-6): 3.2.6 生成器 79 (p4-2-7): 3.2.7 错误和异常处理 82 (p4-3): 3.3 文件与操作系统 85 (p4-3-1): 3.3.1 字节与Unicode文件 86 (p4-4): 3.4 本章小结 87 (p5): 第4章 NumPy基础:数组与向量化计算 89...

备用文件名

zlibzh/no-category/Wes McKinney, （美）韦斯·麦金尼（Wes McKinney）/利用Python进行数据分析原书第2版_42745035.pdf

备选标题

利用Python进行数据分析 Li yong Python jin xing shu ju fen xi

备选标题

利用 Python 进行数据分析!4x'CU!Os2版

备选标题

利用 Python 进行数据分析(原书第2版)

备选作者

[美]韦斯·麦金尼(Wes,McKinney) 徐敬一

备用出版商

China Machinery Industry Information Institute

备用出版商

机械工业出版社 Ji xie gong ye chu ban she

备用出版商

China Machine Press

备用出版商

北京:机械工业出版社

备用版本

2nd edition, Erscheinungsort nicht ermittelbar, 2018

备用版本

China, People's Republic, China

备用版本

Di 1 ban, 北京 Beijing, 2018

元数据中的注释

producers:
calibre 3.29.0 [https://calibre-ebook.com]

元数据中的注释

Bookmarks: p1 (p1): 前言
p2 (p7): 第1章准备工作
p2-1 (p7): 1.1 本书内容
p2-1-1 (p7): 1.1.1 什么类型的数据
p2-2 (p8): 1.2 为何利用Python进行数据分析
p2-2-1 (p8): 1.2.1 Python作为胶水
p2-2-2 (p8): 1.2.2 解决“双语言”难题
p2-2-3 (p9): 1.2.3 为何不使用Python
p2-3 (p9): 1.3 重要的Python库
p2-3-1 (p9): 1.3.1 NumPy
p2-3-2 (p10): 1.3.2 pandas
p2-3-3 (p11): 1.3.3 matplotlib
p2-3-4 (p11): 1.3.4 IPython与Jupyter
p2-3-5 (p12): 1.3.5 SciPy
p2-3-6 (p12): 1.3.6 scikit-learn
p2-3-7 (p13): 1.3.7 statsmodels
p2-4 (p13): 1.4 安装与设置
p2-4-1 (p14): 1.4.1 Windows
p2-4-2 (p14): 1.4.2 Apple（OS X和macOS）
p2-4-3 (p14): 1.4.3 GNU/Linux
p2-4-4 (p15): 1.4.4 安装及更新Python包
p2-4-5 (p16): 1.4.5 Python 2和Python 3
p2-4-6 (p16): 1.4.6 集成开发环境和文本编辑器
p2-5 (p17): 1.5 社区和会议
p2-6 (p17): 1.6 快速浏览本书
p2-6-1 (p18): 1.6.1 代码示例
p2-6-2 (p18): 1.6.2 示例数据
p2-6-3 (p18): 1.6.3 导入约定
p2-6-4 (p19): 1.6.4 术语
p3 (p20): 第2章 Python语言基础、l Python及Jupyter notebook
p3-1 (p21): 2.1 Python解释器
p3-2 (p22): 2.2 IPython基础
p3-2-1 (p22): 2.2.1 运行IPython命令行
p3-2-2 (p23): 2.2.2 运行Jupyter notebook
p3-2-3 (p25): 2.2.3 Tab补全
p3-2-4 (p27): 2.2.4 内省
p3-2-5 (p28): 2.2.5 %run命令
p3-2-6 (p30): 2.2.6 执行剪贴板中的程序
p3-2-7 (p30): 2.2.7 终端快捷键
p3-2-8 (p31): 2.2.8 关于魔术命令
p3-2-9 (p33): 2.2.9 matplotlib集成
p3-3 (p34): 2.3 Python语言基础
p3-3-1 (p34): 2.3.1 语言语义
p3-3-2 (p42): 2.3.2 标量类型
p3-3-3 (p49): 2.3.3 控制流
p4 (p54): 第3章内建数据结构、函数及文件
p4-1 (p54): 3.1 数据结构和序列
p4-1-1 (p54): 3.1.1 元组
p4-1-2 (p57): 3.1.2 列表
p4-1-3 (p61): 3.1.3 内建序列函数
p4-1-4 (p64): 3.1.4 字典
p4-1-5 (p67): 3.1.5 集合
p4-1-6 (p69): 3.1.6 列表、集合和字典的推导式
p4-2 (p72): 3.2 函数
p4-2-1 (p72): 3.2.1 命名空间、作用域和本地函数
p4-2-2 (p73): 3.2.2 返回多个值
p4-2-3 (p74): 3.2.3 函数是对象
p4-2-4 (p75): 3.2.4 匿名（Lambda）函数
p4-2-5 (p76): 3.2.5 柯里化：部分参数应用
p4-2-6 (p77): 3.2.6 生成器
p4-2-7 (p79): 3.2.7 错误和异常处理
p4-3 (p82): 3.3 文件与操作系统
p4-3-1 (p85): 3.3.1 字节与Unicode文件
p4-4 (p86): 3.4 本章小结
p5 (p87): 第4章 NumPy基础：数组与向量化计算
p5-1 (p89): 4.1 NumPy ndarray：多维数组对象
p5-1-1 (p90): 4.1.1 生成ndarray
p5-1-2 (p92): 4.1.2 ndarray的数据类型
p5-1-3 (p94): 4.1.3 NumPy数组算术
p5-1-4 (p95): 4.1.4 基础索引与切片
p5-1-5 (p100): 4.1.5 布尔索引
p5-1-6 (p103): 4.1.6 神奇索引
p5-1-7 (p104): 4.1.7 数组转置和换轴
p5-2 (p106): 4.2 通用函数：快速的逐元素数组函数
p5-3 (p109): 4.3 使用数组进行面向数组编程
p5-3-1 (p110): 4.3.1 将条件逻辑作为数组操作
p5-3-2 (p111): 4.3.2 数学和统计方法
p5-3-3 (p113): 4.3.3 布尔值数组的方法
p5-3-4 (p114): 4.3.4 排序
p5-3-5 (p115): 4.3.5 唯一值与其他集合逻辑
p5-4 (p115): 4.4 使用数组进行文件输入和输出
p5-5 (p116): 4.5 线性代数
p5-6 (p118): 4.6 伪随机数生成
p5-7 (p120): 4.7 示例：随机漫步
p5-7-1 (p121): 4.7.1 一次性模拟多次随机漫步
p5-8 (p122): 4.8 本章小结
p6 (p123): 第5章 pandas入门
p6-1 (p123): 5.1 pandas数据结构介绍
p6-1-1 (p123): 5.1.1 Series
p6-1-2 (p128): 5.1.2 DataFrame
p6-1-3 (p134): 5.1.3 索引对象
p6-2 (p135): 5.2 基本功能
p6-2-1 (p136): 5.2.1 重建索引
p6-2-2 (p138): 5.2.2 轴向上删除条目
p6-2-3 (p140): 5.2.3 索引、选择与过滤
p6-2-4 (p144): 5.2.4 整数索引
p6-2-5 (p145): 5.2.5 算术和数据对齐
p6-2-6 (p150): 5.2.6 函数应用和映射
p6-2-7 (p152): 5.2.7 排序和排名
p6-2-8 (p155): 5.2.8 含有重复标签的轴索引
p6-3 (p157): 5.3 描述性统计的概述与计算
p6-3-1 (p159): 5.3.1 相关性和协方差
p6-3-2 (p161): 5.3.2 唯一值、计数和成员属性
p6-4 (p164): 5.4 本章小结
p7 (p165): 第6章数据载入、存储及文件格式
p7-1 (p165): 6.1 文本格式数据的读写
p7-1-1 (p171): 6.1.1 分块读入文本文件
p7-1-2 (p172): 6.1.2 将数据写入文本格式
p7-1-3 (p174): 6.1.3 使用分隔格式
p7-1-4 (p176): 6.1.4 JSON数据
p7-1-5 (p177): 6.1.5 XML和HTML：网络抓取
p7-2 (p180): 6.2 二进制格式
p7-2-1 (p181): 6.2.1 使用HDF5格式
p7-2-2 (p183): 6.2.2 读取Microsoft Excel文件
p7-3 (p184): 6.3 与Web API交互
p7-4 (p186): 6.4 与数据库交互
p7-5 (p187): 6.5 本章小结
p8 (p188): 第7章数据清洗与准备
p8-1 (p188): 7.1 处理缺失值
p8-1-1 (p189): 7.1.1 过滤缺失值
p8-1-2 (p191): 7.1.2 补全缺失值
p8-2 (p194): 7.2 数据转换
p8-2-1 (p194): 7.2.1 删除重复值
p8-2-2 (p195): 7.2.2 使用函数或映射进行数据转换
p8-2-3 (p197): 7.2.3 替代值
p8-2-4 (p198): 7.2.4 重命名轴索引
p8-2-5 (p199): 7.2.5 离散化和分箱
p8-2-6 (p202): 7.2.6 检测和过滤异常值
p8-2-7 (p203): 7.2.7 置换和随机抽样
p8-2-8 (p204): 7.2.8 计算指标/虚拟变量
p8-3 (p207): 7.3 字符串操作
p8-3-1 (p208): 7.3.1 字符串对象方法
p8-3-2 (p210): 7.3.2 正则表达式
p8-3-3 (p213): 7.3.3 pandas中的向量化字符串函数
p8-4 (p215): 7.4 本章小结
p9 (p216): 第8章数据规整：连接、联合与重塑
p9-1 (p216): 8.1 分层索引
p9-1-1 (p219): 8.1.1 重排序和层级排序
p9-1-2 (p220): 8.1.2 按层级进行汇总统计
p9-1-3 (p220): 8.1.3 使用DataFrame的列进行索引
p9-2 (p221): 8.2 联合与合并数据集
p9-2-1 (p222): 8.2.1 数据库风格的DataFrame连接
p9-2-2 (p226): 8.2.2 根据索引合并
p9-2-3 (p230): 8.2.3 沿轴向连接
p9-2-4 (p235): 8.2.4 联合重叠数据
p9-3 (p236): 8.3 重塑和透视
p9-3-1 (p236): 8.3.1 使用多层索引进行重塑
p9-3-2 (p240): 8.3.2 将“长”透视为“宽”
p9-3-3 (p242): 8.3.3 将“宽”透视为“长”
p9-4 (p244): 8.4 本章小结
p10 (p245): 第9章绘图与可视化
p10-1 (p245): 9.1 简明matplotlib API入门
p10-1-1 (p246): 9.1.1 图片与子图
p10-1-2 (p250): 9.1.2 颜色、标记和线类型
p10-1-3 (p252): 9.1.3 刻度、标签和图例
p10-1-4 (p255): 9.1.4 注释与子图加工
p10-1-5 (p258): 9.1.5 将图片保存到文件
p10-1-6 (p258): 9.1.6 matplotlib设置
p10-2 (p259): 9.2 使用pandas和seaborn绘图
p10-2-1 (p259): 9.2.1 折线图
p10-2-2 (p262): 9.2.2 柱状图
p10-2-3 (p266): 9.2.3 直方图和密度图
p10-2-4 (p269): 9.2.4 散点图或点图
p10-2-5 (p270): 9.2.5 分面网格和分类数据
p10-3 (p271): 9.3 其他Python可视化工具
p10-4 (p272): 9.4 本章小结
p11 (p274): 第10章数据聚合与分组操作
p11-1 (p274): 10.1 GroupBy机制
p11-1-1 (p278): 10.1.1 遍历各分组
p11-1-2 (p279): 10.1.2 选择一列或所有列的子集
p11-1-3 (p280): 10.1.3 使用字典和Series分组
p11-1-4 (p281): 10.1.4 使用函数分组
p11-1-5 (p282): 10.1.5 根据索引层级分组
p11-2 (p282): 10.2 数据聚合
p11-2-1 (p284): 10.2.1 逐列及多函数应用
p11-2-2 (p287): 10.2.2 返回不含行索引的聚合数据
p11-3 (p288): 10.3 应用：通用拆分-应用-联合
p11-3-1 (p290): 10.3.1 压缩分组键
p11-3-2 (p291): 10.3.2 分位数与桶分析
p11-3-3 (p292): 10.3.3 示例：使用指定分组值填充缺失值
p11-3-4 (p294): 10.3.4 示例：随机采样与排列
p11-3-5 (p296): 10.3.5 示例：分组加权平均和相关性
p11-3-6 (p298): 10.3.6 示例：逐组线性回归
p11-4 (p298): 10.4 数据透视表与交叉表
p11-4-1 (p301): 10.4.1 交叉表：crosstab
p11-5 (p302): 10.5 本章小结
p12 (p303): 第11章时间序列
p12-1 (p303): 11.1 日期和时间数据的类型及工具
p12-1-1 (p305): 11.1.1 字符串与datetime互相转换
p12-2 (p307): 11.2 时间序列基础
p12-2-1 (p308): 11.2.1 索引、选择、子集
p12-2-2 (p311): 11.2.2 含有重复索引的时间序列
p12-3 (p312): 11.3 日期范围、频率和移位
p12-3-1 (p313): 11.3.1 生成日期范围
p12-3-2 (p316): 11.3.2 频率和日期偏置
p12-3-3 (p317): 11.3.3 移位（前向和后向）日期
p12-4 (p320): 11.4 时区处理
p12-4-1 (p320): 11.4.1 时区的本地化和转换
p12-4-2 (p323): 11.4.2 时区感知时间戳对象的操作
p12-4-3 (p324): 11.4.3 不同时区间的操作
p12-5 (p324): 11.5 时间区间和区间算术
p12-5-1 (p326): 11.5.1 区间频率转换
p12-5-2 (p327): 11.5.2 季度区间频率
p12-5-3 (p329): 11.5.3 将时间戳转换为区间（以及逆转换）
p12-5-4 (p330): 11.5.4 从数组生成Periodlndex
p12-6 (p332): 11.6 重新采样与频率转换
p12-6-1 (p334): 11.6.1 向下采样
p12-6-2 (p336): 11.6.2 向上采样与插值
p12-6-3 (p337): 11.6.3 使用区间进行重新采样
p12-7 (p339): 11.7 移动窗口函数
p12-7-1 (p342): 11.7.1 指数加权函数
p12-7-2 (p343): 11.7.2 二元移动窗口函数
p12-7-3 (p344): 11.7.3 用户自定义的移动窗口函数
p12-8 (p344): 11.8 本章小结
p13 (p346): 第12章高阶pandas
p13-1 (p346): 12.1 分类数据
p13-1-1 (p346): 12.1.1 背景和目标
p13-1-2 (p348): 12.1.2 pandas中的Categorical类型
p13-1-3 (p350): 12.1.3 使用Categorical对象进行计算
p13-1-4 (p352): 12.1.4 分类方法
p13-2 (p355): 12.2 高阶GroupBy应用
p13-2-1 (p355): 12.2.1 分组转换和“展开”GroupBy
p13-2-2 (p359): 12.2.2 分组的时间重新采样
p13-3 (p361): 12.3 方法链技术
p13-3-1 (p362): 12.3.1 pipe方法
p13-4 (p363): 12.4 本章小结
p14 (p364): 第13章 Python建模库介绍
p14-1 (p364): 13.1 pandas与建模代码的结合
p14-2 (p367): 13.2 使用Patsy创建模型描述
p14-2-1 (p369): 13.2.1 Patsy公式中的数据转换
p14-2-2 (p371): 13.2.2 分类数据与Patsy
p14-3 (p373): 13.3 statsmodels介绍
p14-3-1 (p374): 13.3.1 评估线性模型
p14-3-2 (p377): 13.3.2 评估时间序列处理
p14-4 (p377): 13.4 scikit-learn介绍
p14-5 (p381): 13.5 继续你的教育
p15 (p382): 第14章数据分析示例
p15-1 (p382): 14.1 从Bitly获取1.USA.gov数据
p15-1-1 (p383): 14.1.1 纯Python时区计数
p15-1-2 (p385): 14.1.2 使用pandas进行时区计数
p15-2 (p392): 14.2 MovieLens 1M数据集
p15-2-1 (p396): 14.2.1 测量评价分歧
p15-3 (p397): 14.3 美国1880～2010年的婴儿名字
p15-3-1 (p402): 14.3.1 分析名字趋势
p15-4 (p410): 14.4 美国农业部食品数据库
p15-5 (p416): 14.5 2012年联邦选举委员会数据库
p15-5-1 (p419): 14.5.1 按职业和雇主的捐献统计
p15-5-2 (p421): 14.5.2 捐赠金额分桶
p15-5-3 (p423): 14.5.3 按州进行捐赠统计
p15-6 (p424): 14.6 本章小结
p16 (p425): 附录A高阶NumPy
p17 (p457): 附录B更多IPython系统相关内容

备用描述

阅读本书可以获得关于在Python下操作、处理、清洗、规整数据集的完整说明。本书第2版针对Python 3.6进行了更新,并增加了实际案例向你展示如何高效地解决一系列数据分析问题。你将在阅读过程中学习到较新版本的pandas、NumPy、IPython和Jupyter。本书作者Wes McKinney是Python pandas项目的创始人。本书是对Python数据科学工具的实操化、现代化的介绍,非常适合刚学Python的数据分析师或刚学数据科学以及科学计算的Python编程者。数据文件和相关的材料可以在GitHub上找到。使用IPython shell和Jupyter notebook进行探索性计算学习NumPy(Numerical Python)的基础和高级特性入门pandas库中的数据分析工具使用灵活工具对数据进行载入、清洗、变换、合并和重塑使用matplotlib创建富含信息的可视化将pandas的groupby功能应用于对数据集的切片、切块和汇总分析并操作规则和不规则的时间序列数据利用完整的、详细的示例学习如何解决现实中的数据分析问题

开源日期

2024-06-28

更多信息……

🚀 快速下载

成为会员以支持书籍、论文等的长期保存。为了感谢您对我们的支持，您将获得高速下载权益。❤️

如果您在本月捐款，您将获得双倍的快速下载次数。

🐢 低速下载

由可信的合作方提供。更多信息请参见常见问题解答。（可能需要验证浏览器——无限次下载！）

低速服务器（合作方提供） #1 （稍快但需要排队）
低速服务器（合作方提供） #2 （稍快但需要排队）
低速服务器（合作方提供） #3 （稍快但需要排队）
低速服务器（合作方提供） #4 （稍快但需要排队）
低速服务器（合作方提供） #5 （无需排队，但可能非常慢）
低速服务器（合作方提供） #6 （无需排队，但可能非常慢）
低速服务器（合作方提供） #7 （无需排队，但可能非常慢）
低速服务器（合作方提供） #8 （无需排队，但可能非常慢）
低速服务器（合作方提供） #9 （无需排队，但可能非常慢）
下载后：在我们的查看器中打开

所有选项下载的文件都相同，应该可以安全使用。即使这样，从互联网下载文件时始终要小心。例如，确保您的设备更新及时。

显示外部下载

对于大文件，我们建议使用下载管理器以防止中断。
推荐的下载管理器：JDownloader
您将需要一个电子书或 PDF 阅读器来打开文件，具体取决于文件格式。
推荐的电子书阅读器：Anna的档案在线查看器、ReadEra和Calibre
使用在线工具进行格式转换。
推荐的转换工具：CloudConvert和PrintFriendly
您可以将 PDF 和 EPUB 文件发送到您的 Kindle 或 Kobo 电子阅读器。
推荐的工具：亚马逊的“发送到 Kindle”和djazz 的“发送到 Kobo/Kindle”
支持作者和图书馆
✍️ 如果您喜欢这个并且能够负担得起，请考虑购买原版，或直接支持作者。
📚 如果您当地的图书馆有这本书，请考虑在那里免费借阅。

📂 文件质量

通过反馈此文件的质量来改进社区！ 🙌