阿里云天池大赛赛题解析——机器学习篇
6.4评分 收藏
¥53.40豆瓣价格

阿里云天池大赛赛题解析——机器学习篇

作者:天池平台 译者:
更新时间:2021-06-07 15:47:00
《阿里云天池大赛赛题解析——机器学习篇》聚焦机器学习算法建模及相关技术,以工业蒸汽量预测、天猫用户重复购买预测、O2O优惠券预测和阿里云安全恶意程序检测等四个天池经典赛题作为实战案例,针对实际赛题按照赛题理解、数据探索、特征工程、模型训练、模型验证、特征优化、模型融合等步骤,将赛题的解决方案从0到1层层拆解、详细说明,在展现专业选手解题过程的同时,配以丰富的相关技术知识作为补充。 《阿里云天池大赛赛题解析——机器学习篇》从经典商业案例出发,内容由浅入深、层层递进,既可以作为专业开发者的参考用书,也可以作为参赛新手研读专业算法的实战手册。
豆瓣价格
¥53.40

京东价格
¥109.00

当当价格
¥109.00

出版信息

  • 书  名阿里云天池大赛赛题解析——机器学习篇
  • 出版社电子工业出版社
  • 出品方博文视点
  • 出版日期2020-09-01
  • 页  数376页
  • 定  价109.00元
  • 装  帧 平装
  • I S B N9787121393501
  • 豆瓣关注20
  • 京东评价99
  • 当当评分100.0

同作家书籍

  • 中国文化史导论

    作者:钱穆

    《中国文化史导论(修订本)》写于抗日战争时期,是国学大师钱穆继其《国史大纲》后,首部系统阐述他对中国文化看法的著作,也是他一生中重要的学术代表作。书中就通史中有关文化史一端作导论。故此书当与《国史大纲》合读,方能获得著者写作之大意所在。《中

  • 中国的货币化进程

    作者:易纲

    本书是我国著名经济学家易纲的学术论文集。全书按照不同的研究专题分为八个部分,内容涉及中国的经济改革、中国的货币化进程、汇率、金融体系、银行改革、宏观经济政策、经济增长与发展等,从一个侧面反映了中国金融改革及货币化进程。有助于读者认识和理解改

  • 西游记(全二册)

    作者:吴承恩

    《西游记》主要描写的是孙悟空保唐僧西天取经,历经九九八十一难的故事。唐僧取经是历史上一件真实的事。大约距今一千三百多年前,即唐太宗贞观元年(627),年仅25岁的青年和尚玄奘离开京城长安,只身到天竺(印度)游学。他从长安出发后,途经中亚、阿

  • 首先,打破一切常规

    作者:[美] 马库斯·白金汉

    盖洛普公司由美国著名的社会科学家乔治·盖洛普博士于1935年创立,是全球知名的民意测验和商业研究/咨询公司。盖洛普公司在长达六十多年的时间里,致力于测量和分析人的态度、意见和行为。 现代社会,时不我待。我们渴望成功。成功者千差万别,却有一定

  • 观堂集林(附别集)(全二卷)

    作者:王国维

    《观堂集林(附别集)(套装共2册)(繁体竖排版)》内容简介:王国维字静安,又字伯隅,号观堂,一八七七年(光绪三年)生于浙江海宁。清未曾留学日本,归国后做过南通、苏州师范学堂的教习,并任职学部。辛亥革命以后,主要是在大学裹教书,晚年担任清华大

  • 剑桥中国隋唐史

    作者:(英) 崔瑞德 (Twitchett Denis)

    《剑桥中国史》是剑桥历史丛书的一种。本书为第3卷,论述隋唐时期的王朝历史,作为《剑桥中国隋唐史》的上卷。原书于1979年出版,在一定程度上代表了国外隋唐史研究的水平。 本书是一部结构来谨、资料丰富、内容充实的断代史,在不少问题上有独特的见解

  • 红楼梦诗词曲赋鉴赏

    作者:蔡义江

    修订重排本的《红楼梦诗词曲赋评注》是在初版的基础上,增添篇目内容,加重艺术分析,改写而成的。书中全收了各种版本《红楼梦》中的诗、词、曲、赋、歌谣、古文、书札、谜语、酒令、联额、对句等体裁形式的文字,包括一般不易见到的脂评抄本中独存的诗作,收

  • 中国近三百年学术史(全两册)

    作者:钱穆

    《中国近三百年学术史》是钱穆先生研究清代学术史的力作,也是他一生中重要的学术代表作。书中共叙五十一个学术人物的思想,指出汉学家对不天下治乱之用心所在。该书引证广博,考证精深,与梁启超的同名著作各领风骚,并行于世,奠定了清代学术史研究的基本格

  • 中国画之风格

    作者:谢柏轲

    本书作者谢柏轲是美国普林斯顿大学艺术史教授,本书是其学术生涯中关于中国古代绘画的代表性著作。在书中,他深入浅出地对中国画的媒介与材料,如毛笔、墨、颜料、基底、印章以及各种画式(壁画、屏风画、手卷画、立轴画、册页、扇面画等)进行了精彩、专业又

  • 不能说的名字

    作者:(英)克里斯·克里夫

    你敢不敢用一根手指拯救陌生人的一条性命? 一个出生在尼日利亚小村落的女孩,与伙伴们在榄仁树下荡秋千是她ZUI大的快乐,但一夜之间,石油争夺战毁灭了整个村庄。她偷渡到英国,为了掩藏难民身份隐姓埋名只叫自己“小蜜蜂”。 出生于英国小郡的女子莎拉

本书特色

《阿里云天池大赛赛题解析——机器学习篇》聚焦机器学习算法建模及相关技术,以工业蒸汽量预测、天猫用户重复购买预测、O2O优惠券预测和阿里云安全恶意程序检测等四个天池经典赛题作为实战案例,针对实际赛题按照赛题理解、数据探索、特征工程、模型训练、模型验证、特征优化、模型融合等步骤,将赛题的解决方案从0到1层层拆解、详细说明,在展现专业选手解题过程的同时,配以丰富的相关技术知识作为补充。 《阿里云天池大赛赛题解析——机器学习篇》从经典商业案例出发,内容由浅入深、层层递进,既可以作为专业开发者的参考用书,也可以作为参赛新手研读专业算法的实战手册。

目录

赛题一 工业蒸汽量预测 1 赛题理解 2 1.1 赛题背景 2 1.2 赛题目标 2 1.3 数据概览 2 1.4 评估指标 3 1.5 赛题模型 4 2 数据探索 6 2.1 理论知识 6 2.1.1 变量识别 6 2.1.2 变量分析 6 2.1.3 缺失值处理 10 2.1.4 异常值处理 11 2.1.5 变量转换 14 2.1.6 新变量生成 15 2.2 赛题数据探索 16 2.2.1 导入工具包 16 2.2.2 读取数据 16 2.2.3 查看数据 16 2.2.4 可视化数据分布 18 2.2.5 查看特征变量的相关性 26 3 特征工程 33 3.1 特征工程的重要性和处理 33 3.2 数据预处理和特征处理 33 3.2.1 数据预处理 33 3.2.2 特征处理 34 3.3 特征降维 38 3.3.1 特征选择 39 3.3.2 线性降维 44 3.4 赛题特征工程 45 3.4.1 异常值分析 45 3.4.2 最大值和最小值的 归一化 46 3.4.3 查看数据分布 47 3.4.4 特征相关性 48 3.4.5 特征降维 48 3.4.6 多重共线性分析 49 3.4.7 PCA处理 50 4 模型训练 52 4.1 回归及相关模型 52 4.1.1 回归的概念 52 4.1.2 回归模型训练和预测 52 4.1.3 线性回归模型 52 4.1.4 K近邻回归模型 54 4.1.5 决策树回归模型 55 4.1.6 集成学习回归模型 58 4.2 赛题模型训练 61 4.2.1 导入相关库 61 4.2.2 切分数据 62 4.2.3 多元线性回归 62 4.2.4 K近邻回归 62 4.2.5 随机森林回归 63 4.2.6 LGB模型回归 63 5 模型验证 64 5.1 模型评估的概念和方法 64 5.1.1 欠拟合与过拟合 64 5.1.2 模型的泛化与正则化 68 5.1.3 回归模型的评估指标和 调用方法 70 5.1.4 交叉验证 72 5.2 模型调参 75 5.2.1 调参 75 5.2.2 网格搜索 76 5.2.3 学习曲线 77 5.2.4 验证曲线 78 5.3 赛题模型验证和调参 78 5.3.1 模型过拟合与欠拟合 78 5.3.2 模型正则化 81 5.3.3 模型交叉验证 82 5.3.4 模型超参空间及调参 85 5.3.5 学习曲线和验证曲线 89 6 特征优化 93 6.1 特征优化的方法 93 6.1.1 合成特征 93 6.1.2 特征的简单变换 93 6.1.3 用决策树创造新特征 94 6.1.4 特征组合 94 6.2 赛题特征优化 96 6.2.1 导入数据 96 6.2.2 特征构造方法 96 6.2.3 特征构造函数 96 6.2.4 特征降维处理 96 6.2.5 模型训练和评估 97 7 模型融合 100 7.1 模型优化 100 7.1.1 模型学习曲线 100 7.1.2 模型融合提升技术 100 7.1.3 预测结果融合策略 102 7.1.4 其他提升方法 105 7.2 赛题模型融合 106 7.2.1 导入工具包 106 7.2.2 获取训练数据和测试 数据 106 7.2.3 模型评价函数 107 7.2.4 采用网格搜索训练 模型 107 7.2.5 单一模型预测效果 109 7.2.6 模型融合Boosting方法 115 7.2.7 多模型预测Bagging 方法 118 7.2.8 多模型融合Stacking 方法 119 7.2.9 模型验证 127 7.2.10 使用lr_reg和lgb_reg 进行融合预测 127 赛题二 天猫用户重复购买预测 1 赛题理解 130 1.1 赛题背景 130 1.2 数据介绍 131 1.3 评估指标 133 1.4 赛题分析 134 2 数据探索 137 2.1 理论知识 137 2.1.1 缺失数据处理 137 2.1.2 不均衡样本 138 2.1.3 常见的数据分布 141 2.2 赛题数据探索 144 2.2.1 导入工具包 145 2.2.2 读取数据 145 2.2.3 数据集样例查看 145 2.2.4 查看数据类型和数据 大小 146 2.2.5 查看缺失值 147 2.2.6 观察数据分布 148 2.2.7 探查影响复购的各种 因素 150 3 特征工程 155 3.1 特征工程介绍 155 3.1.1 特征工程的概念 155 3.1.2 特征归一化 155 3.1.3 类别型特征的转换 156 3.1.4 高维组合特征的处理 156 3.1.5 组合特征 157 3.1.6 文本表示模型 157 3.2 赛题特征工程思路 158 3.3 赛题特征工程构造 160 3.3.1 工具导入 160 3.3.2 数据读取 160 3.3.3 对数据进行内存压缩 161 3.3.4 数据处理 163 3.3.5 定义特征统计函数 164 3.3.6 提取统计特征 166 3.3.7 利用Countvector和 TF-IDF提取特征 170 3.3.8 嵌入特征 170 3.3.9 Stacking分类特征 171 4 模型训练 179 4.1 分类的概念 179 4.2 分类相关模型 179 4.2.1 逻辑回归分类模型 179 4.2.2 K近邻分类模型 180 4.2.3 高斯贝叶斯分类模型 182 4.2.4 决策树分类模型 182 4.2.5 集成学习分类模型 183 5 模型验证 186 5.1 模型验证指标 186 5.1.1 准确度 186 5.1.2 查准率和查全率 188 5.1.3 F1值 189 5.1.4 分类报告 189 5.1.5 混淆矩阵 189 5.1.6 ROC 190 5.1.7 AUC曲线 190 5.2 赛题模型验证和评估 190 5.2.1 基础代码 190 5.2.2 简单验证 191 5.2.3 设置交叉验证方式 192 5.2.4 模型调参 194 5.2.5 混淆矩阵 195 5.2.6 不同的分类模型 198 5.2.7 自己封装模型 205 6 特征优化 211 6.1 特征选择技巧 211 6.2 赛题特征优化 213 6.2.1 基础代码 213 6.2.2 缺失值补全 213 6.2.3 特征选择 213 赛题三 O2O优惠券预测 1 赛题理解 222 1.1 赛题介绍 222 1.2 赛题分析 223 2 数据探索 225 2.1 理论知识 225 2.1.1 数据探索的定义 225 2.1.2 数据探索的目的 226 2.1.3 相关Python包 226 2.2 初步的数据探索 226 2.2.1 数据读取 226 2.2.2 数据查看 227 2.2.3 数据边界探索 231 2.2.4 训练集与测试集的 相关性 232 2.2.5 数据统计 236 2.3 数据分布 238 2.3.1 对文本数据的数值化 处理 238 2.3.2 数据分布可视化 242 3 特征工程 246 3.1 赛题特征工程思路 246 3.2 赛题特征构建 248 3.2.1 工具函数 248 3.2.2 特征群生成函数 250 3.2.3 特征集成函数 256 3.2.4 特征输出 257 3.3 对特征进行探索 260 3.3.1 特征读取函数 260 3.3.2 特征总览 261 3.3.3 查看特征的分布 262 3.3.4 特征相关性分析 265 4 模型训练 266 4.1 模型训练与评估 266 4.2 不同算法模型的性能对比 271 4.2.1 朴素贝叶斯 271 4.2.2 逻辑回归 271 4.2.3 决策树 272 4.2.4 随机森林 272 4.2.5 XGBoost 273 4.2.6 LightGBM 274 4.2.7 不同特征效果对比 274 4.3 结果输出 274 5 模型验证 276 5.1 评估指标 276 5.2 交叉验证 276 5.3 模型比较 279 5.4 验证结果可视化 282 5.5 结果分析 289 5.6 模型调参 290 5.7 实际方案 292 6 提交结果 299 6.1 整合及输出结果 299 6.2 结果提交及线上验证 302 赛题四 阿里云安全恶意程序检测 1 赛题理解 306 1.1 赛题介绍 306 1.2 赛题分析 307 2 数据探索 310 2.1 训练集数据探索 310 2.1.1 数据特征类型 310 2.1.2 数据分布 311 2.1.3 缺失值 312 2.1.4 异常值 312 2.1.5 标签分布 313 2.2 测试集数据探索 314 2.2.1 数据信息 314 2.2.2 缺失值 315 2.2.3 数据分布 315 2.2.4 异常值 315 2.3 数据集联合分析 316 2.3.1 file_id分析 316 2.3.2 API分析 317 3 特征工程与基线模型 318 3.1 特征工程概述 318 3.1.1 特征工程介绍 318 3.1.2 构造特征 318 3.1.3 特征选择 319 3.2 构造线下验证集 319 3.2.1 评估穿越 319 3.2.2 训练集和测试集的特征 差异性 320 3.2.3 训练集和测试集的分布 差异性 320 3.3 基线模型 320 3.3.1 数据读取 320 3.3.2 特征工程 321 3.3.3 基线构建 322 3.3.4 特征重要性分析 324 3.3.5 模型测试 325 4 高阶数据探索 326 4.1 变量分析 326 4.2 高阶数据探索实战 329 4.2.1 数据读取 329 4.2.2 多变量交叉探索 329 5 特征工程进阶与方案优化 343 5.1 pivot特征构建 343 5.1.1 pivot特征 343 5.1.2 pivot特征构建时间 343 5.1.3 pivot特征构建细节和 特点 343 5.2 业务理解和结果分析 344 5.2.1 结合模型理解业务 344 5.2.2 多分类问题预测结果 分析 344 5.3 特征工程进阶实践 344 5.3.1 特征工程基础部分 344 5.3.2 特征工程进阶部分 348 5.3.3 基于LightGBM的模型 验证 349 5.3.4 模型结果分析 351 5.3.5 模型测试 354 6 优化技巧与解决方案升级 355 6.1 优化技巧:Python处理大数据 的技巧 355 6.1.1 内存管理控制 355 6.1.2 加速数据处理的技巧 356 6.1.3 其他开源工具包 356 6.2 深度学习解决方案:TextCNN 建模 358 6.2.1 问题转化 358 6.2.2 TextCNN建模 358 6.2.3 数据预处理 360 6.2.4 TextCNN网络结构 361 6.2.5 TextCNN训练和测试 362 6.2.6 结果提交 364 7 开源方案学习 365

天池平台作家介绍

       本书由阿里云天池平台编写。
        天池平台已经举办了超过 200 场来自真实业务场景的竞赛,每场赛事沉淀的课题和数据集,将永久在天池保留和开放。
       天池平台已成为在校学生踏入职场前的虚拟实践基地,也成为聚集40万数据人才,孵化2000余家数据创新工作室的数据智能大社区。
       

热门推荐

  • 三国演义(全二册)

    作者:[明] 罗贯中 豆瓣评分:9.3 豆瓣价格:¥39.50

    《三国演义》又名《三国志演义》、《三国志通俗演义》,是我国小说史上最著名最杰出的长篇章回体历史小说。 《三国演义》的作者是元末明初人罗贯中,由毛纶,毛宗岗父子批改。在其成书前,“三国故事”已经历了数百年的历史发展过程。在唐代,三国故事已广为

  • 力量的进化

    作者:[美]西蒙·莱尔沃克斯 豆瓣评分:8.6 豆瓣价格:¥79.00

    ★ 为什么鱼能逆流而上,蛇可以轻松滑行,猎豹跑得如此之快? 为什么人类进化出了拳头,男人也有乳头,足球场上有假摔? ★ 动物世界的奥林匹克运动会8亿年未曾中断,解密神奇动物行为背后的运行机制,看动物为了生存与繁殖可以有多拼 ★ 科普作家花蚀

  • 马未都:国宝100.第三卷

    作者:马未都 豆瓣评分:8.6 豆瓣价格:¥68.00

    用文物讲述历史,是了解历史的一种特殊欣赏方式。《国宝100》中,马未都从全世界的博物馆中遴选出100件中国文物,详细讲述。本套书共包括4本,分别涉及青铜、陶瓷、玉器、漆器、家具、法书、碑帖、绘画。它们有的得到无数赞誉,被国内精心收藏,有的在

  • 剑来10:他乡遇故知

    作者:烽火戏诸侯 豆瓣评分:8.4 豆瓣价格:¥43.00

    ★烽火戏诸侯全新长篇力作,一剑进入古典仙侠新世界 ★独家网络修订珍藏版 ★精致装帧,赠送精美海报、书签、明信片 ★大千世界,无奇不有。我陈平安,唯有一剑,可搬山,断江,倒海,降妖,镇魔,敕神,摘星,摧城,开天!我叫陈平安,平平安安的平安,我

  • 阿里云天池大赛赛题解析——机器学习篇

    作者:天池平台 豆瓣评分:6.4 豆瓣价格:¥109.00

    《阿里云天池大赛赛题解析——机器学习篇》聚焦机器学习算法建模及相关技术,以工业蒸汽量预测、天猫用户重复购买预测、O2O优惠券预测和阿里云安全恶意程序检测等四个天池经典赛题作为实战案例,针对实际赛题按照赛题理解、数据探索、特征工程、模型训练、

  • 因子投资:方法与实践

    作者:石川 豆瓣评分:9.1 豆瓣价格:¥108.00

    《因子投资:方法与实践》在统一视角下,体系化地介绍了因子投资中的重要研究方法,并针对中国A 股市场给出了独立的、可复制的、高质量的因子实证分析结果,是一本真正可操作、可上手的因子投资手册。本书主要内容包括:因子投资基础、因子投资方法论、主流

  • 增长飞轮:亚马逊跨境电商运营精要

    作者:老魏 豆瓣评分:7.9 豆瓣价格:¥79.00

    作者老魏有 10 余年的跨境电商从业经历,他编写的前一本关于亚马逊运营的图书,印量近 50000 册 ,得到了读者的良好反馈。作者参考前一本书读者的反馈意见,结合亚马逊跨境电商新的商业环境写成本书。 本书围绕亚马逊的平台知识和运营技巧展开,

  • 数据中台实战:手把手教你搭建数据中台

    作者:董超华 豆瓣评分:5.6 豆瓣价格:¥69.00

    自从2015 年阿里巴巴提出中台的概念后,数据中台的概念就火遍了整个互联网圈。数据中台是实现企业数据智能的重要手段,但是数据中台是什么、为什么要搭建数据中台、数据中台究竟应该怎么搭建,这些问题的答案却很少有人知道。 《数据中台实战:手把手教

  • 全球创新投资

    作者:[韩]睦大均 豆瓣评分:6.9 豆瓣价格:¥62.00

    全球大变局下的投资市场和创新趋势有哪些新变化? 是投资“创新型企业”,还是投资“经济护城河企业”? 如何寻找明日的创新型产业? 如何做好投资头寸和风险管理? 如何洞察未来的投资动向? 近年来,随着科技的发展,全球投资市场出现了新的趋势和特征

  • 认知觉醒

    作者:周岭 豆瓣评分:8.3 豆瓣价格:¥59.80

    这是一部可以穿透时间的个人成长方法论。通过“大脑构造、潜意识、元认知”等思维规律,你将真正看清自己;通过“深度学习、关联、反馈”事物规律,你将洞悉如何真正成事! 如果对自己不了解,我们就会被人的原始天性束缚,这往往会让我们感到很痛苦。然而,