会员
数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
更新时间:2021-06-24 11:29:59 最新章节:12.4 本章小结
书籍简介
这是一本将数据科学三要素——商业理解、量化模型、数据技术全面打通的实战性著作,是来自腾讯、滴滴、快手等一线互联网企业的数据科学家、数据分析师和算法工程师的经验总结,得到了SQLFlow创始人以及腾讯、网易、快手、贝壳找房、谷歌等企业的专家一致好评和推荐。全书三个部分,内容相对独立,既能帮助初学者建立知识体系,又能帮助从业者解决商业中的实际问题,还能帮助有经验的专家快速掌握数据科学的Z新技术和发展动向。内容围绕非实验环境下的观测数据的分析、实验的设计和分析、自助式数据科学平台3大主题展开,涉及统计学、经济学、机器学习、实验科学等多个领域,包含大量常用的数据科学方法、简洁的代码实现和经典的实战案例。第1部分(第1~6章)观测数据的分析技术讲解了非实验环境下不同观测数据分析场景所对应的分析框架、原理及实际操作,包括消费者选择偏好分析、消费者在时间维度上的行为分析、基于机器学习的用户生命周期价值预测、基于可解释模型技术的商业场景挖掘、基于矩阵分解技术的用户行为规律发现与挖掘,以及在不能进行实验分析时如何更科学地进行全量评估等内容。第二部分(第7~9章)实验设计和分析技术从A/B实验的基本原理出发,深入浅出地介绍了各种商业场景下进行实验设计需要参考的原则和运用的方法,尤其是在有样本量约束条件下提升实验效能的方法及商业场景限制导致的非传统实验设计。第三部分(第10~12章)自助式数据科学平台SQLFlow针对性的讲解了开源的工程化的自助式数据科学平台SQLFlow,并通过系统配置、黑盒模型的解读器应用、聚类分析场景等案例帮助读者快速了解这一面向未来的数据科学技术。
品牌:机械工业出版社
上架时间:2021-06-01 00:00:00
出版社:机械工业出版社
本书数字版权由机械工业出版社提供,并由其授权上海阅文信息技术有限公司制作发行
最新章节
谢梁 缪莹莹 高梓尧 王子玲等
同类热门书
最新上架
- 会员《SQLServer从入门到精通(第5版)》从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了SQLServer开发所必需的各方面技术。全书分为4篇共19章,内容包括数据库基础、SQLServer数据库环境搭建、创建与管理数据库、操作数据表、SQL基础、SQL函数的使用、SQL数据查询基础、SQL数据高级查询、视图的使用、存储过程、触发器、游标的使用、索引与数据完整性、SQL中计算机14.1万字
- 会员《数据分析师手记:数据分析72个核心问题精解》从底层认知、思维方法、工具技术、项目落地及展望出发,使用问答的形式对数据分析中的72个核心知识点进行讲解,构建了数据分析的知识框架,带领读者认识数据分析背后的奥妙。读者可以用本书作为学习地图,针对具体的方法、技术进行延伸学习。计算机16.8万字
- 会员本书围绕数据挖掘竞赛,讲解了各种类型数据挖掘竞赛的解题思路、方法和技巧,并辅以对应的实战案例。全书共11章。第1章介绍数据挖掘竞赛的背景、意义和现状。从第2章开始,介绍了各种不同类型的数据挖掘竞赛包括结构化数据、自然语言处理、计算机视觉(图像)、计算机视觉(视频)、强化学习。每种类型的数据挖掘竞赛包含理论篇和实战篇:理论篇介绍通用的解题流程和关键技术;实战篇选取比较有代表性的赛题,对赛题的优秀方案计算机6.7万字
- 会员本书从需求规划、需求实现到可视化展示等,遵循项目开发的主要流程,全景介绍了电商行业Flink实时数据仓库的搭建过程。在整个项目的搭建过程中,介绍了主要组件的安装部署、需求实现的具体思路、问题的解决方案等,并穿插了大数据和数据仓库相关的理论知识,包括数据仓库的概念介绍、电商业务概述、数据仓库理论介绍和数据仓库建模等。最核心的内容是代码中对Flink的灵活应用,为读者展示了Flink处理数据的多种可能计算机13.1万字
- 会员本书介绍了超级计算机算力和AI算力的异同,从CPU流水线开始,描述主要的众核处理器架构和功能部件设计。在GPU和NPU等加速器部分,介绍了GPU为何能从单纯的图形任务处理器变成通用处理器。GPU在设计逻辑、存储体系、线程管理,以及面向AI的张量处理器方面成为最近几年全世界科技行业最瞩目的明星。本书对华为等厂商推出的NPU芯片设计也做了架构描述,回顾了近20年来主流的CPU、GPU芯片架构的特点,介计算机29.3万字
- 会员本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的相关知识。本书条理清晰、重点突出,理论叙述循序渐进、由浅入深。本书共7章,第1?5章包括PySpark大数据分析概述、PySpark安装配置、基于PySpark的DataFrame操作、基于PySpark的流式数据处理、基于PySpark的机器学习库,内容介绍注重理论与实践相结合,通过典型示例计算机10.4万字
- 会员随着数字化的发展,数据逐渐融入生产、分配、流通、消费和社会服务管理等环节,为数据的拥有者或使用者带来经济效益,成为一种新型的生产要素,给生产方式、生活方式和社会治理方式带来了深刻的变革。本书主要介绍数据要素化时代的数据治理。本书分为5篇。第一篇“数据治理新趋势”介绍DataOps的发展及实践,产业级数据治理新趋势,数据治理的场景化、工程化和智能化,以及数据资产的安全运营。第二篇“新理论、新方法和新计算机12.1万字
- 会员本书共3篇:第1篇主要介绍分布式数据库基础理论,包括经典的CAP理论、一致性算法相关的理论、并发控制相关的理论等;第2篇具体介绍Greenplum数据库,从分布式事务、分布式计算和分布式存储3个方面,深入代码层级,讲述分布式理论在工业上的实现;第3篇是总结和展望,介绍云原生数据库和新技术带给Greenplum和数据库管理系统的机遇和挑战。本书打破以理论介绍和架构介绍为主的思路,深入分析工业化的实现计算机7.1万字