会员
企业大数据处理:Spark、Druid、Flume与Kafka应用实践
更新时间:2019-01-02 20:36:07 最新章节:9.4 小结
书籍简介
本书分三部分展开介绍:第一部分(第1章)主要介绍了企业大数据系统的前期准备工作,包括如何构建企业大数据处理系统的软件环境和集群环境。第二部分(第2~7章)首先介绍了Spark的基本原理,Spark2.0版本的SparkSQL、StructuredStreaming原理和使用方法,以及Spark的多种优化方式;然后,介绍了Druid的基本原理、集群的搭建过程、数据摄入过程,以及在查询过程中如何实现Druid查询API;接着介绍了日志收集系统Flume的基本架构和关键组件,以及分层日志收集架构的设计与实践;最后介绍了分布式消息队列Kafka的基本架构和集群搭建过程,以及使用Java语言实现客户端API的详细过程。第三部分(第8~9章)主要介绍了企业大数据处理的两个实际应用案例,分别是基于Druid构建多维数据分析平台和基于JMX指标的监控系统。
品牌:机械工业出版社
上架时间:2017-09-01 00:00:00
出版社:机械工业出版社
本书数字版权由机械工业出版社提供,并由其授权上海阅文信息技术有限公司制作发行
最新章节
肖冠宇
同类热门书
最新上架
- 会员数据科学的关键技术包括数据存储计算、数据治理、结构化数据分析、语音分析、视觉分析、文本分析和知识图谱等方面。本书的重点是详细介绍文本分析和知识图谱方面的技术。文本分析技术主要包括文本预训练模型、多语种文本分析、文本情感分析、文本机器翻译、文本智能纠错、NL2SQL问答以及ChatGPT大语言模型等。知识图谱技术主要包括知识图谱构建和知识图谱问答等。本书将理论介绍和实践相结合,详细阐述各个技术主题的计算机21.6万字
- 会员随着数字化的发展,数据逐渐融入生产、分配、流通、消费和社会服务管理等环节,为数据的拥有者或使用者带来经济效益,成为一种新型的生产要素,给生产方式、生活方式和社会治理方式带来了深刻的变革。本书主要介绍数据要素化时代的数据治理。本书分为5篇。第一篇“数据治理新趋势”介绍DataOps的发展及实践,产业级数据治理新趋势,数据治理的场景化、工程化和智能化,以及数据资产的安全运营。第二篇“新理论、新方法和新计算机12.1万字
- 会员随着信息、互联网、社交媒体、卫星定位、基于位置的服务(LocationBasedServices,LBS)等技术的发展,轨迹数据领域迎来了大数据时代。在轨迹大数据背景下,轨迹数据分析的关注度得到持续攀升,它能够借助移动对象的时空特征和移动行为信息发现新知识和模式,从而为智慧城市计算与服务、交通管理与规划、物流管理、智能制造、旅游路径推荐、自然灾害预测与预警、疫情传播监测等诸多领域提供决策支持与计算机9.6万字
- 会员时序数据库是一种新型技术,主要用于工业互联网软件建设中。近年来,伴随着物联网技术在智能制造、交通、能源、智慧城市等领域的发展,时序数据库也发展迅速,成为搭建应用的必备数据库之一。《深入理解InfluxDB》从InfluxDB的安装开始,一步步详细介绍InfluxDB的功能及原理,带领读者深入理解以InfluxDB为代表的时序数据库。计算机7.6万字
- 会员《数据分析师手记:数据分析72个核心问题精解》从底层认知、思维方法、工具技术、项目落地及展望出发,使用问答的形式对数据分析中的72个核心知识点进行讲解,构建了数据分析的知识框架,带领读者认识数据分析背后的奥妙。读者可以用本书作为学习地图,针对具体的方法、技术进行延伸学习。计算机16.8万字
- 会员本书共3篇:第1篇主要介绍分布式数据库基础理论,包括经典的CAP理论、一致性算法相关的理论、并发控制相关的理论等;第2篇具体介绍Greenplum数据库,从分布式事务、分布式计算和分布式存储3个方面,深入代码层级,讲述分布式理论在工业上的实现;第3篇是总结和展望,介绍云原生数据库和新技术带给Greenplum和数据库管理系统的机遇和挑战。本书打破以理论介绍和架构介绍为主的思路,深入分析工业化的实现计算机7.1万字
- 会员《MySQL从入门到精通(第3版)》从初学者角度出发,通过通俗易懂的语言和丰富多彩的实例,详细介绍了MySQL开发需要掌握的各方面技术。全书共分为4篇22章,包括数据库基础,初识MySQL,使用MySQL图形化管理工具,数据库操作,存储引擎及数据类型,数据表操作,MySQL基础,表数据的增、删、改操作,数据查询,常用函数,索引,视图,数据完整性约束,存储过程与存储函数,触发器,事务,事件,备份与恢计算机14万字
- 会员本书全方位讲解分布式数据库的知识点,由易到难、由浅入深地带领读者在分布式数据领域不断深入。第1章主要介绍分布式数据库的起源与发展,并就分布式数据库的结构模式、作用及特点进行详细讲解。第2章主要对分布式技术、分布式服务架构、云数据库与容器化技术、大数据平台、分布式存储与数据库以及区块链技术进行详细介绍。第3章主要从分布式的基础理论、分布式事务分类以及分布式数据库分类、SequoiaDB数据库展开介绍计算机7.9万字