开源大数据周刊-第60期-白红宇

摘要：

本期周刊聚焦Spark新版本以及大数据行业最新的进展，在技术文章中推荐了微博和携程等互联网公司的大数据平台实践。

资讯

Spark 2.2.0 持续了半年的开发，近期发布了2.2.0版本，此版本是 2.x 版本线的第三个版本。在这个版本 Structured Streaming 的实验性标记（experimental tag）已经被移除，这也意味着后面的 2.2.x 之后就可以放心在线上使用了。除此之外，这个版本的主要集中点是系统的可用性和稳定性。关于 Apache Spark 2.2.0 的详细新功能介绍请参见

网络安全法正式实施前后，像一场寒流，席卷了整个大数据行业：数据接口公司可能会被直接关门，大数据营销公司在法律上也出现了一些障碍。数据行业进入整肃期，而新的规则大家都没头绪，数据管理和数据交易方式都有待理顺。

提到大数据可能有些令人生畏。在了解一定基本概念的基础上，掌握其中一些关键术语也是至关重要的。本文介绍了25个基本的大数据术语，包括算法、分析、批量处理、内存计算、数据湖、Spark、Hadoop等。

技术

Spark Streaming是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合作者的应用场景，介结了在使用Spark Streaming方面的技术架构，并着重讲解Spark Streaming两种计算模型：无状态和状态计算模型以及该两种模型的注意事项。接着介绍了Spark Streaming在监控方面所做的一些事情，最后总结了Spark Streaming的优缺点。

本文主要从架构和业务的角度介绍下携程信息安全团队的数据平台建设之路，以及如何为业务和风控提供支持的。从早期以RabbitMQ和MySQL为核心的1.0架构到2.0架构的演进过程中，引入了Spark、Storm、Presto和Kafka等组件，并从数据采集、计算和任务调度等几个方面阐述了平台的痛点和解决方案。

Hubble平台定位为微博广告智能全景监控、数据透视和商业洞察系统，Hubble利用HDFS、Kafka、Spark等开源技术，提供了从机器、应用和业务等多个维度的监控到趋势预测等智能化的功能，帮助广告系统发现数据后面最本质的东西。本文介绍了Hubble系统的设计原理及在智能全景监控实践中的一些思考。

更新操作系统以及应用安全补丁或修补程序等系统维护操作是任何数据中心的常规操作。需要开展这种维护操作的Hadoop存储节点DataNodes可能会脱机工作几分钟到几个小时。按照Hadoop之前的设计HDFS可以处理DataNodes停止或下线。但是，同时在多个DataNode上进行任何非协同维护操作可能会导致临时性的数据可用性问题。在Hadoop新版中，将会引入一个HDFS维护状态，旨在克服滚动升级和下线功能存在的缺点，可以避免数据块的不必要复制，并使计划性维护活动更加无缝地进行