博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
开源大数据周刊-第60期
阅读量:6394 次
发布时间:2019-06-23

本文共 1230 字,大约阅读时间需要 4 分钟。

摘要:
本期周刊聚焦Spark新版本以及大数据行业最新的进展,在技术文章中推荐了微博和携程等互联网公司的大数据平台实践。

资讯

Spark 2.2.0 持续了半年的开发,近期发布了2.2.0版本,此版本是 2.x 版本线的第三个版本。在这个版本 Structured Streaming 的实验性标记(experimental tag)已经被移除,这也意味着后面的 2.2.x 之后就可以放心在线上使用了。除此之外,这个版本的主要集中点是系统的可用性和稳定性。关于 Apache Spark 2.2.0 的详细新功能介绍请参见

网络安全法正式实施前后,像一场寒流,席卷了整个大数据行业:数据接口公司可能会被直接关门,大数据营销公司在法律上也出现了一些障碍。数据行业进入整肃期,而新的规则大家都没头绪,数据管理和数据交易方式都有待理顺。

提到大数据可能有些令人生畏。在了解一定基本概念的基础上,掌握其中一些关键术语也是至关重要的。本文介绍了25个基本的大数据术语,包括算法、分析、批量处理、内存计算、数据湖、Spark、Hadoop等。

技术

Spark Streaming是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合作者的应用场景,介结了在使用Spark Streaming方面的技术架构,并着重讲解Spark Streaming两种计算模型:无状态和状态计算模型以及该两种模型的注意事项。接着介绍了Spark Streaming在监控方面所做的一些事情,最后总结了Spark Streaming的优缺点。

本文主要从架构和业务的角度介绍下携程信息安全团队的数据平台建设之路,以及如何为业务和风控提供支持的。从早期以RabbitMQ和MySQL为核心的1.0架构到2.0架构的演进过程中,引入了Spark、Storm、Presto和Kafka等组件,并从数据采集、计算和任务调度等几个方面阐述了平台的痛点和解决方案。

Hubble平台定位为微博广告智能全景监控、数据透视和商业洞察系统,Hubble利用HDFS、Kafka、Spark等开源技术,提供了从机器、应用和业务等多个维度的监控到趋势预测等智能化的功能,帮助广告系统发现数据后面最本质的东西。本文介绍了Hubble系统的设计原理及在智能全景监控实践中的一些思考。

更新操作系统以及应用安全补丁或修补程序等系统维护操作是任何数据中心的常规操作。需要开展这种维护操作的Hadoop存储节点DataNodes可能会脱机工作几分钟到几个小时。按照Hadoop之前的设计HDFS可以处理DataNodes停止或下线。但是,同时在多个DataNode上进行任何非协同维护操作可能会导致临时性的数据可用性问题。在Hadoop新版中,将会引入一个HDFS维护状态,旨在克服滚动升级和下线功能存在的缺点,可以避免数据块的不必要复制,并使计划性维护活动更加无缝地进行

转载地址:http://gymha.baihongyu.com/

你可能感兴趣的文章
增加公有云费用的五个潜在成本
查看>>
华为在美国市场遭遇“多事之秋”
查看>>
2017物联网5个不可不知的关键趋势
查看>>
韩国:以网络为基础打造的无缝移动连接型智慧城市
查看>>
红帽凭借业内最广泛的解决方案发挥Linux容器的能力
查看>>
淮南:发力“大数据”能源城激活新动能
查看>>
绝不跑路的绿能宝:保证兑付最慢30年?
查看>>
40万部受感染的手机就足以破坏美国911报警系统
查看>>
指纹识别PK虹膜识别 都有哪些优劣及应用?
查看>>
IBM开通在澳大利亚的第四个数据中心
查看>>
从源头抓好网络安全治理
查看>>
深入理解Java内存模型 - volatile
查看>>
今日的混合云将迎来怎样的发展成果?
查看>>
与数据中心的怪物“功率因数”交朋友
查看>>
PL/SQL Developer导入导出数据库方法及说明
查看>>
系统测试用例设计之判定表法
查看>>
用大数据城市规划可以变得更好
查看>>
网络可视化:扭转安全领域的不对等挑战
查看>>
安全简报:渗透测试
查看>>
卡巴斯基实验室被独立研究机构评选为领导者
查看>>