下载此beplayapp体育下载

【大数据笔记10】SparkStreaming——流式计算.pdf

beplayapp体育下载分类：bepaly下载苹果 | 页数：约4页举报非法beplayapp体育下载有奖

1 / 4

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该beplayapp体育下载所得收入归上传者、原创者。
3.下载的beplayapp体育下载，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1 / 4 下载此beplayapp体育下载

beplayapp体育下载列表 beplayapp体育下载介绍

该【【大数据笔记10】SparkStreaming——流式计算】是由【1781111****】上传分享，beplayapp体育下载一共【4】页，该beplayapp体育下载可以免费在线阅读，需要了解更多关于【【大数据笔记10】SparkStreaming——流式计算】的内容，可以使用beplayapp体育下载的站内搜索功能，选择自己适合的beplayapp体育下载，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此beplayapp体育下载到您的设备，方便您编辑和打印。【?数据笔记10】SparkStreaming——流式计算WhatitisSparkStreaming类似于ApacheStorm,?于流式数据的处理。根据其官??档介绍,SparkStreaming有?吞吐量和容错能?强等特点。SparkStreaming?持的数据源有很多,例如:Kafka、Flume、***、ZeroMQ和简单的TCP套接字等等。数据输?后可以?Spark的?度抽象操作如:map、reduce、join、window等进?运算。?结果也能保存在很多地?,如HDFS,数据库等。另外SparkStreaming也能和MLlib(机器学****以及Graphx完美融合。SparkStreaming原理SparkStreaming是基于spark的流式批处理引擎,其基本原理是把输?数据以某?时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以?于处理实时数据流。计算流程SparkStreaming是将流式计算分解成?系列短?的批处理作业。这?的批处理引擎是SparkCore,也就是把SparkStreaming的输?数据按照batchsize(如1秒)分成?段?段的数据(DiscretizedStream),每?段数据都转换成Spark中的RDD(ResilientDistributedDataset),然后将SparkStreaming中对DStream的Transformation操作变为针对Spark中对RDD的Transformation操作,将RDD经过操作变成中间结果保存在内存中。整个流式计算根据业务的需求可以对中间的结果进?缓存或者存储到外部设备。下图显?了SparkStreaming的整个流程。容错性对于流式计算来说,容错性?关重要。?先我们要明确?下Spark中RDD的容错机制。每?个RDD都是?个不可变的分布式可重算的数据集,其记录着确定性的操作继承关系(lineage),所以只要输?数据是可容错的,那么任意?个RDD的分区(Partition)出错或不可?,都是可以利?原始输?数据通过转换操作?重新算出的。对于SparkStreaming来说,其RDD的传承关系如下图所?:图中的每?个椭圆形表??个RDD,椭圆形中的每个圆形代表?个RDD中的?个Partition,图中的每?列的多个RDD表??个DStream(图中有三个DStream),?每??最后?个RDD则表?每?个BatchSize所产?的中间结果RDD。我们可以看到图中的每?个RDD都是通过lineage相连接的,由于SparkStreaming输?数据可以来?于磁盘,例如HDFS(多份拷贝)或是来?于?络的数据流(SparkStreaming会将?络输?数据的每?个数据流拷贝两份到其他的机器)都能保证容错性,所以RDD中任意的Partition出错,都可以并?地在其他机器上将缺失的Partition计算出来。这个容错恢复?式?连续计算模型(如Storm)的效率更?。实时性SparkStreaming将流式计算分解成多个SparkJob,对于每?段数据的处理都会经过SparkDAG图分解以及Spark的任务集的调度过程。对于?前版本的SparkStreaming??,其最?~2秒钟之间(Storm?前最?的延迟是100ms左右),所以SparkStreaming能够满?除对实时性要求?常?(如?频实时交易)之外的所有流式准实时计算场景。DStreamDiscretizedStream是SparkStreaming的基础抽象,代表持续性的数据流和经过各种Spark算?操作后的结果数据流。在内部实现上,DStream是?系列连续的RDD来表?。每个RDD含有?段时间间隔内的数据,如下图:对数据的操作也是按照RDD为单位来进?的SparkStreaming使?数据源产?的数据流创建DStream,也可以在已有的DStream上使??些操作来创建新的DStream。它的?作流程像下?的图所??样,接受到实时数据后,给数据分批次,然后传给SparkEngine处理最后?成该批次的结果。DStream相关操作DStream上的操作与RDD的类似,分为Transformations(转换)和OutputOperations(输出)两种,此外转换操作中还有?些?较特殊的操作,如:updateStateByKey()、transform()以及各种Window相关的操作。?于记录历史记录,(开窗函数)滑动窗?转换操作:滑动窗?转换操作的计算过程如下图所?,我们可以事先设定?个滑动窗?的长度(也就是窗?的持续时间),并且设定滑动窗?的时间间隔(每隔多长时间执??次计算),然后,就可以让窗?按照指定时间间隔在源DStream上滑动,每次窗?停放的位置上,都会有?部分DStream被框?窗?内,形成?个?段的DStream,这时,就可以启动对这个?段DStream的计算。?的矩形就是?个窗?,窗?框住的是?段时间内的数据流。??每?个time都是时间单元,在官?的例?中,每隔windowsize是3timeunit,?且每隔2个单位时间,窗?会slide?次。所以基于窗?的操作,需要指定2个参数:-Thedurationofthewindow(3inthefigure)-Theintervalatwhichthewindow-basedoperationisperformed(2inthefigure).-.窗???,?段时间内数据的容器。-.滑动间隔,每隔多久计算?次。OutputOperationsonDStreamsOutputOperations可以将DStream的数据输出到外部的数据库或?件系统,当某个OutputOperations被调?时(与RDD的Action相同),sparkstreaming程序才会开始真正的计算过程。

【大数据笔记10】SparkStreaming——流式计算来自beplayapp体育下载www.apt-nc.com转载请标明出处.