下载此beplayapp体育下载

大数据核心技术A卷.pdf


beplayapp体育下载分类:bepaly下载苹果 | 页数:约6页 举报非法beplayapp体育下载有奖
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该beplayapp体育下载所得收入归上传者、原创者。
  • 3.下载的beplayapp体育下载,不会出现我们的网址水印。
1 / 6 下载此beplayapp体育下载
beplayapp体育下载列表 beplayapp体育下载介绍
该【大数据核心技术A卷 】是由【1781111****】上传分享,beplayapp体育下载一共【6】页,该beplayapp体育下载可以免费在线阅读,需要了解更多关于【大数据核心技术A卷 】的内容,可以使用beplayapp体育下载的站内搜索功能,选择自己适合的beplayapp体育下载,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此beplayapp体育下载到您的设备,方便您编辑和打印。如beplayapp体育下载对你有用,请下载支持!岭南师范学院2015年-。(A)(考试时间:120分钟):?(B),,然后由NameNode负责Block复制工作一、单项选择题(每小题2分,共30分),写在试题后无效。,终端出现以下哪项能说明Hadoop题号12345678答案主节点启动成功?(D),Datanode,,Datanode,。(C),Datanode,,JobTracker,,。(A)MapReduce不适宜的运算。(D)。(B),键值对的key必须实现哪个接口?(A)。(B)。(C),请下载支持!,对任意一个MapReduce作业,,哪一项不一定能提高效率。(D)Mapper,但Reducer只能有一个。(对)A.–ROOT-表B..,相同的key默认会被发送到同一个reducetask处理。(对)(NULL)的列,不需要占用存储空间。(没有则空不存储)(对),记录按什么集中存放。(A),可以没有列族(columnfamily)。(有列族)(错)三、简答题(每小题5分,共20分)。:Volume(大体量):即可从数百TB到数十数百PB、,必须要有以下哪一项。(B)规模。(多样性):即大数据包括各种格式和形态的数据。(时效性):即很多大数据需要在一定的时间限度下得到及时处理。,首先需要从哪个表开始查找。(B)Veracity(准确性):即处理的结果要保证一定的准确性。A...–ROOT-Value(大价值):即大数据包含很多深度的价值,。15、设计分布式数据仓库hive的数据表时,为取样更高效,,当使用bin/start-,请给出集群各进程启动顺序。行什么操作。(A)答:启动顺序:namenode–>datanode->secondarynamenode->resourcemanager->。二、判断题(每题2分,共16分)答:(1)列式存储请在下表中填写√或者×,写在试题后无效。。(hbase支持,hadoop不支持)(错)题号12345678(2),client端每次读写请求,它都会从磁盘中读的多维映射表取或会写入metadata信息并反馈给client端。(内存中读取)(错)(3)。(默认是)(错)(4)。(离线)(错)如beplayapp体育下载对你有用,请下载支持!(5)良好的线性可扩展性}(6)提供海量数据Publicvoidmap(LongWritableoffset,Textline,Contextcontext){(7)数据会自动分片RelationArecord=newRelationA(());(8)对于数据故障,hbase是有自动的失效检测和恢复能力。(newText((col)),());(9)提供了方便的与HDFS和MAPREDUCE集成的能力。},创建了以下外部表,请给出对应的HQL查询语句}CREATEEXTERNALTABLEsogou_ext(REDUCE端实现代码:tsSTRING,uidSTRING,keywordSTRING,rankINT,orderINT,urlSTRING,lassProjectionRediceextendsyearINT,monthINT,dayINT,hourINT)ReducerCOMMENT'Thisisthesogousearchdataofextenddata'ROWFORMATDELIMITEDPublicvoidreduce(Textkey,Iterablevalue,Contextcontext)throwsFIELDSTERMINATEDBY''STOREDASTEXTFILEIOException,InterruptedException{LOCATION'/sogou_ext/20160508';(1)(key,());答:selectcount(distinctUID)fromsogou_ext;(2)对于keyword,给出其频度最高的20个词的HQL语句}答:selectkeywordfromsogou_extgroupbykeywordorderbyorderdesclimit20;四、设计题(每小题8分,共24分)。,其中有些是相同的(重复),需要把重复的全部去掉,保留没有重复的得分评卷人有一个beplayapp体育下载库,包含有大量的beplayapp体育下载,现需要使用MapReduce编程技术字符串。请结合MapReduce编程模型给出设计思路或核心代码。对beplayapp体育下载内容建立一个倒排索引库。要求Reduce最后输出键值对为<单词,文件名#偏移量>,并且P228前后输出的相同的key所对应的文件名是字典序的。如lassProjectionMapextendsword1doc1#200Mapperword1doc2#10{word2doc2#10Privateintclo;假设在map阶段已经获取了当前split分片的文件名是Stringfilename。请按要求给出设计思Projectvoidsetup(Contextcontext)throwsIOException,InterruptedException{路或核心代码。Col=().getInt(“col”,0);Map(){如beplayapp体育下载对你有用,请下载支持!Stringfilename=().getName();privateTextword=newText();publicvoidmap(LongWritablekey,Textvalue,Contextcontext){Stringtemp=newString();StringTokenizeritr=newStringTokenizer(());Stringline=().toLowerCase();while(()){StringTokenizeriter=newStringTokenizer(line);(());(word,one);For(;();){}Temp=();}If(!stopwordscontains(temp)){}lassIntSumReducerextendsTextword=newText();Reducer{(temp+”#”+fileName);privateIntWritableresult=newIntWritable();(word,newIntWritable(1));publicvoidreduce(Texykey,Iterablevalues,Contextcontext){}intsum=0;}for(IntWritableval:values){}sum+=();Reducer{}PrivateIntWritableresult=newIntWritable();(sum);Publicvoidreduce(Text,key,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{(key,result);Intsum=0;}For(InWritableval:values){Sum+=();}}publicstaticvoidmain(String[]args)throwsException{(sum);(key,result);略……}}}(共8处)。}lass得分评卷人WordCount{五、开放题(每小题10分,共10分)。<,,,>{ObjectTextTextIntWritableMapReduce并行计算框架是一个并行化程序执行系统。它提供了一个包含Map和Reduce两阶段privatefinalstaticIntWritableone=newIntWritable(1);的并行处理模型和过程,提供一个并行化编程模型和接口,让程序员可以方便快速地编写出大数如beplayapp体育下载对你有用,请下载支持!据并行处理程序。MapReduce以键值对数据输入方式来处理数据,并能自动完成数据的划分和调大的重要状态数据,并提供监测数据状态变化的机,以制此配合其他Hadoop子系统(如HBase、度管理。在程序执行时,MapReduce并行计算框架将负责调度和分配计算资源,划分和输入输出Hama等)或者用户开发的应用系统,解决分布式环境下系统可靠性管理和数据状态维护等问题。数据,调度程序的执行,监控程序的执行状态,。MapReduce框架提供了一组完整的供程序员开发MapReduce应用程序的编程接口。Hive是一个建立在Hadoop之上的数据仓库,用于管理存储于HDFS或HBase中的结构化/。它最早由Facebook开发并用于处理并分析大量的用户及日志数据,2008年FacebookHDFS(HadoopDistributedFileSystem)是一个类似于GoogleGFS的开源的分布式文件系统。将其贡献给Apache成为Hadoop开源项目。为了便于熟悉SQL的传统数据库使用者使用Hadoop它提供了一个可扩展、高可靠、高可用的大规模数据分布式存储管理系统,基于物理上分布在各系统进行数据查询分析,Hive允许直接用类似SQL的HiveQL查询语言作为编程接口编写数据查个数据存储节点的本地Linux系统的文件系统,为上层应用程序提供了一个逻辑上成为整体的大询分析程序,并提供数据仓库所需要的数据抽取转换、存储管理和查询分析功能,而HiveQL语规模数据存储文件系统。与GFS类似,HDFS采用多副本(默认为3个副本)数据冗余存储机,制句在底层实现时被转换为相应的MapReduce程序加以执行。并提供了有效的数据出错检测和数据恢复机,大大提高了数据存储的可靠制性。,由Yahoo!贡献给Apache成为开源项目。它简化了使为了克服HDFS难以管理结构化/半结构化海量数据的缺点,Hadoop提供了一个大规模分布式数用Hadoop进行数据分析处理的难度,提供一个面向领域的高层抽象语言PigLatin,通过该语据库管理和查询系统HBase。HBase是一个建立在HDFS之上的分布式数据库,它是一个分布式可言,程序员可以将复杂的数据分析任务实现为Pig操作上的数据流脚本,这些脚本最终执行时将扩展的NoSQL数据库,提供了对结构化、半结构化甚至非结构化大数据的实时读写和随机访问能被系统自动转换为MapReduce任务链,在Hadoop上加以执行。Yahoo!有大量的MapReduce作业力。HBase提供了一个基于行、列和时间戳的三维数据管理模型,HBase中每张表的记录数(行是通过Pig实现的。数)可以多达几十亿条甚至更多,每条记录可以拥有多达上百万的字段。-V型的数据库系统,最初由Facebook开发,用于存储邮箱等比较Common是一套为整个Hadoop系统提供底层支撑服务和常用工具的类库和API编程接口,这些底简单的格式化数据,后Facebook将Cassandra贡献出来成为Hadoop开源项目。Cassandra以层服务包括Hadoop抽象文件系统FileSystem、远程过程调用RPC、系统配置工具ConfigurationAmazon专有的完全分布式Dynamo为基础,结合了GoogleBigTable基于列族(ColumnFamily)以及序列化机。、MapReduce和其他公共的项目内的数据模型,提供了一套高度可扩展、最终一致、分布式的结构化键值存储系统。它结合了Dynamo容;,HDFS和MapReduce被分离为独立的子项目,其余部分内容构成Hadoop的分布技术和Google的Bigtable数据模型,更好地满足了海量数据存储的需求。同时,CassandraCommon。变更垂直扩展为水平扩展,相比其他典型的键值数据存储模型,。Avro是一个数据序列化系统,。Avro提供了丰富的数据结构类型,快速可压缩的二进制数据格式,存储持久性数据的文件Chukwa是一个由Yahoo!贡献的开源的数据收集系统,主要用于日志的收集和数据的监控,并与集,远程调用RPC和简单动态语言集成等功能。MapReduce协同处理数据。Chukwa是一个基于Hadoop的大规模集群监控系统,,具有良好的适应性和扩展性。它使用HDFS来存储数据,使用MapReduce来处理数Zookeeper是一个分布式协调服务框架,主要用于解决分布式环境中的一致性问题。Zookeeper据,同时还提供灵活强大的辅助工具用以分析、显示、监视数据结果。主要用于提供分布式应用中经常需要的系统可靠性维护、数据状态同步、统一命名服务、。Zookeeper可用来在分布式环境下维护系统运行管理中的一些数据量不如beplayapp体育下载对你有用,请下载支持!Hama是一个基于BSP并行计算模型(BulkSynchronousParallel,大同步并行模型)的计算框架,主要提供一套支撑框架和工具,支持大规模科学计算或者具有复杂数据关联性的图计算。Hama类似Google公司开发的Pregel,Google利用Pregel来实现图遍历(BFS)、最短路径(SSSP)、PageRank等计算。Hama可以与Hadoop的HDSF进行完美的整合,利用HDFS对需要运行的任务和数据进行持久化存储。由于BSP在并行化计算模型上的灵活性,Hama框架可在大规模科学计算和图计算方面得到较多应用,完成矩阵计算、排序计算、PageRank、BFS等不同的大数据计算和处理任务。,其主要目标是创建并提供经典的机器学****和数据挖掘并行化算类库,法以便减轻需要使用这些算进行数据分析挖掘的法程序员的编程负担,不需要自己再去实现这些算。法Mahout现在已经包含了聚类、分类、推荐引擎、频繁项集挖掘等广泛使用的机器学****和数据挖掘算。法此外,它还提供了包含数据输入输出工具,以及与其他数据存储管理系统进行数据集成的工具和构架。-to-Hadoop的缩写,是一个在关系数据库与Hadoop平台间进行快速批量数据交换的工具。它可以将一个关系数据库中的数据批量导入Hadoop的HDFS、HBase、Hive中,也可以反过来将Hadoop平台中的数据导入关系数据库中。Sqoop充分利用了HadoopMapReduce的并行化优点,整个数据交换过程基于MapReduce实现并行化的快速处理。、高可靠、高可用、适合复杂环境下大规模日志数据采集的系统。它将数据从产生、传输、处理、输出的过程抽象为数据流,并允许在数据源中定义数据发送方,从而支持收集基于各种不同传输协议的数据,并提供对日志数据进行简单的数据过滤、格式转换等处理能力。输出时,Flume可支持将日志数据写往用户定制的输出目标。

大数据核心技术A卷 来自beplayapp体育下载www.apt-nc.com转载请标明出处.

相关beplayapp体育下载 更多>>
非法内容举报中心
beplayapp体育下载信息
  • 页数6
  • 收藏数0收藏
  • 顶次数0
  • 上传人1781111****
  • 文件大小611 KB
  • 时间2024-03-08