大数据技能第三章:HDFS:1HDFS简介HDFS组成3HDFS作业机制4数据容
发布时间:2022-10-04 22:27:09 来源:贝博体育ballbet西甲

  HDFS是Google公司的GFS分布式文件体系的开源完成,是Apache Hadoop项目的子项目。 HDFS是根据流式数据拜访形式的分布式文件体系,支撑海量数据的存储,答应用户将成千上百的计算机组成存储集群 HDFS能够运转的低成本的硬件上,进步吞吐量,高容错性的数据拜访。

  4. 不适合处理低推迟的数据拜访 5. 不适合处理许多小文件 6. 不适合多用户写入和恣意修正

  数据块的巨细默许2.2版别之前64MB,现在128MB 功用: (1)保存数据块。 (2)发动DataNode线程,向NameNode定时报告数据块信息 (3)定时向NameNode发送心跳信息保持联系

  功用: (1)作为检查点 (2)定时兼并fsimage和edis文件(操控edis巨细,削减重启时刻)

  HDFS上的文件对应的数据块保存又许多的副本,且供给容错机制,副本丢掉或宕机时主动康复。 HDFS默许保存3个副本 (1)第一个副本: 放置在上传文件 的数据节点上。假如在集群外提交,则随机选择一台磁盘不太满,cpu不太忙的节点上 (2)第二个副本:放置在和第一个副本不同的机架的节点上 (3)第三个副本:放置在与第一个副本相同机架的不同节点上 这种战略削减了机架间的数据传输,进步了写操作的功率

  1.每个DataNode都会定时的给NameNode发送心跳信号。 假如NameNode收不到心跳信号则视为宕机,不再为它发送I/O恳求。

  2.DataNode宕机会引起一些数据块的副本数低于指定值。 NameNode不断检测需求仿制的数据块。 一但发现副本值低于设定副本数就发动仿制操作。

  Hadoop选用两种办法来保证称号节点的安全。 1. 把称号节点上的元数据信息同步存储在其他文件体系(挂载到云服务) 2. 运转一个SecondaryNameNode。运用SecondaryNameNode中的元数据信息进行体系康复。

  但这种办法依然有数据丢掉(主要是本次发动后数据没有同步到SecondaryNameNode,数据同步在关机时运转) 一般两种办法结合运用

上一篇:大数据技能的概念和特色 下一篇:关于寻求《疆土空间规划城市时空大

地址:北京市海淀区丰秀中路3号院12号楼 / 邮编:100094 / 电话:010-82695000 010-82883933 / 传真:010-82883858

版权所有:贝博体育ballbet西甲 京ICP备05008170号 京公网安备11010802029694号
© All rights reserved by 贝博体育ballbet西甲

扫一扫,关注贝博体育ballbet西甲