Hadoop-组件-HDFS-发展-大厂分享系列😯~~~

字节跳动应用 HDFS 已经非常长的时间了,经历了 7 年的发展,目前已直接支持了十多种数据平台,间接支持了上百种业务发展。从集群规模和数据量来说,HDFS 平台在公司内部已经成长为总数几万台服务器的大平台,支持了 EB 级别的数据量…

经过我们对 HDFS 元数据信息的分析,以印度离线集群为例,发现半年以上没有访问的冷数据大约占 25% 左右。这些数据存储在高性能高成本的 EBS 上是一种浪费,是否可能把这部分冷数据存储到更便宜的存储介质上?答案是肯定的…

作为快手内部数据规模和机器规模最大的分布式文件存储系统,HDFS一直伴随着快手业务的飞速发展而快速成长…

整个 NameNode 在启动中的主要步骤几个地方比较耗时,一是在加载元数据的时候,也就是加载FSImage,二是NameNode在处理DataNode上报数据时,如果管理的数据非常多是比较慢的…

整个 NameNode 在启动中的主要步骤几个地方比较耗时,一是在加载元数据的时候,也就是加载FSImage,二是NameNode在处理DataNode上报数据时,如果管理的数据非常多是比较慢的…

众所周知,NameNode全局锁(FSNamesystemLock)问题一直是制约HDFS性能尤其是NameNode处理能力的主要原因。为此,社区和业界经过多次尝试,试图解决NameNode全局锁问题,但是从结果来看,都不理想 …

在HDFS方面,支持了Erasure Coding、More than 2 NameNodes、Router-Based Federation、Standby NameNode Read、FairCallQueue、Intra-datanode balancer 等新特性。这些新特性在稳定性、性能、成本等多个方面带来诸多收益,我们打算将HDFS集群升级到HDFS 3.x 版本。

本篇文章会介绍如何将CDH 5.14.4 HDFS 2.6.0 滚动升级到HDP-3.1.4.0-315 HDFS 3.1.1版本,在升级中遇到哪些问题?这些问题是如何解决掉的?…