菜鸡初学者对 Hadoop 云端架构的一些疑惑 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zywoo
V2EX    Hadoop

菜鸡初学者对 Hadoop 云端架构的一些疑惑

  •  
  •   zywoo 2022 年 8 月 28 日 3091 次点击
    这是一个创建于 1265 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Java 开发实习生,但是实习期间一直在弄些 hive 脚本的相关工作,维护现有的报表。 之前没了解过大数据相关,自学了两天 Hadoop 和 Hive 相关的东西,有一些疑问: 1 、由于公司是海外业务,aws 和 azure 用的比较多,数仓这一套东西全都搭在云上,用的是 aws EMR 服务 + aws S3 做存储。这里第一个问题:S3 作为存储服务,是和 HDFS 同级别的东西吗?是 S3 从根本上代替了 HDFS ,还是说 HDFS 是一种概念或者规范,S3 是 HDFS 的一种实现方式? 2 、如果是前者,那么 HDFS 架构中的 NameNode ,DataNode 这些概念,在 S3 中是必要的吗? S3 又是否有数据冗余的措施来保证数据的高可用?

    初学者有很多基本的概念和理念还没有搞清楚,所以这可能是一个非常蠢的问题。求有经验的大佬们点拨一二

    9 条回复    2022-08-30 21:13:23 +08:00
    israinbow
        1
    israinbow  
       2022 年 8 月 28 日 via Android
    亚马逊 S3 是对象存储服务,对象储存是一个概念或者规定,主要定义一个储存形式:储存文件的数据与其相关属性信息的集合体; HDFS 是 Hadoop 定义的抽象文件系统的一个实现,是一种分布式环境的专用文件系统,但相对于 ext 、fat 、zfs 之类的底层文件系统,更贴近 “软件层”。

    更深度的拓展就上网搜各种关键词啦。
    F281M6Dh8DXpD1g2
        2
    F281M6Dh8DXpD1g2  
       2022 年 8 月 29 日 via iPhone
    hive 只关心它能读到要处理的 row
    至于数据从哪来的不重要
    hdfs 和 s3 没啥关系,都实现了 hive 要求的接口就行
    AmericanExpress
        3
    AmericanExpress  
       2022 年 8 月 29 日
    > S3 作为存储服务,是和 HDFS 同级别的东西吗?
    不是,S3 和 HDFS 不是一个概念。S3 是 object storage ,可以简单的理解为“硬盘”; HDFS 是 file system ,可以简单的理解为你用 macOS/Windows 的文件系统( NTFS/APFS )。S3 只是 object storage 的一种,Azure 应该也有自己的 object storage 。

    > 是 S3 从根本上代替了 HDFS ,还是说 HDFS 是一种概念或者规范,S3 是 HDFS 的一种实现方式? 2 、如果是前者,那么 HDFS 架构中的 NameNode ,DataNode 这些概念,在 S3 中是必要的吗?
    前提错误了。

    > S3 又是否有数据冗余的措施来保证数据的高可用?
    必然有,但是很复杂...SLA 之类基本数据可以参考 AWS 的官方文档: https://docs.aws.amazon.com/AmazonS3/latest/userguide/DataDurability.html
    qianxaingmoli
        4
    qianxaingmoli  
       2022 年 8 月 29 日
    个人理解,hdfs 是虚拟文件系统,s3 是类似 ntfs 那种硬盘文件系统,对象存储肯定有自己的高可用方案,反正 hadoop 原生就支持这些对象存储,一样用
    zywoo
        5
    zywoo  
    OP
       2022 年 8 月 29 日
    @seaiaddca #3 感谢你的回复。


    这是我找到的一张结构图,我对它的理解是对于 Hadoop 来说,存储层的具体实现是透明的,既可以是 HDFS ,也可以是实现了 Hadoop 文件系统 API 的对象存储系统( S3 + EMRFS , 对应图中的 Swift + Swift API ),它们在存储这个功能层次上是可替代的。

    如果 S3 可以理解成硬盘的话,那么 S3 上的文件系统(我也不知道是什么)才是真正和 HDFS 同级别的东西。

    请问这个理解对不对呢?
    AmericanExpress
        6
    AmericanExpress  
       2022 年 8 月 29 日   1
    @zywoo
    > 我对它的理解是对于 Hadoop 来说,存储层的具体实现是透明的,既可以是 HDFS ,也可以是实现了 Hadoop 文件系统 API 的对象存储系统

    是的

    > ( S3 + EMRFS , 对应图中的 Swift + Swift API ),它们在存储这个功能层次上是可替代的。

    SwiftAdapter + Swift Java client API + OpenStack Swift = EMRFS + S3
    EMRFS 是 HDFS 的一种实现,EMR cluster 通过 EMRFS 对 S3 里的数据进行读写,对用户来说 S3 是一个简单的 key-value pair object storage 。
    在你的图里,左边的“HDFS”包含了数据储存,但 HDFS 本身只是一个 distribute file system ,并不包含实际的储存。

    > 如果 S3 可以理解成硬盘的话,那么 S3 上的文件系统(我也不知道是什么)才是真正和 HDFS 同级别的东西。

    可以这么认为
    zywoo
        7
    zywoo  
    OP
       2022 年 8 月 29 日
    @seaiaddca #6 明白了,感谢大佬,受益匪浅
    Aloento
        8
    Aloento  
       2022 年 8 月 30 日 via Android
    @israinbow 都什么年代了还在用传统 Hadoop
    zywoo
        9
    zywoo  
    OP
       2022 年 8 月 30 日
    @Aloento #8
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2752 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 36ms UTC 03:33 PVG 11:33 LAX 19:33 JFK 22:33
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86