Hadoop | 隔叶黄莺 Yanbin Blog

2022-10-10 | 阅读(1,143)

HDFS(Hadoop Distributed File System) 是 Hadoop 的一个重要的模块，有点像磁盘阵列一样，不过它构建的是分布式网络文件系统。由于数据块从多个节上存取，也就能突破单点的网络带宽和硬件资源的限制而获得更好的性能; 能处理更大的数据，和克服单点故障的问题。许多公司正在使用 HDFS 构建自己的分布式文件系统，还比支持它的应用有 Spark, Presto, Hive, HBase, Zeppelin 等。

本文将实战自己搭建一个 HDFS 分布式文件系统，体验最基本的 HDFS 文件操作，看看它是如何分布文件块，以及如何进行冗余容错的。

本次实战环境:

macOS Big Sur 11.7, VirtualBox 6.1.32 r149290, Vagrant 2.2.19
Vagrant Ubuntu 22.04 LTS 虚拟机
Open JDK 8
Hadoop 3.3.4

我们将使用 4 个 Vagrant 虚拟机，其中一个为 NameNode, 其余为 DataNode。HDFS 沿袭了传统的 Master/Slave 系统架构，但因目前像传统的计算机名词 PC, CRT 被恶意使用的当下，Master/Slave 相应的更名为 NameNode 和 DataNode。在通常的系统中, Master 兼具协调与数据存储的功能，而 Slave 只存储数据，而 HDFS 的 NameNode 仅保管文件的元信息，数据块存储在 DataNode 中。

阅读全文 >>

2021-02-25 | 阅读(870)

在上篇使用 Java 转换 Apache Avro 为 Parquet 数据格式实现把 Avro 数据转换为 Parquet 文件或内存字节数组，并支持 LogicalType。其中使用到了 hadoop-core 依赖，注意到它传递的依赖都非常老旧，到官方 Maven 仓库一看才发现还不是一般的老

长时间无人问津的项目，那一定有它的替代品。对啦，据说 hadoop-core 在 2009 年 7 月份更名为 hadoop-common 了，没找到官方说明，只看到 StackOverflow 的 Differences between Hadoop-coomon, Hadoop-core and Hadoop-client? 是这么说的。应该是这么个说法，不然为何 hadoop-core 一直停留在 1.2.1 的版本，而且原来 hadoop-core 中的类在 hadoop-common 中可以找到，如类 org.apache.hadoop.fs.Path。不过在 hadoop-core-1.2.1 中的 fs/s3 包不见，这么重要的 s3 文件系统没了。阅读全文 >>

CTO on 让 Putty 保存密码，自动登陆的三种方法用了-load 载入对应的session就不要-ssh来连服务器了,不然seesion里面存的东西都没用,后面带-l 和-pw配用户名与密码...
天天下载 on Python 3.12 新特性很棒的网站，感谢分享
gidroizolyaciya cena_gwsl on Java, Python 两种形式的 base64encodeгидроизоляция цена http://gidroizolyaciya-cena-1.ru/ .
PKSpin Game on 精彩开发网站链接PKSpin Game is a free Android gaming application and is free to u...
Polo on 想选一种动态语言＋跨平台界面组件的组合，希望大家给点意见Perl + Tkx

M	T	W	T	F	S	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tag: Hadoop

HDFS 分布式文件系统的搭建与使用

使用 Java 转换 Apache Avro 为 Parquet 数据格式(依赖更新)