Hadoop

提供分布式的存储和计算,是一个分布式的系统基础架构。

优势:高可靠性,高扩展性,

HDFS

分布式文件系统,实现将文件分布式存储到很多的服务器上。

将文件分成指定大小的数据库并以多副本的存储在多个机器上.

数据切分、多副本、容错扥操作对用户是透明的。

MapReduce

分布式计算框架,实现在很多机器上分布式并行计算。

特点:扩展性&容错性&海量数据离线处理.

Yarn

分布式资源管理以及作业的调度,负责整个集群资源的管理和调度。

特点:扩展性&容错性&多框架资源统一调度。


Hadoop发行版选择

Apache:

  • 优点:纯开源
  • 缺点:不同版本/不通框架之间整合jar冲突

CDH:

  • 优点:cm(cloudera manager)通过页面一键安装各种框架、升级
  • 缺点:cm不开源、与社区版本有些出入

Hortonworks:HDP

企业可以发布自己的数据平台,可以直接基于页面框架进行改造

  • 优点:原装Hadoop、纯开源、支持tez
  • 缺点:企业级安全不开源

HDFS的架构

  • NameNode(master) & DataNodes(slave)
  • Master & Slave

软件下载地址

http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.15.1.tar.gz


配置相关

环境变量配置

export JAVA_HOME=/root/app/jdk1.8.0_261
export HADOOP_HOME=/root/app/hadoop-2.6.0-cdh5.15.1
export PATH=.:$JAVA_HOME/bin:HADOOP_HOME/bin:$PATH
Hadoop配置

修改配置文件

#etc/hadoop目录下
nano hadoop-env.sh
#修改
export JAVA_HOME=/root/app/jdk1.8.0_261
#etc/hadoop目录下core-site.xml

<configuration>
    <property>
          <name>fs.default.name</name>
          <value>hdfs://master:8020</value>
    </property>
</configuration>
#etc/hadoop目录下hdfs-site.xml
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
            <name>hadoop.tmp.dir</name>
            <value>/usr/local/hadoop/tmp</value>
    </property>
</configuration>
#格式化 仅首次需要格式化,不要重复执行
hdfs namenode -format
#启动hdfs
start-dfs.sh
#查看启动的进程
jps

如果有上面的进程,说明hadoop已经启动成功。

#关闭hadoop
stop-dfs.sh

浏览器无法打开

#查看防火墙信息
firewall-cmd --state
#关闭防火墙 
systemctl stop firewalld.service
Last modification:August 29th, 2020 at 03:30 pm
坚持技术分享,您的支持将鼓励我继续创作!