Hadoop菜鳥教程詳解

Hadoop是一個分布式計算平台,不但支持海量數據的存儲,同時也提供了可靠的分布式數據處理機制,處理過程被優化為在大量廉價的硬件上擴展。

一、Hadoop環境搭建

為了使用Hadoop,我們需要完成Hadoop的環境搭建,在這裡介紹如何搭建Hadoop 2.7.2的環境,詳細步驟如下:

1. 安裝Java並設置環境變量

cd /opt
tar -zxvf jdk-8u131-linux-x64.tar.gz
vim  /etc/profile
export JAVA_HOME=/opt/jdk1.8.0_131
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
source /etc/profile

2. 安裝hadoop

cd /opt
tar -zxvf hadoop-2.7.2.tar.gz
vim  /etc/profile
export HADOOP_HOME=/opt/hadoop-2.7.2
export PATH=${HADOOP_HOME}/bin:${PATH}
source /etc/profile

3. 修改hadoop配置文件

cd /opt/hadoop-2.7.2/etc/hadoop
vim hadoop-env.sh
export JAVA_HOME=/opt/jdk1.8.0_131
export HADOOP_HOME=/opt/hadoop-2.7.2
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HADOOP_PREFIX=${HADOOP_HOME}
export HADOOP_COMMON_HOME=${HADOOP_HOME}
export HADOOP_HDFS_HOME=${HADOOP_HOME}
export HADOOP_MAPRED_HOME=${HADOOP_HOME}
export HADOOP_YARN_HOME=${HADOOP_HOME}

4. 啟動Hadoop集群

cd ${HADOOP_HOME}/sbin
./start-dfs.sh
./start-yarn.sh

二、HDFS的使用

在Hadoop中,HDFS將數據拆分成多個塊,分布式存儲到不同節點上,為了讓大文件能夠並行處理,HDFS使用了塊的概念,一個塊可以理解為是一個文件的一部分。

1. HDFS基礎操作

# 創建目錄
hdfs dfs -mkdir /input
# 在本地創建文件
echo "hello hadoop" > test
# 上傳文件到HDFS
hdfs dfs -put test /input
# 查看上傳到HDFS的文件
hdfs dfs -ls /input
# 下載文件到本地
hdfs dfs -get /input/test test2
# 刪除HDFS上的文件
hdfs dfs -rm /input/test
# 查看HDFS上文件內容
hdfs dfs -cat /input/test2

2. HDFS讀寫文件

下面是使用Java API讀寫HDFS文件的示例代碼:

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;

import java.io.InputStream;
import java.net.URI;

public class HdfsDemo {

    private static final String HDFS_PATH = "hdfs://localhost:9000";
    private static final Configuration CONF = new Configuration();

    public static void main(String[] args) throws Exception {

        URI uri = new URI(HDFS_PATH);
        FileSystem fs = FileSystem.get(uri, CONF);

        // 寫入文件
        String content = "Hello HDFS!";
        byte[] buff = content.getBytes("UTF-8");
        InputStream in = new ByteArrayInputStream(buff);
        fs.create(new Path("/test.txt"));
        IOUtils.copyBytes(in, out, 4096, true);

        // 讀取文件
        InputStream in = fs.open(new Path("/test.txt"));
        IOUtils.copyBytes(in, System.out, 4096, false);

        fs.close();
    }
}

三、MapReduce的使用

MapReduce是Hadoop提供的用於大規模數據處理的編程模型,用戶可以編寫Map和Reduce函數,讓Hadoop分發數據,執行Map任務,然後收集結果,執行Reduce任務,最終將結果返回。

1. MapReduce基礎操作

下面是使用命令行執行MapReduce任務的示例命令:

# 創建輸入目錄並上傳數據
hadoop fs -mkdir /input
hadoop fs -put /usr/local/hadoop/LICENSE.txt /input

# 執行MapReduce任務
hadoop jar /usr/local/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /input /output

# 查看輸出結果
hadoop fs -cat /output/part-r-00000

2. MapReduce自定義函數

下面是編寫自定義Map函數的Java代碼:

public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {

    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(Object key, Text value, Context context) throws IOException, InterruptedException {

        StringTokenizer itr = new StringTokenizer(value.toString());
        while (itr.hasMoreTokens()) {
            word.set(itr.nextToken());
            context.write(word, one);
        }

    }

}

下面是編寫自定義Reduce函數的Java代碼:

public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        int sum = 0;
        for (IntWritable val : values) {
            sum += val.get();
        }
        result.set(sum);
        context.write(key, result);

    }

}

下面是編寫Driver程序來運行自定義MapReduce任務的Java代碼:

public static void main(String[] args) throws Exception {

    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf, "word count");

    job.setJarByClass(WordCount.class);
    job.setMapperClass(TokenizerMapper.class);
    job.setCombinerClass(IntSumReducer.class);
    job.setReducerClass(IntSumReducer.class);

    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);

    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));

    System.exit(job.waitForCompletion(true) ? 0 : 1);

}

四、Hadoop集群管理

在Hadoop中,集群管理分為兩個部分:節點管理和作業管理。節點管理是指監控集群中的每個節點,確保它們正常工作。作業管理是指確保MapReduce作業正確提交和管理,監控作業的進度,以及保證數據在節點之間的正確移動。

1. 節點管理

下面是使用命令行監控Hadoop集群節點狀態的示例命令:

$HADOOP_HOME/bin/hdfs dfsadmin -report

2. 作業管理

下面是使用命令行提交MapReduce作業的示例命令:

$HADOOP_HOME/bin/hadoop jar /usr/local/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /input /output

下面是使用瀏覽器查看作業運行狀態的示例地址:

http://localhost:8088/cluster

五、總結

Hadoop菜鳥教程介紹了Hadoop的環境搭建、HDFS的使用、MapReduce的使用和Hadoop集群管理等方面的內容,這些內容可以幫助初學者快速了解和學習Hadoop的基礎知識。

原創文章,作者:PZELE,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/332260.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
PZELE的頭像PZELE
上一篇 2025-01-21 17:30
下一篇 2025-01-21 17:30

相關推薦

  • MQTT使用教程

    MQTT是一種輕量級的消息傳輸協議,適用於物聯網領域中的設備與雲端、設備與設備之間的數據傳輸。本文將介紹使用MQTT實現設備與雲端數據傳輸的方法和注意事項。 一、準備工作 在使用M…

    編程 2025-04-29
  • Python3.6.5下載安裝教程

    Python是一種面向對象、解釋型計算機程序語言。它是一門動態語言,因為它不會對程序員提前聲明變量類型,而是在變量第一次賦值時自動識別該變量的類型。 Python3.6.5是Pyt…

    編程 2025-04-29
  • Deepin系統分區設置教程

    本教程將會詳細介紹Deepin系統如何進行分區設置,分享多種方式讓您了解如何規劃您的硬盤。 一、分區的基本知識 在進行Deepin系統分區設置之前,我們需要了解一些基本分區概念。 …

    編程 2025-04-29
  • 寫代碼新手教程

    本文將從語言選擇、學習方法、編碼規範以及常見問題解答等多個方面,為編程新手提供實用、簡明的教程。 一、語言選擇 作為編程新手,選擇一門編程語言是很關鍵的一步。以下是幾個有代表性的編…

    編程 2025-04-29
  • Qt雷達探測教程

    本文主要介紹如何使用Qt開發雷達探測程序,並展示一個簡單的雷達探測示例。 一、環境準備 在開始本教程之前,需要確保你的開發環境已經安裝Qt和Qt Creator。如果沒有安裝,可以…

    編程 2025-04-29
  • 猿編程python免費全套教程400集

    想要學習Python編程嗎?猿編程python免費全套教程400集是一個不錯的選擇!下面我們來詳細了解一下這個教程。 一、課程內容 猿編程python免費全套教程400集包含了從P…

    編程 2025-04-29
  • Python煙花教程

    Python煙花代碼在近年來越來越受到人們的歡迎,因為它可以讓我們在終端里玩煙花,不僅具有視覺美感,還可以通過代碼實現動畫和音效。本教程將詳細介紹Python煙花代碼的實現原理和模…

    編程 2025-04-29
  • 使用Snare服務收集日誌:完整教程

    本教程將介紹如何使用Snare服務收集Windows服務器上的日誌,並將其發送到遠程服務器進行集中管理。 一、安裝和配置Snare 1、下載Snare安裝程序並安裝。 https:…

    編程 2025-04-29
  • Python畫K線教程

    本教程將從以下幾個方面詳細介紹Python畫K線的方法及技巧,包括數據處理、圖表繪製、基本設置等等。 一、數據處理 1、獲取數據 在Python中可以使用Pandas庫獲取K線數據…

    編程 2025-04-28
  • Python語言程序設計教程PDF趙璐百度網盤介紹

    Python語言程序設計教程PDF趙璐百度網盤是一本介紹Python語言編程的入門教材,本文將從以下幾個方面對其進行詳細闡述。 一、Python語言的特點 Python語言屬於解釋…

    編程 2025-04-28

發表回復

登錄後才能評論