本文目錄一覽:
怎樣進行大數據的入門級學習
如今大數據發展得可謂是如日中天,各行各業對於大數據分析和大數據處理的需求也是與日俱增,越來越多的決策、建議、規劃和報告,都要依靠大數據的支撐,學習大數據成了不少人提升或轉行的機會。因此,入門大數據開始成為很多人的第一步,下面給大家講講,究竟大數據入門,首要掌握的知識點有哪些,如何一步一步進階呢?
首先我們要了解Java語言和Linux操作系統,這兩個是學習大數據的基礎,學習的順序不分前後。樓主是JAVA畢業的,這無疑是極好的開頭和奠基啊,可謂是贏在了起跑線上,接收和吸收大數據領域的知識會比一般人更加得心應手。
Java :只要了解一些基礎即可,做大數據不需要很深的Java 技術,學java SE 就相當於有學習大數據。基礎
Linux:因為大數據相關軟件都是在Linux上運行的,所以Linux要學習的紮實一些,學好Linux對你快速掌握大數據相關技術會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數據軟件的運行環境和網絡環境配置,能少踩很多坑,學會shell就能看懂腳本這樣能更容易理解和配置大數據集群。還能讓你對以後新出的大數據技術學習起來更快。
好說完基礎了,再說說還需要學習哪些大數據技術,可以按我寫的順序學下去。
Hadoop:這是現在流行的大數據處理平台幾乎已經成為大數據的代名詞,所以這個是必學的。Hadoop裡面包括幾個組件HDFS、MapReduce和YARN,HDFS是存儲數據的地方就像我們電腦的硬盤一樣文件都存儲在這個上面,MapReduce是對數據進行處理計算的,它有個特點就是不管多大的數據只要給它時間它就能把數據跑完,但是時間可能不是很快所以它叫數據的批處理。
記住學到這裡可以作為你學大數據的一個節點。
Zookeeper:這是個萬金油,安裝Hadoop的HA的時候就會用到它,以後的Hbase也會用到它。它一般用來存放一些相互協作的信息,這些信息比較小一般不會超過1M,都是使用它的軟件對它有依賴,對於我們個人來講只需要把它安裝正確,讓它正常的run起來就可以了。
Mysql:我們學習完大數據的處理了,接下來學習學習小數據的處理工具mysql數據庫,因為一會裝hive的時候要用到,mysql需要掌握到什麼層度那?你能在Linux上把它安裝好,運行起來,會配置簡單的權限,修改root的密碼,創建數據庫。這裡主要的是學習SQL的語法,因為hive的語法和這個非常相似。
Sqoop:這個是用於把Mysql里的數據導入到Hadoop里的。當然你也可以不用這個,直接把Mysql數據表導出成文件再放到HDFS上也是一樣的,當然生產環境中使用要注意Mysql的壓力。
Hive:這個東西對於會SQL語法的來說就是神器,它能讓你處理大數據變的很簡單,不會再費勁的編寫MapReduce程序。有的人說Pig那?它和Pig差不多掌握一個就可以了。
Oozie:既然學會Hive了,我相信你一定需要這個東西,它可以幫你管理你的Hive或者MapReduce、Spark腳本,還能檢查你的程序是否執行正確,出錯了給你發報警並能幫你重試程序,最重要的是還能幫你配置任務的依賴關係。我相信你一定會喜歡上它的,不然你看着那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。
Hbase:這是Hadoop生態體系中的NOSQL數據庫,他的數據是按照key和value的形式存儲的並且key是唯一的,所以它能用來做數據的排重,它與MYSQL相比能存儲的數據量大很多。所以他常被用於大數據處理完成之後的存儲目的地。
Kafka:這是個比較好用的隊列工具,隊列是幹嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理,這樣與你協作的其它同學不會叫起來,你幹嗎給我這麼多的數據(比如好幾百G的文件)我怎麼處理得過來,你別怪他因為他不是搞大數據的,你可以跟他講我把數據放在隊列里你使用的時候一個個拿,這樣他就不在抱怨了馬上灰流流的去優化他的程序去了,因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS,這時你可以與一個叫Flume的工具配合使用,它是專門用來提供對數據進行簡單處理,並寫到各種數據接受方(比如Kafka)的。
Spark:它是用來彌補基於MapReduce處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬盤。特別適合做迭代運算,所以算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它,因為它們都是用JVM的。
c++(或MFC)使用mysql數據庫具體該掌握哪些東西,具體怎麼弄
首先,應該熟悉基本的sql語句,至少包括數據庫的創建,建表以及表的增、刪、改、查。這是操作所有數據庫的根本。
然後,因為具體的數據庫有其自身的特性,你使用的是MySQL,那麼你需要了解MySQL裡面那些相應操作的具體語句。我的建議是,先安裝好MySQL,在命令行登錄連接數據庫,然後在命令行中練習,直到對數據庫的基本操作(特別是表的增刪改查)都很熟練。至於MySQL的可視化界面,那只是為了方便這些操作的。如果你只是弄一個小程序,可以不用可視化界面。
之後,應該學習如何在程序中操作數據庫。這個我想和MFC還是C++沒有太大的關係。程序中使用數據庫大體上可以分為以下幾步:
加載驅動
建立數據庫的連接
通過上面的連接獲取語句對象
通過語句對象執行具體的sql語句,獲取並處理結果集
關閉連接
這每一步都有一些小的知識點,需要你自己去學習。比如加載驅動可能涉及驅動包,建立連接需要知道程序中連接MySQL的url寫法以及用戶名密碼,獲取語句對象分statement和preparestatement,執行sql語句分查詢和更新兩類,關閉連接要有先後等等。這些網上應該都能查到資料,而且操作的步驟都是死的,所以只要會了還是不難。我的建議是,先自己寫個小程序,然後實現在這個程序裡面對數據庫進行操作,只要能夠在這個程序里對數據庫進行查詢了,那麼這個流程你也就熟悉了,那些複雜的操作也就不難實現了。
另外,在程序中操作數據庫和在命令行中操作數據庫相差不大,所以練習好在命令行中使用數據庫很重要。
有數據庫基礎,如何快速精通mysql?
本周內容:455字
閱讀時間:3~5分鐘
前言
MySQL 是一款免費開源、小型、關係型數據庫管理系統。隨着該數據庫功能不斷完善、性能的不斷提高,可靠性不斷增強。它雖然是免費,但與其他商業數據庫一樣,具有數據庫系統的通用性,提供了數據庫的存取、增加、修改、刪除或更加複雜的操作。同時MySQL所使用的 SQL 語言是用於訪問數據庫的最常用標準化語言。MySQL 軟件採用了雙授權政策,分為社區版和商業版,由於其體積小、速度快、總體擁有成本低,尤其是開放源碼這一特點,一般中小型網站的開發都選擇 MySQL 作為網站數據庫。
下面開始介紹搭建的過程
一、準備環境
系統:
Centos 6.5_64
二、安裝過程
1.yum -y install mysql-server
2.設置服務開機啟動
3.啟動數據庫服務
4.設置MySQLroot用戶
5.設置root用戶密碼為
6.登錄數據庫
7.創建數據庫test1
8.建立數據庫表格,xm姓名,xb性別,csny出生年齡
9增加數據庫條目記錄,姓名:李一,性別:男年齡:1988.9.01
書籍推薦
《MySQL 5.7從入門到精通》
本書主要包括MySQL的安裝與配置、數據庫的創建、數據表的創建、數據類型和運算符、MySQL函數、查詢數據、數據表的操作(插入、更新與刪除數據)、索引、存儲過程和函數、視圖、觸發器、用戶管理、數據備份與恢復、日誌以及性能優化等。最後通過兩個綜合案例的數據庫設計,進一步講述MySQL在實際工作中的應用。
本書注重實戰操作,幫助讀者循序漸進地掌握MySQL中的各項技術。本書共有480個實例和14個綜合案例,還有大量的經典習題。下載文件中贈送了近20小時培訓班形式的視頻教學錄像,詳細講解了書中每一個知識點和每一個數據庫操作的方法和技巧。同時下載文件中還提供了本書所有例子的源代碼,讀者可以直接查看和調用。
本書適合MySQL數據庫初學者、MySQL數據庫開發人員和MySQL數據庫管理員,同時也能作為高等院校相關專業師生的教學用書。
讓閱讀成為習慣
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/151010.html