大數據技術的體系龐大且復雜,基礎的技術包含數據的采集、數據預處理、分布式存儲、數據庫、數據倉庫、機器學習、并行計算、可視化等。
1、數據采集與預處理:FlumeNG實時日志收集系統,支持在日志系統中定制各類數據發送方,用于收集數據;Zookeeper是一個分布式的,開放源碼的分布式應用程序協調服務,提供數據同步服務。
2、數據存儲:Hadoop作為一個開源的框架,專為離線和大規模數據分析而設計,HDFS作為其核心的存儲引擎,已被廣泛用于數據存儲。HBase,是一個分布式的、面向列的開源數據庫,可以認為是hdfs的封裝,本質是數據存儲、NoSQL數據庫。
3、數據清洗:MapRece作為Hadoop的查詢引擎,用于大規模數據集的并行計算。
4、數據查詢分析:Hive的核心工作就是把SQL語句翻譯成MR程序,可以將結構化的數據映射為一張數據庫表,并提供HQL(HiveSQL)查詢功能。Spark啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。
5、數據可視化:對接一些BI平臺,將分析得到的數據進行可視化,用于指導決策服務。
分享大數據學習路線:
第一階段為JAVASE+MYSQL+JDBC
主要學習一些Java語言的概念,如字符、流程控制、面向對象、進程線程、枚舉反射等,學習MySQL數據庫的安裝卸載及相關操作,學習JDBC的實現原理以及Linux基礎知識,是大數據剛入門階段。
第二階段為分布式理論簡介主要講解CAP理論、數據分布方式、一致性、2PC和3PC、大數據集成架構。涉及的知識點有Consistency一致性、Availability可用性、Partition tolerance分區容忍性、數據量分布、2PC流程、3PC流程、哈希方式、一致性哈希等。
第三階段為數據存儲與計算(離線場景)主要講解協調服務ZK(1T)、數據存儲hdfs(2T)、數據存儲alluxio(1T)、數據采集flume、數據采集logstash、數據同步Sqoop(0.5T)、數據同步datax(0.5T)、數據同步mysql-binlog(1T)、計算模型MR與DAG(1T)、hive(5T)、Impala(1T)、任務調度Azkaban、任務調度airflow等。
第四部分為數倉建設主要講解數倉倉庫的歷史背景、離線數倉項目-伴我汽車(5T)架構技術解析、多維數據模型處理kylin(3.5T)部署安裝、離線數倉項目-伴我汽車升級后加入kylin進行多維分析等;
第五階段為分布式計算引擎主要講解計算引擎、scala語言、spark、數據存儲hbase、redis、ku,并通過某p2p平臺項目實現spark多數據源讀寫。
第六階段為數據存儲與計算(實時場景)主要講解數據通道Kafka、實時數倉druid、流式數據處理flink、SparkStreaming,并通過講解某交通大數讓你可以將知識點融會貫通。
第七階段為數據搜索主要講解elasticsearch,包括全文搜索技術、ES安裝操作、index、創建索引、增刪改查、索引、映射、過濾等。
第八階段為數據治理主要講解數據標準、數據分類、數據建模、圖存儲與查詢、元數據、血緣與數據質量、Hive Hook、Spark Listener等。
第九階段為BI系統主要講解Superset、Graphna兩大技術,包括基本簡介、安裝、數據源創建、表操作以及數據探索分析。
第十階段為數據挖掘主要講解機器學習中的數學體系、Spark Mlib機器學習算法庫、Python scikit-learn機器學習算法庫、機器學習結合大數據項目。
對大數據分析有興趣的小伙伴們,不妨先從看看大數據分析書籍開始入門!B站上有很多的大數據教學視頻,從基礎到高級的都有,還挺不錯的,知識點講的很細致,還有完整版的學習路線圖。也可以自己去看看,下載學習試試。操作步驟
構建集群
集群角色如下
m-01:master/data
d-02:data
d-03:data
集群配置文件:
Master節點elasticsearch.yml配置文件
修改Master節點角色配置
修改Elasticsearch.yml
重啟Master節點m-01
啟動失敗,錯誤信息如下:
執行elasticsearch-node repurpose實現角色轉換前處理工作
執行elasticsearch-node repurpose指令前提條件是:當前節點被停用。
再次啟動Master節點m-01
查看節點角色
角色變更小結
僅需下線主節點,其他節點可以保持原有狀態,無需下線;
需要使用elasticsearch-node repurpose實現角色轉換;
操作步驟
停止需要變更角色的節點;
修改elasticsearch.yml配置文件,更新節點角色;
執行elasticsearch-node repurpose;
重新啟動節點;
重學Elasticsearch第9章 : ES集群概念、節點故障恢復問題、路由計算、協...
華為云開發者聯盟該內容已被華為云開發者聯盟社區收錄,社區免費抽大獎🎉,贏華為平板、Switch等好禮! 加入社區 ElasticSearch專欄收錄該內容 11 篇文章2 訂閱 訂閱專欄
繼續訪問
【ES實戰】ES集群節點遷移與縮容_顧棟的博客
在新機器DEF上各自部署純data角色的ES節點,將所有節點的配置文件elasticsearch.yml中的配置項dis買粉絲very.zen.ping.unicast.hosts修改為ABCDEF。 將數據遷移到DEF中的數據ES節點中。同時客戶端修改鏈接地址為DEF。 數據遷移完畢后,關閉一個非...
繼續訪問
Elasticsearch節點角色切換,從data節點轉變為master報錯
由于在剛搭建es集群的時候,資源不足,所以master節點和data節點是沒有拆分開的。經常造成master節點的load非常高,現在由于資源充足了,所以開始對節點角色進行改造。 首先把節點上面的數據驅逐到別的節點上面,這個用 es-api 即可 PUT _cluster/settings { "transient" : { "cluster.routing.allocation.exclude._ip" : "172.18.1.1,172.18.1.2,172.18.1.3" } } 然后
繼續訪問
ElasticSearch集群節點類型
集群節點 ELasticsearch的集群是由多個節點組成的,通過cluster.name設置集群名稱,并且用于區分其它的集群,每個節點通過node.name指定節點的名稱。 在Elasticsearch中,節點的類型主要有4種: master節點: 配置文件中node.master屬性為true(默認為true),就有資格被選為master節點。 master節點用于控制整個集群的操作。比如創建或刪除索引,管理其它非master節點等。 data節點: 配置文件中node.data屬性為true(默認為true),就有資格被設置成data節點。 data節點主要用于執行數據相關的操作。
CentOS7下搭建多節點Elasticsearch集群.docx
CentOS7下搭建多節點Elasticsearch集群
牛逼!Elasticsearch 集群更換節點角色有了更快的方式
1、實戰遇到的問題問題描述:如何在一個四個節點的集群中,將主節點中的數據分散到其他節點中去,最后主節點沒有數據?問題細節:線上環境有4個節點,單節點為48核的物理機,252G的內存。數據每...
繼續訪問
ES(Elasticsearch)集群節點角色
1.主節點(Master node) 主節點的主要職責是負責集群層面的相關操作,管理集群變更,如創建或刪除索引,跟蹤哪些節點是群集的一部分,并決定哪些分片分配給相關的節點。 主節點也可以作為數據節點,但穩定的主節點對集群的健康是非常重要的,默認情況下任何一個集群中的節點都有可能被選為主節點,索引數據和搜索查詢等操作會占用大量的cpu,內存,io資源,為了確保一個集群的穩定,分離主節點和數據節點是一個比較好的選擇。 通過配置node.master:true(默認)使節點具有被選舉為Master的資格。主節點使
繼續訪問
elasticsearch集群更換節點操作
文章目錄1.關閉集群分配reblance配置2.增加節點3.reroute 節點數據 在elasticsearch集群中,由于在原有服務器集群上,每臺服務器開了3個實例,導致部分節點壓力過大,因此,新增一臺服務器,將原有節點遷移到新服務器。 elasticsearch集群中增加節點步驟: 1.關閉集群分配reblance配置 PUT _cluster/settings { "transient": { "cluster.routing.rebalance.enable":"none" }
繼續訪問
【elasticsearch】elasticsearch集群更換節點操作
1.概述 作者:冬天里的懶喵 鏈接:買粉絲s://買粉絲.jianshu.買粉絲/p/93062a415b97 在elasticsearch集群中,由于在原有服務器集群上,每臺服務器開了3個實例,導致部分節點壓力過大,因此,新增一臺服務器,將原有節點遷移到新服務器。 elasti