大數據的七大概念技術,你知道多少

來源:大數據快訊? ????|???? 發布時間:2020-01-14 09:58? ????| 作者:大數據小編? ????| 閱讀:

  大數據概念

  大數據究竟是什么?很多人可能仍然有些混淆,本文讓我們來看看大數據的一些主要的定義。首先要注意的是,行業內的所有人都普遍認同,大數據不只是更多的數據。

  (1)初的大數據

  大數據的特征可以用很多詞來描述。2001年Doug Laney先提出“3V”模型, 包括數量 (Volume)、速度(Velocity)和種類(Variety)。在那以后,業界很多人把3V擴展到了11V,還包括有效性、真實性、價值和可見性等。

  (2)大數據:技術

  為什么十多年前的老術語突然被放在聚光燈下?這不僅是因為我們現在擁有比十年前更多的數量、速度和種類。而是因為大數據受到新技術的推動,特別是快速發展的開源技術,例如Hadoop和其他存儲和處理數據的NoSQL方式。

  如果你準備入坑大數據開發,可以關注ID:IT資訊科技 會有前沿的學習資訊

  這些新技術的用戶需要一個術語來將它們區別于以前的技術,于是大數據成了他們的佳選擇。如果你去參加大數據會議,你肯定會發現,涉及關系型數據庫的會議會很少,無論他們鼓吹多少個V。

  (3)大數據與數據的區別

  大數據技術的問題是,大數據有些含糊不清,以至于行業中的每個供應商都可以跳進來聲稱自己的技術是大數據技術。以下是兩種很好的方法來幫助企業理解現在的大數據與過去單純的大數據的區別。

  交易、交互和觀察:這是由Hortonworks公司負責企業戰略的副總裁Shaun Connolly提出的。交易是我們過去收集、存儲和分析的主要數據。交互是人們點擊網頁等操作得到的數據。觀察是自動收集的數據。

  (4)大數據:信號

  SAP公司的Steve Lucas認為,應該根據意圖和時機來劃分這個世界,而不是根據數據的類型。“舊世界”主要是關于交易,當這些交易被記錄時,我們已經無法對它們采取任何行動:企業都在不斷管理“失效的數據”。而在“新世界”,企業可以使用新的“信號”數據來預測將會發生什么,并進行干預來改善情況。

  相關的案例有,追蹤社交媒體上人們對品牌的態度,以及預測性維護(用復雜的算法幫助你決定何時需要更換零部件)。

  (5)大數據:機會

  這是來自451 Research的Matt Aslett,他將大數據定位為“之前因為技術限制而被忽略的數據”。(雖然在技術上,Matt使用了“暗數據”,而不是大數據,但已經非常接近)。這是筆者喜歡的定義,因為它符合大部分文章和討論中的說法。

  (6)大數據:隱喻

  Rick Smolan在其書中寫道,大數據是“幫助這個星球生成神經系統的過程,其中我們人類只是另一種類型的傳感器”。很深奧吧?如果你準備入坑大數據開發,可以關注ID:IT資訊科技 會有前沿的學習資訊。

  (7)大數據:新瓶裝舊酒

  很多項目基本上是使用以前的技術,這些過去被稱為BI或者分析的技術突然跳入大數據的行列中。

  底線:盡管大家對大數據的定義有很多爭議,但所有人都同意這個事實:大數據是一個大事件,在未來幾年將帶來巨大的機遇。

  如何玩轉大數據

  隨著科技的不斷進步,日常工作、生活中的數據量也是節節攀升,我們迎來了大數據時代。

  以大數據為代表的數據密集型科學將成為新一次技術變革的基石。隨著數據的進一步集中和數據量的增大,對海量數據進行安全防護變得更加困難,數據的分布式處理也加大了數據泄露的風險。

  物聯網、云計算、移動互聯網等新技術的發展,使得手機、平板電腦、PC及遍布地球各個角落的傳感器,成為數據來源和承載方式,BYOD也隨之誕生。

  (1)何為大數據

  據有關分析公司預測,到2013年,互聯網承載的數據量將會達到每年667EB,這是什么概念?1EB=230GB,數據量之大顯而易見,這些數據絕大多數是“非結構化數據”,通常不能為傳統的數據庫所用,但是大數據技術革新將會給我們的生活帶來巨大變化。

  (2)四大特點組成大數據

  數據量巨大:人類生產的所有印刷材料的數據量是200PB(1PB=210TB),而歷史上全人類說過的所有的話的數據量大約5EB(1EB=210PB)。當前,典型個人計算機硬盤的容量為TB量級,而一些大企業的數據量已經接近EB量級,如此龐大的數據量群,分析它們的難度可想而知,因此需要大量的大數據解決方案。

  價值密度低:這也是當今大數據背景下需要解決的一個難題,價值密度的高低與數據總量的大小成反比,如果看一小時視頻,在連續不間斷的監控中有用數據的時間可能會很短,甚至是幾秒鐘,那么強大的數據計算機的算法就需要非常迅速地完成對數據的“提純”。

  數據類型多:這點不用多解釋,數據類型的多樣性也讓數據被分為結構化數據和非結構化數據。相對于以往便于存儲的以文本為主的結構化數據,非結構化數據越來越多,包括網絡日志、音頻、視頻、圖片、地理位置信息等。

  處理速度快:據IDC研究機構報告顯示,預計到2020年,全球數據使用量將達到35.2ZB(1ZB=210EB),分析這么大的數據,就需要設備對數據的處理速度有很大的提升。

  (3)大數據給企業謀福利

  2012年3月,美國宣布投資2億美元啟動“大數據研究和發展計劃”,借以增強收集海量數據、分析萃取信息的能力。2012年瑞士達沃斯論壇上發布的《大數據大影響》報告稱,數據已成為一種新的經濟資產類別,就像貨幣或黃金一樣,許多國家政府更是把大數據上升到戰略層面。

  (4)全球大數據市場發展趨勢

  對企業來講,在大數據背景下數據資產將會取代人才成為各個公司和行業的重要載體,可以有效地幫助企業完成業務的操作、流程的制定以及公司各項工作的運營和監督,通過對數據的分析,幫助企業領導者進行各項決策。

北大青鳥軟件學校

  大數據對企業的核心資產也進行了重塑,企業必須熟悉和用好海量的數據,而互聯網行業已提早感受到了大數據帶來的深切變化。一些互聯網企業已經完成了核心競爭力的重新定義。

  (5)信息安全不容小視

  大數據成為網絡攻擊的顯著目標,在網絡空間,大數據是更容易被“發現”的大目標。一方面,大數據意味著海量的數據,也意味著更復雜、更敏感的數據,這些數據會吸引更多的潛在攻擊者。另一方面,數據的大量匯集,使得黑客成功攻擊一次就能獲得更多數據,無形中降低了黑客的進攻成本,增加了“收益率”。

  如此龐大的數據中包含了很多個人信息,甚至是隱私信息,數據的集中存儲就勢必帶來大量數據丟失和破壞的風險,一些敏感數據的所有權和使用權并沒有明確界定,很多基于大數據的分析都未考慮到其中涉及的個體隱私問題。

  許多企業對大數據的認知程度不同,因此致使企業在大數據管理和運營中會出現不妥之處,安全防護手段的更新升級速度無法跟上數據量非線性增長的步伐,就會暴露大數據安全防護的漏洞。

  大數據技術很容易成為黑客的攻擊手段,在企業用數據挖掘和數據分析等大數據技術獲取商業價值的同時,黑客也在利用這些大數據技術向企業發起攻擊。黑客會大限度地收集更多有用信息。

  傳統的檢測是基于單個時間點進行的基于威脅特征的實時匹配檢測,而高級可持續攻擊是一個實施過程,無法被實時檢測。此外,大數據的價值低密度性,使得安全分析工具很難聚焦在價值點上,黑客可以將攻擊隱藏在大數據中。

  (6)切忌一哄而上

  中國工程院院士鄔賀銓曾建議,中國發展大數據需要盡快制定信息保護法與信息公開法,既要鼓勵面向群體而且服務于社會的數據挖掘,又要防止針對個體侵犯隱私的行為,既要提倡數據共享又要防止數據被濫用。

  (7)國內大數據發展

  在制造行業,企業通過對網上大數據分析了解客戶需求和掌握市場動向,并對大數據進行分析后,就可以有效實現對采購和合理庫存量的管理,大大減少因盲目進貨而導致銷售損失,大數據是一個應用驅動性很強的服務,其標準和產業格局尚未形成,這是我國跨越發展的機會,但切忌一哄而起。

  大數據處理技術怎么學習呢?

  首先我們要學習Python語言和Linux操作系統,這兩個是學習大數據的基礎,學習的順序不分前后。

  Python:Python 的排名從去年開始就借助人工智能持續上升,現在它已經成為了語言排行第一名。

  從學習難易度來看,作為一個為“優雅”而生的語言,Python語法簡捷而清晰,對底層做了很好的封裝,是一種很容易上手的高級語言。在一些習慣于底層程序開發的“硬核”程序員眼里,Python簡直就是一種“偽代碼”。

  在大數據和數據科學領域,Python幾乎是萬能的,任何集群架構軟件都支持Python,Python也有很豐富的數據科學庫,所以Python不得不學。

  Linux:因為大數據相關軟件都是在Linux上運行的,所以Linux要學習的扎實一些,學好Linux對你快速掌握大數據相關技術會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數據軟件的運行環境和網絡環境配置,能少踩很多坑,學會shell就能看懂腳本這樣能更容易理解和配置大數據集群。還能讓你對以后新出的大數據技術學習起來更快。

  好說完基礎了,再說說還需要學習哪些大數據技術,可以按我寫的順序學下去。

  Hadoop:這是現在流行的大數據處理平臺幾乎已經成為大數據的代名詞,所以這個是必學的。

  Hadoop里面包括幾個組件HDFS、MapReduce和YARN,HDFS是存儲數據的地方就像我們電腦的硬盤一樣文件都存儲在這個上面,MapReduce是對數據進行處理計算的,它有個特點就是不管多大的數據只要給它時間它就能把數據跑完,但是時間可能不是很快所以它叫數據的批處理。

  YARN是體現Hadoop平臺概念的重要組件有了它大數據生態體系的其它軟件就能在hadoop上運行了,這樣就能更好的利用HDFS大存儲的優勢和節省更多的資源比如我們就不用再單獨建一個spark的集群了,讓它直接跑在現有的hadoop yarn上面就可以了。

  其實把Hadoop的這些組件學明白你就能做大數據的處理了,只不過你現在還可能對”大數據”到底有多大還沒有個太清楚的概念,聽我的別糾結這個。

  等以后你工作了就會有很多場景遇到幾十T/幾百T大規模的數據,到時候你就不會覺得數據大真好,越大越有你頭疼的。

  當然別怕處理這么大規模的數據,因為這是你的價值所在,讓那些個搞Javaee的php的html5的和DBA的羨慕去吧。

  第一階段學習結束,掌握上述知識,就可以從事大數據方面的工作了。

  Zookeeper:這是個萬金油,安裝Hadoop的HA的時候就會用到它,以后的Hbase也會用到它。

  它一般用來存放一些相互協作的信息,這些信息比較小一般不會超過1M,都是使用它的軟件對它有依賴,對于我們個人來講只需要把它安裝正確,讓它正常的run起來就可以了。

  Mysql:我們學習完大數據的處理了,接下來學習學習小數據的處理工具mysql數據庫,因為一會裝hive的時候要用到,mysql需要掌握到什么層度那?

  你能在Linux上把它安裝好,運行起來,會配置簡單的權限,修改root的密碼,創建數據庫。

  這里主要的是學習SQL的語法,因為hive的語法和這個非常相似。

  Sqoop:這個是用于把Mysql里的數據導入到Hadoop里的。

  當然你也可以不用這個,直接把Mysql數據表導出成文件再放到HDFS上也是一樣的,當然生產環境中使用要注意Mysql的壓力。

  Hive:這個東西對于會SQL語法的來說就是神器,它能讓你處理大數據變的很簡單,不會再費勁的編寫MapReduce程序。

  有的人說Pig那?它和Pig差不多掌握一個就可以了。

  Oozie:既然學會Hive了,我相信你一定需要這個東西,它可以幫你管理你的Hive或者MapReduce、Spark腳本,還能檢查你的程序是否執行正確,出錯了給你發報警并能幫你重試程序,重要的是還能幫你配置任務的依賴關系。

  我相信你一定會喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。

  第二階段學習結束,如果能全部掌握,你就是專業的大數據開發工程師了。

  后續提高:大數據結合人工智能達到真正的數據科學家,打通了數據科學的任督二脈,在公司是技術專家級別,這時候月薪再次翻倍且成為公司核心骨干。

  機器學習(Machine Learning, ML):是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。它是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域,它主要使用歸納、綜合而不是演繹。機器學習的算法基本比較固定了,學習起來相對容易。

  深度學習(Deep Learning, DL):深度學習的概念源于人工神經網絡的研究,近幾年發展迅猛。深度學習應用的實例有AlphaGo、人臉識別、圖像檢測等。是國內外稀缺人才,但是深度學習相對比較難,算法更新也比較快,需要跟隨有經驗的老師學習。

  第三階段是理想狀態,算是終極目標吧。畢竟技術一直在進步,誰也無法預測大數據以后的發展。


分享到:
文章標題:大數據的七大概念技術,你知道多少文章鏈接: http://www.fumanpharma.cn/news/hyxw/136.html 本文內容、圖片由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至2353260942@qq.com 舉報,一經查實,本站將立刻刪除。互聯網教程 寵物知識(如需投稿聯系管理員開通!)