新聞中心
News Center
發表時間:2013.03.07 17:41:00 瀏覽次數:
“滴答”一秒鐘過去了。你知道在這一秒鐘里面,互聯網上發生了什么變化嗎?大數據猶如一塊大蛋糕,激發起人們投身未來的激情的同時,也給人們當頭一棒:現有的架構體系并不足以支撐大數據時代。而在目前來看,發展成熟的虛擬化和當下紅的發紫的云計算,似乎成了大數據價值實現的左膀右臂……
“滴答”一秒鐘過去了,在互聯網上,人們發送了290封電子郵件;亞馬遜處理72.9筆訂單;人們在Youtube上傳時長達20分鐘視頻……這些,其實就是見證一種趨勢:大數據。
大數據是一種大規模數據的管理和利用的商業模式和技術平臺的泛指,它與傳統的海量數據不同的是,它除了數據規模呈現幾何級數增長的特征之外,還包括所有數據類型的采集、分類、處理、分析和展現等多個方面,從而最終實現從大數據挖掘潛在巨大價值的目的。
根據IDC的統計報告指出,這種大數據未來發展將會給數據存儲和相關的應用服務帶來顯著增長。比如在存儲領域,從2010年至2015年間,復合年度增長將達到61.4%。在中國方面,根據IDC《中國大數據技術與服務市場2012-2016年預測與分析》顯示,該市場規模將會從2011年的7760萬美元增長到2016年的6.17億美元,未來5年的復合增長率達51.4%,市場規模增長近7倍。
值得注意的是,現有的技術架構并不能很好地切割、分享這么一塊大蛋糕。在眾多大數據解決方案中,Hadoop成為了人們實現大數據分析的首選,然而,它仍然離不開虛擬化和云計算技術和平臺的支撐。發展成熟的虛擬化和有著廣闊前景的云計算,將成為大數據價值實現的左膀右臂。
面對海量數據的增長,傳統架構雖然能夠進行擴充,但它卻面臨著不能實現水平橫向擴展的局限性,傳統的IT架構和數據處理方式無法有效地應對大數據環境。數據的存儲、計算、管理、分析等節點都需要適應大數據需求的方案,同時也要滿足性能上的擴展。因此,基于數據中心的IT基礎設施,也必將從傳統的數據中心邁向云數據中心轉型。
云數據中心是云計算背景下新的業務需求和資源利用模式與數據中心的完美結合。云模式已成為企業利用數據中心平臺應對大數據挑戰的重要方式。根據IBM的數據報告,當前數據中心有85%的運算能力存在閑置,50%至60%的數據中心IT負載可以采用云計算技術。這些,其實挖掘大數據價值的解決方案對它們有著同樣的訴求。
云數據中心
云計算為何會助力大數據挖掘價值呢?我們可以從以下三個方面來探討:
一、云計算幫助大數據平臺降低復雜性,簡化運維,提升資源活性和利用效率
云計算通過基于網絡的服務交付,將硬件等基礎架構融合為無形的IT資源,并借助負載均衡、分布式計算、并行計算、虛擬化、網絡存儲和統一管理等技術手段,實現IT服務的無縫化、定制化和伸縮性交付。
二、云計算幫助云數據中心降低成本,有利于將更多資金投入到增值業務中
由于采用了大量的虛擬化技術和統一的跨平臺管理,可以幫助運營商/企業用戶節省大量的設施成本和軟件許可費用。此外,云數據中心的資源利用率能夠得到進一步提升,并且在負載均衡方面也有更出色的表現,從而最大化保護用戶投資,實現產品服務生命周期內價值最大化。節約下來的資本則可以投放在大數據的前期采集(增加數據源和數據類型)、存儲、處理、分析并最終實現決策參考等各個業務環節。
三、云計算可支撐基于大數據的靈活高效IT服務,滿足多種個性化需求
云計算和大數據一樣,都有基于分布式計算的應用。不過,大數據更多的是需要有集群帶來的高性能計算和存儲擴展(橫向和縱向)。借助云計算的分布式系統和虛擬化靈活調配資源,可以幫助大數據的各項分析、處理、挖掘提供高效靈活的IT服務支撐,滿足用戶個性化/定制化大數據挖掘、分析需求。
很多企業IT應用虛擬化程度僅有20%-30%。但隨著云計算的逐步成熟與落地,云數據中心也越來越被企業接受。當然,這種虛擬化在云數據中心中的應用也就更加廣泛了。
了解大數據的讀者都知道,Hadoop是所有大數據解決方案中最具成長性的平臺,它通過集群搭建起的高性能計算和存儲平臺,利用分布式架構對海量數據(包括結構和非結構數據)進行分析和處理。在這種情況下,也許很多人會誤以為虛擬化運行在SAN上,而Hadoop卻在本地硬盤上運行,從而主觀認為虛擬化不適合大數據平臺。甚至有人會認為,虛擬化會給IT系統帶來更多資源開銷,降低Hadoop性能。
其實,大數據平臺下的Hadoop,更多的是基于集群版(包括開源和英特爾發行版),而不是單機版。通過虛擬存儲架構下的共享存儲(SAN或者NAS),可實現更簡便高效的部署,并且實現集群的自動負載均衡。
Hadoop集群框架簡圖
另一方面,并不是所有的企業都有足夠的精力和能力去應對部署Hadoop帶來的挑戰(部署門檻和系統調優門檻),而且Name Node和Job tracker存在單點失效問題,Hive、HCatalog等非Hadoop核心模塊也沒有雙機集群高可用性的保障,專有的Hadoop集群CPU利用率低,Hadoop和非Hadoop負載不能直接共享資源,等等。這一系列的問題,都給Hadoop的使用帶來了諸多不便。
在這種情況下,引入虛擬化解決方案就成為了破解這些難題的“救命稻草”了。服務器虛擬化、甚至基于計算、網絡、存儲各個模塊的全面虛擬化,有助于降低成本和提升集群系統的可用性和可靠性,避免Hadoop集群帶來的昂貴成本負擔,使得廣大中型企業也可以實現大數據的分析和應用,而且也可以幫助提升大數據的服務價值。
另外一種情況是,基礎設施的全面虛擬化,還可以順應大數據幾何級數增長的發展態勢,從而從一開始就緊隨業務/大數據價值挖掘的需求不斷推進,提升大數據價值內涵。
編后語:
虛擬化和云計算,將為大數據價值的挖掘提供更富有靈活擴展、高效利用的技術支持。雖然大數據需要有更多的新技術來幫助實現,但早已發展成熟的虛擬化以及當下流行應用的云計算,將有助于簡化大數據價值的挖掘和服務的提供,從而實現大數據的更快部署實施和惠及更多地區、行業用戶的應用服務。