傳統的數據存儲和管理以結構化數據為主,因此關(guān)系數據庫系統(RDBMS)可以一統天下滿(mǎn)足各類(lèi)應用需求。但是試驗和考核實(shí)際所涉及的數據可能包含文本、日志、圖片、視頻、矢量地圖等來(lái)自不同數據采集源的、不同種類(lèi)的數據。這些數據的格式通常都不是固定的,如果采用結構化的存儲模式將很難應對實(shí)際的需求。因此需要按照數據類(lèi)型的不同,對數據的存儲和管理采用不同的技術(shù)路線(xiàn)。
采用新型數據庫集群,通過(guò)列存儲和行列混合存儲以及粗粒度索引等技術(shù),結合MPP(MassiveParallelProcessing)架構高效的分布式計算模式,實(shí)現對大數據的存儲和管理,具有高性能和高擴展性特點(diǎn);針對本項目中半結構化和非結構化數據,采用基于Hadoop開(kāi)源體系的底層,通過(guò)對Hadoop生態(tài)體系的技術(shù)擴展和封裝,實(shí)現對半結構化和非結構化數據的存儲和管理。一方面用MPP來(lái)管理計算高質(zhì)量的結構化數據,提供強大的SQL和OLTP型服務(wù);另一方面,用Hadoop實(shí)現對半結構化和非結構化數據的處理,以支持內容檢索、深度挖掘與綜合分析等新型應用。
大數據應用系統集成
大數據查詢(xún)統計分析示意圖