數(shù)據(jù)交易導(dǎo)航網(wǎng)是一個數(shù)據(jù)要素市場相關(guān)的數(shù)據(jù)交易、數(shù)據(jù)管理、數(shù)據(jù)服務(wù)等數(shù)商企業(yè)商業(yè)生態(tài)導(dǎo)航平臺。
數(shù)據(jù)湖或hub的概念最初是由大數(shù)據(jù)廠商提出的,表面上看,數(shù)據(jù)都是承載在基于可向外擴(kuò)展的HDFS廉價存儲硬件之上的。數(shù)據(jù)湖是一種不斷演進(jìn)中、可擴(kuò)展的大數(shù)據(jù)存儲、處理、分析的基礎(chǔ)設(shè)施,它就像一個大型倉庫存儲企業(yè)多樣化原始數(shù)據(jù)以數(shù)據(jù)為導(dǎo)向,實(shí)現(xiàn)任意來源、任意速度、任意規(guī)模、任意類型數(shù)據(jù)的全量獲取、全量存儲、多模式處理與全生命周期管理。擁有強(qiáng)大的信息處理能力和處理幾乎無限的并發(fā)任務(wù)或工作的能力。
數(shù)據(jù)湖從企業(yè)的多個數(shù)據(jù)源獲取原始數(shù)據(jù),數(shù)據(jù)可能是任意類型的信息,從結(jié)構(gòu)化數(shù)據(jù)到完全非結(jié)構(gòu)化數(shù)據(jù),并通過與各類外部異構(gòu)數(shù)據(jù)源的交互集成,支持各類企業(yè)級應(yīng)用。結(jié)合先進(jìn)的數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)技術(shù),能幫助企業(yè)構(gòu)建更多優(yōu)化后的運(yùn)營模型,也能為企業(yè)提供其他能力,如預(yù)測分析、推薦模型等,這些模型能刺激企業(yè)能力的后續(xù)增長。
什么是數(shù)據(jù)倉庫?
數(shù)據(jù)倉庫誕生于 1990 年,絕對算得上是“老前輩”了,它是一個相對具體的功能概念。目前對數(shù)據(jù)倉庫的主流定義是位于多個數(shù)據(jù)庫上的大容量存儲庫,它的作用在于存儲大量的結(jié)構(gòu)化數(shù)據(jù),并能進(jìn)行頻繁和可重復(fù)的分析,幫助企業(yè)構(gòu)建商業(yè)智能(BI)。
數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化的(Time Variant)數(shù)據(jù)集合,用于支持管理決策和信息的全局共享。其主要功能是將組織透過資訊系統(tǒng)之聯(lián)機(jī)事務(wù)處理(OLTP)經(jīng)年累月所累積的大量資料,透過數(shù)據(jù)倉庫理論所特有的資料儲存架構(gòu),分析出有價值的資訊。
數(shù)據(jù)倉庫系統(tǒng)的作用能實(shí)現(xiàn)跨業(yè)務(wù)條線、跨系統(tǒng)的數(shù)據(jù)整合,為管理分析和業(yè)務(wù)決策提供統(tǒng)一的數(shù)據(jù)支持。數(shù)據(jù)倉庫能夠從根本上幫助你把公司的運(yùn)營數(shù)據(jù)轉(zhuǎn)化成為高價值的可以獲取的信息(或知識),并且在恰當(dāng)?shù)臅r候通過恰當(dāng)?shù)姆绞桨亚‘?dāng)?shù)男畔鬟f給恰當(dāng)?shù)娜?/p>
數(shù)據(jù)湖和數(shù)據(jù)倉庫的區(qū)別?
數(shù)據(jù)湖是較新的技術(shù),擁有不斷演變的架構(gòu)。數(shù)據(jù)湖存儲任何形式(包括結(jié)構(gòu)化和非結(jié)構(gòu)化)和任何格式(包括文本、音頻、視頻和圖像)的原始數(shù)據(jù)。根據(jù)定義,數(shù)據(jù)湖不會接受數(shù)據(jù)治理,但專家們一致認(rèn)為良好的數(shù)據(jù)管理對預(yù)防數(shù)據(jù)湖轉(zhuǎn)變?yōu)閿?shù)據(jù)沼澤不可或缺。數(shù)據(jù)湖在數(shù)據(jù)讀取期間創(chuàng)建模式。與數(shù)據(jù)倉庫相比,數(shù)據(jù)湖缺乏結(jié)構(gòu)性,而且更靈活,并且提供了更高的敏捷性。值得一提的是,數(shù)據(jù)湖非常適合使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來執(zhí)行各種任務(wù),比如數(shù)據(jù)挖掘和數(shù)據(jù)分析,以及提取非結(jié)構(gòu)化數(shù)據(jù)等。