你好,游客 登錄
背景:
閱讀新聞

云數據倉庫是什么樣子的?

[日期:2019-07-15] 來源:企業網D1Net  作者: [字體: ]

  當數據倉庫可以處理非結構化數據,而數據湖可以運行分析時,組織如何決定使用哪種方法?這取決于其需要采用數據回答新問題的頻率。

  傳統上,數據倉庫收集來自組織業務的結構化數據,因此組織可以將其集成到單個數據模型中,運行分析并獲取商業智能,無論是用于開發新產品還是向客戶營銷現有服務。這曾經被稱為“大數據”,但現在組織都擁有來自電子商務網站、物聯網設備和傳感器等來源的大量數據,因此現代數據倉庫需要處理結構化、非結構化和流媒體數據,并提供實時數據分析以及商業智能和報告。

  越來越多的組織在云中實現這一目標,以實現更高的速度和更低的成本。微軟Azure公司副總裁Julia White指出,越來越多的數據可能已經存在于云中,以及組織想要使用這些數據的服務。White說,“隨著數據越來越多地遷移到云端,無論是來自SaaS應用程序還是只遷移到云端的應用程序;運營數據就在云端,客戶在詢問‘為什么我要將運營數據從云端遷回到內部部署數據中心進行分析?它沒有意義。’”他指出,盡管組織內部仍然有大量的數據,而且隨著邊緣計算的發展,還會有更多的數據,但許多客戶還是會將部分或全部數據轉移到云平臺上,這取決于法規遵從性問題。

  White指出,“每個企業都在研究人工智能。他們很快意識到分析是其基礎,他們開始問‘我的分析和我的數據倉庫的狀態是什么?’,而且往往不夠好。”

  Power BI的普及也推動了更多的微軟客戶進行云計算分析。White說,“當他們有了這些強大的數據可視化功能后,他們開始質疑自己的分析能力——‘我想知道數據可視化背后發生了什么:我喜歡Power BI,我希望我的分析更有趣。”

  更復雜的客戶希望分析他們自己的Office Graph數據(組織可以使用Azure Data Factory將其復制到Azure Data Lake)或利用Microsoft、Adobe和SAP(基于Azure Data構建的)之間的開放數據計劃(ODI)數據湖并將最終整合來自更多軟件供應商的數據。White說,“Azure Data Lake與Azure數據倉庫緊密結合,客戶正在使用Azure數據倉庫獲取更多見解,并在其上構建現代數據倉庫。”

  采用哪種數據服務?

  微軟公司擁有一系列看起來有點像數據倉庫的云計算服務,明顯的是Azure SQL數據倉庫或微軟經常稱之為的“DW”,但也有Azure數據工廠、Azure數據湖、Azure數據庫、Power BI和Azure機器學習,以及更多打包服務,如Dynamics 365中的人工智能銷售工具。

  理解它們的方法不僅僅是關注它們提供的工具,還要關注它們所服務的用戶以及它們如何協同工作。這是因為企業通常擁有的數據在多個數據存儲中分散,創建現代數據倉庫的第一步是整合這些孤島。微軟Azure上的這些不同數據存儲越多,連接就越容易——這也是微軟Azure提供如此多不同數據服務的原因之一。White表示,“另一方面,客戶并不是在尋找可以做很多事情的單一工具,有一系列細微差別的選擇,如果真的要挑選,并優化自己的場景使用的工具。”

  Azure DW適用于處理策劃數據的數據工程師。這可能是來自SQL Server數據庫的數據,但它也可能是來自這些數據工程師使用Databricks或Spark和.NET從Azure HDInsight等源準備數據的管道構建的數據。

  Azure數據工廠是數據工程師進行數據ETL(提取、轉換、加載)的另一項服務。組織可以將其視為云計算層級ETL工具,組織可以通過拖放界面(實際上是Logic Apps)或使用Python、Java或.NET SDK(如果組織更喜歡編寫代碼來執行)來使用數據轉換和管理數據管道的不同步驟,通過Databricks或HDInsight、Azure Data Lake或Power BI。

  Power BI還可以使用Dataflows(也是免代碼)進行數據轉換,但這是為業務分析師提供的自助服務功能。數據工程師或全職商業智能分析師可能會使業務用戶使用這些語義模型,而微軟公司正在將更多與Azure DW的集成添加到Power BI中。

  Power BI用戶可以在其可視化和報告中添加人工智能。其中一些可能是使用微軟公司預先構建的認知服務來進行圖像識別和情感分析。但他們也可能正在使用數據工程師在Azure機器學習服務中為他們構建的自定義人工智能模型,并使用很多企業數據。

  現代數據倉庫匯集了很多規模的數據,通過分析儀表板、運營報告或高級分析提供洞察力。

  數據湖附近的倉庫

  這些場景的復雜性就是數據倉庫和數據湖之間的界限開始在云中看起來有些混亂的原因。傳統的數據倉庫允許企業從多個來源獲取數據,并使用ETL轉換將該數據放入單個模式和單個數據模型中,該軟件旨在回答組織計劃一遍又一遍地提出的問題。

  這些來源不必是結構化的關系數據:SQL Server和Azure DW中的PolyBase和JSON支持意味著組織可以連接來自非關系存儲的數據,如HDFS、Cosmos DB、MySQL、MongoDB以及Oracle、Teradata、PostgreSQL。這意味著數據倉庫(甚至SQL Server)看起來更像數據湖。

  通過數據湖,組織可以獲取多個數據存儲,包括結構化和非結構化數據存儲,并以其本機格式或接近該格式的方式存儲它們,因此組織可以擁有多個數據模型和多個數據模式,并且能夠靈活地從同一數據中問出新問題(用于Azure Data Lake查詢的SQL變體稱為U-SQL,不僅僅因為它是T-SQL之后的下一個版本,而且因為組織可能需要一個U-boat進入數據湖,并找出隱藏在黑暗深處的東西。)

  如果組織有問題需要反復詢問(例如銷售分析或監控儀表板的交付時間),組織可以從數據的相關部分創建數據倉庫。但如果問題隨著時間的推移而發生變化,或者組織需要提出新問題,可以返回數據湖,在那里保存原始數據,并創建另一個數據倉庫來回答這些問題。

  這兩者的結合是微軟公司通過現代數據倉庫基礎設施的意義。組織可以從不同的地方獲取各種數據,在數據湖中使用它來進行實時分析,或者使用機器學習來發現模式,告訴組織可以從數據中獲得哪些見解,并將其與熟悉的數據相結合數據倉庫工具有效地回答這些問題。

 

  微軟公司沒有為這些服務提供單一服務。組織可以使用各種Azure服務執行不同的部分,這意味著組織可以選擇所需的部分,但這也意味著組織需要擁有數據專業知識來構建自己的特定系統。

推薦 打印 | 錄入:admin | 閱讀:
相關新聞      
本文評論   
評論聲明
  • 尊重網上道德,遵守中華人民共和國的各項有關法律法規
  • 承擔一切因您的行為而直接或間接導致的民事或刑事法律責任
  • 本站管理人員有權保留或刪除其管轄留言中的任意內容
  • 本站有權在網站內轉載或引用您的評論
  • 參與本評論即表明您已經閱讀并接受上述條款
河北时时结果