• 當前位置:聯(lián)升科技 > 技術(shù)資訊 >

    分布式SQL大數據查詢(xún)引擎的發(fā)展

    2020-11-26    作者:聞數起舞    來(lái)源:今日頭條    閱讀: 次
    介紹
    從高層的角度來(lái)看,許多數據和分析解決方案已經(jīng)以相同的方式構建了許多年。 簡(jiǎn)而言之,它由各種集成過(guò)程組成,可將所有數據加載到一個(gè)中央位置,這是即將到來(lái)的數據建模和分析用例的唯一事實(shí)來(lái)源。 雖然在較早的日子里,這些中心位置大多是昂貴的且不靈活的緊密耦合的硬件/軟件系統,但如今通常會(huì )利用云和分布式架構,包括計算和存儲的分離。 然而,盡管近年來(lái)取得了巨大的技術(shù)進(jìn)步,但集中數據的整體方法仍然是最有效地利用其數據并進(jìn)行適當的數據管理的最明顯方法。

    集權
    那么,這種集中化方法有什么問(wèn)題呢?首先它與分布式查詢(xún)引擎有什么關(guān)系?
    首先,沒(méi)有什么可反對的。事實(shí)上,恰恰相反,在一個(gè)地方以清晰,新鮮的狀態(tài)構建包含所有數據的海量數據倉庫或數據湖通常是確保一致性的唯一方法,因此每個(gè)人使用相同的定義。在這方面,尤其是云數據湖服務(wù),例如Microsoft的Azure Data Lake Storage或Amazon Web Service的S3,通過(guò)啟用集中化的更多優(yōu)勢而呈現出有趣的變化,這歸因于其非常靈活且廉價(jià)的方式來(lái)存儲大量任何類(lèi)型的數據。
    注意事項
    但是,有很多原因使集中所有數據變得越來(lái)越困難。數據源的數量正在增長(cháng),滿(mǎn)足依賴(lài)該數據的越來(lái)越多的不同業(yè)務(wù)領(lǐng)域所需的數據集的多功能性也在不斷增長(cháng)。通常,與靜態(tài)預建數據集相反,業(yè)務(wù)用戶(hù)越來(lái)越接近需要更高靈活性的數據。高級分析用例也是如此,通常需要對原始和未轉換的數據應用方法。而且,在某些情況下,由于任何內部或外部法規,甚至禁止組織遷移數據。在其他情況下,在集中式數據之上仍然存在管道,可將其進(jìn)一步加載到任何下游系統中,以滿(mǎn)足所有分析要求。反過(guò)來(lái),這甚至可能導致與傳統本地系統相同的鎖定?;蚣袛祿蛔阋宰C明所涉及的工作合理的用例,或者數據太大而移動(dòng)所需的時(shí)間太長(cháng)的用例。依此類(lèi)推…
    那么在這種情況下該怎么辦?
    聯(lián)邦
    如今,在分析解決方案及其數據管理方面有很多選擇。不僅包括其報價(jià)的不同提供商,而且種類(lèi)繁多的技術(shù)都勢不可擋,技術(shù)進(jìn)步的步伐比以往更快。也沒(méi)有一個(gè)明確的贏(yíng)家,他們無(wú)疑將幫助將更多的數據卡路里轉化為有用的東西,這毫無(wú)疑問(wèn)。但是,基于SQL的分布式查詢(xún)引擎確實(shí)確實(shí)存在明顯的趨勢,有助于應對數據爆炸。這也證實(shí)了現有數據和分析服務(wù)提供商的產(chǎn)品陣容及其最新發(fā)展。他們都試圖無(wú)縫集成那些具有成本效益的云存儲,并允許使用完全一樣的查詢(xún)引擎在其上進(jìn)行交互式SQL查詢(xún)。因此,它們可以填補上述缺失的空白,并允許成熟的企業(yè)通過(guò)保持核心事實(shí),在保持組織和平臺穩定性的同時(shí)實(shí)現擴展的大數據功能。
    數據虛擬化
    分布式查詢(xún)引擎背后的基本思想無(wú)非就是數據虛擬化以及創(chuàng )建抽象層的嘗試,該抽象層提供了跨不同數據源的數據訪(fǎng)問(wèn)。與傳統的數據虛擬化軟件(鏈接服務(wù)器,DBLink等)的區別在于,您可以橫向擴展方式一起查詢(xún)關(guān)系和非關(guān)系數據,以提高查詢(xún)性能。因此,分布式一詞不僅指查詢(xún)本身,還指計算和存儲。它們基本上是針對密集型OLAP查詢(xún)而設計的,因此在性能方面并不是那么脆弱和不一致。
    Hadoop上的SQL
    用于此目的的技術(shù)最初或仍然經(jīng)常被稱(chēng)為基于Hadoop的SQL-on-Hadoop,它依賴(lài)于MPP(大規模并行處理)引擎。它允許使用熟悉的類(lèi)似于SQL的語(yǔ)言查詢(xún)和分析存儲在HDFS(Hadoop分布式文件系統)上的數據,以隱藏MapReduce / Tez的復雜性,并使數據庫開(kāi)發(fā)人員更易于訪(fǎng)問(wèn)。 Hive可以說(shuō)是Hadoop上的第一個(gè)SQL引擎,并且由于多年來(lái)的發(fā)展已被證明具有非常強大的功能,因此Hive仍被廣泛用于批處理式數據處理。 Hive將SQL查詢(xún)轉換為多個(gè)階段,并將中間結果存儲到磁盤(pán)中。同時(shí),在Hadoop生態(tài)系統中原生開(kāi)發(fā)了其他專(zhuān)用工具,例如Impala,還支持將HBase用作數據源。與Hive相比,它利用了內存和緩存技術(shù),與長(cháng)期運行的批處理作業(yè)相比,它更適合用于交互式分析-此類(lèi)別中的另一個(gè)示例是SparkSQL。所有這些都需要預先完成的元數據定義,也稱(chēng)為讀取模式,例如視圖或外部表。此定義存儲在集中存儲中,例如Hive metastore。

    SQL-on-Anything
    隨著(zhù)技術(shù)的發(fā)展,需要更多的開(kāi)放性,并且不嚴格與Hadoop捆綁在一起,而是以松散耦合的方式支持許多其他種類(lèi)的其他數據庫。這樣,查詢(xún)引擎無(wú)需大量的先決條件和準備工作即可在大量數據上實(shí)現即插即用發(fā)現。此外,還提供了標準ANSI SQL作為接口,使數據分析人員和開(kāi)發(fā)人員可以更輕松地訪(fǎng)問(wèn)它。同時(shí),不再需要預先定義架構,某些引擎甚至可以通過(guò)下推查詢(xún)(例如Drill)在原始存儲層自動(dòng)解析它。該領(lǐng)域的另一個(gè)開(kāi)拓性工具是Presto,它甚至可以查詢(xún)來(lái)自Kafka和Redis的實(shí)時(shí)流數據。 Presto是Facebook專(zhuān)門(mén)為滿(mǎn)足此需求而開(kāi)發(fā)的一種內存中分布式SQL查詢(xún)引擎,可在不同的數據集中進(jìn)行交互式分析。對于Netflix,Twitter,Airbnb或Uber等公司而言,這對于他們的日常業(yè)務(wù)至關(guān)重要,否則它們將無(wú)法處理和分析PB級的數據。 Presto可以與許多不同的BI工具一起使用,包括Power BI,Looker,Tableau,Superset或任何其他符合ODBC和JDBC的工具。在這種情況下," SQL-on-Anything"這個(gè)名字終于首次被創(chuàng )造出來(lái)。

    數據湖引擎
    數據湖引擎的技術(shù)方法沒(méi)有太大不同。畢竟,它僅僅是數據虛擬化和合并來(lái)自不同來(lái)源的數據。它們通常在提供更多有關(guān)數據建模,數據轉換,數據行數和數據安全性的功能方面有所不同。通常,它們也更趨向于云,并且可能會(huì )認為它們同時(shí)具有豐富的用戶(hù)界面,從而為非技術(shù)用戶(hù)帶來(lái)了一種數據自助服務(wù)理念。這種方法可以充分利用公共云中的數據集中性,并且由于云的價(jià)格彈性而可以以較低的成本進(jìn)行交互式分析,而沒(méi)有任何鎖定風(fēng)險。 Data Lake Engines也不一定支持更多的數據源,但是由于延遲到來(lái),它們可以從頭開(kāi)始利用最新技術(shù)。例如,Databricks最近發(fā)布了SQL Analytics,該數據庫由其Delta引擎提供支持,可直接查詢(xún)數據湖上的Delta Lake表。此外,它為數據瀏覽提供了SQL本機接口,并且儀表板可以彼此共享。在這方面,另一個(gè)非常有前途的工具也是我最喜歡的工具之一是Dremio,它基本上是開(kāi)源的,但是得到了同名公司的支持,該公司提供了具有一些附加功能的商業(yè)化企業(yè)版。

    與傳統的多層體系結構相反,Dremio正在BI工具和查詢(xún)的數據源系統之間建立直接的橋梁。幕后使用的主要技術(shù)是Drill,Arrow,Calcite和parquet。這種組合提供了適用于各種數據源的無(wú)模式SQL,以及具有下推功能的柱狀內存分析執行引擎,并且可以輕松實(shí)現查詢(xún)以提高查詢(xún)性能。順便說(shuō)一句,Arrow被視為內存分析的事實(shí)上的標準。
    結論
    最后,是否在物理上集中數據完全取決于用例,此類(lèi)引擎通過(guò)查詢(xún)數據實(shí)際存在的位置為您提供了替代解決方案。 同樣,即使這樣的查詢(xún)引擎似乎可以適應所有解決方案,但仍然存在無(wú)法即時(shí)解決的用例,仍然需要數據集成過(guò)程和適當的數據建模,更不用說(shuō) 基于微服務(wù)架構的時(shí)間數據。 還需要注意的是,較早的分布式查詢(xún)引擎不會(huì )像Hive那樣迅速消失,它們在已經(jīng)存在的許多現有數據體系結構中都無(wú)法很好地發(fā)揮作用,并且與大多數最新技術(shù)無(wú)縫集成。 讓我們來(lái)看看未來(lái)會(huì )怎樣。


    相關(guān)文章

    我們很樂(lè )意傾聽(tīng)您的聲音!
    即刻與我們取得聯(lián)絡(luò )
    成為日后肩并肩合作的伙伴。

    行業(yè)資訊

    聯(lián)系我們

    13387904606

    地址:新余市仙女湖區仙女湖大道萬(wàn)商紅A2棟

    手機:13755589003
    QQ:122322500
    微信號:13755589003

    江西新余網(wǎng)站設計_小程序制作_OA系統開(kāi)發(fā)_企業(yè)ERP管理系統_app開(kāi)發(fā)-新余聯(lián)升網(wǎng)絡(luò )科技有限公司 贛ICP備19013599號-1   贛公網(wǎng)安備 36050202000267號   

    微信二維碼
    色噜噜狠狠一区二区三区果冻|欧美亚洲日本国产一区|国产精品无码在线观看|午夜视频在线观看一区|日韩少妇一区二区无码|伊人亚洲日韩欧美一区二区|国产在线码观看清码视频