汽配人首頁(yè) > 問(wèn)答首頁(yè)

impala為什么比spark快

: 問(wèn) 提問(wèn)者：網(wǎng)友 | 2018-08-25

最佳回答

應(yīng)該不會(huì)，Impala是相當(dāng)專(zhuān)注于傳統(tǒng)企業(yè)客戶(hù)和OLAP和數(shù)據(jù)倉(cāng)庫(kù)工作負(fù)載。Shark支持傳統(tǒng)OLAP。比較：一、總體上 Shark擴(kuò)展了Apache Hive，大大加快在內(nèi)存和磁盤(pán)上的查詢(xún)。而Impala是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng), 可以很好地使用Hive/ HDFS，從架構(gòu)層來(lái)說(shuō)，類(lèi)似于傳統(tǒng)的并行數(shù)據(jù)庫(kù)。這兩個(gè)系統(tǒng)有著很多共同的目標(biāo)，但也有很大差異。二、與現(xiàn)有系統(tǒng)的兼容性 Shark直接建立在Apache/Hive代碼庫(kù)上，所以它自然支持幾乎所有Hive特點(diǎn)。它支持現(xiàn)有的Hive SQL語(yǔ)言，Hive數(shù)據(jù)格式（SerDes），用戶(hù)自定義函數(shù)（UDF），調(diào)用外部腳本查詢(xún)。因?yàn)镮mpala使用自定義的C++運(yùn)行，它不支持Hive UDF。這兩個(gè)系統(tǒng)將會(huì)與許多BI工具整合，這一直是Impala的主要目標(biāo)。Shark正在被用于一些BI工具，如Tableau，不過(guò)這并沒(méi)有被探索更多。三、內(nèi)存中的數(shù)據(jù)處理 Shark允許用戶(hù)顯式地加載在內(nèi)存中的數(shù)據(jù)，以加快查詢(xún)處理，其內(nèi)存使用有效率的，壓縮的面向列的格式。Impala還沒(méi)有提供在內(nèi)存中的存儲(chǔ)。四、容錯(cuò) Shark被設(shè)計(jì)為支持短期和長(zhǎng)時(shí)間運(yùn)行的查詢(xún)。它可以從查詢(xún)故障恢復(fù)(感謝底層Spark引擎)。Impala目前是更側(cè)重于短查詢(xún)，不容錯(cuò)（如果節(jié)點(diǎn)發(fā)生故障，查詢(xún)必須重新啟動(dòng)，對(duì)短查詢(xún)來(lái)說(shuō)這無(wú)疑是可以接受的）。五、性能做全面的比較太早了點(diǎn)。Shark和Impala都報(bào)告比Hive快10-100倍，但這都依賴(lài)具體情況和系統(tǒng)負(fù)載。兩個(gè)項(xiàng)目也都在未來(lái)6個(gè)月內(nèi)會(huì)做重要優(yōu)化。以我們的經(jīng)驗(yàn)來(lái)看，Sharkr當(dāng)前版本，如果是內(nèi)存的數(shù)據(jù)一般比Hive快100倍，如果是磁盤(pán)上的數(shù)據(jù)一般快5-10倍，這取決于查詢(xún)（帶關(guān)聯(lián)連接的查詢(xún)，能比Hive快很多）。: 回答者：網(wǎng)友

產(chǎn)品精選

我來(lái)回答