大數據處理加速引擎系統

| 產品背景

      隨著大數據技術的發展,開源大數據平臺的高可用性、高擴展性、相對低成本的優勢深受用戶的肯定,數據存儲和加工逐漸從傳統數據平臺向大數據平臺轉移將是大勢所趨。

      采用傳統數據加工工具或以SQL為核心的存儲過程進行數據加工,雖然成熟高效,但有平臺局限性,無法適配大數據平臺。大數據平臺上數據存儲軟件種類較多,但目前還沒有得到廣泛認可、成熟的、易用的、可跨數據存儲軟件的數據加工工具。

| 產品簡介

       大數據處理加速引擎系統,采用Spark核心組件搭建數據加工框架,利用Spark先進的DAG執行引擎及性能強大的基于內存的多輪迭代計算技術,對源數據進行深度加工。其解決了傳統技術中在處理海量數據時,IO吞吐量、系統資源存在瓶頸,擴展困難且價格昂貴的缺陷。本產品可以線性平滑擴展,運行速度快,運行無需人工干預,且易于管理和維護,能充分滿足各行業特別是大企業在數據ETL方面的需要。

       本產品提供可視化圖形化界面進行ETL的全過程定義,界面操作簡單,在易用性和可維護性方面較傳統ETL工具產品和直接編程,在效率上有數倍的提升。                                            

圖形化開發界面 

| 產品功能

  • 數據抽取:支持關系型數據庫、結構化數據文件(可壓縮)、HDFS文件、Hive文件等多種異構數據源。
  • 數據處理:針對采集的數據,結合元數據定義,組合“處理單元”實現轉碼、數據清洗、數據轉換、增轉全加工、拉鏈表加工等一系列數據處理過程。
  • 數據整合:對當天的增量數據和上一天的全量數據進行數據整合,得到當天全量數據。
  • 數據輸出:根據數據應用系統對數據格式的要求,對當天整合后數據進行格式轉換并輸出。數據輸出格式支持結構化數據文件(可壓縮)、關系型數據庫、HDFS文件、Hive文件等。
  • 元數據管理:具有“元數據影響分析“及”程序自動化變更”功能,通過簡易操作,能快速響應上游數據源數據結構變化,并更新受影響的程序。

| 產品特性

  • 無代碼/低代碼開發,開箱即用,自動化運行。支持快速部署,開箱即用,成熟完備的ETL工具箱,涵蓋常用的數據ETL需求;支持自動化流水線式運行數據抽取、數據處理、數據整合、數據輸出等ETL處理流程,無需人工干預。
  • 內存計算,性能翻倍,線性拓展。利用Spark分布式內存并行計算技術,將中間計算結果緩存在內存并進行多輪迭代計算,減少磁盤I/O;采用多線程并發運行處理作業提高ETL的性能和資源利用率;本產品較傳統架構的ETL產品,在運行速度上有數倍的提升。

| 產品應用場景

       產品面向擁有海量數據的企業,產品提供數據采集、數據清洗、數據加工、數據加載等一系列可視化開發組件,幫助企業實現大數據平臺的快速部署。

 

 

數據業務化軟件


產品擁有快速且持續的數據集成能力,靈活的數據試錯能力,數據分析與桌面計算能力,強大的數據檢驗能力,具有安全、開放與高度可定制性。