大數據分析工具採購指南

2020-12-17 51CTO

大數據分析工具使用戶能夠分析各種各樣的信息——包括結構化事務數據和社交媒體帖子、Web伺服器日誌文件及其他形式的非結構化和半結構化數據。一旦組織決定要購買一個大數據分析工具,下一步就是制定一個流程,評估可用的產品,然後從中找到一個最適合你需求和要求的產品。

下面我們將介紹在評估各種大數據分析工具符合企業需求的程度時可能用到的必備特性和特定屬性。然後,你再編寫一個預案請求(RFP),說明使用這些工具將如何解決組織的需求。

評估標準

建模技術的廣度與深度。供應商已經應用了不同級別的建模,並且相應地開發了不同複雜度的分析功能。單個工具支持的分析建模廣度反應了所提供的不同方法。其中一些例子包括回歸技術、根據過去趨勢預測變化值的時間序列模型、分類與回歸樹(也稱為CART)和神經網絡。

建模技術的深度反映了所使用方法的兩個方面特徵:支持更精準開發模型的算法成熟度和建模技術的靈活性。換而言之,數據挖掘和預測分析時需要使用哪一種級別的專業知識才能理解目前能夠開發哪一些類別的模型及如何使用一個特定工具完成建模?

經驗一般的數據分析師感興趣的是提供大量分析功能的供應商產品,而更專業的分析師和統計師則更偏好於那些能夠更深入分析特定分析模型的工具。

集成與可訪問性。大數據分析應用通常依賴于越來越多的內部和外部數據源,其中包括結構化和非結構化數據。這促成了支持數據可訪問性和系統集成的功能需求。這個方面要考慮的特性有:

非結構化數據使用率。確認產品能夠使用不同類型的非結構化數據(文檔、電子郵件、圖像、視頻、演示文稿、社交媒體渠道信息等),並且能夠解析和利用收到的信息。

大數據可訪問性。對比供應商工具連接大數據架構的方式,其中包括存儲在Hadoop的分布式數據,以及各種橫向擴展存儲中存儲的文件(例如,MongoDB或Apache Cassandra等NoSQL數據)。

與現有平臺組件的互操作性。如果要在一些傳統數據管理和BI技術中混搭分析方法,那麼這一點非常重要。例如,許多分析工具支持通過傳統的SQL查詢去調用分析模型。這種形式的互操作性允許使用預測模型的結構去產生一些傳統數據分析師通常都能使用的查詢與報表。

連接性。一定要評估連接性,或者說產品訪問其他系統的能力,以及作為數據源給現有平臺提供用於生成報表和分析的能力。

易用性。有一些大數據分析產品是供應商從零開始開發的,而有一些則基於開源的R統計語言。無論是哪一種情況,這種評估類別主要關注於產品用於分析數據、開發模型和確定模型有效性與準確性的易用性。

業務分析師可用性。沒有統計背景的商業分析師是否也能夠輕鬆地開發分析和應用呢?確定產品是否提供了方便開發和分析的可視化方法。

部署不同業務用例的靈活性。相同的算法方法可以應用到許多不同行業的不同業務場景中。如果你的組織準備做的這類分析數量有限,並且集中在更為普通的用例上(如客戶生命周期價值分析、欺騙行為分析或存留預防),那麼你可能應該在技術選擇犧牲一些靈活性。然而,如果你的組織想要一種廣度更大、約束更小的分析方法,則應該尋找一些靈活性更高的建模技術。

模型評分。這包括一些額外工具,它們可以幫助分析師自動比較準確性、有效性和不同預測模型用於相似業務場景時的預測價值。

協同性。隔離分析與開發可能導致重複工作和不協調的結果。提供一種集成協同功能和在大數據分析平臺中分享分析模型的手段,使分析師可以協同工作,共同優化他們的應用程式及將來重用相同的模型,從而能夠降低開發成本和提高一致性。

大數據分析工具的系統管理功能

接下來要考慮將一項新技術整合到組織中的實踐環節。管理與配置的簡單性評估包括理解所有的系統需求及安裝、配置和持續管理的依賴條件。例如,使用R統計模型的大數據分析工具要求在安裝產品時同時購買和安裝R環境。此外,還需要確定產品可能安裝的平臺,以及確定能夠嵌入已開發模型和應用的平臺。

其他考慮因素包括分析流程與將已開發模型加入到業務應用過程中分配角色和訪問權限等安全問題。分析產品所提供的身份驗證、授權和訪問控制等選項。

性能

大多數高端Hadoop平臺和專業設備在設計上都支持多個並行處理和分布式計算的計算節點。如果要求較高的運行性能,那麼很重要的一點是所評估的產品是否支持大規模並行處理(MPP)系統配置。

使用MPP平臺要求使用一組特定的工具才能高效地使用平臺的性能優化機制,其中包括:

平等性和數據分發。如果要用並行進程獨立處理分布式的數據集,並且要求減小網絡帶寬和增大數據存儲位置,那麼最適合使用數據並行系統。要檢查產品的並行性是否能很好地吻合數據分發策略。

產品的下推功能。它使分析算法能夠利用系統軟體堆中其他組件的內在功能。例如,如果有一個資料庫管理系統在其工具集內部提供了支持參數定製的建模工具,並且這些工具本身就經過優化和支持DBMS的架構特性。在這種情況下,分析工具最好要使用原生功能,而不要嘗試替換這些功能。

可擴展性和可伸縮性。隨著數據量的不斷增長和數據管理平臺的不斷擴展,要評估不同的分析產品如何跟隨處理與存儲容量的增長而增長。

大數據分析工具的費用

在使用大數據技術的大部分案例中,產品的價格必須影響購買決策。有一些大數據分析工具價格昂貴,而有一些則價格較低,甚至是免費的。此外,供應商可能根據不同的定價提供不同的特性、功能或約束(如限制可分析數據容量)。

另一個要注意的問題是特殊服務需求。對於每一個評估的產品,我們都要評估它是否需要軟體供應商或外部專家的幫助,才能完成安裝和培訓,或者提供特殊的開發服務。

此外,一定要考慮所評估的長期總擁有成本(TCO)。TCO計算應該包括年度維護費用和支持該產品的系統軟體堆分攤費用,以及運維人員、數據中心空間、製冷及其他設施的分攤費用。

制定自己的RFP

根據組織的具體用例來過濾出最適合的產品,從而縮小候選供應商範圍。要檢查組織需求與上面的評估類別的關係,製作出一個RFP,其中除了說明關於集成、互操作性和企業明細之外的標準問題,主要關注於量化預期因素的符合程度,如分析建模、數據容量、必要知識水平和數據可訪問性要求等。

確定最重要的差異性因素,如產品隨著數據容量增長的擴展能力和性能,它使用非結構化數據的能力,以及建模功能的廣度和深度。同時,要提出一些反映用戶社區的需求,特別是分析師專業知識水平有差別或者需要企業內部協作的時候。此外,選擇一種大數據分析工具的關鍵影響因素包括它的初始價格、人員要求和總運營成本,提出一些與評估過程相關的費用和預算問題。

說明業務需求並對它按優先級劃分,然後從一組供應商產品中指定預期產品,這樣可以使採購團隊能夠將業務需求與評估類別相關聯。通過檢查上面的列表、定義相關問題和規定可接受答覆來配置RFP,從而確定各個特定的產品符合需求的程度。

【編輯推薦】

【責任編輯:

李英傑

TEL:(010)68476606】

點讚 0

相關焦點

  • 跨境賣家常用翻譯類工具、搜索類工具、數據分析類工具以及採購類...
    此次,W教授為Wish從業人員準備了一份常用工具指南,期待各位賣家能發揮這些工具的最大效用,創造更優業績。 跨境電商從業者的常用工具通常分為這四類:翻譯類工具、搜索類工具、數據分析類工具以及採購類工具。
  • 《企業經營數據分析》給傳統企業管理者的數據分析指南
    >給傳統企業管理者的數據分析指南——做管理,必須懂數據分析「大數據之重要都已經成為了社會共識,而在這個浪潮中,傳統企業似乎成為了「落後分子」。《企業經營數據分析》一書作者趙興峰是國內大數據領域的先行者,畢業於北大光華管理學院和新加坡國立大學MBA,既有在寶潔、惠氏、LG等先進外資企業用數據進行市場研究和企業管理的經驗,又有多年服務中國本土傳統企業的項目經驗,所服務的企業包括了能源、化工、製造、零售、服務、農業、房地產等多個領域。
  • 大數據分析工具大匯總
    大數據分析Storm:Apache Storm是一種開源的分布式實時計算系統。
  • 大數據分析工具有哪些?
    大數據分析和處理工具大數據是一種從各種類型的數據中快速獲取有效且有價值的信息的技術。 在大數據領域,當今已經出現了大量新的且易於操作的技術。 有效的工具。大數據存儲技術Hdfs,Hbase,Hive,s3,Kudu,MongoDB,Neo41, Redis,Alluxio(Tachyon),Solr,ElasticSearch3.數據分析挖掘大數據分析與挖掘
  • 大數據信息分析的方法與工具
    導讀 越來越多的應用涉及到大數據,不幸的是所有大數據的屬性,包括數量、速度、多樣性等等都是描述了資料庫不斷增長的複雜性。
  • 辦公必備的大數據分析利器,數據分析工具推薦
    說到數據分析,很多小夥伴可能第一時間聯想到複雜的算法,龐大的數據,甚至是讓人眼花繚亂的代碼。但實際上,運營做數據分析並不需要懂這些,關鍵是你對業務流程的理解,以及用數據解決問題的思維。本文將介紹在一些領域被高頻率使用,且不可缺少的大數據分析利器,使用尚可的數據分析工具。
  • 管理員必備:大數據日誌分析常用工具_ThinkServer伺服器_伺服器...
    從理論上來說,這些數據都是具有非常大的價值的,我們可以根據這些數據來預測甚至防止伺服器的終端。最低限度,這個數據可以用來關聯時間和識別應用程式的問題來源,那麼如何對這些不同來源的數據進行分析呢?
  • BI大數據分析是什麼,大數據bi工具有哪些
    大數據分析:指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合。是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。
  • 大數據分析BI工具有哪些?
    隨著網絡技術的進步,數據分析逐漸成為了一個重要的工具,同時也是一個對數據進行詳細研究和概括總結的過程。下面給大家推薦幾款主流的大數據分析BI工具,幫助用戶分析生活、工作中遇到的問題!一、TableauTableau是目前市面上較為成功的BI工具。產品既有針對性,又有普適性。拖放式界面,操作簡單。
  • 大數據分析BI工具有哪些?BI工具推薦
    隨著大數據的迅速發展,時下許多企業面臨著最重要的現實問題是如何對大數據進行分析。只有通過大數據分析才能獲取到更智能的,深入的,有價值的信息。越來越多的應用涉及到大數據,這些大數據的屬性,包括其數量、速度、多樣性等等,都呈現出大數據日益複雜的特點。
  • 大數據技術的方法與工具2-分析篇
    大數據技術的方法與工具2-分析篇 2020-08-07 09:05 來源:澎湃新聞·澎湃號·湃客
  • 大數據下Python的三款大數據分析工具
    在本文中,我們準備討論三個關於Python在大數據方面處理的工具,可以幫助大家在產品層面提升大數據編程的技術。背景在本文中,我使用了virtualenv,pyenv,你也可以使用其它環境或本地的Python均可。
  • 數據分析工具怎麼選?10大諫言!
    數據分析有三大問:如何入門數據分析?數據分析有哪些工具?怎麼做數據分析?關於第一問,想必讀完我公眾號《10周入門系列文章》的同學,應該有大致的認識。今天開始講第二大問題——數據分析工具!對於數據分析,我一直強調核心是業務,通過業務的分析邏輯影射到數據分析的處理邏輯,而數據分析工具則是幫助我們實現結果的手段。但是,你說工具不重要吧,他又很重要,就像什麼樣的路選擇什麼樣的交通工具,合適的工具能幫我們更快的達到終點。對應數據分析的不同環節,也要選擇不同的工具,甚至選擇更容易上手。
  • Top 7大開源數據可視化分析工具!
    Top 7大開源數據可視化分析工具! Top 7大開源數據可視化分析工具!在所有工具中,Gephi一直以來被認為是最值得推薦的,它可以幫助用戶輕鬆實現超過十萬個節點的可視化。但是,除了Gephi,還有很多免費開源工具可供選擇,本文列出了頂級的七大數據可視化分析工具,可幫助企業分析並梳理數據之間的關係。
  • 大數據可視化分析工具常用的有哪些?
    大數據可視化分析工具常用的有哪些?企業基礎數據才能制定出正確的策略,常用的分析工具有、Tableau、ECharts、Highcharts、魔鏡、圖表秀等。在大數據時代有價值的商品則是數據,大數據技術為決策提供依據,在政府、企業、科研項目等決策中扮演著重要的角色。
  • 無需編程,這款探索式數據可視化BI分析工具,讓企業實現數據增值
    會做數據分析、實現數據可視化,已經成為越來越多公司對業務人員的基本要求,但實際情況往往存在以下問題:①市場上現有的數據分析工具對使用人員要求較高,為了做好一次數據分析,業務人員需要花費的時間和學習成本都超出了正常工作範圍;②企業內部,現有數據類型多樣、複雜,進行數據整合的工作量過大;
  • 55 個實用的大數據可視化分析工具
    一款好的工具可以讓你事半功倍,尤其是在大數據時代,更需要強有力的工具通過使數據有意義的方式實現數據可視化,還有數據的可交互性;我們還需要跨學科的團隊,而不是單個數據科學家、設計師或數據分析員;我們更需要重新思考我們所知道的數據可視化,圖表和圖形還只能在一個或兩個維度上傳遞信息, 那麼他們怎樣才能與其他維度融合到一起深入挖掘大數據呢?此時就需要倚仗大數據可視化(BDV)工具。
  • 製造行業大數據:中國製造業採購經理指數變化分析
    2017年大、中、小企業發展不夠均衡,PMI呈現大型企業明顯領先中小型企業的總體特徵。本文主要研究2005年-2017年我國製造業採購經理指數總體變化趨勢,以及針對不同製造行業的採購經理指數進行一定的比較。三、案例分析將分析的「製造業採購經理指數」CSV文件導入到Focus系統中。
  • 55 個實用大數據可視化分析工具
    一款好的工具可以讓你事半功倍,尤其是在大數據時代,更需要強有力的工具通過使數據有意義的方式實現數據可視化,還有數據的可交互性;我們還需要跨學科的團隊
  • 大數據測試的簡要指南:概念、策略、挑戰、工具和好處
    為了保證大數據的質量,我們顯然需要對大體量的數據進行測試。本文將通過簡要指南的形式,引導您全面了解大數據測試的相關概念、策略、挑戰、好處以及相關測試工具。什麼是大數據軟體測試?總的說來,大數據測試是對大數據應用程式的數據質量進行檢測的過程。