圖數據處理過去一直是數據科學家的專利,隨著數據應用得越來越廣泛,圖數據分析成為數據分析領域必不可少的部分,人們越來越需要易於上手、使用簡單的圖數據分析工具。GraphLab是個很受大家歡迎的開源項目,GraphLab開發者們不斷追求圖計算的創新和發展,使其能迎合海量數據處理的要求。SFrame的亮相顯得低調而神秘,不過其功能不可小覷,它將GraphLab擴展到了表格,使其可以輕鬆管理TB級數據。
社交媒體的圖數據已經引起了許多公司注意,在生命健康科學、安全、金融服務等很多領域也存在類似的數據集。圖數據的特徵使其需要特殊工具和技術,這些工具對於一般用戶來說太複雜了,在過去使用這些工具一直是數據科學家的專利。幸運的是圖數據分析這個領域吸引了很多熱心的企業家和開發人員。這些工具已經得到很大的改進,而且變得越來越簡單。
我們身邊有很多機器學習應用於圖數據分析的示例,比如:發現有影響力的用戶(PageRank)和社區、欺詐檢測和推薦系統(GraphLab用戶中比較流行的協同過濾)。一個領域的工具開發出來後常常會被應用到其他領域,除了GraphLab,分布式分析還被應用到Giraph、GraphX、Faunus和Grappa,此外像Neo4j和Yarcdata這樣的圖資料庫也帶有一些分析功能。
近日一家新公司的成立大大推動了開源項目GraphLab的發展,該公司由GraphLab的開發者組成,籌集資金為圖數據集開發分析工具。GraphLab公司也將繼續使用開源GraphLab「突破圖計算的極限,努力創新」。
GraphLab的SFrame是一種趣味十足而低調神秘的工具,首次在 Strata Santa Clara被揭開面紗。它基於磁碟,並通過二維表形式將GraphLab擴展到了表格數據。通過添加SFrame,用戶可以利用GraphLab中許多處理圖或表中數據的算法。更重要的是SFrame增加了GraphLab數據科學工作流的覆蓋範圍:它允許用戶直接使用GraphLab對TB大小的數據集進行數據清潔或者創建新的功能,SFrame性能可以通過增加內核實現線性擴展。
據有關人士透露GraphLab正在努力將它們的引擎與YARN集成到一起,不過SFrame測試版已經可以從HDFS中讀取數據,還可以從本地磁碟、HDFS、S3或URL中讀取數據,並保存成人類可讀的.csv或更有效的本機格式。一旦SFrame被創建並保存到磁碟後,就不需要再重複處理數據了。下面用Python代碼演示如何讀取一個.csv文件到SFrame,以及創建一個新的數據功能並把它保存在S3磁碟上:
來源:GraphLab公司
GraphLab Create是為那些想要開發推薦系統之類數據產品的軟體工程師和數據科學家設計的,即使那些對機器學習比較陌生的人也能很快上手,還可以幫助經驗豐富的開發者節省大量時間。
通過GraphLab Create可以開發數據產品或者用機器學習和圖分析方法進行數據分析,可以連接到你的數據,通過迭代層次模型實現數據轉換,並輕鬆地分析模型和系統性能,還可以在你的機器上運行應用或在AWS中運行實例。
而SFrame就是GraphLab Create的一部分,三月份將發布Python包,以簡化可擴展分析產品的創建(例如推薦系統和圖型分析系統)。利用GraphLab Create,用戶將能夠從Python或Ipython內部生成和維護分析管道,並將它們部署在單個伺服器上或整個群集(包括本地和雲)。
過去GraphLab被認為可擴展、速度快,但是使用困難而且應用範圍有限。但過去的幾個月裡,GraphLab公司已解決兩個首要問題,由此開發的工具應該可以大大增加GraphLab對於數據科學家的吸引力。與IPython的集成為PyData社區開啟了一個GraphLab快速、可擴展分析模塊時代(通過Python的六個線程生成端到端推薦)。SFrame和GraphLab Create擴展了數據科學工作流,使其包括數據轉換(data wrangling)和數據吸收(data ingestion)。
在利用圖工具分析之前,需要將數據轉化成圖。GraphBuilder是英特爾的一個開源項目,它使用Hadoop MapReduce從大型數據集中生成圖。另一個選擇是GraphX與Spark的結合產物,是由一個叫做Trifacta的新公司開發的多用途數據辨析工具。
由於SFrames類似於Pandas(PyData)和R數據架構,數據科學家可以非常方便快速地使用它們,提高工作效率。要問SFrames為什麼能吸引Strata與會者,我覺得是因為它能夠擴展到更大的數據集: SFrame允許用戶處理大型表格式數據集而不局限於內存大小。
相關連結:
Easily Manipulate Terabyte-Sized Datasets With GraphLab
Improving options for unlocking your graph data(編譯/毛夢琪 審校/魏偉)
本文為CSDN原創文章,未經允許不得轉載,如需轉載請聯繫market#csdn.net(#換成@)