輕鬆搞定TB級數據,開源GraphLab突破人類圖計算「極限值」

2020-12-05 CSDN技術社區

圖數據處理過去一直是數據科學家的專利,隨著數據應用得越來越廣泛,圖數據分析成為數據分析領域必不可少的部分,人們越來越需要易於上手、使用簡單的圖數據分析工具。GraphLab是個很受大家歡迎的開源項目,GraphLab開發者們不斷追求圖計算的創新和發展,使其能迎合海量數據處理的要求。SFrame的亮相顯得低調而神秘,不過其功能不可小覷,它將GraphLab擴展到了表格,使其可以輕鬆管理TB級數據。

社交媒體的圖數據已經引起了許多公司注意,在生命健康科學、安全、金融服務等很多領域也存在類似的數據集。圖數據的特徵使其需要特殊工具和技術,這些工具對於一般用戶來說太複雜了,在過去使用這些工具一直是數據科學家的專利。幸運的是圖數據分析這個領域吸引了很多熱心的企業家和開發人員。這些工具已經得到很大的改進,而且變得越來越簡單。

我們身邊有很多機器學習應用於圖數據分析的示例,比如:發現有影響力的用戶(PageRank)和社區、欺詐檢測和推薦系統(GraphLab用戶中比較流行的協同過濾)。一個領域的工具開發出來後常常會被應用到其他領域,除了GraphLab,分布式分析還被應用到Giraph、GraphX、Faunus和Grappa,此外像Neo4j和Yarcdata這樣的圖資料庫也帶有一些分析功能。

近日一家新公司的成立大大推動了開源項目GraphLab的發展,該公司由GraphLab的開發者組成,籌集資金為圖數據集開發分析工具。GraphLab公司也將繼續使用開源GraphLab「突破圖計算的極限,努力創新」。

GraphLab的SFrame是一種趣味十足而低調神秘的工具,首次在 Strata Santa Clara被揭開面紗。它基於磁碟,並通過二維表形式將GraphLab擴展到了表格數據。通過添加SFrame,用戶可以利用GraphLab中許多處理圖或表中數據的算法。更重要的是SFrame增加了GraphLab數據科學工作流的覆蓋範圍:它允許用戶直接使用GraphLab對TB大小的數據集進行數據清潔或者創建新的功能,SFrame性能可以通過增加內核實現線性擴展。

據有關人士透露GraphLab正在努力將它們的引擎與YARN集成到一起,不過SFrame測試版已經可以從HDFS中讀取數據,還可以從本地磁碟、HDFS、S3或URL中讀取數據,並保存成人類可讀的.csv或更有效的本機格式。一旦SFrame被創建並保存到磁碟後,就不需要再重複處理數據了。下面用Python代碼演示如何讀取一個.csv文件到SFrame,以及創建一個新的數據功能並把它保存在S3磁碟上:

來源:GraphLab公司

GraphLab Create是為那些想要開發推薦系統之類數據產品的軟體工程師和數據科學家設計的,即使那些對機器學習比較陌生的人也能很快上手,還可以幫助經驗豐富的開發者節省大量時間。

通過GraphLab Create可以開發數據產品或者用機器學習和圖分析方法進行數據分析,可以連接到你的數據,通過迭代層次模型實現數據轉換,並輕鬆地分析模型和系統性能,還可以在你的機器上運行應用或在AWS中運行實例。

而SFrame就是GraphLab Create的一部分,三月份將發布Python包,以簡化可擴展分析產品的創建(例如推薦系統和圖型分析系統)。利用GraphLab Create,用戶將能夠從Python或Ipython內部生成和維護分析管道,並將它們部署在單個伺服器上或整個群集(包括本地和雲)。

過去GraphLab被認為可擴展、速度快,但是使用困難而且應用範圍有限。但過去的幾個月裡,GraphLab公司已解決兩個首要問題,由此開發的工具應該可以大大增加GraphLab對於數據科學家的吸引力。與IPython的集成為PyData社區開啟了一個GraphLab快速、可擴展分析模塊時代(通過Python的六個線程生成端到端推薦)。SFrame和GraphLab Create擴展了數據科學工作流,使其包括數據轉換(data wrangling)和數據吸收(data ingestion)。

在利用圖工具分析之前,需要將數據轉化成圖。GraphBuilder是英特爾的一個開源項目,它使用Hadoop MapReduce從大型數據集中生成圖。另一個選擇是GraphX與Spark的結合產物,是由一個叫做Trifacta的新公司開發的多用途數據辨析工具。

由於SFrames類似於Pandas(PyData)和R數據架構,數據科學家可以非常方便快速地使用它們,提高工作效率。要問SFrames為什麼能吸引Strata與會者,我覺得是因為它能夠擴展到更大的數據集: SFrame允許用戶處理大型表格式數據集而不局限於內存大小。

相關連結:

Easily Manipulate Terabyte-Sized Datasets With GraphLab

Improving options for unlocking your graph data(編譯/毛夢琪 審校/魏偉)


CSDN推薦:歡迎免費訂閱《Hadoop與大數據周刊》獲取更多Hadoop技術文獻、大數據技術分析、企業實戰經驗,生態圈發展趨勢。

本文為CSDN原創文章,未經允許不得轉載,如需轉載請聯繫market#csdn.net(#換成@)

相關焦點

  • 阿里雲計算能力實現多項突破 BigBench規模全球首次被拓展至100TB
    10月12日,阿里巴巴集團副總裁周靖人在雲棲大會上發布了阿里雲在大數據計算能力上的新突破:將BigBench數據規模擴展到100T;流計算2.0每秒峰值達千萬QPS,整體鏈路延時亞秒級;E-MapReduce對比同類產品平均性能提升3倍。周靖人說,數據是機器智能創新的基礎,擁有充沛的計算能力才能全面釋放數據的價值。
  • 科學家結合三種計算方式,得出人類壽命極限值
    利用岡珀茨模型,科學家計算出人類壽命極限為124歲,準不?一個人的壽命,指的是他從出生到去世這個階段的時間長短。而壽命極限,則是壽命的最大值,通俗點講就是一個人最多能活的歲數。生命何其珍貴,世界上的每個人都只有一次,所以追求長壽對於我們來說是一件很平常自然的事情。
  • 心算、珠算到超算 計算「極限」突破 6股熱
    心算、珠算到超算 計算「極限」該如何突破?——世界計算機大會新觀察新華社長沙9月11日電 從心算、珠算的「古老智慧」,到「銀河」「天河」「神威」創造「中國速度」,「中國計算」為世界矚目。計算機技術「極限」該怎麼突破?如何迎接「產業變革」?未來計算機又將走向何方?
  • 人類的極限壽命是多少?科學家計算出人類壽命極限,答案讓人失望
    自從人類誕生開始之後,人類的生命之路在不斷的延長,古代的時候人們只能活到三十幾歲四十幾歲,而現在人類活到七八十歲都是非常常見的現象,甚至有長壽的老人活過了100歲,目前全世界範圍內來說,2019年人類平均壽命在69歲,科學家認為在2020年可以突破70歲,根據之前科學家們統計的數據分析,人類的平均年齡確實在不斷的增長,那麼人類的壽命到底還有沒有上升的空間呢?
  • 陰陽師:這3套結界陣容你需要了解,它們能輕鬆搞定90%的突破
    陰陽師:這3套結界陣容你需要了解,它們能輕鬆搞定90%的突破HELLO小夥伴們,這裡是村村的陰陽師頻道。現在陰陽師遊戲裡,有很多壓級大佬,特別是打結界的時候,經常能碰到,村村有時候打道館就碰到過結果翻車,真的是輕敵。
  • 有了這個「神級」功能,會Excel就能輕鬆玩轉BI數據可視化分析啦
    有了這個「神級」功能,會Excel就能輕鬆玩轉BI數據可視化分析啦 2020年08月24日 17:40作者:黃頁編輯:黃頁 什麼是「計算圖表」 在使用儀錶板展示數據時,我們通常在數據集中加工好維度和度量值,然後在柱狀圖、餅圖等可視化元素中進行綁定,讓系統繪製出所需的圖表。 然而對於需要體現實際業務經營指標的儀錶板,通常都會包含利潤率、環比變化率、平均客單價、預算完成率等需要經過計算才能使用的指標。
  • 那個分分鐘處理 10 億節點圖計算的 Plato,現在怎麼樣了?
    於東海接受採訪時說到騰訊做 Plato 的初衷,原來,這是因為原有的主流圖計算開源框架的如果要完成騰訊數據量級的超大規模圖計算,需要花費超長的時間或者需要大量的計算資源,這都是無法接受的。騰訊的業務場景要求超大規模圖計算必須在有限時間和有限資源內完成。
  • 122歲164天是人類壽命終點?科學家推算出終極壽命極限值
    作者:文/虞子期壽命的長短可以說與人類的生活,遺傳等問題存在一定關係,當然按照科學記錄數據顯示,人最高如今保持的記錄也就100多歲,是來自1999年版金氏世界紀錄的數據,名叫「吉安娜·露易絲·卡爾門」,她活了122歲164天。但是這個壽命相對於地球大多數生物來說,已經是非常短暫的了。
  • 人類的壽命極限是多少?科學家計算出了理論最大值!
    人類的壽命極限是多少?科學家計算出了理論最大值!我們在跟別人特別是年紀比較大的人說祝福語的時候都會習慣性地說「福如東海壽比南山」、「長命百歲」、「年年有今日歲歲有今朝」等一些祝福別人長壽的話!人人都想健康長壽,隨著科技技術發達,醫療水平和生活水平的提高,人類的平均預期壽命已經增加了。究竟,那麼人類最多能夠能活多久?自古至今,長生不老一直是人類的夢想,中國歷史上不少皇帝都為了實現長生不老去求取一些道士練丹藥,卻始終沒有能夠實現這一願望!這也只是人們幻想的罷了!現代科學也向我們證明,沒有任何秘訣能夠實現長生不老!
  • 心算、珠算到超算 計算「極限」該如何突破?——世界計算機大會新...
    新華社長沙9月11日電 題:心算、珠算到超算 計算「極限」該如何突破?——世界計算機大會新觀察新華社記者從心算、珠算的「古老智慧」,到「銀河」「天河」「神威」創造「中國速度」,「中國計算」為世界矚目。
  • 2018 年度 GtiHub 開源項目 TOP 25:數據科學 & 機器學習
    ,對數據科學和機器學習有較深入的研究和簡介,致力於為使用機器學習和人工智慧推動人類進步找到新途徑。科技正在快速發展,同時計算成本也比之前更低了,所以現在有一個接一個大量的開源項目可供我們使用。現在,可以被稱作機器學習編碼的黃金時代嗎?這是一個開放的問題,但是我們都認同的一件事是,現在是做一個數據科學領域的編程員的好時期。在這個部分(以及整篇文章),我都在嘗試讓程式語言儘可能地多樣化些,不過 Python 無法避免地佔據主導地位。
  • 人類的壽命極限是多少?研究員給出3個公式,算出壽命的極限值
    隨著人類醫學技術不斷地發展,人類壽命逐漸得到延長的同時,人們也清楚地意識到是不可能長生不老的。既然人類無法實現長生不老,那麼人類的壽命極限在哪呢?有科學家認為人類的壽命極限並不像傳說中的那樣達到兩三百歲,這樣的長壽人在現實中是不存在的。為了具體衡量人類壽命的極限,科學家們提出了三種測算方法。由於人類是從哺乳動物進化而來的,在基因上也大多數哺乳動物都保持相似的地方。因此科學家提出了將大多數哺乳動物的生命周期作為人類的壽命極限值。但至於哪些哺乳動物可以納入考量範圍,科學家並沒有明確指出。
  • 這3種方法都能輕鬆搞定,不用再一個一個的計算
    Hello,大家好,不知道大家在工作中有沒有遇到過區間統計的問題,對於這樣的問題,可能很多人都覺得無從下手,今天就跟大家分享幾種區間統計的方法,都可以輕鬆搞定區間統計一、SUMPRODUCT函數我們以大於3000小於等於10000簡單的跟大家講解下公式的計算過程公式:=SUMPRODUCT((3000<A1:A88)*(A1:A88<=10000))SUMPRODUCT函數的作用是返回對應數據區域的乘積之和,在這我們設置兩個條件3000<A1:A88)與A1:A88<=
  • 「」和「」,突破人類認知極限的兩個符號
    ""和"",突破人類認知極限的兩個符號本來想寫複合函數的一些具體案例,但是發現在《微積分從入門到精通的十大關卡》中已經寫了「中間變量」的內容,已經把複合函數說得很清楚了,這裡就不再多說了。這裡就說微積分語言體系中兩個基本的符號和,這兩個符號代表著「任意性」和「存在性」,其中任意性對應著無窮多,算是有助於人類有限的時間對無限事物的理解;而存在性則對應著事實,意味著判斷的可靠性。關於和我們在極限的定義中見到過很多次,常常無法正確使用這兩個符號。其實我們最早見到的和這兩個符號是在函數的有界性和無界性中。
  • 百倍提升張量計算:谷歌開源TensorNetwork
    張量網絡正越來越多地用於機器學習領域,它被用於執行複雜計算任務,但對於大多數人來說它仍然遙不可及——我們還沒有開源庫來大規模運行這種底層算法。幸運的是,谷歌正在解決這一問題。昨天,Google AI 發布了 TensorNetwork,它使用 TensorFlow 機器學習框架作為後端,並用 GPU 優化來提高張量計算的效率。
  • 機器之心年度盤點:2018年重大研究與開源項目
    這兩項進展有一些共同點:除了弱監督或無監督,那就是大,數據大,模型大,計算大,算法改動沒那麼大,主要靠計算。但是除了它們,今年還是有很多非常美的想法,例如強行解積分的強大流模型 Glow、基於圖結構的廣義神經網絡,以及擁有連續層級的神經常微分方程。它們為深度學習開拓了新方向,也為未來提供了更多選擇。
  • 應對萬億數據上億並發!字節跳動的圖資料庫研發實踐
    1、為什麼不選擇開源圖資料庫圖資料庫在 90 年代出現,直到最近幾年在數據爆炸的大趨勢下快速發展,百花齊放;但目前比較成熟的大部分都是面對傳統行業較小的數據集和較低的訪問吞吐場景,比如開源的 Neo4j 是單機架構;因此,在網際網路場景下,通常都是基於已有的基礎設施定製系統:比如 Facebook 基於 MySQL 系統封裝了 Social Graph 系統 TAO,幾乎承載了
  • 華為全面啟動數據基礎設施戰略,開源數據虛擬化引擎HetuEngine
    11月19日,華為在深圳舉辦2019全球數據基礎設施論壇,面向鯤鵬計算產業, 宣布全面啟動數據基礎設施戰略,並開源數據虛擬化引擎HetuEngine(河圖引擎),希望讓夥伴像使用「資料庫」一樣使用「大數據」,讓數據治理、使用更簡單。
  • 人類不可能永生嗎?科學家計算出人類壽命極限,答案讓人失望
    69歲,科學家認為2020年有希望突破70歲。從這組數據可以看出來,人類的平均壽命在不斷增加,這和我們不斷提高科學技術,抵禦自然災害和疾病的能力提高有關,戰爭減少也是一個很關鍵的原因,那麼人類的壽命是否還有提升的空間呢?
  • 數據出現次數、第幾次,countifs函數輕鬆搞定,還不趕緊來看看
    數據出現次數、第幾次,countifs函數輕鬆搞定,還不趕緊來看看大家好,很高興又和您見面了,通過前面分享的內容您是否積累了一點辦公技巧,有沒有對自己的辦公帶來幫助。今天,我想和大家分享的是一個很好用的函數公式countifs,為什麼說它好用的,比如查詢數據出現的次數、第幾次等信息,都可以輕鬆實現。如果您還不會,趕緊看下來哦!一、統計數據出現的次數我們經常在日常工作中,遇到數據的匯總統計。比如說,單位人員的籤到情況,物品的使用情況等。