專注圖關係數據挖掘,「極驗」發布圖數據建模平臺「疊圖」

2021-01-21 36氪

36氪獲悉,7月11日,「極驗」舉行Graph Learning 創新大會暨極驗 2019 圖數據建模平臺發布會,並發布新產品——圖數據建模平臺。

36氪曾多次報導極驗。極驗成立於 2012 年,是一家驗證安全技術服務提供商。36氪曾報導,極驗的核心產品為是一款嵌入 PC 端或移動端登陸頁的驗證滑塊,用來取代傳統的輸入型驗證碼。背後的技術支持包括用戶的生物特徵,比如滑鼠移動軌跡等行為軌跡的分析,結合動態更新的資料庫和全網聯防技術,在 SaaS 後臺,極驗也為網站提供實時的數據分析和預警功能。

本次發布的新產品圖數據建模平臺,是極驗在圖數據建模領域探索數年後,研發的一套符合建模需求的底層數據引擎,支持企業級圖數據深度學習建模,企業能夠一站式完成建模操作。

圖數據是什麼?在企業紛紛線上化,做數位化轉型的時期,會產生大量數據。對於不少AI公司通過深度學習來訓練神經網絡而言,大量的數據是必要的,但對於更多的具有特定關係的關係數據,現在的挖掘則很少,比如對於社交網絡中的關係,則適合用圖數據來表達,因為圖數據可以囊括裡面的節點(社交帳號、帖子),以及用戶間的關係(關注、轉發)等。

另外,應用圖數據來做深度學習,能夠做到端對端的自動學習,以往的深度學習很多還是靠手工規則來提取,像這類人工環節就可以省去,提高企業從系統底層搭建數據平臺的效率。

在技術架構方面,疊圖技術框架的核心包括中間三層,分別存儲層、操作層和建模層。

存儲層與操作層合稱為圖存儲引擎,主要完成對圖數據分布式存儲以及圖數據操作的抽象接口。在這一層的設計上,極驗圍繞圖分區、圖數據的結構設計與存儲,以及整個數據系統的索引設計與優化來做了大量開發工作,以支撐上層數據操作的高效性,比如隨機遊走、子圖採樣等。

而在落地場景場面,極驗圖建模平臺可以適用於風控和營銷兩大類業務場景。

以車險反欺詐為例,一起車輛事故的數據有很多,車輛損傷數據就包括褶皺、凹陷、開裂、擦傷等等;另外還有車輛屬性信息,來自不同的廠商,不同的年份,版本也不相同。這些數據之間存在著複雜關係,比如當車輛的發動機損壞的時候,往往也會伴隨著其他的零配件損壞。通過建立車險理賠的圖,利用圖神經網絡,可以很好的發現一些風險模式,比如線上風險、二手車風險、人傷碰瓷、理賠人員問題等等。

疊圖集成了大規模圖數據分布式建模能力,以 Web 端提供服務,企業可以直接上手使用,不需要專家也可以進行建模,降低了建模門檻。其次,極驗將整個建模流程固化到平臺上,後期模型的維護成本也大大降低。

在性能方面,極驗圖數據建模平臺完成百萬節點構圖需要的時間不到20秒。而對於 1 億節點,5 億邊規模的數據,極驗在 10 個 worker 上的構圖時間只需要 150 秒。在讀取性能上,極驗可將子圖採樣的時間控制在 100 毫秒以下,顯卡不會出現計算延時。

對於未來的發展方向,極驗表示,除了風控和營銷外,醫學藥物挖掘、圖像識別、智慧城市等研究方向,也有圖技術的發展空間;另外,近年來頗為流行的技術中臺、數據中臺等概念,疊圖也可以從數據的關聯度出發,將各類數據進行整合建模,提升中臺的建設效率。

相關焦點

  • 極驗發布全國首個專注於圖神經網絡的書籍,《深入淺出圖神經網絡...
    圖神經網絡是當前 AI 領域最為火爆的研究熱點之一,學術界與工業界各大公司紛紛投入大量資源研究。它在因果推理上擁有巨大潛力,有望解決深度學習無法處理的關係推理、可解釋性等一系列問題,而這些問題被業界認為是能夠推動 AI 出現實質性進展的關鍵。
  • 韓家煒在數據挖掘上開闢的「小路」是什麼
    >文章中還會多次遇到,這是這次演講內容的一張「地圖」,也是數據挖掘領域的一張「地圖」韓家煒認為要想將現有的無結構的 Big Data 變成有用的 Knowledge,首先要做的就是將數據結構化。或在雷鋒網 AI 慕課中觀看視頻CCF-ADL87:社交網絡與數據挖掘)整體概覽韓家煒教授本次的報告大致分為五個部分,如下圖他列出的梗概。
  • 極驗聯合創始人張振宇:技術變革帶來產業上的機遇
    峰會上,極驗聯合創始人張振宇以《AI生長:下一代深度學習技術的創新機遇》為題分享了自己的觀點。張振宇認為,以卷積神經網絡為代表的深度學習的技術進步,過去的3-4年在很多的應用領域,比如人臉識別、智能安檢、語音識別等取得了很大的進步。技術變革會帶來了產品上的機遇,甚至帶來產業上的機遇。在未來,AI+圖數據的組合對產業帶來巨大的變革。
  • 「無感認證」將成新趨勢,「極驗」想要用「網關取號」功能取代傳統...
    有數據顯示,因交互繁瑣,體驗差等原因,直接造成平臺用戶流失數據高達 20%。針對以上痛點,武漢極意網絡科技有限公司(極驗)推出「無感本機認證」解決方案。無感本機認證,顧名思義即不需要帳號密碼就能夠登錄帳戶,從而實現用戶的身份認證。這種方式免去了繁瑣的註冊環節,沒有簡訊驗證碼,沒有複雜難辨的圖片驗證碼,用戶還不需要擔心忘記密碼,只需點一下按鈕即可完成操作。
  • 乾貨 面向大數據的時空數據挖掘
    所以,對時空數據進行有效整合、清洗、轉換和提取是時空數據預處理面臨的重要問題。  時空推理和數據挖掘的深度結合  時空數據中的時間關係和空間關係通常比較複雜,尤其很多可度量的和不可度量的時間關係和空間關係都是隱含在時空數據中,這就需要在數據挖掘系統中結合時空推理加以考慮這些複雜的時空關係。
  • Data Science in China論壇:產學十位華人大牛分享數據挖掘研究...
    活動開始,清華大學的張鈸院士分享了「走向真正的人工智慧」(Towards A Real Artificial Intelligence)的主題演講。圍繞「什麼叫做真正的人工智慧?為什麼我們需要真正的人工智慧?我們如何走向真正的人工智慧?」這三個問題,張鈸院士認為目前的人工智慧是沒有理解的人工智慧,現在的對話系統離真正的智能還很遠。
  • 「金猿產品展」Stratifyd——AI驅動的增強智能數據分析平臺
    Stratifyd是AI驅動的增強智能數據分析平臺,幫助企業深度挖掘全渠道客戶互動數據。平臺兼具實時交互、圖像可視化、結構化和非結構化數據的分析能力,識別差異化標籤數據,客觀聚類海量文本中的重要內容,幫助各種規模的企業快速、科學、精準地預測和判斷消費者的情感意圖,洞察數據背後的商業價值,為決策者提供數據驅動的決策支持,實現高質量的獲客、轉化與留存,提升企業的經濟效益。
  • 用生物計算技術打造生命科學平臺,李彥宏牽頭創立「百圖生科」
    如今,我們正處於一個生物數據爆發式增長的時代。基因組學等底層數據採集技術的發展為人類疾病機理研究、個性化靶向藥物研發、精準藥物設計等提供了技術基礎和海量數據支持。然而,這些技術所帶來的的海量數據和由此而來的挖掘、分析、匹配需求,也向生命科學行業的平臺和工具框架提出了巨大挑戰。
  • 表徵圖數據絕不止圖神經網絡一種方法
    如果所有頂點對之間都存在路徑,那麼該圖是「連通圖」。如果圖中的所有頂點有相同的度,那麼我們有一個「正則圖」。如果每對頂點之間都存在一條邊,則該圖為「完全圖」。「團」圖的一個完全子圖。「環」也是一種連通的子圖,其中每個頂點都恰好有兩個鄰點,不包含環的圖被稱為「森林」。一個連通的森林被稱為「樹」。「子森林」是一個無環子圖,「子樹」是一個連通的子森林。對於給定的頂點 v,它的鄰居節點的集合被表示為 N_v。圖同構:令 G = (V, E) 和 G′ = (V′, E′) 為兩個圖。
  • 張江:從圖網絡到因果推斷,複雜系統自動建模五部曲
    從上世紀50年代以來,「想要創造擁有和人一樣智能的機器」,一直都是學術界和工業界爭相追逐的課題,「人工智慧」這個領域也隨著人們對於「什麼是智能」這個問題的思考之下,曲折向上發展。隨著算力的提升,人工智慧的研究對象,逐漸由單個個體,發展到了系統,尤其是對複雜系統的研究。
  • 表徵圖數據,絕不止圖神經網絡一種方法
    學習「圖表徵」背後的思想是:學習一類映射,這類映射將頂點、子圖或整體的圖嵌入到低維向量空間中的點上。然後,我們優化這些映射,使他們反映嵌入空間的幾何結構,學習到的嵌入可以被用作機器學習任務的向量化輸入。需要注意的是,本文討論的是一些流行的使用基於圖表徵的數據域,包括生物學數據、化學數據、網頁數據、文本數據、關係數據、社交媒體數據等。
  • 阿爾伯塔大學博士畢業論文:基於圖結構的自然語言處理
    「如何表示文本」以及「如何進行計算」是其中的兩個核心問題。另一方面,目前的工作也主要在於提取長期穩定的概念,難以提取短時間出現的熱門概念以(例如「賀歲大片」,「2019 七月新番」)及它們之間的聯繫。 我們提出了 ConcepT 概念挖掘系統,用以提取符合用戶興趣和認知粒度的概念。
  • 12款實用的數據挖掘工具
    關聯規則學習:查找變量之間的關係回歸:旨在找到一個函數,用最小的錯誤來模擬數據。除提供主要算法和建模功能外,Smartbi Mining數據挖掘平臺還提供了必不可少的數據預處理功能,包括字 段拆分、行過濾與映射、列選擇、隨機採樣、過濾空值、合併列、合併行、JOIN、行選擇、去除重複值、排序、增加序列號、增加計算欄位等。6.
  • 分分鐘做出「條形圖賽跑」- 手把手教程
    3分鐘 手把手教會你做出這種「條形圖賽跑」(Bar chart race)視頻寫過近2W收藏的回答,裡面提了4種方法分析了各自的優缺點。你只要花三分鐘讀一下就能學會https://www.zhihu.com/question/290568141/answer/1083407779什麼?
  • 「金猿產品展」觀遠一站式智能分析平臺——數據驅動企業精益增長
    觀遠一站式智能分析平臺,面向企業提供數據分析可視化與智能決策服務,打通了數據採集-接入-管理-開發-分析-AI建模-AI模型運行-數據應用全流程,包含數據開發Universe-Platform、數據分析 Galaxy Platform、雲應用Atlas三大產品線。
  • 將單細胞大數據用於藥物研發,「百奧智匯」完成A+輪融資
    所募集資金將用於「百奧智匯」進一步擴大和加速單細胞大數據及單細胞數據分析平臺在創新藥物研發領域的轉化應用,推進其單細胞大數據和分析系統在藥物新靶標挖掘、生物免疫學驗證、抗體開發、生物標誌物發現、基礎科研及臨床研究等方面建立起市場優勢;同時進一步擴大國內外商業化布局。
  • 開發以中文「與數據對話」的AI決策系統,「訊能集思」要做人工智慧...
    「平民數據科學家」的出現預示著企業的數位化轉型需求一方面向下擴張,使用數據分析的人員不再局限為數據分析師和科學家;一方面向上升級,企業對於數據分析工具的智能化和自動化需求正在高速增長。「訊能集思」即是一家專注人工智慧決策的人工智慧公司。
  • 資源| Python上的圖模型與概率建模工具包:pomegranate
    作者還宣布適用於所有概率圖模型的缺失值處理方法已經調試完畢,不過可能還需修復一些問題。pomegranate v0.9.0 所做的修正有:添加了「缺失值」部分的文檔。添加如何進行缺失值處理的擴展教程。添加了之前作者在 ODSC west 2017 演講中提到的一些功能。
  • 36氪首發|「羅賽塔科技」獲數百萬元天使輪融資,推出「易得數據...
    36氪獲悉,大數據技術及應用提供商「羅賽塔科技」近期宣布獲得數百萬元人民幣的天使輪融資,投資方為個人投資人,此輪資金將主要用於新產品「易得數據」的產品完善和市場推廣。此前,36氪曾介紹了羅賽塔科技在另類數據服務方向的技術和業務。
  • 未來十年大數據工程師即將失業?自動化建模平臺已實現零基礎建模
    飛貸金融科技即將在 11 月初上線公測其自動化建模平臺,InfoQ 記者專訪飛貸金融科技副總裁兼首席數據官林慶治,提前揭秘該平臺背後的技術細節。在日常的建模工作中,我們都或多或少會思考一個問題:建模可不可以被自動化?自動建模與機器學習的未來會如何發展?對於從事商業分析、數據分析、數據挖掘、數據工程、算法工程工作的人,可能也會焦慮,自動建模技術能在多大程度上代替現有的一些日常工作?