「龍貓數據」利用完善系統和高效管理為市場提供專業AI數據服務

2020-12-05 金融界

來源:創業邦

利用專業的數據對不同應用場景的設備智能化提供幫助,這是人工智慧時代背景下數據所能發揮的最大作用之一。

人工智慧產業中的數據服務環節日趨完善,有報導顯示,2019 年,我國人工智慧核心產業市場規模達到了105.5億美元,其中基礎服務市場規模約為21.1億美元,這其中很大一部分是數據服務。

整個市場在多年前就有了對數據服務的需求。隨著技術的發展,尤其是近年來我國在人工智慧和物聯網領域的發力,人機互動的場景變得越來越多,AI設備對數據類型的需求也更加豐富,圖像、語音、文本、視頻等數據類型都有著巨大的市場需求和訓練價值。也正是基於這樣的市場情況,昝智創辦了北京安捷智合科技有限公司(龍貓數據),並實現了轉型。

龍貓數據成立於2014年,是一家專業的AI數據服務公司。龍貓數據坐落於北京中關村科技園,在廣州、河北、上海等地設立分支機構,致力於為整個AI產業提供圖像、音頻、文本、視頻等領域的專業數據服務。創始人&CEO昝智畢業於中國人民大學,曾任豌豆莢商業產品負責人、百度商業產品經理,擁有十餘年網際網路產品設計、管理經驗。

2016年,跟隨著人工智慧的崛起和市場對底層數據的需求,昝智帶領龍貓數據實現了轉型。如今龍貓數據可以為人工智慧設備製造商及研發團隊提供定製化的數據採集、標註服務,還可以為客戶提供工具部署、BPO外包等個性化服務

人工智慧設備的多樣化帶來了人機互動功能的多樣化。以機器視覺為例,攝像頭及視覺算法的普及使得人體特徵變成了有效的操作信息,大量的人臉識別、五官識別、手勢動作識別、肢體關鍵點識別功能被開發出來,用以完成解鎖、認證、美化等任務。而實現這一切需要大量的訓練樣本。

語音領域也是如此,除了常見的普通話喚醒詞之外,應用場景的長尾效應使得AI設備廠商不得不盡力涵蓋所有可能出現的語音信息,這一點在語音指令環節尤為重要。

無論是智能音箱、家居、還是車載語音助手,由於使用者的不同,其接收的語音指令往往會出現方言、外語、口音區別,同樣一種目的也存在不同說法,如打開空調就有可能出現開空調、溫度調高/調低、太冷/熱了等近百種方式。

昝智告訴創業邦:「除了語音識別,近年來語音合成領域也出現了越來越多的數據需求,因為只有擁有足夠多的音頻數據,廠商才能推出風格多樣的合成語音產品。」

面對這樣的市場環境,龍貓數據在轉型之初就打造了「龍貓眾包」數據服務平臺,通過線上發布任務,建立規範化採集、標註、審核、質檢、驗收流程的方式完成數據的採集和標註工作。

昝智告訴創業邦:「眾包模式看起來簡單,但在數據採集、標註領域,雜亂無章的數據是不能為客戶所用的,因此我們需要制定詳細的採集、脫敏、標註、審核、質檢方案,通過完善的流程確保數據安全可用。」

以圖像標註為例,採集來的或者客戶給到的圖片首先需要進行脫敏,然後利用標註平臺集成的AI自動標註功能對數據進行機器預標註,之後由標註員完成數據的標註、多輪次審核質檢,數據最終流到驗收平臺由客戶進行驗收和下載,不合格數據則流回標註池重新標註。整個流程全程可視可控,保證了數據集的產出效率以及合格率。

在談到數據採集、標註需要大量的勞動力參與的問題時,昝智表示目前的人工智慧數據服務雖有各類算法加持進行自動標註,但行業並不能完全脫離人工作業。從本質上來說,AI數據就是從人類社會中提取出來的,人工作業是幫助機器學習人類行為的不可獲取的一環。但這並不代表AI數據服務是一個勞動密集型產業。

昝智告訴創業邦:「我們雖然需要大量的人工參與,但這些人絕不是僅憑經驗就能完成工作任務,他們需要被培訓、被管理、被賦予一定的專業性,且隨著行業發展其知識結構需要不斷更新,這樣才能生產出優質的數據,從這一點來說,我們和勞動密集型產業有著本質的區別。」

龍貓數據在數據採集員和標註員集體中創建了一定數量的公會,對全職、長期的工作人員建立了管理流程和管理細則。同時,利用機器算法,龍貓數據還可以有效分析出某個採集員、標註員適合什麼樣的任務,並在一定程度上做到任務的指定派發。

「龍貓眾包」平臺上的用戶累計已經超過400萬,其中長期核心用戶超過2萬名。龍貓數據目前擁有近百名在職員工,結合眾包平臺上的用戶,可以為客戶提供文本、語音、圖像、視頻等多種類型、場景下的數據集產品,以及定製化的數據採集、標註服務,並按照數據集使用時長和定製化項目進行收費,年營業額已經達到億級。

融資方面,龍貓數據在今年初獲得了數千萬元人民幣的Pre-B輪融資,由KIP中國領投,金沙江創投跟投。此前龍貓數據已獲得過金沙江創投、九合創投、不惑創投、真順基金、雲天使基金等知名投資機構的多輪融資。昝智表示,最近一輪的融資資金主要用在了技術研發和開拓市場等方面。

本文文章圖片來源於龍貓數據,經授權使用。本文為創業邦原創,未經授權不得轉載,否則創業邦將保留向其追究法律責任的權利。如需轉載或有任何疑問,請聯繫editor@cyzone.cn。

相關焦點

  • 開發以中文「與數據對話」的AI決策系統,「訊能集思」要做人工智慧...
    IT調研和諮詢公司Gartner將「平民數據科學家(citizen data scientist)」定義為:「創建或生成具有預測性與說明性的數據模型的企業成員」,他們雖然不精於數據分析和編程,卻可以依託於完善的數據決策工具完成原本只能由高級數據分析科學家(Expert Data Science)完成的商業分析任務。
  • 「蘑菇智能」利用人工智慧+大數據技術,提供全流程的智能投顧服務
    其清晰的說明了投資收益中資產配置的重要性,而資產配置又是投資顧問的重要職能,但中國理財市場缺少優質投資顧問,且人工進行資產配置也有諸多局限性和不科學性。近期創業邦接觸到了一家專注於智能投顧的企業「蘑菇智能」,其面向C端投資者提供專業智能資產配置方案。
  • 「金猿產品展」Stratifyd——AI驅動的增強智能數據分析平臺
    應用場景七:人力資源利用Stratifyd數據連接器採集招聘網站數據,分析有關公司形象及管理體制相關的內部匿名評價,及時調整公司戰略布局,改善企業文化氛圍,完善獎勵機制,減少人才流失。產品功能Stratifyd增強智能平臺應用業界前沿 AI 算法,讓企業享受數據洞察帶來的非凡商業價值。
  • 如何推進專科醫療服務?「首佑醫學科技」以數據為紐帶探索腦疾病領域
    市場上的醫渡雲、零氪等醫療大數據服務提供商,提供患者服務的微醫、平安好醫生等,都鮮有涉及精神專科和神經腦疾病兩個垂直領域,市場相對空白。 從腦疾病切入的醫療服務提供商「首佑醫學科技」(以下簡稱:首佑),通過引入FDA發起的國際OMOP通用數據模型,聯合精神專科
  • Gartner預測2019年十大「數據和分析技術」趨勢:增強型分析成為...
    機器學習和人工智慧、增強型分析將為數據和分析市場帶來顛覆,因為它將徹底改變開發、消費和共享分析內容的方式,可使數據準備、洞察力獲取和洞察力可視化這個過程實現自動化,在許多情況下無需專業的數據科學家。 趨勢 2:增強型數據管理(Augmented data Management) 增強型數據管理利用機器學習功能和 AI 引擎來製作數據管理類別,包括數據質量、元數據管理、主數據管理、數據集成以及資料庫管理系統(DBMS)自我配置和自我調整。 增強型數據管理將元數據由僅用於審計、沿襲和報告變成支持動態系統。
  • 國務院辦公廳關於運用大數據加強對市場主體服務和監管的若干意見
    運用大數據推動行政管理流程優化再造。  (五)提高信息服務水平。鼓勵政府部門利用網站和微博、微信等新興媒體,緊密結合企業需求,整合相關信息為企業提供服務,組織開展企業與金融機構融資對接、上下遊企業合作對接等活動。充分發揮公共信用服務機構作用,為司法和行政機關、社會信用服務機構、社會公眾提供基礎性、公共性信用記錄查詢服務。
  • 36氪首發|「羅賽塔科技」獲數百萬元天使輪融資,推出「易得數據...
    36氪獲悉,大數據技術及應用提供商「羅賽塔科技」近期宣布獲得數百萬元人民幣的天使輪融資,投資方為個人投資人,此輪資金將主要用於新產品「易得數據」的產品完善和市場推廣。此前,36氪曾介紹了羅賽塔科技在另類數據服務方向的技術和業務。
  • 全國81所「大數據管理與應用」本科專業高校教育教學綜合排名一覽
    導讀:2020 年教育部公布全國 51 所普通高校成功申報「大數據管理與應用」本科專業,2019 年教育部公布全國 25 所普通高校成功申報「大數據管理與應用」本科專業,2018 年教育部公布全國 5 所普通高校成功申報「大數據管理與應用」本科專業。
  • 冬天來了,CEO更加關注人效,「六點一刻」推出數據驅動的人力管理...
    整個過程涉及大量二手和滯後的信息傳達,顯然不是最理想的情況。 36氪最近接觸到析源數據科技開發的「六點一刻組織健康診斷系統」,是由數據驅動的人力管理工具,把人力資源管理和企業經營結果建立關聯,幫助CEO直接實時了解組織的效能和健康狀況。 「六點一刻」最基本的功能是將實時數據可視化。
  • 「金猿投融展」Linkflow——讓數據流動起來
    產品和方案先後獲得聯想之星、微軟加速器、Facebook加速器等機構的孵化助力。構建了包括4A、運營服務商、產品廠商等方面合作夥伴生態,為客戶提供更加完善的合作與服務體系。重要產品及服務能力源犀科技核心產品Linkflow是一款低代碼客戶數據平臺(CDP),是國內較早涉足CDP領域的產品。
  • 機器之心「AI00」十一月最新榜單:兩家國內公司新上榜
    ,需要更多行業專家參與進來加以修正和完善。我們深刻地理解在沒有專業用戶反饋的情況下所做出報告的質量局限性,所以希望用工程界「Agile Development」的理念來對待我們的報告,不斷收集專業反饋來持續提升報告質量。人工智慧是一個永恆命題,我們不僅會把「100 家公司」這個主題持續做下去,還會陸續開展其他主題。這個過程需要人工智慧領域不同的參與者加入進來。
  • 利用AI工具幫助企業高效尋找零工,招聘平臺「Fountain」獲2300萬...
    這筆資金將幫助「Fountain」擴展業務範圍,為更多地域和更多類型的企業提供招聘服務。2015年,正值零工經濟(Gig Economy)興起的時刻,「Fountain」建立了一個為企業僱主尋找兼職和零工的招聘平臺,幫助解決美國零工市場面臨的高需求率和低招聘效率的雙重矛盾。
  • 提供高性能交易系統服務,「艾科朗克」完成5000萬A輪融資
    依託自主研發的FPGA硬體加速技術,公司為證券、期貨、基金公司提供國際領先的微秒級(百萬分之一秒)量化交易整體解決方案。「艾科朗克」產品體系覆蓋四大期貨交易所、兩大證券交易所,幫助實現極速交易並大幅提升盈利空間。據介紹,相較國外成熟市場,中國量化交易市場規模還存在很大成長空間,高性能交易系統是行業玩家的必爭之地。
  • 如何用「邊寫邊搜」寫論文?
    從閱讀到寫作,如何用 邊寫邊搜打造你專屬的 高效 文獻閱讀和論文寫作系統?邊寫邊搜是致力於成就效率愛好者的一款知識服務工具,提供 資料管理、聚合搜索、在線閱讀、一鍵引用、筆記摘錄、模版管理、協同創作、報告加速 等功能。「在線精讀」是一款基於雲服務的分屏閱讀和筆記應用,邊讀資料邊做筆記,打造個人專屬的高倍速閱讀理解體系。
  • 創新工場「數據下毒」論文入選NeurIPS 2019,AI安全問題需要引起...
    這篇論文的三位作者為:馮霽(創新工場南京國際人工智慧研究院執行院長)、蔡其志(創新工場南京國際人工智慧研究院研究員) 、周志華(南京大學人工智慧學院院長)。這篇論文圍繞現階段人工智慧系統的安全性展開研究,具體而言,文章提出了一種高效生成對抗訓練樣本的方法 DeepConfuse,通過微弱擾動資料庫的方式,徹底破壞對應的學習系統的性能,達到「數據下毒」的目的。
  • 央行副行長範一飛:金融科技重新定義數據價值
    裡面總結了金融科技發展的成績、面臨的挑戰,和未來的趨勢。作為來自重要監管部門的表態,這番演講內容值得細細研讀。今天摘錄了部分內容,圍繞金融科技的「新挑戰」和「新舉措」,看看範行長提到了哪些要點。一、金融科技改變了數據的管理方式金融科技重新定義數據價值,改變數據管理方式。
  • 每周AI應用精選:人像大數據解決方案;高級輔助駕駛系統方案等
    解決方案詳解:華為-依圖視頻雲人像大數據解決方案依託於靈活高效的計算平臺,打破傳統 CPU 邊界、使能異構加速,計算效率更高更靈活,為人工智慧的計算提供動力加速引擎。在華為中國生態夥伴大會 2018 上,華為聯合依圖科技發布了人像大數據解決方案,該方案以華為 IT 視頻雲解決方案為基礎,在融合依圖科技的人像大數據應用、視圖和人臉識別算法後,形成了以「人」為數據主體的智慧城市解決方案。
  • AI+醫療「最佳掘金案例」榜單出爐,致敬寒冬中的「持炬者」
    針對醫療AI各個細分領域的創新,今年「AI最佳掘金案例年度榜單」特設了五個「AI+醫療」獎項,深睿醫療、依圖醫療、聯影智能、推想科技、微軟亞洲研究院,憑藉各自優勢在眾多優秀競爭者中脫穎而出,分別榮獲「最佳醫學影像輔助診斷獎」「最佳醫學科研平臺獎」「最佳智能設備AI獎」「最佳肺癌全周期智能解決方案獎」以及「最佳全科醫學智庫獎」。
  • 數據標註員被取代?EasyData為開發者提供服務
    5月20日「WAVESUMMIT2020」深度學習開發者峰會上,百度AI開發平臺部總監忻舟宣布EasyDL全新升級,重磅發布了業內首個專注於AI開發領域的智能數據服務平臺EasyData,進一步加強數據管理與加工能力,並在完整地支持Master模式的訓練與開發、端雲一體服務部署方面帶來了4項重要升級。
  • CB Insights:2017全球AI企業100強(附下載) | 網際網路數據資訊網...
    H2O.aiH2O.ai 是 H2O 背後的製造商,H2O 是為數據產品設計的領先的開源AI平臺。47. iCarbonX(碳雲智能)該公司利用最先進的數據挖掘和機器分析技術提供個性化的健康分析和健康指數預測服務,擁有世界上最專業、增速最快的全息健康數據。【新智元採訪碳雲智能 CEO 王俊】:10 億美金估值,專注人類基因數據48.