AI產品經理的入門必修課(4)——知識圖譜

2021-01-13 人人都是產品經理

編輯導語:通過知識圖譜,不僅可以將網際網路的信息表達成更接近人類認知世界的形式,而且提供了一種更好的組織、管理和利用海量信息的方式;本文作者分享了關於AI產品經理的知識圖譜簡介以及利用,我們一起來了解一下。

01 為什麼要了解知識圖譜

AI核心要研究的是如何讓計算機去完成以往需要人的智力才能勝任的工作,而人的智能性核心體現在對不同事物的感知能力、推理能力、決策能力;因此要想做出AI產品就離不開對感知的研究,推理機制的研究以及智能決策方向的研究。

對感知智能而言,AI已經做了很多突破,例如機器對聽覺、視覺、觸覺的感知能力,通過攝像頭、麥克風或者其他的傳感設備,藉助語音識別、圖像識別的一些算法模型,能夠進行識別和理解。

感知智能的發展能夠採集到海量的不同來源及不同存儲方式的數據,如果想要用這些數據做出具體場景化的應用,目前市面上常用的方式有兩種:

統計分析,也就是在業務中做的最多的數據理解和分析,包括了語義分析、情感分析,及各種指標分析的數據可視化。決策,基於收集或者產生的數據去做自動化決策,或者智能推薦、智能問答等。而在做這些內容時依賴的核心技術就是知識圖譜相關的技術。

02 知識圖譜是什麼

了解知識圖譜是什麼之前,先了解數據、信息、知識之間的關係。

數據是指聲音、圖像、符號,通常指最原始的記錄,數據間彼此孤立,沒有經過加工和解釋。信息是指數據經過加工處理後,建立了某種聯繫或增加了某些屬性;信息可以經過加工和處理轉化為數據進行存儲,數據是信息的表現形式。知識是通過實踐獲得的認識或經驗的總和,可以是已經文本化的知識,也可以是存儲在大腦中的認知。eg:

「38.5」這是一條數據,不具有任何意義。

「小明測量體溫為38.5度」這是一條信息,並且38.5是一個關鍵指標。

「正常人體的溫度為36-37度,當體溫超過基礎體溫1度及以上時,即認為發熱,而不同的溫度範圍又可分為低熱、高熱…」這是一條知識,是通過許多病例、實驗總結出的公認正確的。

「小明發熱了,因為他體溫為38.5度」這個結果是由知識推理而來的。

知識圖譜是基於圖模型來描述知識以及構建關聯關係模型的技術手段,現實世界中常用到的知識,或者我們腦海中記住的知識,通常是一段描述性的話;而知識圖譜就是將某段描述知識的話抽象成主體、屬性、關係的三元組,並利用圖譜的形式呈現出來。

如下圖即是一個簡單的知識圖譜,「張栢芝」、「謝霆鋒」、「王菲」是人物主體;「出生年月」、「性別」、「年齡」為主體屬性;「前妻」、「現任女友」、「情敵」為知識抽象出的關係。

知識推理過程

「前妻」知識:

男女雙方在法律上曾經成立過婚姻,後通過協議或訴訟的方式解除了婚姻,終止了夫妻間權利和義務,對男方而言稱呼女方為前妻。

推理過程:

張栢芝和謝霆鋒之間在法律上曾經成立過婚姻,後解除了婚姻,且張栢芝是女性,因此張栢芝是謝霆鋒的前妻。

在知識圖譜技術中,「張栢芝」、「謝霆鋒」、「王菲」被稱為節點,節點可以是實體也可以是抽象出的概念;加粗的黑線稱為邊,表現實體或概念之間的關係,如「張栢芝」和「謝霆鋒」的關係是「前妻」。

圖中每一個圓都是一個節點,連接圓的直線都是邊,可以看出知識圖譜是由節點和邊組成;而節點和節點之間的邊,可以是屬性、也可以是關係,例如「張栢芝」、「謝霆鋒」之間的邊代表的是關係,「張栢芝」、「性別:女」之間的邊代表的是屬性。

可以用來做什麼?

最早知識圖譜的應用是用來提升搜尋引擎的能力,早期的搜索,是依賴網頁間的超連結、搜索關鍵詞與網頁包含關鍵詞的匹配關係進行精確或模糊搜索。

但網際網路終極形態是萬物的互聯,搜索的終極目的也是對萬物的直接搜索,因此僅依靠關鍵詞之間的匹配不足以滿足日益豐富的搜索需求。

在傳統的搜索模式下,當我們搜索「謝霆鋒的前妻是誰?」,檢索結果可能是某個網頁中包含了「謝霆鋒的前妻是張栢芝」這句話,我們才能找到網頁,在從網頁中的信息中得知謝霆鋒的前妻是張栢芝這個結論。

而上圖知識圖譜的建立,當搜索需求產生時會快速的返回「張栢芝」及個人信息。

知識圖譜的構建原理及流程?

知識圖譜的構建通常分為兩類,一類是開放域的知識圖譜、一類是垂直領域的知識圖譜;像google、百度搜索等搜尋引擎建立的知識圖譜屬於開放域的,像某個領域,電商、金融、圖情、生活娛樂等基於具體領域和場景構建的知識圖譜為垂直領域的知識圖譜。

兩種圖譜的場景應用不太一樣,但涉及的底層邏輯和構建流程是相似的。

知識圖譜的構建涉及了知識表示、知識獲取、知識處理和知識利用等多方面。

知識表示:

簡單理解就是設計者把得到的知識,針對各種問題的類型和場景,設計成多種表現形式,而使用者可以直接使用這種設計好的表示方法來代表這類知識信息。

例如我作為系統設計者,我定義了「V」為「或」的意思,其它使用者均可用「V」代表「或」。

知識獲取:

指人通過設計、程序編碼、人機互動使機器獲取知識;例如人為建立知識庫,讓專家系統來獲取知識,大部分都是通過人工的方式將人類的知識存儲到機器中,這個過程就是知識獲取的過程。

知識庫是相互關聯的事實及數據的集合,常被用來支持專家系統,是專業領域內規則的集合,包含了規則所聯繫的所有關係和數據。專家系統是人工智慧研究方向之一,是指利用人類某個領域專家解決問題的知識或者方法來進行程序化,依賴知識庫中的知識體系來進行決策。知識處理:

包含了知識的加工、邏輯判斷、推理、知識輸出的過程。

nlp自然語言處理是知識處理的核心。

知識利用:

將規範的知識結構應用到具體的場景之中,創造價值。

在構建技術上,數據和算法是知識圖譜的底層支持,包含了信息表示、信息抽取、信息融合、信息推理和信息決策等多個階段。

信息來源:

通常可以通過多個渠道或者來源來獲取知識圖譜的數據,包含了文本、結構化資料庫、多媒體數據、傳感器數據、人工眾包數據等。

信息表示:

利用計算機語言來描述人腦或者文本中的知識,來幫助進行下一步推理。

應用到的技術手段,例如文本數據,通常會使用nlp自然語言處理技術,進行實體識別、實體連結、關係抽取、事件抽取等從文本中抽取出知識,在利用RDF把三元組作為基本的數據模型。

基本邏輯包含了實體、實體屬性、實體之間的關係。

信息抽取:

結構化和文本化的數據是目前主要使用的數據形式,從結構化數據中抽取信息一般使用現有的D2R工具,如D2RServer。

從文本中抽取信息主要經歷實體識別和關係抽取兩部分,關係抽取一般可以使用基於特徵模版的方法(人工打標籤),或者機器學習的方式進行抽取。

信息融合:

通常自己的數據源或者知識庫不足以構建解決實際問題時,會去從第三方的知識庫或者收集其他渠道的結構化數據進行融合;主要包含了模式層的融合和數據層的融合,核心解決的問題是避免實體與關係的衝突,或者相同實體含義但使用的不同的數據標識符,造成了不必要冗餘。

知識圖譜補全與推理:

此環節核心是依賴於補全算法去實現,一種方法是基於本體推理的補全方法,另一種是基於圖結構和關係路徑進行補全。

通常推理和補全是一個相互協作的過程,通過推理發現有問題的地方,進行補全。

應用與決策:

語義檢索、智能問答、智能決策系統、推薦系統。

下面通過具體示例來理解知識圖譜的構建流程:

03 應用實例:電商知識圖譜的構建

在目前電商的交易場景中,交易規模巨大,不僅涉及了線上、線下交易場景,還有各種新零售、多語言平臺、線上線下相結合的各種複雜的購物場景,企業對數據的聯通需求越來越強烈,因此電商的知識圖譜對於行業而言變得很重要。

電商的知識圖譜主要是圍繞商品構建的,基於人、貨、場的主要框架進行拆解。

在電商這個領域下進行知識表示時,首先需要確認共涉及多少個一級本體、二級本體,電商知識主要的獲取來源是知識眾包,核心涉及了本體的設計,圍繞商品本身的屬性、消費者的需求、平臺運營管理的機制。

在不同平臺和渠道的數據採集工具不一樣,採集上來的數據的存儲形式也會略有差異;例如電商的賣點、詳情、圖片、評價,輿情信息中的品牌和口碑,涉及了大量的文本數據、圖像數據。

在進行知識表示時涉及了各種NLP、CNN技術;要求知識命名識別系統具有大規模實體類型識別的能力,並且把識別出的主體與知識圖譜進行連結。

以阿里電商認知圖譜的示例主要包括:

商品域:型號、尺碼、大小、顏色、口感、材質..

用戶域:

性別、年齡、風格、品牌、購買力…

LBS域:購物場景、群體、泛品類……

然後需要對實體進行描述,除了基礎的屬性及屬性值以外,需要通過實體標籤進行實現,大部分實體標籤變化比較快,通常是通過知識推理獲取的;例如商品的標籤中,可以通過材料的配比或者國家行業標準進行處理。

例如:

低糖:食品每100克或100毫升的糖含量不能超過5克;無糖:食品每100克或100毫升糖含量不能超過0.5克;通過知識推理,可以根據商品配料表中的數據轉化為「無糖」、「低糖」的知識點,從而將數據轉化為知識標籤;大部分信息在提取之後會比較零散,需要將已建立好關係的知識庫中或者第三方的知識庫來源的信息做融合,以及實體對齊、實體消歧義的技術操作。

實體對齊:

例如迪奧是一個品牌名,DIOR為同一個品牌的英文名,雖然是同一個品牌由於文本不一樣,會被計算機識別為兩個實體,因此我們需要將類似的內容對齊和統一化。

實體消歧:

例如蘋果是一種水果,在某些上下文中它可能表達蘋果手機,這時需要根據上下文進行實體消歧。

完成上述操作後,才會進行實體的抽取,實體抽取的過程中會利用算法進行實體間的相似性計算,主要依賴於本體庫中建立的本體之間的關係,進行推理和補齊;例如不同人買了同一件商品,或買了相似商品,該以怎樣的節點進行知識圖譜的關聯;可以採用自動化抽取或者人工抽取的方式進行實現,自動化抽取可以大批量任務,以及在多源異構的數據處理中具有極大優勢。

但對於複雜場景的抽取和識別依舊需要人工的介入。

在初步的知識圖譜構建成功之後,需要進行知識庫的質量評估,當部分關係無法通過知識庫進行抽取時,需要進行知識推理算法及知識圖譜補全算法進行關係鏈路的優化;目前市面上已有部分技術上的解決方案,感興趣童鞋可以查閱更多資料進行擴展。

#專欄作家#

人人都是產品經理專欄作家,《數據產品經理修煉手冊》作者。

本文原創發布於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議。

相關焦點

  • 知識圖譜的皇冠:知識圖譜推理的前世今生
    [ 導讀 ]業界和學界對知識圖譜的關注主要集中於兩大領域,分別是知識圖譜的構建和知識圖譜的應用。 前者聚焦於通過對結構化、非結構化數據的整合,實現統一形式的數據存儲;後者則著眼於通過算法對海量知識圖譜數據進行學習與挖掘,從而推理出新的知識,服務於具體行業應用。
  • 未來五年產品經理必死
    焦慮4:對行業信息的不敏感雖然鼓吹產品經理是mini CEO,但是很多時候,產品經理只是CEO的想法過濾器和執行者,他不像市場運營人員,深入行業一線,了解行業一線信息,積累行業人脈,也不像老闆們,有自身的一個行業圈子,行業的最新變動和觀點,敏感性更強,對行業信息的不敏感已經是很多產品經理的通病,在這個行業深耕了很長時間,
  • 產品經理35+後還有未來麼?
    >轉行產品比較多,沒有行業門檻2:產品工作千奇百怪3、產品經理的天花板太低4、熱潮漸漸趨於冷靜以上幾點來看基本分為四點來看就這2個例子來說可以理解到的是創業公司需要產品老人或者老闆自己就是真正的產品經理,因為容錯率低,所以在招聘廣告上有時候看到的是20-100K去招聘一個產品經理,但是對於產品經理來說,這個(血汗)錢不好拿,至於為什麼大家可想而知我就不碼字了。
  • 《奇葩說》連續7季爆火,產品經理能得到什麼啟示? | 人人都是產品...
    自2015年起點學院上線了產品經理體系課程——產品經理實戰訓練營以來,我們幫助了數十萬同學提升產品能力,我們也深刻知道,那些想要擺脫「野蠻生長」、告別「缺乏系統知識與方法」的產品人的痛苦。課程特邀4位10年+產品經驗的老司機,線下親自授課,尤其適合1~3年的產品從業者。
  • 寫給產品新人:如何直觀認識產品經理職位?
    文章看了很多,光是覺得產品經理要做的事情好多,可是那些才是重點呢?」——一些準備轉崗產品的朋友如是說。筆者同樣為半路出家,轉崗成為產品經理。非常幸運地在自己熟悉的領域摸爬滾打了幾年後,對產品的入門有了自己簡單的積累。在此僅將我個人的一些心得寫出來,希望能夠對一些新入行的朋友有所啟發,也歡迎各路神仙指點。
  • 產品經理崗位職責
    在大型公司裡,PM通常和UI設計師或互動設計師一起完成產品設計,不過在小公司或者創業公司裡,產品經理也許需要全包這些工作。這是產品經理工作中最有價值的部分,如果產品經理工作中不包含這部分內容,那幾乎可以肯定的說,那不是產品經理的工作。
  • 深度|人人都不想當產品經理了
    「這是網際網路行業,如果我在北上廣的話,起碼能拿到3字開頭的工資,有十多年工作經驗的話,能到4或者5開頭,還可能更多。就是在南京,我也沒想到他會提2萬以下。」 於益虎說。多名產品經理告訴我,2010年之後,大量新興的網際網路公司崛起,對產品經理的需求量急劇上升,但大學裡沒有產品經理相關的專業,市面上的各種短期培訓班又撩撥著欲望,「60天實戰快速拿60萬高薪」、「黑馬程式設計師打造實戰型產品經理,助你從產品經理邁向CEO」。
  • 斑馬ai怎麼樣,揭秘最受用戶歡迎教育產品『好在哪裡
    按照斑馬英語課程規劃:  S1級別適合2-4歲孩子學習,英語啟蒙入門階段,主要是教學孩子們認識身體部分等單詞,學唱4首英文兒歌,一個級別學習完26個字母(包括大小寫);要注意的是前面U1-U10z這幾個小階段都只學習2個字母,後面兩個階段學習3個字母。
  • 未來,產品經理會消失嗎?
    如果說產品經理是最接近CEO的一個職位,是因為它的工作是調研出最可行的商業模式,還要考慮最低的研發成本和推動方案落地。 2019年的產品經理已經不能只是停留在原型上,更多的是要站在商業價值與產品、企業資源與產品、行業需求與產品3個維度去思考。因為上面極具複雜的要求,產品經理也被稱呼為最難接外包賺外快的職位。
  • 商業產品經理崗位分析及個人能力養成計劃
    崗位要求:五年以上工作經驗,有過完整的推薦與算法相關產品經歷優先;熟悉並理解機器學習與算法相關知識;目標導向,結構化思維,良好的溝通能力、推動能力,擁有強烈的責任心和團隊合作精神;熟悉網際網路產品整體實現過程和生命周期,了解O2O業務場景。
  • 產品經理建立信任感為什麼那麼難?
    人與人的信任是1分1分積累的,但卻是10分10分扣減的產品經理和技術之間的信任建立有多麼重要,相信產品經理都深有體會,評審前思考的更加全面一些、PRD寫的更加仔細一些、甚至「跪舔」技術大大們(當然我們的技術大大們都是辣麼的通情達理,更多的時候都是在幫助產品汪們一起梳理總結),在這個過程中產品經理辣麼努力,但,請相信信任是一分一分積累的,如果一不小心
  • 金天國際雪蓮貼主導行業標準制定,指紋圖譜分析技術科學認證產品價值
    中藥指紋圖譜,即中藥身份證,是指中藥化學指紋圖譜,實際上是一種保證中藥質量的措施,是對中藥材或中成藥運用現代分離分析科學的手段,得到能夠標示中藥的色譜或光譜的圖譜,最終用來對中藥質量評價的一種科學性方式。通過指紋圖譜的特徵性,有效鑑別樣品的真偽和產地;通過指紋圖譜的主要特徵峰面積或比例制定,有效控制質量,確保所有同類產品的質量標準化,達到一致性。
  • 產品經理2020進階指南:如何養成你開掛的職業技能樹?
    具體來說,在其他條件相近的情況下,如果是普通學校的新人,招聘進來學習兩年產品經理相關知識後,他在市場上能輕易找到的可能是一個非一線公司的產品經理崗位或者一線公司的非核心產品崗位。而且跳槽後的加薪幅度可能是常規的30%左右,但是考慮到遷移成本,他不一定會跳槽。
  • 都是產品經理,憑什麼數據PM工資高?
    如果你是產品經理,可以考慮一下數據產品經理的方向。近年來,身邊不少從事數據產品經理的朋友都在數據行業有非常多的收穫和成長。01 數據產品經理是誰?這時,數據產品經理的出現,幫我們梳理核心價值,提高數據價值應用的效率,走上了歷史的舞臺。數據PM,是「數據時代天條的制定者+方舟的設計師」,既是制定規則的人,也是讓規則發揮價值的人。
  • 產品經理的高階能力:架構圖的設計與畫法
    一、基於抽象和複雜對產品經理個人能力的一些思考日常的工作中,假如你身邊坐了一個女程序猿,為了讓乏味的工作氛圍增加點提神的荷爾蒙,文藝又懂點技術的你可能會對她說:小姐姐,我能把世間萬物抽象成一個類,但唯獨不能抽象你,你在我眼裡美的那麼具體。然後她開心的接過了你改了又改的需求。
  • 中年執行產品經理,你幾乎沒有未來
    作為80後的產品經理,在這個充滿活力的網際網路公司裡,顯得那麼格格不入。在這裡,90年的都是哥、姐,大部分人都是95年左右。可想而知,一個80後的人,該作何感想。前段時間,招聘小夥伴在群裡發了下面這樣一條求職信息,並扎心的說「這個人都快趕上我爸了,還在找工作,不容易呀」。
  • 新品牌 新戰略 新產品 新團隊:梅泰諾更名數知科技發布會
    數知科技已經積累了海量數據,並利用在自然語言理解、知識圖譜、機器學習、大數據等領域的技術優勢,構建業內領先的人工智慧服務。數知科技在智慧營銷、智慧城市、智慧金融、智慧醫療等垂直領域已取得了領先的成果。在大數據人工智慧領域,我們會立足現在持續發力,提供更優質的知識服務。  大數據事業群總裁程華奕:建設數據時代新四化
  • 以產品經理角度,解讀視頻號背後邏輯
    就需要引流到公眾號中,只要有這樣才形成閉環,做產品最重要的就是不能斷層,做內容的原因就是為了轉化。目前京東、網易雲音樂、汽車之家、易車都已經布局視頻號,其中京東的內容及運營、營銷做的比較有深度,並且從數據上看已經達到了裂變的效果。4. 自媒體創作者對於內容創作者來說,公眾號是一個中心化的產品,就像一個封閉的魚塘,池塘好不好要看魚有多少。
  • 為什麼大多數產品經理看不清自己的未來?
    06年開始為別人做網站策劃的時候哪裡知道什麼叫產品經理?當時也會做些簡單的前端頁面開發和資料庫操作,還記得為了畫矢量的icon去學習coredraw。所以被別人叫過美工(當時還不叫設計師)、技術、項目經理甚至簡稱「經理」。嗯,承認被叫「經理」的時候會啟動自嗨模式,沒辦法,人性。對了,我現在是一名互聯諮詢顧問,為更多的企業進行產品諮詢與產品人才引入。
  • 網際網路行業產品經理(PM)的月薪一般是多少?
    不然就會面臨↓上周三知道的是:前公司新招的產品經理比我在的時候多四五千,比我跳槽出來後現在公司給我的還多。中午剛知道的是:前前公司現在的產品經理是我在的時候的工資的兩倍還多,比我跳槽出來又跳槽後現在的公司給我的還多的多,比我上家公司給他們產品經理的還多。