電商運營之站內搜索的全面指南(七)

2020-12-05 人人都是產品經理

本文為大家簡要介紹了電商算法的形成過程,並將搜索算法分為了分詞算法、類目預測算法、商品排序算法、個性化千人千面四個部分進行介紹。

其實在電商站內搜索領域,其核心的機密基本上就屬於排序算法範圍內了。我在上一章節中誇下海口說要給大家嘮一嘮電商算法的形成的過程,其實是有點心虛的,因為我壓根不是算法出身,也無法給大家講解什麼拉格朗日公式的原理,貝葉斯的變形公式等。但是我能給大家解釋一下這些算法的形成過程,以及在形成過程中運營和產品是如何配合的,以及如何運用一個現成的方案,開發出一套高時間性價比的搜索產品體系。

電商站內搜索其實是以算法為核心,運營為輔助的模塊。說到底,如果搜不準,搜不全,運營的再好也只是空中樓閣,因此我們先講一講算法體系,再講運營方式。

那如果是我,如何從0起步建立起一套經濟實惠,省時省力的搜索邏輯體系(也有可能是我閉門造車,所以謹慎採納,不喜請誠懇地指正)。

說句題外話: 算法聽上去高大上,其實通俗地講,就是解決問題的方法,即便是計算公式再高大上,技術理念再先進,如果解決不了問題,一樣不能叫算法。

其次很多人以為算法其實應該是純計算機來解決,其實這是一種誤解,不可否認,計算機自動化確實是在算法中佔舉足輕重的地位,但是算法不僅僅是計算機,還有人工積累的比重,且不可或缺。

因此搜索算法也一樣,離開了人工輔助,算法什麼問題都解決不了。好了說正經的,搜索算法主要分為以下幾個核心:

分詞算法類目預測算法(解決準不準的基礎)商品排序算法(電商核心機密)個性化千人千面(電商數據提升機密)

分詞算法

我們先來了解下分詞算法:目前國內有專門的漢語分詞第三方分詞接口,且功能完善,成本低廉,能夠進行詞幹提取,語義分析,甚至情感判斷等。算法方面也是百花齊放,各有優劣,目前有三大主流分詞方法:基於字符串匹配的分詞方法基於理解的分詞方法基於統計的分詞方法。

基於字符串匹配的分詞方法

又稱為機械分詞方法,它需要有一個初始的充分大的詞典,然後將待分詞的字符串與詞典中的元素進行匹配,若能成功匹配,則將該詞切分出來。

按掃描方向的不同,字符串匹配分詞方法可以分為正相匹配和逆向匹配;按照不同長度的匹配優先度可以劃分為最大匹配和最小匹配(細節我就不在這說了,這種分詞方式是屬於最為簡單分詞方式,可以自行百度其工作邏輯和流程).

基於理解的分詞方法

這個就有點技術含量,國內的主要搜索大廠,比如百度、字節跳動等都在開發帶有人工智慧模塊的搜索算法。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。

由於漢語語言知識的籠統、複雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基於理解的分詞系統還處在驗證和試用型階段。

基於統計的分詞方法

即每個字都是詞的最小單元,如果相連的字在不同的文本中出現的頻率越多,這就越有可能是一個詞。因此我們可以用相鄰字出現的頻率來衡量組詞的可能性,當頻率高於某個閾值時,我們可以認為這些字可能會構成一個詞。

主要統計模型: N元文法模型(N-gram),隱馬爾可夫模型(Hidden Markov Model,HMM),最大熵模型(ME),條件隨機場(Conditional Random Fields,CRF)等。

優勢:在實際運用中常常將字符串匹配分詞和統計分詞結合使用,這樣既體現了匹配分詞速度快、效率高的優點,同時又能運用統計分詞識別生詞、自動消除歧義等方面的特點。

基於統計的分詞方式&類目預測

我們著重了解一下第三種,基於統計的分詞方式&類目預測。如果說有什麼算法是基於統計的,那麼這個算法肯定需要一個訓練集,而且這個訓練集需要是正確的,人為校驗的。

因此我們所說的這種算法,則是在人工標註的訓練集上訓練而成的。因此我們接下來將要討論的算法是——類目預測訓練集。

目前從訓練集上來看,收集的方式主要有兩種,第一種是人工中心詞收集,第二種則是機器分析與訓練。

人工中心詞收集

這個方案其實是比較討巧的,基於規範的詞典詞語來進行收集,主要收集物品詞&品牌詞。

之所以要選定物品和品牌詞收集還是基於上一章提過的app購物行為假設,即用戶在購物app中始終是以搜索物品或者品牌的型號/物品為最終目的。

如果用戶進入app不進行物品詞或者品牌詞搜索,這個用戶對該app而言的價值顯然會大打折扣,也許有的人會說,每天搜索的人那麼多,保不齊會有人搜索比較範範的詞,那不算嗎。其實是算的,但是我們現在講得是基於統計概率來說,如果95%的人都搜索物品和品牌,那麼你現在糾結5%的人不是這樣的情況顯然是沒有意義的。還是那句話,越是想兩全,越是兩遍都不全。好了,言歸正傳。收集的流程如下圖:

道理很簡單,即通過收集站內每個類目所售賣的物品,同時通過拓展這些物品詞的同義詞和上下位詞,來對應這些類目。同時機器也可以通過算法來進行收集,對所有商品標題進行ngram統計切分,統計出每個類目出現頻率最多的詞和詞組等,與人工收集的相對照進行檢驗和補充。這樣我們就得到了一個物品詞-類目的對應表。一個簡單高效的訓練集就誕生了。

那麼肯定有人會說「也不行啊,你光收集物品詞了,還有氛圍詞、人群詞呢?比如學校、工地、男士、女士你都不收集了,男士鞋子你怎麼辦?」

當然不是,這個物品-類目詞的對應表訓練集只是個基礎。只有在保證訓練集非常準確且覆蓋面全的情況下,才能確保機器進行訓練,且即便我僅僅是打個基礎,也能比較正確的召回,你是不是忽略了全詞匹配的作用了?

在物品詞訓練集整理好之後。接下來可以開始對用戶關鍵詞開始分析了,即通過用戶輸入的關鍵詞統計點擊行為,描述這些點擊落在哪些類目的概率,並分析這些關鍵詞和訓練集中的物品/品牌型號詞的類目關係,進一步進行人工校對和遍歷。

這樣就得到了一個用戶行為和網站商品數據的合集訓練集,在經過人工校對後就形成了一個準確性好,覆蓋面高的訓練集。此時經過不斷的人工校對-機器訓練-再校對-再訓練的過程,直至想要達到的效果。一個類目預測算法就此誕生(以上你們看看就好,當我自嗨好了)。

機器訓練需要切實的關鍵詞進行離線訓練和離線評估,以及在線ab和數據評估。前者是自己在離線環境下,使用用戶輸入的關鍵詞進行訓練並離線人工評估準確度;後者則是將訓練好的模型上線,採用ab測的方式,開一部分小流量進行在線實戰測試,並通過收集測試組的數據指標評估和分析效果。這也是網際網路產品迭代最主要的測試方式之一。

類目預測的人工和機器算法相結合的算法大概就是這樣,其實還有其他便捷的途徑,就是邏輯沒有以上這個清晰,所以我就不單列出來了。

商品排序算法

基本的類目排序邏輯確定好之後,我們其實會發現,用戶的關鍵詞其實是一個巨大的行為數據寶庫,用戶從輸入關鍵詞那一刻起,從點擊商品,到收藏,到加入購物車,到購買行為等,都能透露出其購物偏好。

如何將這些行為有效的記錄並訓練起來也能對商品的排序準確性和購買率起著較大的影響,其實目前各大網站的推薦算法還是有一些問題的,比如我前幾天在淘寶上買了一臺電視,結果接下來的日子裡我的首頁都充斥著各種電視的圖片,以及連結的外部DSP廣告也給我推送電視的信息(這就是侵犯個人隱私的大數據統計算法所為)。

商品排序算法的輪廓我已經在之前的章節提及,各種維度我就不再贅述,只說說這種排序權重計算規則的由來,一言以蔽之就是不斷調整每個維度權重的數值,並上線ab測試,以產出比最高的一組作為最終的算法排序規則。

當然這一規則和算法並不是恆定不變的,是隨著維度的不斷豐富和數據變化不停調整的。

個性化千人千面

現在各家網站都講求個性化千人千面,這也是我們看到京東、淘寶、蘇寧等電商首頁時,其個性化推薦模塊給你推薦你曾經看到過或者似曾相似的商品。並不是他們聰明了,而是你的行為被收集處理過了,展現給你的,就是你想看的,或者說想買的。(錢包也是這樣被掏空的)

好了,這期就到這吧。其實我有挺多關於人工和機器算法的結合的想法和嘗試,只不過在和工作中的同事交流時,因為各種原因未能付諸實踐,我將其保留在自己的OneNote筆記中。有機會分享給大家。

預告下一期內容:搜索運營溝通和產品如何配合,使搜索影響力最大化。

#專欄作家#

本文由 @王歡 原創發布於人人都是產品經理,未經許可,不得轉載。

題圖來自Unsplash,基於CC0協議

相關焦點

  • 中星環球購電商平臺全面投入運營
    2018年7月13日,「天津中星集團電商平臺——中星環球購新聞發布會暨戰略合作籤約儀式」在北京鳥巢米開朗基羅展廳盛大舉行。據悉,本次活動由天津中星實業集團有限公司組織發起,旨在宣布集團旗下電商平臺——中星環球購項目全面投入運營,同時完成天津中星實業集團與其他幾家公司的市場營銷合作籤約。
  • 如何打造跨境電商平臺亞馬遜amamon完美的Listing及運營瓶頸突破
    在亞馬遜運營過程中,賣家都十分關心產品的listing的排名以及怎樣提升排名,但很多賣家也對影響亞馬遜listing的排名因素並不明確,所以在打造排名過程中往往南轅北轍。吉易跨境電商學院實力賣家兼講師富佳老師全面解析亞馬遜Listing的打造之道。
  • 10點聊電商:谷歌圖片搜索開啟電商模式
    整點電商:截止10點 ,你錯過了哪些電商圈大事兒小情?邦報導谷歌針對谷歌圖片搜索推出了新功能。當商戶搜索圖像並點擊圖片時,圖片會顯示在搜索頁面的側面面板上(即搜索結果旁邊)。邦分享奢侈品和電商是否合拍?
  • 杭州蕭山機場新國際快件(跨境電商)中心全面投運
    9月25日,杭州蕭山國際機場新國際快件(跨境電商)中心全面投運。當天上午,杭州機場物流公司在新國際快件(跨境電商)中心內舉行投運儀式。
  • 杭州機場新國際快件(跨境電商)中心全面投運
    杭+新聞訊 9月25日,杭州蕭山國際機場新國際快件(跨境電商)中心全面投運。 當天上午,杭州機場物流公司在新國際快件(跨境電商)中心內舉行投運儀式。新國際快件(跨境電商)中心位於杭州機場貨站C區(A區為國內貨站、B區為國際貨站),由原來的郵快件中心(聯邦庫)改建而成,庫區面積約7500平方米,擁有2條快件通道和4條跨境電商通道,新快件中心配套相應的陸側停車場和空側待運區,設計國際快件吞吐能力7.1萬噸,有效緩解杭州機場國際貨運保障瓶頸,在努力實現「浙江貨浙江走」進程中發揮重要的作用。
  • 電商網站搜索框中的默認詞與熱詞該放啥?
    默認詞與熱詞都在電商網站的首頁,可見是屬於非常重要的資源,因此怎樣更好的運營搜索框的默認詞與熱詞就成為關鍵。在此之前,我們思考一下,默認詞語熱詞可以放哪些東西?這給我們一個啟示:搜索框運營的人員應該整理一份與隨季節變化商品需求顯著變化的單品表,這個 表可以一定程度上指導搜索框的運營。
  • 電商淘寶運營怎麼給產品打標籤?
    做電商運營淘寶賣家都想把手淘首頁和店鋪做起來,這其中關鍵的一點就是人群標籤。淘寶千人千面,人群標籤對店鋪來說是非常重要的,所以賣家必須要做好商品的標籤,買家通過標籤才能搜索到店鋪,找到自己需求的商品下單。
  • IMCART - IMCART-跨境百科-跨境電商雨果網
    5、推廣運營合理的運推廣營模式體現了網站的運營專業程度,IMCart多個實用的功能確保商家日常運營。6、系統設置多年實際開發經驗,IMCart電商平臺打造了一套目前業 內最合理完善且安全可靠的外貿B2C購物系統。7、數據魔方商品銷量,訂單統計,註冊報表,搜索詞統計,喜好報表,購物車報表等。
  • 八大實用Instagram營銷技巧,玩轉跨境電商站外流量打法
    雙十二大促落下帷幕,Shopee官微在12月14日發布的戰報中,重點提到了與海外社交媒體的站外合作, 「跨境品牌透過Shopee與Facebook合作的官方廣告CPAS精準投放,有效轉化優質站外流量」。
  • 跨境出口電商一周猛料:亞馬遜美國站更改退貨政策,川普政府很快...
    有超過1500名美國賣家參加了此次慶典,共同探討了eBay的未來發展方向、以及在eBay上運營和拓展業務的成功之道。 SHINE Awards for Small Business項目收到了來自美國賣家的2400份申請。eBay從這2400份申請中挑出15名決賽者,共涵蓋了5個品類。然後eBay通過投票的方式在每一個類別中挑選出一個贏家。
  • 明月鏡片全面啟動「雙十一」 聚焦1.71共贏品牌紅利
    明月鏡片董事長謝公晚先生專程出席了本次會議,會上明月鏡片發布了電商戰略規劃,希望通過線上業務發力,啟動明月鏡片業務增長的另外一個「發動機」,打造品牌高地,並邀請資深電商運營專家及經銷商在此話題下進行深度分享,共同實現品牌越做越大,互利共贏。
  • 百度前高管向海龍加盟 國美電商能否逆襲?
    在此後的幾個月時間內,對北京分公司組織架構、業務流程、激勵制度、營銷方法等方面進行了優化和調整,較好地解決了以前的諸多業務問題,北京地區3月的業績增長速度高於全國平均增長速度。 2007年4月,向海龍出任百度公司銷售副總裁,負責公司競價排名業務的全國銷售管理工作,包括銷售運營、直銷管理、渠道管理和企業市場。
  • 跨境電商APP競品分析:小紅書、網易考拉和達令
    達令高頻次的電視營銷,尤其是其他們的小鹿董 – 鹿晗的加入,在一年內狂攔了一千 多萬的用戶。達令的運營活動充斥著整個軟體。毋庸置疑,達令強大的運營框架和豐富的運營內容已經成為了它的核心功能與核心競爭力。
  • 電商數據化運營-從觀念上做出改變
    在這個大數據時代,很多企業都開始利用企業大數據進行數據化運營,無論是對外營銷還是內部管理。最常見的利用數據化運營的行業就是新零售行業了,因為數位化的交易讓數據量和數據價值都在上升。但是很多企業只是為了做數據化運營而做,就像空殼機器沒有靈魂。
  • 品牌電商代運營,索象營銷的另一場戰役
    (索象電商團隊618全面備戰,向預定目標衝刺提速)一、索象為何加碼品牌電商代運營業務?中國電商已進入一個全新的新零售時代,這是一場以數據為核心的革新。作為中國知名的數位化整合營銷服務提供商,索象一直以來都主張數字商業的競爭實質是「以品牌為中心的數位化整合營銷能力」,「無電商,不整合」,在電商崛起的當下,立足於「電商之都」杭州,索象依託得天獨厚的資源優勢,將電商納入到數位化整合營銷生態鏈條,為索象的品牌營銷服務搭建
  • 國內的自媒體運營和做外貿跨境電商之間的共通性之二
    前面外貿黃大仙講過一次自媒體運營和做外貿跨境電商之間的共通性,另外也總結了我們半年以來做自媒體的運營感受。為什麼黃大仙說自媒體運營的很多思路和外貿跨境電商之間是相通的呢?外貿跨境電商也一樣,前面黃大仙講過很多B to B的門戶網站,我們自己經營兩個獨立站兩個阿里巴巴國際兩個速賣通兩個ebay一個亞馬遜。在早些時候,10年的時候,外貿黃大仙專門去提到的這50多個網站註冊帳戶發布Selling Leads或者Product。
  • 2021跨境電商面對未知挑戰,獨立站會是持續出路?
    實戰多年跨境電商,從事過amazon wish 速賣通 lazada shopee eBay 法國PM,現在主戰shopify獨立站運營
  • 2020-2026年中國跨境電商市場全面調研與發展趨勢報告
    《2020-2026年中國跨境電商市場全面調研與發展趨勢報告》通過跨境電商項目研究團隊多年對跨境電商行業的監測調研,結合中國跨境電商行業發展現狀及前景趨勢,依託國家權威數據資源和一手的調研資料數據,對跨境電商行業現狀及趨勢進行全面的調研分析,採用定量與定性相結合的科學研究方法撰寫而成。
  • 阿里管理層,七位「80後」挑起重任
    昨天阿里集團CEO張勇(逍遙子)發出了一封致員工信,稱將全面啟動阿里巴巴集團2018年中臺戰略,新成立阿里巴巴集團中臺事業群,張建鋒(行癲)任總裁,直接向張勇匯報。  中臺事業群包括:搜索事業部、共享業務平臺、數據技術及產品部。「中臺將集合整個集團的運營數據能力、產品技術能力,對各前臺形成強力支撐。」
  • 10個免費小眾的網紅、跨境電商運營工具
    公眾號:運營有道理,跨境電商工具、國外SaaS介紹。