迄今為止,真正有利於中華文化傳播的產品少之又少,為什麼英語學習工具內容多樣且可定製化,而沒有一款內容和體驗與之匹配的漢語學習工具呢?
說明:
第三塊的 3.2-3.4 屬於技術理論,參考了字節跳動的內容推薦機制,非常棒的功能實現,表示膜拜……其他內容都是我從行業和自我體驗中啟發的,現在的漢語學習工具基本是以字典形式服務於用戶。我個人很推崇 Rossetta Stone,當初能快速掌握菲律賓語還要感謝 YouTube 的優質分享內容。結合自我的學習經歷,語境和應用非常的重要。為什麼英語學習工具內容多樣且可定製化,而沒有一款內容和體驗與之匹配的漢語學習工具呢?
一、項目背景截止2018年底,全球學習漢語的人數超過1.5億,全球掀起的漢語熱讓不少漢語學習工具出現並發揮作用,但迄今為止,真正有利於中華文化傳播的產品少之又少。
經過調查,大多數線上漢語學習應用軟體可分為兩類,第一類是搭配語音或筆畫書寫的英漢-漢英詞典工具,方便用戶查找生字,了解詞義。第二類是根據HSK(測試母語非漢語者的漢語水平的國際漢語能力標準化考試)級別分類,推送不痛不癢的內容資訊平臺。另外,雖然在YouTube、Facebook上有不少關於漢語乃至中國的內容,存在部分優秀的UGC內容,但整體內容質量褒貶不一,題材真實性不確定,但作為漢語愛好者,為找到優質內容來學習,無疑增加了工作量。
在今天,不少中國的網際網路產品走向世界,他們通過大量的假設與驗證保證自身產品的本土化,滿足當地使用人群的需求,但在內容上對於中國文化輸出的貢獻卻寥寥無幾。英語學習應用軟體多種多樣,但漢語學習軟體的種類和內容豐富度卻乏善可陳。另外,中華文化博大精深,中國掌握著重要的國際話語權,近幾年,中國的強大使不少西方國家的政治家大肆宣揚中國威脅論。在這樣的環境背景下,我國更需要擁有良好的文化輸出埠,網際網路應用正是一個非常好的契機。
與其說對外漢語聽看App是一款學習工具,不如說是一款漢語應用與中華文化輸出平臺。我們的目標是直接觸達國際上的漢語愛好者,不僅讓他們了解中國的現在,也了解中國的過去,由此增進他們學習漢語的樂趣。我們不會簡單地將一部字典裝入用戶的口袋,對用戶的其他需求置之不理。通過運用人工智慧領域的機器學習算法,我們將向不同的用戶推薦他們真正感興趣的內容,在初期階段做到千人千面。
我們的目的在於提高用戶學習漢語的樂趣,集結大量優質生動的漢語材料,包括視頻、音頻和文字內容,結合用戶的個人標籤與行為偏好,展現好玩有趣的在線漢語文化內容,後期將可能鼓勵用戶自主發布內容,通過機器學習與用戶行為數據定製排序模型,推進社區分享良好運作,打造優質的漢語文化多媒體分享平臺。
漢語正成為國際化程度發展最快的語言。隨著中國經濟的快速發展、對外交往的日益廣泛和國際地位的不斷提高,世界各國對漢語學習的需求與日俱增。據統計,近年來,學習漢語的人數不斷增加,世界上把漢語當作外語學習的人數已經超過1億,有100多個國家的2500餘所大學和越來越多的中小學開設了漢語課程。
二、用戶定位作為母語非漢語的學習者,在漢語學習中常常遇到發音聲調不準確,詞義理解不清晰,語言表達不到位等問題,甚至於多年的漢語學習者,包括長年居住在中國的外國友人,對漢語交流中的文化理解與行為表達上還有很大的改進空間。
根據多位專業的漢語教師反饋,造成漢語學習困難的原因可歸類為漢語音調多變、漢字數量大、近義詞多、詞義多變、學習者理解不到位等,漢字除了常用的4500字外,還有生僻的繁體字、方言文字、多音字、諧音字等,因此,漢語詞義的理解與發音是學習者需要攻克的難題,漢語聽力和閱讀是漢語學習過程的重要環節。
在應用中了解語義,通過了解中華歷史與文化有助於學習者快速掌握漢語知識,與我們小時候的語文課通過課文理解了解詞義和發音類似,所不同的是,內容表現形式更豐富,不限於文字,還有視頻和音頻,更能提高學習者的興趣,且響應了網際網路用戶在碎片化時間的使用需求,打造除了學校與職場之外的第三漢語應用與文化學習平臺。
同時,通過學習,能夠流利使用漢語溝通交流的外國友人分享如何學好漢語的方法,與我們的產品定位不謀而合。
模仿:丟掉母語,從0開始環境:多和本地人交流,了解文化看電視:提高聽力和口語學歌:漢字變成拼音糾正:及時糾正,手機查詢,朋友糾正一顆想學好的心花時間和不斷重複分析用戶的漢語學習動機和學習內容,從用戶對漢語學習的階段考慮,目標用戶主要分為正在學習漢語的用戶、想要學習漢語的用戶與對中華文化感興趣的用戶,他們在漢語學習中、在語言交流中、在文化認知中遇到哪些問題將是我們關注的重點。
用戶.png
三、產品詳情產品的業務目標為全球的漢語愛好者提供更多漢語材料以豐富漢語學習語言環境。
用戶與產品管理
3.1 內容選材內容展示根據題材分類,大致可分為下圖:
KnowMoreChinese內容選材.png
我們知道,中國的國粹包括刺繡、剪紙、圍棋、瓷器、茶道、漢服、京劇、中醫、武術、書法、麻將、京劇、國畫、醫學、烹飪等,中華文化豐富度極高,可展示的內容選擇性高。這些內容有助於中華文化傳播與漢語學習,另外除了《舌尖上的中國》,還有母語非漢語的網紅創作者的分享內容,部分內容示例如下:
網紅博主:MYBY孟言布語、歪果仁研究社等紀錄片:《舌尖上的中國》《功夫少林》等動畫:《哪吒傳奇》《西遊記》《狐妖小紅娘》等歌曲:《盜將行》《生僻字》《千字文》等3.2 學習能力分析推薦內容前需要先了解用戶對漢語的掌握程度才能定向推送。引導新用戶完成語言測試是內容推薦的前提,這裡我們不會讓用戶進行複雜的測試,只是通過數量十道以內的題目了解用戶的漢語聽說讀寫能力與漢語詞彙量,根據選擇結果評級,方便後期推送用戶能快速理解的內容,讓用戶免於學習疲勞。通過評級測試與用戶閱讀數據,可以調整推薦排序模型,更加精準推送內容。
產品學習路徑
3.3 內容推薦從用戶、環境與內容三個維度擬合出用戶對內容滿意度的函數,第一個維度是內容,提取不同內容類型的特徵做好推薦。第二個維度是用戶特徵,包括各種興趣標籤,職業、年齡、性別等,還有其他模型刻畫出的隱式用戶興趣等。第三個維度是環境特徵,用戶在工作場合、通勤、旅遊等不同的場景,信息偏好有所偏移。結合三方面的維度,模型會給出一個預估,即推測推薦內容在這一場景下對這一用戶是否合適。
推薦模型中,點擊率、閱讀時長、點讚、轉發都是可以量化的目標,能夠用模型直接擬合做預估,依據線上提升情況及時掌握推送效果。如果我們服務用戶眾多,在指標評估的基礎上,其他要素如廣告和特型內容頻控,要考慮吸引用戶回答為社區貢獻內容。內容和普通內容混排的效果如何頻控等問也需要考慮。處於維護內容良好生態和社會責任的考量,對低俗內容的打壓,標題黨、低質內容的打壓,重要新聞的置頂、加權、強插,低級別帳號內容降權都是算法本身無法完成,需要進一步對內容進行幹預。
典型的推薦算法有協同過濾模型,監督學習算法Logistic Regression模型,基於深度學習的模型,Factorization Machine和GBDT等。推薦系統依靠靈活的算法實驗平臺,支持包括模型結構調整的多種算法組合,根據業務場景不同,模型架構會有所調整。
典型推薦特徵包括相關性特徵,環境特徵,協同特徵和熱度特徵。
典型推薦特徵
提取特徵後進行模型訓練,使用Storm集群實時處理樣本數據,包括點擊、展現、收藏和分享等,每收集一定量的用戶數據就更新推薦模型,將涵蓋原始特徵和向量特徵的模型參數存儲在高性能伺服器集群中,線上伺服器記錄實時特徵,導入到Kafka文件隊列中,然後進一步導入Storm集群消費Kafka數據,客戶端回傳推薦的label構造訓練樣本,隨後根據最新樣本進行在線訓練更新模型參數,最終線上模型得到更新。
另外,隨著用戶量和內容量的增加,為緩解模型統計負擔,避免所有內容全部由模型預估,需要設計一些性能極致的召回策略對內容做截斷,從內容庫中高效地篩選符合用戶口味的部分內容。推薦模型的特徵抽取與找回策略都需要用戶側和內容側的各種標籤,所以內容分析和用戶標籤挖掘是搭建推薦系統的基石。
特徵提取與分析
內容分析包括文本分析,圖片分析,音頻分析和視頻分析,作用不限於用戶興趣建模,幫助內容推薦和生成頻道內容。除了語義標籤外,還需要考慮時空特徵和質量相關特徵,單依據協同特徵不好把握內容分析粒度,內容粒度越細,冷啟動能力越強,每個層級粒度不同,要求也會隨之變化。
相比單獨的分類器,利用層次化分類算法能更好地解決數據傾斜的問題,元分類器類型可包括SVM、CNN與RNN的協同算法,例如文本分類的實體詞識別算法,基於分詞結果和詞性標註選取候選,期間可能根據知識庫做一些拼接,確定某些詞彙結合效果能映射實體的描述,如果結果映射多個實體還要通過詞向量、主題分布甚至詞頻本身等去掉歧義,最後進行相關性模型計算。
3.4 用戶標籤用戶標籤主要包括興趣特徵、身份特徵和行為特徵。用戶標籤建立相關的數據處理策略較多。噪聲過濾,通過停留時間短的點擊,過濾標題黨。熱點懲罰,對用戶在一些熱門文內容上的動作進行降權處理。理論上,傳播範圍較大的內容,置信度會下降。時間衰減,用戶興趣會發生偏移,因此策略更偏向新的用戶行為,隨著用戶動作的增加,老的特徵權重會隨時間衰減,新動作貢獻的特徵權重會更大。懲罰展現,如果推送內容沒有被點擊,相關特徵(類別,關鍵詞,來源)權重會被懲罰。與此同時,考慮到其他因素影響,全局背景,相關內容推送量的多寡,以及直接跳出和不感興趣信號等也是重要參考依據。
特徵分類
批量計算框架,每日抽取昨天的日活用戶過去的動作數據,前期可使用Hadoop集群上批量計算結果。隨著用戶數增加,興趣模型種類和其他批量處理任務都在增加,涉及到的計算量加大,需要採用流式計算框架,使用Storm集群實時處理用戶動作數據,每收集一定量的用戶數據就重新計算一次用戶興趣模型,用高性能存儲系統支持用戶興趣模型讀寫。
用戶標籤的搭建
3.5 評估分析對推薦效果可能產生影響的因素包括候選內容集合的變化,找回模塊的改進與增加,推薦特徵的增加,推薦系統架構的改進,算法參數的優化與規則策略的改變等,紀要兼顧短期指標也要顧及長期利益,保護用戶與生態平衡,注意協同效應的影響。
四、功能詳情產品立足為內容多樣且豐富的漢語傳播與語感培養工具,我們要讓用戶覺得實用好用,值得信賴。界面展示直觀明了,不需要太多操作,用戶打開即可看到推送的內容,選擇播放或下一個,還可以收藏起來,另外通過用戶的喜歡、收藏和不感興趣,我們也能進一步了解用戶喜好,進一步改進內容標籤與用戶標籤,讓後期的內容匹配更精準。
功能框架
4.1 註冊與登錄用戶首次打開應用,出現註冊與登錄頁面,通過手機號碼或郵箱帳號生成帳號ID,設置密碼,選擇性別和出生年月,上傳頭像完成註冊,註冊成功後直接登錄,進入應用。其中鍵盤輸入的信息需要進行格式判斷,密碼必須為6-18位的字母與阿拉伯數字組合。暱稱輸入只能由字母或阿拉伯數字,字母開頭,至少含有3個字母,不支持特殊字符,需要屏蔽敏感字符。出生年份的範圍為1940-2019年。
註冊與登錄原型圖
4.2 聽觀感功能內容主要以視頻、音頻和文字這三種主要的多媒體形式展示,主要通過視覺和聽覺對讓用戶了解漢語與中華文化。首頁展示除了搜索外,還有視頻、音頻和文字三種媒體分類,用戶可以自由切換媒體類型,通過喜歡和不感興趣選項抒發自己對內容的喜好程度,將喜歡的內容收藏方便後期瀏覽。
首頁的原型圖
4.3 內容智能推薦不同內容對用戶的吸引力度也不同,影響用戶學習的因素不限於用戶的年齡、漢語學習動機、當前漢語水平等。推薦機制大致為根據用戶在註冊時候完善的性別和年齡信息,向其推送內容,同時結合用戶所使用的設備版本、地理定位、使用時間段等信息打標籤,將具有同類標籤的用戶瀏覽歷史進行篩選出重合度較高的內容,向該用戶推薦。
我們將定義用戶標籤與內容標籤,通過算法將二者標籤匹配,通過模型訓練校正標籤定義。
五、後臺管理用戶使用產品的歷史數據信息將及時反饋到後臺管理系統,這有助於產品運營策略的拉新、促活和留存,有助於產品未來的迭代方向與功能調整。
同時,我們將為用戶提供哪些內容分類,重點推薦哪些內容,內容更新頻率與瀏覽數量的關係如何平衡等這些與內容填充相關的問題也需要有效管理並通過用戶使用情況進一步調整。我們的後臺管理系統初版可分為帳戶管理、內容管理和商業收益三大模塊。
5.1 帳戶管理模塊用戶以訪客身份訪問並首次註冊,從首次登錄到最近的登錄時間與訪問時長等數據信息的記錄,將有助於我們了解用戶的基本信息與使用習慣,從記錄每位用戶的瀏覽記錄到分析大範圍的用戶活躍度情況,帳戶管理可以幫助我們更加了解我們的用戶。
個人用戶的基本信息如下圖:
用戶信息記錄
5.2 內容管理模塊內容的質量和數量將影響著用戶體驗,除了內容分類與庫存管理外,我們還需要了解用戶對內容的消費情況,主要體現在內容的被瀏覽量、點擊量、被推薦量、被贊量等,結合用戶管理可以推出有效的產品運營和產品迭代策略。
內容管理記錄
5.3 商業收益模塊免費內容,類似於今日頭條、網易雲音樂、漫中文這種資訊推送類的是可免費獲取。 收費內容則更有針對性針對於用戶的購買,推送有版權、去廣告和更有針對性的內容,並有檢查作業等feedback功能。
六、用戶運營產品運營需要吸引新用戶,維繫老用戶,主要分為日常運營和活動運營。
日常運營:漢語愛好者一般對中華文化習俗、建築藝術等有較濃的興趣,通過中國特色節日或文化名人如孔子為主題定期推出一系列的信息科普與文化傳播。
活動運營:當用戶使用產品一段時間後,對漢語和中國文化有一定了解,此時推出競答活動,用戶通過幾道選擇題測試自己的漢語水平,看到測試排行榜,了解自己的段位,還可以推薦朋友來測試,引發傳播。
七、商業化內容與工具型產品的商業化,從應用內可以有商業廣告合作、衍生實體產品營銷與增值服務三種方式。 商業廣告可分為開屏廣告和應用內廣告,開屏廣告的合作方主要為品牌商,在協定日期內展示海報。應用內廣告投放依據用戶標籤定向推薦,更精準地面向用戶群,呈現樣式與內容接近,減少用戶對廣告的敏感感知,儘量不影響用戶體驗。
衍生實體產品主要與中華文化、漢語學習相關,對用戶是有說服力且會產生購物慾望的,可以通過限量小規模試驗,營銷反響效果好的情況下再推出其他產品,同時不會因滯銷導致庫存積壓。 增值服務的需求來源於用戶的使用反饋,涉及到產品後期的功能變化,同時需要運營協助。產品功能支持用戶通過眼看耳聽來學習漢語,增值服務可以通過手動如找不同、選擇或排序等鞏固漢語學習。
八、結語產品初期的功能布局以簡潔高效為主,內容建設以質優易懂為主,讓用戶使用產品,依賴產品並相信產品,打造漢語學習優秀內容平臺。
以後的某天,我回看自己的這篇文章會覺得當初自己的水平真的有限,不夠好,但是這個想法可以被實現,可以幫助更多的漢語學習愛好者。
本文由 @小詩兄 原創發布於人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基於CC0協議