摘要: 算法推薦是用戶在大數據時代獲取信息的重要渠道,推薦質量關乎用戶的體驗態度。如今在用戶基數龐大的新聞客戶端推薦系統背後,推薦質量參差不齊、用戶心理感受被忽視,該領域缺乏一個通用的用戶評價指標體系。因此,本研究以用戶心理體驗為導向,在文獻回顧和深度訪談的基礎上,編制出適用於新聞客戶端推薦系統評價的初始量表,通過預調查和正式調查,並採用探索性因素分析、驗證性因素分析等統計方法對調查結果進行檢驗分析,最終獲取由「內容評價」、「系統評價」、「算法評價」、「交互評價」和「風險與控制評價」等五個一階指標構成的新聞客戶端推薦系統用戶評價量表。研究進一步對新聞客戶端用戶的推薦系統體驗態度以及有關影響因素進行了探索,最後從實踐角度對新聞客戶端推薦系統的優化方向提出建議。
關鍵詞: 新聞客戶端推薦系統;評價指標;量表修訂;用戶心理體驗
一、前言
隨著網際網路的發展和普及,人類進入一個高度信息化的時代,網絡中的海量信息一方面滿足了用戶對信息的需求,另一方面也增加了人們尋找有用信息的成本,出現所謂的「信息過載」問題。個性化推薦系統是解決信息過載問題的一個有效辦法。目前學界與業界對推薦系統的研究大多關注推薦系統的技術算法,偏向技術導向,而以用戶心理體驗為視角的研究相對較少。評估推薦系統的質量過於強調算法的準確性,而忽略了從用戶角度出發的消費者心理體驗,並缺乏一個通用的推薦系統評價指標體系,這不利於推薦系統的優化和改進。
之所以要探討「移動新聞客戶端個性化推薦的用戶評價指標」,一是因為在移動應用的評價研究中,視頻軟體、音樂軟體等應用的個性化推薦系統的用戶評價指標體系趨向完善,但是關於移動新聞客戶端個性化推薦系統的評價指標研究相對較少,相關體系並未建立。二是因為目前移動新聞客戶端的使用規模非常龐大,但是用戶體驗究竟如何、個性化推薦是否完善等問題一直無據可依,因此行業空白要求相關研究應當深入開展。
在理論上,本研究結合前人的研究,以用戶滿意度作為效度標準,在顧客感知價值理論和使用與滿足理論的基礎上,從用戶角度出發,重點調查用戶對移動新聞客戶端個性化推薦系統的認知、態度和滿意度,並通過量化數據的方式,梳理出具有顯著相關性的用戶評價指標。
二、文獻綜述
(一)關於個性化推薦技術層面的研究
個性化推薦是從20世紀90年代被作為一個獨立的概念所提出。個性化推薦將用戶的使用行為記錄、保存為數據,通過信息過濾技術向目標用戶推薦其感興趣的信息,為用戶提供個性化推薦服務。
一個完整的推薦系統由3部分組成:收集用戶信息的行為記錄模塊、分析用戶喜好的模型分析模塊和推薦算法模塊,其中,推薦算法模塊是推薦系統中最為核心的部分。當前對個性化新聞推薦技術的分類主要有:基於內容推薦、協同過濾推薦和混合推薦。
個性化推薦系統最先應用於電子商務領域,目前,個性化推薦系統已經廣泛運用於眾多領域:如音樂、視頻客戶端等。學術界同樣從不同角度對於個性化推薦系統有諸多研究,但是有關移動新聞客戶端個性化推薦系統的研究較少。
(二)關於「個性化推薦系統評價指標」的研究
先前有關推薦系統評價的研究大多注重於評價算法預測打分的準確度。
Sean M. McNee,John Riedl,Joseph A. Konstan(2006)[1]認為根據算法得出的最準確的建議有時不是對用戶最有用的建議,提出了新的以用戶為中心的方向來評估推薦系統。文章回顧三個方面:推薦列表多樣性,推薦意外發現以及推薦人中用戶需求和期望的重要性。
Jones?& Pu(2007)[2]通過用戶調查發現簡單的界面設計,推薦項目的準確性、新穎性和愉悅性是網站之所以受歡迎的一些關鍵設計特徵。
周濤(2008)[3]提出利用推薦列表的流行性和多樣性對個性化推薦系統進行評價。個性化推薦系統對不同用戶推薦的產品需要表現出相當的多樣性。
Swearingen K,Sinha R(2008)[4]介紹兩種新的指標度量推薦系統:新鮮性和意外性。推薦用戶感到意外的產品會幫助用戶發現一些他還沒有發現的可能感興趣的產品。
Pu?& Chen(2010)[5]開發了一個名為ResQue的模型(推薦系統的用戶體驗質量)用於評估推薦系統的感知質量,例如其可用性,實用性,界面和交互質量,用戶對系統的滿意度以及這些質量對用戶的影響。
Guy Shani,Asela Gunawardana(2011)[6]提出推薦系統具有可能影響用戶體驗的各種屬性,例如準確性,穩健性,可伸縮性等。
朱鬱筱和呂琳媛(2012)[7]總結了電商網站推薦系統評價指標的最新研究進展,從準確度,多樣性,覆蓋率和新穎性等方面深入分析了各自優缺點和適用環境。
Iman Avazpour ,Teerat Pitakrat ,Lars Grunske,John Grundy(2014)[8]回顧一系列評估指標和用於評估推薦系統的一些方法。將評價指標分為16個不同的維度,例如正確性,新穎性,覆蓋率、穩定性和擴展性等。
Joeran Beel,Stefan Langer(2014)[9]提出用戶研究通常通過衡量用戶滿意度來對系統進行評價,用戶對推薦系統的各個方面進行評級,例如,推薦的新穎性或權威性如何,或者對於非專家來說它們的適用程度如何。
Lei Li, Balaji Padmanabhan(2011)[10]認為有關新聞的個性化推薦系統評價應該要考慮到新聞特殊屬性,例如短保質期和即時價值,提出了一種具有兩級表示的可擴展的兩階段個性化新聞推薦方法,其在執行推薦時考慮新聞項的獨有特徵(例如,新聞內容,訪問模式,命名實體,流行度和新近度)。
曾秀芹、曾潔和黃晨陽(2016)[11]針對電子商務的個性化推薦系統提出了內容評價、感知易用性、感知有用性、頁面設計、互動評價、社會臨場感、信心滿意度、影響速度、風險及隱私管理11個因子。
Michael A. Beam(2016)[12]調查了個性化新聞推薦系統設計對選擇性曝光、闡述知識的影響。擔心個性化技術的擴散會使人們從具有挑戰性的角度出發,從而降低公眾輿論。
Natali Helberger, Kari Karppinen & Lucia D』Acun(2016)[13]認為搜尋引擎,社交媒體以及傳統媒體中的個性化建議越來越引起人們對多樣性和公共話語質量的潛在負面影響的擔憂。
三、研究結果
(一)新聞客戶端個性化推薦系統評價指標量表內容與維度的探索
1. 研究方法
研究採用文獻研究和定性研究相結合的方法,收集各評價指標,編制新聞客戶端個性化推薦系統評價指標的初始量表。
(1)文獻法
目前,針對新聞客戶端個性化推薦系統用戶評價方面的研究較少,本研究在電子商務、網站推薦、視頻推薦等其他領域相關的文獻資料基礎上修訂各評價指標,編制移動新聞客戶端個性化推薦系統評價指標的初始量表,包括內容評價、系統評價、算法評價、交互評價、風險與控制評價五大指標。
(2)深度訪談
通過深度訪談,探究文獻綜述獲得的指標是否適用於新聞客戶端的個性化推薦系統,以及發現新的評價指標。選取10個人進行訪談,訪談對象涉及專家、普通用戶。訪談問題圍繞「受眾從哪些方面對新聞客戶端個性化推薦系統進行評價」、「受眾對移動新聞客戶端個性化推薦系統的認識」,不斷豐富五個一級指標。在此基礎上,尋找積極有效的效標,最終從「期待—確定」理論中找到效標。建構出適用於移動新聞客戶端個性化推薦系統評價指標的框架體系,並將其應用於移動新聞客戶端推薦系統的評估。
(3)數據分析
通過線上和線下雙渠道發放問卷,線上渠道可以拓寬問卷的傳播空間,不僅節省時間和人力,而且有利於增強被試者的多樣性。線下渠道可以針對線上問卷的發放情況進行有效地補充和調整,有利於被試者在性別、年齡等方面的平衡。
2. 研究結果
研究結果表明對於新聞客戶端個性化推薦系統而言,通過文獻獲取的評價指標基本適用,並且基於新聞客戶端個性化推薦系統自身的獨特性,本研究還補充了新的評價指標。最終確定了「內容評價」、「系統評價」、「算法評價」、「交互評價」、「風險與控制評價」五個一級指標,建構出適用於移動新聞客戶端個性化推薦系統評價指標的框架體系如下表1。
表1 新聞客戶端個性化推薦系統評價指標列表
(二)新聞客戶端個性化推薦系統評價指標量表信效度檢驗
1. 研究目的
通過預調查,收集 100 個有效樣本對評價指標的初始量表進行項目分析,並進行信效度的檢驗,進一步修訂量表。
2. 研究方法
預調查通過方便抽樣的方法進行問卷調查,一共回收 145 份問卷,剔除沒有使用過移動新聞客戶端以及回答不完整的受訪者,最後得到有效問卷107 份。
調查問卷主要為上一步研究中形成的新聞客戶端個性化推薦系統評價指標量表、 使用意願量表、媒介使用行為和人口統計學問題。所有量表都採用李克特 5 點量表,按受眾的感知強烈程度,分為完全不同意、不同意、不能確定、同意、非常同意,分別對應 1-5 分值,分值越小,表示越不同意,分值越大表示同意程度越高。
3. 研究結果
為了檢驗初始量表的信效度,研究利用 Cronbach’s α係數判斷量表整體可靠性,預調研數據分析的結果顯示,整體量表的克隆巴赫 Alpha 係數為0.809,大於 0.7,表明量表的信度水平較高。,進一步考察各個分量表的 Cronbach’s α係數以及單項-總量修正係數(CITC 系 數),最終,Cronbach’s α係數為 0.805,各個分量表的信度均大於 0.7,符合分量表信度要求。
採用主成分分析法提取因子,以特徵值大於1為提取標準,對量表中各個變量進行探索性因子分析,共析出五個因子,且共同度全部大於0.5,旋轉後的根特值分別為6.254、4.845、3.194、2.322和2.306,解釋總體方差的 69.25%,所有題項的共同度均大於 0.5,且因子載荷均大於 0.4。但存在一些跨載荷題項,因此進行多次因子分析,除了因表意不清導致跨載荷的題項予以保留外,其他不符合要求的題項被逐項刪除。最後的評價指標確定為五個,分別是「新聞價值」、「新聞廣度」、「技術評價」、「交互評價」和「風險與控制評價」。
表2 新聞客戶端個性化推薦系統評價指標因子分析結果
(三)新聞客戶端個性化推薦系統評價指標分析
1. 研究目的
對於預研究修訂過的正式量表再進行信效度的檢驗,將這個評價體系應用於新聞客戶端個性化推薦系統的評估,並探索是什麼因素將影響推薦系統評價得分的高低。
2. 研究方法
本研究採取問卷調查的方法,採用配額抽樣的方法,根據人口統計學數據分布,在性別、年級、所在地域等變量進行配額抽樣。運用線上線下相結合的調查方法,共回收476份問卷。問卷回收後,通過對問卷進行有效性篩選,剔除了無效問卷,剩餘有效問卷417份。
3. 研究結果
(1) 調查對象人口分布特徵
417個受訪者中,男、女大約佔比為45%、55%,樣本性別比例較為均衡。受訪者在年齡分布上主要以18-45歲的用戶為主,佔比45.8%,這部分群體無論是在手機的使用還是移動新聞客戶端的使用上都是主要群體,因此可以作為移動新聞客戶端個性化推薦系統的主要評價群體。55歲以上樣本佔比1.0%,這部分人群對媒介接觸行為相比較其他群體少。
受訪者的學歷分布主要在本科及以上,佔比比例為93.3%,總體來看受教育程度較高,因此相應的媒介素養也相對較高,對移動新聞客戶端個性化推薦系統的認知比較全面,而且擁有自己的信息需求,有相應的能力成為評價主體。
本次調查的受訪者的職業分布主要是「企事業單位」和「學生」,分別佔比42.4%和41.2%,總共佔八成。這部分群體不僅有更強的新聞需求,而且擁有比較充足的新聞閱讀時間,因此有機會長期使用移動新聞客戶端。
在行業分布方面,樣本多數來自學校和媒體行業,包括學生、教師和媒體從業者。一方面是因為滾雪球的抽樣方式,另一方面是在校人員和媒體從業者更具新聞閱讀的主動性。
(2)用戶使用行為特徵
樣本中每次使用新聞客戶端時長在15分鐘以下的受訪者最多,比例為43.6%;使用時長在15-30分鐘的人較多,佔比為40.0%;使用時長超過60分鐘的人最少,佔比5.5%。不同性別樣本對於每次使用新聞客戶端的時長呈現出顯著性(P<0.05)。
不同年齡樣本對於每次使用新聞客戶端的時長呈現出顯著性(P<0.05),通過百分比對比差異可知,18-25歲樣本選擇15分鐘以下的比例58.64%,會明顯高於平均水平43.65%。46-55歲選擇15-30分鐘的比例50.94%,會明顯高於平均水平40.05%。55歲以上選擇30-60分鐘的比例50.00%,會明顯高於平均水平10.79%。
總結可知不同性別、年齡、文化程度與職業的樣本在新聞客戶端每次使用時長上存在顯著差異。不同性別、年齡、職業的樣本在新聞客戶端的使用頻率上存在顯著差異。
四、模型預測
以新聞價值、新聞廣度、技術設計、交互性和風險與控制作為自變量,未來使用意願為因變量,建立用戶未來使用意向的預測模型,如下圖1.4所示:
(一)研究結果:
以新聞價值、新聞廣度、技術設計、交互性和風險與控制作為自變量,以未來使用意願為因變量,以逐步回歸方法進行多元線性回歸分析,並以顯著性水平小於等於0.05為變量進入標準,以顯著性水平大於0.1為剔除標準。逐步回歸過程剔除了風險與控制,保留了新聞價值、新聞廣度、技術設計和交互性。
從下表可以看出,模型R平方值為0.648,意味著新聞價值,新聞廣度,技術評價,互動性可以解釋滿意度的64.8%變化原因。對模型進行F檢驗時發現模型通過F檢驗(F=189.320,P<0.05),也即說明新聞價值,新聞廣度,技術評價,互動性中至少一項會對滿意度產生影響關係,模型公式為:未來使用意願=-0.005 + 0.454*新聞價值 + 0.147*新聞廣度 + 0.399*技術評價 + 0.084*互動性。
另外,針對模型的多重共線性進行檢驗發現,模型中VIF值全部均小於5,意味著不存在著共線性問題;並且D-W值在數字2附近,因而說明模型不存在自相關性,樣本數據之間並沒有關聯關係,模型較好。
最終總結分析可知:新聞價值, 新聞廣度, 技術評價, 互動性全部均會對未來使用意願產生顯著的正向影響關係。模型公式為:未來使用意願=-0.005 + 0.454*新聞價值 + 0.147*新聞廣度 + 0.399*技術評價 + 0.084*互動性。
五、結論與討論
新聞價值,新聞廣度,技術評價,互動性均會對未來使用意願產生顯著的正向影響關係。在對移動新聞客戶端未來的使用意願影響程度上,新聞價值的影響作用最大,這也與「內容為王」的行業理念相一致。新聞客戶端的技術設計的影響作用也不容忽視,用戶對體驗越來越看重。在新聞的廣度和交互性等方面,受眾越來越偏向多樣化題材的新聞接觸,同時有著比較強烈的分享欲望和社交需求,因此也應當受到重視。在模型中,風險與控制並沒有對使用意願產生明顯的影響作用,綜合前文聚類分析,較多用戶樣本表示出「高使用意願」,這可能是因為移動碎片化時代,移動新聞客戶端能夠滿足用戶的快速信息需求。
而在本次研究中,風險與控制指標並沒有對新聞客戶端的個性化推薦系統得分產生作用,這可能是因為新聞客戶端個性化推薦系統發展時間較短,目前對於新聞客戶端個性化推薦系統的倫理研究更多集中在學術層面。
本研究的不足之處在於抽樣過程不夠嚴謹,部分問卷是通過線上發放得來,雖然在數據分析前的數據處理環節有對這部分樣本進行剔除,但總體來說可能會影響到本次研究的人口統計學等方面的結果。因此,筆者會在下一步的研究中儘可能的彌補這方面的不足。未來的研究方向可能會進一步擴大樣本量,同時嚴格控制樣本的獲取並針對個性化推薦系統及其帶來的潛在風險作更深一步的研究。
參考文獻:
[1] P Resnick, H R Varian. Special Issue on Recommender Systems. Ai Communications, 1997, 21(2-3):95-96.
[2] S. S. Anand, S. S. Anand. Personalization on the Net Using Web Mining: Introduction. Comm Acm, 2000, 43(8):122-125.
[3] 劉建國,周濤,郭強等.個性化推薦系統評價方法綜述.複雜系統與複雜性科學,2009,6(3):1-10.
[4] J Bobadilla, F Ortega, A Hernando. Recommender Systems Survey. Knowledge-Based Systems, 2013, 46(1):109-132.
[5] U Shardanand, P Maes. Social Information Filtering: Algorithms for Automating 「Word of Mouth」. Sigchi Conference on Human Factors in Computing Systems. ACM Press/Addison-Wesley Publishing Co. 1995:210-217.
[6] A L Uitdenbogerd, R G V Schyndel. A Review of Factors Affecting Music Recommender Success. The Proceedings of 3rd International Conference on Music Information Retrieval, October, 2002.
[7] 譚學清,何珊.音樂個性化推薦系統研究綜述.數據分析與知識發現,2014,30(9): 22-32.
[8] M Sunitha, T A Lakshmi.Session Aware Music Recommendation System with Matrix Factorization Technique-SVD. Management Science, 2015, 30(4):174-181.
[9] S M Mcnee, J Riedl, J A Konstan. Being accurate is not Enough: How Accuracy Metrics have Hurt Recommender Systems. Extended Abstracts Proceedings of the 2006 Conference on Human Factors in Computing Systems, April. 2006:1097-1101.
[10] G Shani, A Gunawardana. Evaluating Recommendation Systems. Recommender Systems Handbook, 2011:257-297.
[11] I Avazpour, T Pitakrat, L Grunske, et al. Dimensions and Metrics for Evaluating Recommendation Systems. Recommendation Systems in Software Engineering. Springer Berlin Heidelberg, 2014: 245-273.
[12] 曾秀芹,曾潔,黃晨陽. 個性化推薦系統評價指標體系的實證研究. 現代廣告學術季刊, 2017,(6): 46-55.
[13] P Pu, L Chen, R Hu. A User-Centric Evaluation Framework for Recommender Systems. ACM Conference on Recommender Systems, 2011:157-164.
[14] B P Knijnenburg, M C Willemsen, Z Gantner, et al. Explaining the User Experience of Recommender Systems. User Modeling and User-Adapted Interaction, 2012, 22(4-5):441-504.
[15] Y C Zhang, D Quercia, T Jambor. Auralist: Introducing Serendipity into Music Recommendation. ACM, 2012:13-22.
[16] P Pu, L Chen, P Kumar. Evaluating Product Search and Recommender Systems for E-commerce Environments. Electronic Commerce Research, 2008, 8(1-2):1-27.
[17] K Swearingen, R Sinha. Interaction Design for Recommender Systems. Designing Interactive Systems ACM, 2002.
[18] P Pu, M Zhou, S Castagnos. Critiquing Recommenders for Public Taste Products. ACM Conference on Recommender Systems. ACM, 2009:249-252.
[19] N Jones, P Pu. User Acceptance Issues in Music Recommender Systems. EPFL Technical Report HCI-REPORT, 2009, Epfl.
[20] D Kotkov, S Wang, J Veijalainen. A Survey of Serendipity in Recommender Systems. Knowledge-Based Systems, 2016, 111:180-192.
[21] W H Delone, E R Mclean. The DeLone and McLean Model of Information Systems Success: A Ten-Year Update. M. E. Sharpe, Inc. 2003.
[22] J Kirakowski, M Corbett. SUMI: the Software Usability Measurement Inventory. British Journal of Educational Technology, 1993, 24(3):210-212.
[23] S Y X Komiak, I Benbasat. The Effects of Personalization and Familiarity on Trust and Adoption of Recommendation Agents. Mis Quarterly, 2006, 30(4):941-960.
[24] D S Kempf, R E Smith. Consumer Processing of Product Trial and the Influence of Prior Advertising: A Structural Modeling Approach. Journal of Marketing Research, 1998, 35(3):325-338.
[25] L Chen, P Pu. Interaction design guidelines on critiquing-based recommender systems. User Modeling and User-Adapted Interaction, 2009, 19(3):167.
[26] N Tintarev, J Masthoff. A Survey of Explanations in Recommender Systems. IEEE, International Conference on Data Engineering Workshop. IEEE, 2007:801-810.
[27] 劉蓓琳.基於用戶滿意度的電子商務個性化推薦評價研究.中國物流與採購,2012(14):68-69.
[28] 江娟,吳瓊鱗,馬春梅等.網絡消費者滿意的構成要素及其作用效果研究,2014,(17): 87-95.
[29] 黃鼎隆,饒培倫,韓盈秋.網絡購物環境中信息安全因素對用戶行為的影響.人類工效學,2008,14(1):22-24.
[30] 吳豔,溫忠麟.結構方程建模中的題目打包策略.心理科學進展,2011,19(12):1859-1867.
[31] 吳明隆.結構方程模型:AMOS的操作與應用.重慶大學出版社,2009.
(責編:劉揚、趙光霞)