全文共2135字,預計學習時長6分鐘
我頭次遇見案例研究問題是同德勤的一位經理模擬面談時。面試官問我如何判斷Instagram上各種故事的成功與否。我回答A/B測試會很有效,但面試官告知公司並沒有這個能力,要再想想別的辦法。我呆住了,因為沒別的法子。
案例分析已經成為數據科學和產品開發崗面試中不可或缺的一部分,是決定候選人夠不夠格的關鍵點。這些面試的目的是模擬公司現有的產品,測試候選人的反應能力、解決問題的能力、有效處理障礙的能力。一般來說,有三種類型的案例研究問題:
· 產品相關型
· 模型相關型
· 商業相關型
讓我們先從一些問題開始。注意,這些問題沒有確切的正確答案,更多是為評估是否可以做出現實的假設,並在這些假設下提出解決方案。不會特別詳細,本文的主要目的是提供一個大綱或要點來回答這些類型的問題。
問題1
試想你在運營一家電子商業網站,有數以百萬計的產品列表,並且希望消除可能列在不同類別下重複的產品名稱。舉個例子,有兩種不同的產品名,iPhoneX 和AppleiPhone 10(它們指的是一個東西,但為什麼需要兩個名字?)。
再如,亞馬遜在用不同的名字銷售同樣的N-95口罩,例如:
· 新冠口罩
· N-95口罩
你的任務是將所有重複的名稱改為一個公共名稱。但首先,需要找出那些名稱重複的產品。你將如何處理這個問題?
我的解決方案是:可以用兩種方法解決這個問題。利用給定的所有產品的圖像提取粒度特徵,並對這些特徵進行聚類。粒度這個詞很重要,因為必須對特定項目的不同版本進行分類,而它們之間會有細微的差異。因此,提取底層特徵是很重要的。
例如,假設只從每張圖像中提取高級特徵並進行聚類。算法會將所有iPhone手機聚到一個集群中,將所有三星手機聚到一個集群中,諸如此類。但是我們希望所有的iPhoneX在一個集群,其他型號一個集群。但iPhoneX和iPhone11的圖像差異極小,因此必須提取顆粒特徵,才能提高聚類算法的性能。
但假如面試官反駁:假如有些產品根本沒有圖像,那該怎麼辦呢?可以對每個產品的描述進行聚類,並對它們進行分類。首先對描述執行數據清理,然後使用TF-IDF或NLP中任何其他類似方法,再執行集群。
問題2
假設還是為一家網站工作,給了一個大型資料庫,其中每一行代表一個頁面視圖。網站不止一頁。該如何區分機器帳號和真實用戶?
我的解決方案是:基本上,機器帳號是為從網站中提取數據,肯定會有很多的頁面視圖,並且每次頁面視圖的持續時間會很短,因為它可以非常快速地提取信息。
另一方面,真實用戶訪問的頁面相對較少,在每個頁面上花費的時間更多。除了上述兩個假設之外,我們可以做的另一個假設是通過IP位址或其他設備籤名來跟蹤每個唯一的訪問者。
使用SQL或任何其他查詢語言找到每個訪問者訪問的頁面總數、總頁面查看時間,和平均頁面查看時間。然後,可以使用基於上述指標的聚類算法將機器帳號和真實用戶分成兩個聚類。
問題3
假設你是領英項目小組中的數據分析師。假設你有一個新聞推送排名算法(我們都知道,當每個用戶登錄時,他們會看到一個新聞推送,裡面有各種各樣的文章,這些文章是用排名算法排序的)。如何衡量新聞推送算法的成功?
我的解決方案是:第一步是提出評估算法有效性的指標。基準指標可以是點擊率。然而,更好的指標例如分享和評論,可以評估內容的吸引力。
面試官可能會問以下問題測試思考深度:如果上面提到的某些指標上升而另一些下降了呢?你會怎麼做呢?你認為哪個指標更重要?
筆者強烈認為Linkedin的視角在這裡非常重要。如果他們試圖從業務的角度評估算法,點擊率將是一個更重要的指標,但如果評價是純粹從用戶體驗的角度來看,評論將是一個重要的指標。現在,再對模擬面試中遇到的問題做出回答。
如何判斷Instagram上的故事是否成功?我們都知道Ins故事能讓用戶24小時內與他人分享照片和視頻。用戶的朋友可以看到這些故事,回復和分享這些故事。筆者認為這個特性試圖實現兩個目標。
· 用戶留存——確保用戶再次回到平臺。
· 參與度——確保用戶更多地使用這個功能。
Saiteja Kura想提出這樣的指標:
· 每個用戶發布的平均故事
· 每個用戶平均觀看的故事
除了上述兩個度量標準,另一個對評估故事成功性至關重要的度量標準,是發布多個故事的用戶的百分比。
回答案例分析問題不僅需要技術知識,還需要對業務需求的深刻理解。創造高效又適合企業的產品一直是市場的主導。我堅信發展商業視角來解決現實問題是非常重要的。
留言點讚關注
我們一起分享AI學習與發展的乾貨
如轉載,請後臺留言,遵守轉載規範