袋鼠雲面試題
學長1
(1)Spark怎麼做到Exactly-once?
(2)flink的怎麼和rocksDB交互的。畫一個流程圖。(這個我也不會)
(3)flink怎麼實現Exactly-once?
(4)flink on yarn 的任務提交流程?
(5)rocksDB為什麼可以存儲那麼大的數據量。
(6)使用eventtime+watermark的時候,如果數據到6點結束了。怎麼保證最後一條數據能計算。
(7)你理解的什麼樣的數倉是一個好的數倉。
(8)你們有做過數據的結果的校驗嗎?怎麼校驗的(很重要,金融的業務不允許有誤差,深圳的是金融業務部門。可以容忍慢,但是不能錯。)
(9)要是能自己去看看flinksql就更好了。最新的flink已經支持sql的寫法了。業務用的就是flinksql。
(10)公司是做數據中臺。主要用的技術就是flink。多準備一下flink的技術。
***面試通過者,薪資可以參考20
學長2
(1)Flink topN的實現
(2)使用狀態後端的時候與hdfs/rocksdb的交互(沒懂,不是checkpoint檢查點機制)
(3)窗口的觸發機制、壓力監控及處理、設置時間語意、連續處理
(4)jvm
(5)用原生api創建線程池和調用
(6)map和list的各實現類的用法與區別
(7)數倉各層的理解
(8)物流寬表和訂單寬表為什麼不做到一塊兒
(9)怎麼把hdfs上的數據導到hive,內外表
(10)星型模型和雪花模型,事實表維度表
(11)namenode的內存結構
(12)數據質量監控
(13)kafka的數據重複在數倉怎麼處理的
(14)存儲格式及對比
(15)項目中遇到的問題
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.