有關 HashMap 面試會問的一切

2021-03-02 腳本之家
前言

HashMap 是無論在工作還是面試中都非常常見常考的數據結構。

比如 Leetcode 第一題 Two Sum 的某種變種的最優解就是需要用到 HashMap 的,高頻考題 LRU Cache 是需要用到 LinkedHashMap 的。

HashMap 用起來很簡單,底層實現也不複雜,先來看幾道常見的面試題吧。相信大家多多少少都能回答上來一點,不清楚的地方就仔細閱讀本文啦~這篇文章帶你深挖到 HashMap 的老祖宗,保證吊打面試官

為什麼重寫 equals() 就必須要重寫 hashCode()?Hashtable, HashSet 和 HashMap 的區別和聯繫處理 hash 衝突有哪些方法?Java 中用的哪一種?為什麼?另一種方法你在工作中用過嗎?在什麼情況下用得多?

本文分以下章節:

Set 家族

在講 Map 之前,我們先來看看 Set。

集合的概念我們初中數學就學過了,就是裡面不能有重複元素,這裡也是一樣。

Set 在 Java 中是一個接口,可以看到它是 java.util 包中的一個集合框架類,具體的實現類有很多:

其中比較常用的有三種:

HashSet: 採用 Hashmap 的 key 來儲存元素,主要特點是無序的,基本操作都是 O(1) 的時間複雜度,很快。

LinkedHashSet: 這個是一個 HashSet + LinkedList 的結構,特點就是既擁有了 O(1) 的時間複雜度,又能夠保留插入的順序。

TreeSet: 採用紅黑樹結構,特點是可以有序,可以用自然排序或者自定義比較器來排序;缺點就是查詢速度沒有 HashSet 快。

Map 家族

Map 是一個鍵值對 (Key - Value pairs),其中 key 是不可以重複的,畢竟 set 中的 key 要存在這裡面。

那麼與 Set 相對應的,Map 也有這三個實現類:

HashMap: 與 HashSet 對應,也是無序的,O(1)。

LinkedHashMap: 這是一個「HashMap + 雙向鍊表」的結構,落腳點是 HashMap,所以既擁有 HashMap 的所有特性還能有順序。

TreeMap: 是有序的,本質是用二叉搜索樹來實現的。

HashMap 實現原理

對於 HashMap 中的每個 key,首先通過 hash function 計算出一個 hash 值,這個hash值就代表了在 buckets 裡的編號,而 buckets 實際上是用數組來實現的,所以把這個數值模上數組的長度得到它在數組的 index,就這樣把它放在了數組裡。

那麼這裡有幾個問題:

如果不同的元素算出了相同的哈希值,那麼該怎麼存放呢?

答:這就是哈希碰撞,即多個 key 對應了同一個桶。

HashMap 中是如何保證元素的唯一性的呢?即相同的元素會不會算出不同的哈希值呢?

答:通過 hashCode()equals() 方法來保證元素的唯一性。

如果 pairs 太多,buckets 太少怎麼破?

答:Rehasing. 也就是碰撞太多的時候,會把數組擴容至兩倍(默認)。所以這樣雖然 hash 值沒有變,但是因為數組的長度變了,所以算出來的 index 就變了,就會被分配到不同的位置上了,就不用擠在一起了,小夥伴們我們江湖再見~

那什麼時候會 rehashing 呢?也就是怎麼衡量桶裡是不是足夠擁擠要擴容了呢?

答:load factor. 即用 pair 的數量除以 buckets 的數量,也就是平均每個桶裡裝幾對。Java 中默認值是 0.75f,如果超過了這個值就會 rehashing.

關於 hashCode() 和 equals()

如果 key 的 hashCode() 值相同,那麼有可能是要發生 hash collision 了,也有可能是真的遇到了另一個自己。那麼如何判斷呢?繼續用 equals() 來比較。

也就是說,

hashCode() 決定了 key 放在這個桶裡的編號,也就是在數組裡的 index;

equals() 是用來比較兩個 object 是否相同的。

那麼該如何回答這道經典面試題:

為什麼重寫 equals() 方法,一定要重寫 hashCode() 呢?

答:首先我們有一個假設:任何兩個 object 的 hashCode 都是不同的。

那麼在這個條件下,有兩個 object 是相等的,那如果不重寫 hashCode(),算出來的哈希值都不一樣,就會去到不同的 buckets 了,就迷失在茫茫人海中了,再也無法相認,就和 equals() 條件矛盾了,證畢。

撒花~~🎉🎉🎉

接下來我們再對這兩個方法一探究竟:

其實 hashCode() 和 equals() 方法都是在 Object class 這個老祖宗裡定義的,Object 是所有 Java 中的 class 的鼻祖,默認都是有的,甩不掉的。

那既然是白給的,我們先來看看大禮包裡有什麼,谷歌 Object 的 Oracle 文檔:

所以這些方法都是可以直接拿來用的呢~

回到 hashCode() 和 equals(),那麼如果這個新的 class 裡沒有重寫 (override) 這兩個方法,就是默認繼承 Object class 裡的定義了。

那我們點進去來看看 equals() 是怎麼定義的:

記筆記:

equals() 方法就是比較這兩個 references 是否指向了同一個 object.

嗯???你在逗我嗎??那豈不是和 == 一樣了??

補充:
我們常用的比較大小的符號之 ==
如果是 primitive type,那麼 == 就是比較數值的大小;
如果是 reference type,那麼就比較的是這兩個 reference 是否指向了同一個 object。

再補充:
Java 的數據類型可以分為兩種:
Primitive type 有且僅有8種:byte, short, int, long, float, double, char, boolean.
其他都是 Reference type.
所以雖然 Java 聲稱 「Everything is object」,但是還是有非 object 數據類型的存在的。

我不信,我要去源碼裡看看它是怎麼實現的。

哈,還真是的,繞了這么半天,equals() 就是用 == 來實現的!

那為什麼還弄出來這麼個方法呢?

答:為了讓你 override~

比如一般來說我們比較字符串就是想比較這兩個字符串的內容的,那麼:

str1 = 「tianxiaoqi」;str2 =  new String(「tianxiaoqi」);
str1 == str2; str1.equals(str2);

因為 String 裡是重寫了 equals() 方法的:

老祖宗留給你就是讓你自己用的,如果你不用,那人家也提供了默認的方法,也是夠意思了。

好了,我們再去看 hashCode() 的介紹:

那至於 hashCode() 返回的究竟是什麼,和本文關聯不太大,有興趣的同學可以看參考這篇文章[1],結論就是:

返回的並不一定是對象的(虛擬)內存地址,具體取決於運行時庫和JVM的具體實現。

但無論是怎麼實現的,都需要遵循文檔上的約定,也就是對不同的 object 會返回唯一的哈希值

哈希衝突詳解

一般來說哈希衝突有兩大類解決方式[2]

Java 中採用的是第一種 Separate chaining,即在發生碰撞的那個桶後面再加一條「鏈」來存儲,那麼這個「鏈」使用的具體是什麼數據結構,不同的版本稍有不同:

在 JDK1.6 和 1.7 中,是用鍊表存儲的,這樣如果碰撞很多的話,就變成了在鍊表上的查找,worst case 就是 O(n);

在 JDK 1.8 進行了優化,當鍊表長度較大時(超過 8),會採用紅黑樹來存儲,這樣大大提高了查找效率。

(話說,這個還真的喜歡考,已經在多次面試中被問過了,還有面試官問為什麼是超過「8」才用紅黑樹🤔)

第二種方法 open addressing 也是非常重要的思想,因為在真實的分布式系統裡,有很多地方會用到 hash 的思想但又不適合用 seprate chaining。

這種方法是順序查找,如果這個桶裡已經被佔了,那就按照「某種方式」繼續找下一個沒有被佔的桶,直到找到第一個空的。

如圖所示,John Smith 和 Sandra Dee 發生了哈希衝突,都被計算到 152 號桶,於是 Sandra 就去了下一個空位 - 153 號桶,當然也會對之後的 key 發生影響:Ted Baker 計算結果本應是放在 153 號的,但鑑於已經被 Sandra 佔了,就只能再去下一個空位了,所以到了 154 號。

這種方式叫做 Linear probing 線性探查,就像上圖所示,一個個的順著找下一個空位。當然還有其他的方式,比如去找平方數,或者 Double hashing.

HashMap 基本操作

每種數據結構的基本操作都無外乎增刪改查這四種,具體到 HashMap 來說,

改:還是用的 put(K key, V value)查:get(Object key) / containsKey(Object key)

細心的同學可能發現了,為什麼有些 key 的類型是 Object,有些是 K 呢?這還不是因為 equals()...

這是因為,在 get/remove 的時候,不一定是用的同一個 object。

還記得那個 str1 和 str2 都是田小齊的例子嗎?那比如我先 put(str1, value),然後用 get(str2) 的時候,也是想要到 tianxiaoqi 對應的 value 呀!不能因為我換了身衣服就不認得我了呀!所以在 get/remove 的時候並沒有很限制 key 的類型,方便另一個自己相認。

其實這些 API 的操作流程大同小異,我們以最複雜的 put(K key, V value) 來講:

首先要拿到 array 中要放的位置的 index怎麼找 index 呢,這裡我們可以單獨用 getIndex() method 來做這件事;具體怎麼做,就是通過 hash function 算出來的值,模上數組的長度;那拿到了這個位置的 Node,我們開始 traverse 這個 LinkedList,這就是在鍊表上的操作了,如果沒找到,就把它放在鍊表上,可以放頭上,也可以放尾上,一般我喜歡放頭上,因為新加入的元素用到的概率總是大一些,但並不影響時間複雜度。

代碼如下:

  public V put(K key, V value) {  int index = getIndex(key);  Node<K, V> node = array[index];  Node<K, V> head = node;   while (node != null) {        if (checkEquals(key, node)) {      V preValue = node.value;      node.value = value;      return preValue;    }    node = node.next;  }    Node<K, V> newNode = new Node(key, value);   newNode.next = head;  array[index] = newNode;  return null;}

至於更多的細節比如加一些 rehashing 啊,load factor 啊,大家可以參考源碼。

讀完源碼大家可以做做 Leetcode 706 題練手,so easy~

與 Hashtable 的區別

這是一個年齡暴露貼,HashMap 與 Hashtable 的關係,就像 ArrayList 與 Vector,以及 StringBuilder 與 StringBuffer。

Hashtable 是早期 JDK 提供的接口,HashMap 是新版的;它們之間最顯著的區別,就是 Hashtable 是線程安全的,HashMap 並非線程安全。

這是因為 Java 5.0 之後允許數據結構不考慮線程安全的問題,因為實際工作中我們發現沒有必要在數據結構的層面上上鎖,加鎖和放鎖在系統中是有開銷的,內部鎖有時候會成為程序的瓶頸。

所以 HashMap, ArrayList, StringBuilder 不再考慮線程安全的問題,性能提升了很多,當然,線程安全問題也就轉移給我們程式設計師了。

另外一個區別就是:HashMap 允許 key 中有 null 值,Hashtable 是不允許的。這樣的好處就是可以給一個默認值。

好了,最後我們看下常考題吧。

Top K 問題

非常常考的 Top K 問題,也是大廠面試中規中矩的題,這兩題大同小異,這裡以第一題為例。

題意:
給一組詞,統計出現頻率最高的 k 個。
比如說 「I love leetcode, I love coding」 中頻率最高的 2 個就是 I 和 love 了。

有同學覺得這題特別簡單,但其實這題只是母題,它可以升級到系統設計層面來問:

在某電商網站上,過去的一小時內賣出的最多的 k 種貨物。

我們先看算法層面:

思路:

統計下所有詞的頻率,然後按頻率排序取最高的前 k 個唄。

細節:

用 HashMap 存放單詞的頻率,用 minHeap/maxHeap 來取前 k 個。

實現:

建一個 HashMap <key = 單詞,value = 出現頻率>,遍歷整個數組,相應的把這個單詞的出現次數 + 1.

這一步時間複雜度是 O(n).

用 size = k 的 minHeap 來存放結果,定義好題目中規定的比較順序
a. 首先按照出現的頻率排序;
b. 頻率相同時,按字母順序。遍歷這個 map,如果
a. minHeap 裡面的單詞數還不到 k 個的時候就加進去;
b. 或者遇到更高頻的單詞就把它替換掉。

時空複雜度分析:

第一步是 O(n),第三步是 nlog(k),所以加在一起時間複雜度是 O(nlogk).

用了一個額外的 heap 和 map,空間複雜度是 O(n).

代碼:

class Solution {    public List<String> topKFrequent(String[] words, int k) {                Map<String, Integer> map = new HashMap<>();        for (String word : words) {            Integer count = map.getOrDefault(word, 0);            count++;            map.put(word, count);        }                        PriorityQueue<Map.Entry<String, Integer>> minHeap = new PriorityQueue<>(k+1, new Comparator<Map.Entry<String, Integer>>() {            @Override            public int compare(Map.Entry<String, Integer> e1, Map.Entry<String, Integer> e2) {                if(e1.getValue() == e2.getValue()) {                    return e2.getKey().compareTo(e1.getKey());                }                return e1.getValue().compareTo(e2.getValue());            }        });                        List<String> res = new ArrayList<>();        for(Map.Entry<String, Integer> entry : map.entrySet()) {            minHeap.offer(entry);            if(minHeap.size() > k) {                minHeap.poll();            }        }        while(!minHeap.isEmpty()) {            res.add(minHeap.poll().getKey());        }        Collections.reverse(res);        return res;    }}

LRU Cache

這真的是不論國內面試還是北美面試都非常喜歡考的一道題了。

參考資料[1]

hashCode()參考文章: https://blog.csdn.net/xusiwei1236/article/details/45152201

[2]

哈希衝突wiki: https://en.wikipedia.org/wiki/Hash_table

相關焦點

  • Java面試高頻考點:HashMap的底層原理
    作為一個Java開發工程師,在面試的過程中,最高頻被問到的一個問題就是:「請簡述一下HashMap的實現原理」,在日常開發中,大多數程式設計師只會使用,對於其實現細節,卻不了解,殊不知這是較基礎卻也最重要的知識點。這篇文章將向大家詳細解釋hashmap的底層到底做了哪些事情。
  • 教你用 Python 實現 HashMap 數據結構
    今天這篇文章給大家講講hashmap,這個號稱是所有Java工程師都會的數據結構。為什麼說是所有Java工程師都會呢,因為很簡單,他們不會這個找不到工作。幾乎所有面試都會問,基本上已經成了標配了。在今天的這篇文章當中我們會揭開很多謎團。
  • 來複習一波,HashMap底層實現原理解析
    前言HashMa是Java中最常用的集合類框架,也是Java語言中非常典型的數據結構,同時也是我們需要掌握的數據結構,更重要的是進大廠面試必問之一。HashMap集合的key,會先後調用兩個方法,hashCode and equals方法,這這兩個方法都需要重寫。4、為什麼放在hashMap集合key部分的元素需要重寫equals方法?
  • 面試題:來,問你幾個關於HashMap的問題?
    01010011 00100101 01010100 00100101&   00000000 00000000 00000000 00001111----    00000000 00000000 00000000 00000101        但是,使用了該功能之後,由於只取了低位,因此 hash 碰撞會也會相應的變得很嚴重
  • 滴滴Android崗面經分享:面試真題+經驗總結
    二面:自我介紹手撕算法題能想到的所有方法來解決數組中重複出現次數最多的元素智力題9個外觀一樣的小球,有一個比較輕,問最少需要幾次可以通過天平找到小球java多線程線程a中開啟線程b,c,d,在線程b,c,d執行結束後再結束執行線程
  • 面試必問的 ConcurrentHashMap
    如果並發度設置的過小,會帶來嚴重的鎖競爭問題;如果並發度設置的過大,原本位於同一個Segment內的訪問會擴散到不同的Segment中,CPU cache命中率會下降,從而引起程序性能下降。           Segment<K,V> s0 =               new Segment<K,V>(loadFactor, (int)(cap * loadFactor), (HashEntry<K,V>[])new HashEntry[cap]);               // 負載因子,閾值,每個segment的初始化大小。跟has
  • 最新阿里面試回來總結分享
    ArrayList 是否會越界。 ArrayList 和 hashset 有何區別。hashset 存的數是有序的麼。 二面: list set map 底層使用什麼實現的有哪些典型實現 hashmap 擴容是怎麼擴容的,為什麼是 2 的冪 concurrenthashmap 為什麼線程安全,採用了什麼措施應對高並發
  • 2017年網友京東Java面試經驗:感覺問的比較基礎,大家都是這樣?
    面試官只是拋出幾個關鍵字,然後讓你自己講。感覺這不只是在考察知識點,更考察自己的表達能力,看是否描述的比較清晰,是否有邏輯性。自己這方面做的不好,想起來什麼就說什麼。主要對知識點還是不夠熟練。先總後分比較好!數據結構面試官總是想讓你把同一個問題用不同的方法解決。好好加油!感覺問的比較基礎,大家都是這樣?
  • HashMap容量為什麼必須是2的k次方
    而裡面關鍵的get、put、resize方法更是有過無數分析,今天主要分析一下哈希算法、容量為何選為2k這兩個點,雖然也有大量人分析過,但如果你看完我的分析絕對會讓你更深入理解原理,而不是面試的時候只能巴拉巴拉侃兩句,起碼讓你能侃三句。
  • java中HashMap原理?面試?你是誰,你在哪?
    當我們調用get()方法,HashMap會使用鍵對象的hashcode找到bucket位置,找到bucket位置之後,會調用keys.equals()方法去找到鍊表中正確的節點,最終找到要找的值對象。3、有什麼方法可以減少碰撞?
  • 面試問興趣愛好,如何回答會加分呢?
    很多人在求職過程中,都遇到過面試問興趣的問題,有些人會認為這是面試官隨便問的問題,但對於那些準備好的人來說,適當的答案不僅能給面試官留下良好的印象,還能間接突出他們的專業技能或個人素質,然後在整個面試結果中加分。當我們遇到這樣的問題時,回答哪些興趣愛好更有可能被加分呢?
  • 面試官問你有什麼優點,別害羞,這樣說會讓面試官喜歡
    面試官問你有什麼優點,別害羞,這樣說會讓面試官喜歡你去面試的時候有沒有被面試官問過,你有什麼優點?我的一個朋友小花就經歷了這樣的事情,在面試的時候面試官突然問她,你覺得你有哪些優點呢?因為她平時是一個非常穩重的人,突然被問到這樣的問題有點不知所措,所以她就說:「我性格比較穩重,可以很好地完成工作。」面試官聽完也沒有說什麼,就問了一句:「就沒了嗎?」小花當時已經沒有話說了,就說沒了。最後果然她的面試結果不太好,沒有通過,事後我們一起吃飯的時候她和我談起了這件事。其實她這樣的回答,就表現了自己的缺點。
  • HashMap源碼閱讀
    HashMap源碼閱讀本文基於JDK1.8  >讀完本文預計需要25分鐘(因有大量原始碼,電腦屏觀看體驗較佳)摘要HashMap相信這是出現頻率最高的面試點之一,應該是面試問到爛的面試題之一,同時也是Java中用於處理鍵值對最常用的數據類型。那麼我們就針對JDK8的HashMap共同學習一下!
  • 面試中應該怎麼提問?如果問了這些問題,會深深出賣你
    很多人認為面試就是一場考試,如同雅思口語考試一樣,考官問你什麼你就答什麼就可以了,因此認為面試中只要正確回答面試官的提問就完美了,所以只會被動地等面試官提問,一問一答,面試官不提問就不說話。這是做題家的思維。面試是雙向溝通,面試官可以問你,你也可以提問,這是良好溝通的表現。面試,英文叫interview,是inter+view,雙方都要互動溝通。
  • 阿里螞蟻金服Java程式設計師面試的11個問題,你會幾個呢?
    在分享螞蟻金服Java程式設計師面經前,不妨來看下Java程式設計師面試時要注意3大要點:0、重視基礎在面試之前,有必要將基礎的知識點重新過一遍,比如並發優缺點、內存可見性、鎖、同步、線程池框架等。比如面向對象基本知識,這幾乎是面試必考的,比如什麼是類,繼承,多態等等。面向對象的特徵:抽象、繼承、封裝、多態常見算法的應用,包括算法基礎和Java編程實現。總結一般是進行分類總結,善於抓重點,以便抓住面試官痛點。
  • 面試的時候問會PPT、Excel嗎?這樣回答,面試官最滿意
    最近,剛畢業的小張去找工作,好不容易有一家公司叫他去面試,小張刷了好多題,看了面試攻略,希望可以把握機會,拿到工作。面試的過程還算順利,一路聊下的,有說有笑, 對答如流,這個時候,面試官問了一個問題:「Excel會用嗎? PPT會做嗎?
  • 面試中不該問的問題不要問
    在面試中,求職者自動發問,能夠反映出應聘者的活潑自動性,並且能夠活潑面試的氛圍,但是物極必反,很多面試者發問,總是滔滔不絕,反客為主的以為是在「面試」考官,這是面試中最為忌諱的,一起求職者在面試時更應謹記:不應問的問題不要問。
  • 外貿業務員面試會問哪些問題?
    ,參加外貿業務員面試,經常會遇到哪些問題?我很少問封閉式的問題。開放式的問題有助於求職者充分表達自己的想法,暢所欲言。作為面試官,就可以捕捉到很多信息。第二,聊天的環境。外貿業務員是銷售型的崗位,這個崗位要求求職者有很強的溝通能力,善於與客戶溝通。所以我在面試這個崗位的時候,通常會保持微笑,創造輕鬆的氛圍,看求職者是否能適應這樣的環境。如果求職者在這麼輕鬆的環境下都不會聊天,那說明不太適合做銷售工作的。
  • Java面試必問之Hashmap底層實現原理(JDK1.7)
    前言Hashmap可以說是Java面試必問的,一般的面試題會問:Hashmap有哪些特性?Hashmap底層實現原理(get\put\resize)Hashmap怎麼解決hash衝突?