有關 HashMap 面試會問的一切

2021-03-02 腳本之家

前言

HashMap 是無論在工作還是面試中都非常常見常考的數據結構。

比如 Leetcode 第一題 Two Sum 的某種變種的最優解就是需要用到 HashMap 的，高頻考題 LRU Cache 是需要用到 LinkedHashMap 的。

HashMap 用起來很簡單，底層實現也不複雜，先來看幾道常見的面試題吧。相信大家多多少少都能回答上來一點，不清楚的地方就仔細閱讀本文啦～這篇文章帶你深挖到 HashMap 的老祖宗，保證吊打面試官

為什麼重寫 equals() 就必須要重寫 hashCode()？Hashtable, HashSet 和 HashMap 的區別和聯繫處理 hash 衝突有哪些方法？Java 中用的哪一種？為什麼？另一種方法你在工作中用過嗎？在什麼情況下用得多？

本文分以下章節：

Set 家族

在講 Map 之前，我們先來看看 Set。

集合的概念我們初中數學就學過了，就是裡面不能有重複元素，這裡也是一樣。

Set 在 Java 中是一個接口，可以看到它是 java.util 包中的一個集合框架類，具體的實現類有很多：

其中比較常用的有三種：

HashSet: 採用 Hashmap 的 key 來儲存元素，主要特點是無序的，基本操作都是 O(1) 的時間複雜度，很快。

LinkedHashSet: 這個是一個 HashSet + LinkedList 的結構，特點就是既擁有了 O(1) 的時間複雜度，又能夠保留插入的順序。

TreeSet: 採用紅黑樹結構，特點是可以有序，可以用自然排序或者自定義比較器來排序；缺點就是查詢速度沒有 HashSet 快。

Map 家族

Map 是一個鍵值對 (Key - Value pairs)，其中 key 是不可以重複的，畢竟 set 中的 key 要存在這裡面。

那麼與 Set 相對應的，Map 也有這三個實現類：

HashMap: 與 HashSet 對應，也是無序的，O(1)。

LinkedHashMap: 這是一個「HashMap + 雙向鍊表」的結構，落腳點是 HashMap，所以既擁有 HashMap 的所有特性還能有順序。

TreeMap: 是有序的，本質是用二叉搜索樹來實現的。

HashMap 實現原理

對於 HashMap 中的每個 key，首先通過 hash function 計算出一個 hash 值，這個hash值就代表了在 buckets 裡的編號，而 buckets 實際上是用數組來實現的，所以把這個數值模上數組的長度得到它在數組的 index，就這樣把它放在了數組裡。

那麼這裡有幾個問題：

如果不同的元素算出了相同的哈希值，那麼該怎麼存放呢？

答：這就是哈希碰撞，即多個 key 對應了同一個桶。

HashMap 中是如何保證元素的唯一性的呢？即相同的元素會不會算出不同的哈希值呢？

答：通過 hashCode() 和 equals() 方法來保證元素的唯一性。

如果 pairs 太多，buckets 太少怎麼破？

答：Rehasing. 也就是碰撞太多的時候，會把數組擴容至兩倍（默認）。所以這樣雖然 hash 值沒有變，但是因為數組的長度變了，所以算出來的 index 就變了，就會被分配到不同的位置上了，就不用擠在一起了，小夥伴們我們江湖再見～

那什麼時候會 rehashing 呢？也就是怎麼衡量桶裡是不是足夠擁擠要擴容了呢？

答：load factor. 即用 pair 的數量除以 buckets 的數量，也就是平均每個桶裡裝幾對。Java 中默認值是 0.75f，如果超過了這個值就會 rehashing.

關於 hashCode() 和 equals()

如果 key 的 hashCode() 值相同，那麼有可能是要發生 hash collision 了，也有可能是真的遇到了另一個自己。那麼如何判斷呢？繼續用 equals() 來比較。

也就是說，

hashCode() 決定了 key 放在這個桶裡的編號，也就是在數組裡的 index；

equals() 是用來比較兩個 object 是否相同的。

那麼該如何回答這道經典面試題：

為什麼重寫 equals() 方法，一定要重寫 hashCode() 呢？

答：首先我們有一個假設：任何兩個 object 的 hashCode 都是不同的。

那麼在這個條件下，有兩個 object 是相等的，那如果不重寫 hashCode()，算出來的哈希值都不一樣，就會去到不同的 buckets 了，就迷失在茫茫人海中了，再也無法相認，就和 equals() 條件矛盾了，證畢。

撒花～～🎉🎉🎉

接下來我們再對這兩個方法一探究竟：

其實 hashCode() 和 equals() 方法都是在 Object class 這個老祖宗裡定義的，Object 是所有 Java 中的 class 的鼻祖，默認都是有的，甩不掉的。

那既然是白給的，我們先來看看大禮包裡有什麼，谷歌 Object 的 Oracle 文檔：

所以這些方法都是可以直接拿來用的呢～

回到 hashCode() 和 equals()，那麼如果這個新的 class 裡沒有重寫 (override) 這兩個方法，就是默認繼承 Object class 裡的定義了。

那我們點進去來看看 equals() 是怎麼定義的：

記筆記：

equals() 方法就是比較這兩個 references 是否指向了同一個 object.

嗯？？？你在逗我嗎？？那豈不是和 == 一樣了？？

補充：
我們常用的比較大小的符號之 ==
如果是 primitive type，那麼 == 就是比較數值的大小；
如果是 reference type，那麼就比較的是這兩個 reference 是否指向了同一個 object。

再補充：
Java 的數據類型可以分為兩種：
Primitive type 有且僅有8種：byte, short, int, long, float, double, char, boolean.
其他都是 Reference type.
所以雖然 Java 聲稱「Everything is object」，但是還是有非 object 數據類型的存在的。

我不信，我要去源碼裡看看它是怎麼實現的。

哈，還真是的，繞了這么半天，equals() 就是用 == 來實現的！

那為什麼還弄出來這麼個方法呢？

答：為了讓你 override～

比如一般來說我們比較字符串就是想比較這兩個字符串的內容的，那麼：

str1 = 「tianxiaoqi」;str2 =  new String(「tianxiaoqi」);
str1 == str2; str1.equals(str2); 
因為 String 裡是重寫了 equals() 方法的：
老祖宗留給你就是讓你自己用的，如果你不用，那人家也提供了默認的方法，也是夠意思了。
好了，我們再去看 hashCode() 的介紹：
那至於 hashCode() 返回的究竟是什麼，和本文關聯不太大，有興趣的同學可以看參考這篇文章[1]，結論就是：
返回的並不一定是對象的（虛擬）內存地址，具體取決於運行時庫和JVM的具體實現。
但無論是怎麼實現的，都需要遵循文檔上的約定，也就是對不同的 object 會返回唯一的哈希值。
哈希衝突詳解一般來說哈希衝突有兩大類解決方式[2]
Java 中採用的是第一種 Separate chaining，即在發生碰撞的那個桶後面再加一條「鏈」來存儲，那麼這個「鏈」使用的具體是什麼數據結構，不同的版本稍有不同：
在 JDK1.6 和 1.7 中，是用鍊表存儲的，這樣如果碰撞很多的話，就變成了在鍊表上的查找，worst case 就是 O(n)；
在 JDK 1.8 進行了優化，當鍊表長度較大時（超過 8），會採用紅黑樹來存儲，這樣大大提高了查找效率。
（話說，這個還真的喜歡考，已經在多次面試中被問過了，還有面試官問為什麼是超過「8」才用紅黑樹🤔）
第二種方法 open addressing 也是非常重要的思想，因為在真實的分布式系統裡，有很多地方會用到 hash 的思想但又不適合用 seprate chaining。
這種方法是順序查找，如果這個桶裡已經被佔了，那就按照「某種方式」繼續找下一個沒有被佔的桶，直到找到第一個空的。
如圖所示，John Smith 和 Sandra Dee 發生了哈希衝突，都被計算到 152 號桶，於是 Sandra 就去了下一個空位 - 153 號桶，當然也會對之後的 key 發生影響：Ted Baker 計算結果本應是放在 153 號的，但鑑於已經被 Sandra 佔了，就只能再去下一個空位了，所以到了 154 號。
這種方式叫做 Linear probing 線性探查，就像上圖所示，一個個的順著找下一個空位。當然還有其他的方式，比如去找平方數，或者 Double hashing.
HashMap 基本操作 每種數據結構的基本操作都無外乎增刪改查這四種，具體到 HashMap 來說，
改：還是用的 put(K key, V value)查：get(Object key) / containsKey(Object key)細心的同學可能發現了，為什麼有些 key 的類型是 Object，有些是 K 呢？這還不是因為 equals()...
這是因為，在 get/remove 的時候，不一定是用的同一個 object。
還記得那個 str1 和 str2 都是田小齊的例子嗎？那比如我先 put(str1, value)，然後用 get(str2) 的時候，也是想要到 tianxiaoqi 對應的 value 呀！不能因為我換了身衣服就不認得我了呀！所以在 get/remove 的時候並沒有很限制 key 的類型，方便另一個自己相認。
其實這些 API 的操作流程大同小異，我們以最複雜的 put(K key, V value) 來講：
首先要拿到 array 中要放的位置的 index怎麼找 index 呢，這裡我們可以單獨用 getIndex() method 來做這件事；具體怎麼做，就是通過 hash function 算出來的值，模上數組的長度；那拿到了這個位置的 Node，我們開始 traverse 這個 LinkedList，這就是在鍊表上的操作了，如果沒找到，就把它放在鍊表上，可以放頭上，也可以放尾上，一般我喜歡放頭上，因為新加入的元素用到的概率總是大一些，但並不影響時間複雜度。代碼如下：
  public V put(K key, V value) {  int index = getIndex(key);  Node<K, V> node = array[index];  Node<K, V> head = node;   while (node != null) {        if (checkEquals(key, node)) {      V preValue = node.value;      node.value = value;      return preValue;    }    node = node.next;  }    Node<K, V> newNode = new Node(key, value);   newNode.next = head;  array[index] = newNode;  return null;}
至於更多的細節比如加一些 rehashing 啊，load factor 啊，大家可以參考源碼。
讀完源碼大家可以做做 Leetcode 706 題練手，so easy~
與 Hashtable 的區別這是一個年齡暴露貼，HashMap 與 Hashtable 的關係，就像 ArrayList 與 Vector，以及 StringBuilder 與 StringBuffer。
Hashtable 是早期 JDK 提供的接口，HashMap 是新版的；它們之間最顯著的區別，就是 Hashtable 是線程安全的，HashMap 並非線程安全。
這是因為 Java 5.0 之後允許數據結構不考慮線程安全的問題，因為實際工作中我們發現沒有必要在數據結構的層面上上鎖，加鎖和放鎖在系統中是有開銷的，內部鎖有時候會成為程序的瓶頸。
所以 HashMap, ArrayList, StringBuilder 不再考慮線程安全的問題，性能提升了很多，當然，線程安全問題也就轉移給我們程式設計師了。
另外一個區別就是：HashMap 允許 key 中有 null 值，Hashtable 是不允許的。這樣的好處就是可以給一個默認值。
好了，最後我們看下常考題吧。
Top K 問題 非常常考的 Top K 問題，也是大廠面試中規中矩的題，這兩題大同小異，這裡以第一題為例。
題意：
給一組詞，統計出現頻率最高的 k 個。
比如說 「I love leetcode, I love coding」 中頻率最高的 2 個就是 I 和 love 了。
有同學覺得這題特別簡單，但其實這題只是母題，它可以升級到系統設計層面來問：
在某電商網站上，過去的一小時內賣出的最多的 k 種貨物。
我們先看算法層面:
思路：
統計下所有詞的頻率，然後按頻率排序取最高的前 k 個唄。
細節：
用 HashMap 存放單詞的頻率，用 minHeap/maxHeap 來取前 k 個。
實現：
建一個 HashMap <key = 單詞，value = 出現頻率>，遍歷整個數組，相應的把這個單詞的出現次數 + 1.這一步時間複雜度是 O(n).
用 size = k 的 minHeap 來存放結果，定義好題目中規定的比較順序
a. 首先按照出現的頻率排序；
b. 頻率相同時，按字母順序。遍歷這個 map，如果
a. minHeap 裡面的單詞數還不到 k 個的時候就加進去；
b. 或者遇到更高頻的單詞就把它替換掉。時空複雜度分析：
第一步是 O(n)，第三步是 nlog(k)，所以加在一起時間複雜度是 O(nlogk).
用了一個額外的 heap 和 map，空間複雜度是 O(n).
代碼：
class Solution {    public List<String> topKFrequent(String[] words, int k) {                Map<String, Integer> map = new HashMap<>();        for (String word : words) {            Integer count = map.getOrDefault(word, 0);            count++;            map.put(word, count);        }                        PriorityQueue<Map.Entry<String, Integer>> minHeap = new PriorityQueue<>(k+1, new Comparator<Map.Entry<String, Integer>>() {            @Override            public int compare(Map.Entry<String, Integer> e1, Map.Entry<String, Integer> e2) {                if(e1.getValue() == e2.getValue()) {                    return e2.getKey().compareTo(e1.getKey());                }                return e1.getValue().compareTo(e2.getValue());            }        });                        List<String> res = new ArrayList<>();        for(Map.Entry<String, Integer> entry : map.entrySet()) {            minHeap.offer(entry);            if(minHeap.size() > k) {                minHeap.poll();            }        }        while(!minHeap.isEmpty()) {            res.add(minHeap.poll().getKey());        }        Collections.reverse(res);        return res;    }}
LRU Cache 這真的是不論國內面試還是北美面試都非常喜歡考的一道題了。
參考資料[1]hashCode()參考文章: https://blog.csdn.net/xusiwei1236/article/details/45152201
[2]哈希衝突wiki: https://en.wikipedia.org/wiki/Hash_table

有關 HashMap 面試會問的一切

相關焦點

Java面試高頻考點:HashMap的底層原理

教你用 Python 實現 HashMap 數據結構

來複習一波,HashMap底層實現原理解析

面試題:來,問你幾個關於HashMap的問題?

滴滴Android崗面經分享：面試真題+經驗總結

面試必問的 ConcurrentHashMap

最新阿里面試回來總結分享

2017年網友京東Java面試經驗:感覺問的比較基礎,大家都是這樣?

HashMap容量為什麼必須是2的k次方

java中HashMap原理?面試?你是誰,你在哪?

面試問興趣愛好,如何回答會加分呢?

面試官問你有什麼優點,別害羞,這樣說會讓面試官喜歡

HashMap源碼閱讀

面試中應該怎麼提問?如果問了這些問題,會深深出賣你

阿里螞蟻金服Java程式設計師面試的11個問題,你會幾個呢?

面試的時候問會PPT、Excel嗎?這樣回答,面試官最滿意

面試中不該問的問題不要問

外貿業務員面試會問哪些問題?

Java面試必問之Hashmap底層實現原理(JDK1.7)