談談 Hash Table

2021-02-20 java一日一條

一.數據結構

在我們編程的世界裡數據的基本組織可以說有三種形式。

其他任何的數據組織形式都可以看作是這三種數據組織形式的組合變體。

結構體(或對象)可以是基本數據類型或者其他結構體(或對象)的組合。結構體或對象一般用來描述一個複雜數據實體。

數組一般是一組同類型的變量的集合,在內存中表現為一片連續的空間,因為空間是連續的,且每一個數據單元佔的內存空間的大小是相等的,所以可以根據地址的偏移對數據元素實現快速訪問,但是當需要插入或者刪除一個元素的時候,則需要對目標元素的之後的所有元素進行移動了。 鍊表的單個節點一般為結構體或者對象,因為鍊表的單個節點除了需要保存數據之外還需要維護它的相鄰節點的關係,如果想獲得鍊表中的某個節點的值,需要從鍊表的頭結點開始遍歷,直到找到需要的東西,而插入或者刪除某個節點的話,需要找到相應的節點,修改其以及其相鄰節點的相關指針的引用即可。

像其他的數據結構,比如 隊列,棧,樹,都可以通過數組或者鍊表來組織,並實現相應的操作功能。

二.Hash Table

這個世界上沒有十全十美的東西,所以我們要學會取捨。任何技術的實現都沒有最好的只要最合適的,也就說實現的最佳方案是和應用場景息息相關的。

很多時候,我們想對數據進行快速的存取(比如緩存的實現),並用一個key來標記自己存取的數據。我們可以把它叫做key-value的結構。
說到「快速」我們很快想到數組,因為數組可以在O(1)的時間複雜內完成指定位置元素的讀寫操作。

所以在理想狀態,如果一個數組足夠長,且存在一個函數可以將每一個key映射到唯一的一個數組下標,那麼我們就可以很完美的解決問題。但往往資源都是有限的,我們沒有那麼大的空間,也不能設計一個無比負責的映射算法保證每一個key對應到一個唯一的數組下標。所以我們會選擇一些折中的方案。

hash table便是為解決這類問題而存在的。

1.哈希函數

Hash或者你可以翻譯成散列或者雜湊,hash操作其本質上就是將一個數據映射成另一個數據,通常情況下原數據的長度比hash後的數據容量大。 這種映射的關係我們叫做哈希函數。

一般情況下 哈希函數的輸入可能的總數要遠遠多於哈希值所能表示的總數,所以就有可能兩個不同的輸入對應同一個哈希值,通常把具有不同關鍵碼而具有相同哈希值的記錄稱作「同義詞」。 在信息安全領域中也經常使用到哈希函數,不過需要使用的是單向哈希函數,就是無法通過哈希的結果反推出輸入,所以經常應用於密碼的加密,傳輸內容的完整性檢查,在安全領域常用的哈希算法有 MD5,SHA1等。 在哈希表的應用中,哈希函數常用餘數法進行,也就是通過求模的方式算出哈希值。

2.哈希表

哈希表是一種數據結構,實現key-value的快速存取。之前說過數組可以實現快速存取,所以哈希表肯定會使用到數組。在這裡,我們把每一個數組的單元叫做一個bucket(桶)。

構造哈希函數 這裡哈希函數的作用就是將key映射到一個存儲地址。所以構造一個哈希表我們得先構造哈希函數。 如果一個key哈希後對應地址中已經存放了值了,這種情況我們叫做哈希衝突(Hash collisions)。 如果存在一個哈希函數,使得每一個輸入都能對應到唯一的一個存儲單元中(沒有衝突),那麼這樣的哈希函數我們可以叫它完美哈希函數(Perfect Hash Function,簡稱PHF)。 但為了哈希函數簡單,運行速度快,往往不會使用完美哈希函數。所以衝突肯定會存在的,為了減少衝突,我們希望哈希函數的結果均勻的分布在地址單元的空間中。這樣可以有效的減少衝突。

裝填因子Load factor a=哈希表的實際元素數目(n)/ 哈希表的容量(m) a越大,哈希表衝突的概率越大,但是a越接近0,那麼哈希表的空間就越浪費。 一般情況下建議Load factor的值為0-0.7,Java實現的HashMap默認的Load factor的值為0.75,當裝載因子大於這個值的時候,HashMap會對數組進行擴張至原來兩倍大。

衝突解決 既然衝突不可避免,那麼我們就必須對衝突進行解決(總不能把之前的內容覆蓋掉把), 解決衝突的方式主要分兩類 開放定址法(Open addressing)這種方法就是在計算一個key的哈希的時候,發現目標地址已經有值了,即發生衝突了,這個時候通過相應的函數在此地址後面的地址去找,直到沒有衝突為止。這個方法常用的有線性探測,二次探測,再哈希。 這種解決方法有個不好的地方就是,當發生衝突之後,會在之後的地址空間中找一個放進去,這樣就有可能後來出現一個key哈希出來的結果也正好是它放進去的這個地址空間,這樣就會出現非同義詞的兩個key發生衝突。

連結法(Separate chaining)連結法是通過數組和鍊表組合而成的。當發生衝突的時候只要將其加到對應的鍊表中即可。

與開放定址法相比,連結法有如下幾個優點:

①連結法處理衝突簡單,且無堆積現象,即非同義詞決不會發生衝突,因此平均查找長度較短;
②由於連結法中各鍊表上的結點空間是動態申請的,故它更適合於造表前無法確定表長的情況;
③開放定址法為減少衝突,要求裝填因子α較小,故當結點規模較大時會浪費很多空間。而連結法中可取α≥1,且結點較大時,拉鏈法中增加的指針域可忽略不計,因此節省空間;
④在用連結法構造的散列表中,刪除結點的操作易於實現。只要簡單地刪去鍊表上相應的結點即可。而對開放地址法構造的散列表,刪除結點不能簡單地將被刪結點的空間置為空,否則將截斷在它之後填人散列表的同義詞結點的查找路徑。這是因為各種開放地址法中,空地址單元(即開放地址)都是查找失敗的條件。因此在 用開放地址法處理衝突的散列表上執行刪除操作,只能在被刪結點上做刪除標記,而不能真正刪除結點。

當然連結法也有其缺點,拉鏈法的缺點是:指針需要額外的空間,故當結點規模較小時,開放定址法較為節省空間,而若將節省的指針空間用來擴大散列表的規模,可使裝填因子變小,這又減少了開放定址法中的衝突,從而提高平均查找速度。

相關焦點

  • 數據結構-PHP 哈希表(Hash Table)的實現
    $hash; for ($i = 0; $i < $len; $i++) { $h = $hash << 5; $h -= $hash; $h += ord($str[$i]); $hash = $h;
  • 淺談Java中的hashcode方法
    此時hashCode方法的作用就體現出來了,當集合要添加新的對象時,先調用這個對象的hashCode方法,得到對應的hashcode值,實際上在HashMap的具體實現中會用一個table保存已經存進去的對象的hashcode值,如果table中沒有該hashcode值,它就可以直接存進去,不用再進行任何比較了;如果存在該hashcode值, 就調用它的equals方法與新元素進行比較,相同的話就不存了
  • 淺談「Hash table」
    散列會耗費大量性能,所以我們在初始化的時候可以指定初始容量,避免過多的散列。當然,既然有計算,就不可避免衝突(collision)現象:對不同的關鍵字可能得到同一哈希地址 即key1≠key2,而hash(key1)=hash(key2)。具有相同函數值的關鍵字對該哈希函數來說稱為同義詞(synonym)。因此,在建造哈希表時不僅要設定一個好的哈希函數,而且要設定一種處理衝突的方法。
  • 淺談 Java 中的 hashcode 方法
    此時hashCode方法的作用就體現出來了,當集合要添加新的對象時,先調用這個對象的hashCode方法,得到對應的hashcode值,實際上在HashMap的具體實現中會用一個table保存已經存進去的對象的hashcode值,如果table中沒有該hashcode值,它就可以直接存進去,不用再進行任何比較了;如果存在該hashcode值, 就調用它的equals方法與新元素進行比較,相同的話就不存了
  • 【譯】Oracle調優技巧22:Hash Outer Join
    原文:Hash Outer Join : Oracle Tuning Tip#21作者:kali話題Hash Outer Join(散列外連接,音譯哈希連接)定義根據Hash Outer Join 的定義,保留驅動表(父表)的行信息用於構建哈希表( hash table),被驅動表(子表)用於探測哈希表。
  • 圖解MySQL | [原理解析] Adaptive Hash Index 是如何建立的
    這就是 AHI(中文名:自適應哈希索引)中"自適應"的用途:建立一個"不大不小剛剛好"的哈希表。本文主要討論 MySQL 是如何建立起一個"剛剛好"的 AHI 的,如圖 1 所示:需要經歷三個關卡,才能為某個數據頁建立 AHI,之後的查詢才能使用到該 AHI。AHI 是為某個索引樹建立的(當該索引樹層數過多時,AHI 才能發揮效用)。如
  • MySQL 8.0 新特性:哈希連接(Hash Join)
    https://dev.mysql.com/doc/refman/8.0/en/hash-joins.htmlMySQL 實現了用於內連接查詢的 hash join 方式。         JOIN t3     ->             ON (t2.c1 < t3.c1)\G             *************************** 1. row ***************************           id: 1  select_type: SIMPLE        table
  • 常見 Hash 算法的原理
    散列表(Hash table,也叫哈希表),是依據關鍵碼值(Key value)而直接進行訪問的數據結構。也就是說,它通過把關鍵碼值映射到表中一個位置來訪問記錄,以加快查找的速度。這個映射函數叫做散列函數,存放記錄的數組叫做散列表。比方我們存儲70個元素,但我們可能為這70個元素申請了100個元素的空間。70/100=0.7,這個數字稱為負載因子。
  • 你所不知道的 HashCode
    在深挖之前,我可能只能說:如果沒有被重載,代表的是對象的地址通過某種 hash 算法計算後在 hash 表中的位置。回答後,仔細一想,不對呀,這個 hash 值具體是怎麼計算的,我終究還是沒有答到點上,而是繞開話題,回答了含義。腦殼一熱,忽然想起去年虐我的阿里面試題,hashCode 是怎麼得到的呢?一、問題定義hashCode 真的只是通過地址計算的嗎?
  • 「原創」不重寫equals和hashcode難道就不行嗎?
    目錄1、equals()方法和hashCode()方法介紹1.1、equals()方法1.2、hashCode()方法那麼返回的hashcode值有什麼用呢?HashMap之所以速度快,因為它使用的是散列表,根據key的hashcode值生成內存地址,從而可以通過內存地址直接查找,不需要有任何判斷,時間複雜度完美情況下可以達到O(1),但是需要多出很多內存,相當於以空間換時間。
  • hashCode和identityHashCode的區別你知道嗎?
    > * hashCode(). * The hash code for the null reference is zero.;identityHashCode和hashCode的區別是,identityHashCode會返回對象的hashCode,而不管對象是否重寫了hashCode方法。
  • java工程師必知必會的 hashcode 和 hash 算法!
    我們知道 HashMap 依賴的 hashcode 和 hash 算法到底是怎麼實現的嘛?今天樓主不會講 HashMap 的 put 方法實現和 get 方法實現,樓主要講的是 HashMap 高度依賴的 hashcode 和 hash 算法雖然在很多書裡面,都說這是數學家應該去研究的事情,但我想,程式設計師也應該了解他是怎麼實現的。為什麼這麼做?
  • Anal Sweater Hash
    RUN DESCRIPTION: Don’t miss out on your second (and probably last chance) to complete your seven districts this hash
  • pt-table-checksum原理
    今天主要介紹的是pt-table-checksum的原理,相信使用過主從的同學對pt-table-checksum工具都不會陌生,可以說pt-table-checksum是主從校驗使用最廣泛的工具,幫助DBA同學完成主從數據的一致性校驗。
  • hash擴展攻擊
    hash原理首先要講hash算法(例如md5),但是也不需要太了解,只需要知道以下幾點就可以了MD5加密過程中512比特(64位元組)為一組,屬於分組加密,而且在運算的過程中,將512比特分為32bit*16塊,分塊運算我們關鍵利用的是MD5的填充,對加密的字符串進行填充(比特第一位為1其餘比特為0),使之(二進位)補到448模512同餘,即長度為512的倍數減
  • String的hashCode方法不能濫用
    首先,需要理解一下hashCode方法的含義,以及知道不同String,調用hashCode方法返回的值可能是相同的,比如"Aa"和"BB"的hashCode方法返回的都是2112.這時如果用在這裡,就有問題了。我們再來看看String的hashCode方法源碼:1、為什麼有個常數31作為生成hashCode算法的一部分?
  • PHP的Hash信息摘要擴展框架
    然後我們通過遍歷這兩個函數返回的內容,並使用 hash() 和 hash_hmac() 函數來對數據進行 Hash 加密並查看它們的內容就可以發現每種算法都能夠成功返回不同的加密信息摘要,而且有不同的位數。hmac 相關的函數是 PHP 的 Hash 算法中的另一種形式,它是一個需要密鑰的算法,也就是 hash_hmac() 的第三個參數。
  • Java hashCode() 方法深入理解
    本文描述了為什麼要用hashCode(), 如何使用,以及其他的一些擴展。閱讀本文需要有基本的hash算法知識以及基本的Java集合知識,本文屬於菜鳥入門級講解,大神讀至此請點擊右上角的X,以免浪費您的時間^_^。WHY hashCode()?集合Set中的元素是無序不可重複的,那判斷兩個元素是否重複的依據是什麼呢?
  • 哈希(Hash)和哈希樹(Merkletree)
    該函數將數據打亂混合,重新創建一個叫做散列值/哈希值(hash values,hash codes,hash sums,或hashes)的指紋。散列值通常用一個短的隨機字母和數字組成的字符串來代表。好的散列函數在輸入域中很少出現散列衝突。 散列函數都有如下一個基本特性:如果兩個散列值是不相同的(根據同一函數),那麼這兩個散列值的原始輸入也是不相同的。
  • 詳解equals()方法和hashCode()方法
    二、hashCode()方法1、Object的hashCode()Object類中hashCode()方法的聲明如下:public native int hashCode();可以看出,hashCode()是一個native方法,而且返回值類型是整形;實際上,該native方法將對象在內存中的地址作為哈希碼返回,可以保證不同對象的返回值不同。