溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Java中ArrayList的removeAll方法詳解

發(fā)布時間:2020-10-06 04:33:19 來源:腳本之家 閱讀:163 作者:李國旺 欄目:編程語言

本文介紹的是關(guān)于Java中ArrayList的removeAll方法的相關(guān)內(nèi)容,分享出來供大家參考學習,下面來一起看看詳細的介紹:

在開發(fā)過程中,遇到一個情況,就是從所有騎手Id中過濾沒有標簽的騎手Id(直接查詢沒有標簽的騎手不容易實現(xiàn)),

List<Integer> allRiderIdList = new ArrayList(); // 所有的騎手,大致有23W數(shù)據(jù)
List<Integer> hasAnyTagRiderId = new ArrayList(); // 有標簽的騎手, 大致有21W數(shù)據(jù)
List<Integer> withoutAnyTagRiderList = allRiderIdList.removeAll(hasAnyTagRiderId);

邏輯很簡單,就是取一個差集,這樣子就拿到?jīng)]有任何標簽的騎手數(shù)據(jù)。

但是在實際開發(fā)過程中,removeAll這個動作很耗時,做測試大概要4分鐘左右。查看ArrayList中removeAll的源碼片段:

public boolean removeAll(Collection<?> c) {
 Objects.requireNonNull(c);
 return batchRemove(c, false);
}

private boolean batchRemove(Collection<?> c, boolean complement) {
 final Object[] elementData = this.elementData;
 int r = 0, w = 0;
 boolean modified = false;
 try {
 for (; r < size; r++) // 循環(huán)原來的list
  if (c.contains(elementData[r]) complement) // 這里調(diào)用contains方法
  elementData[w++] = elementData[r];
 } finally {
 ....
 }
 return modified;
}

在循環(huán)過程中調(diào)用contains方法做比較,查一下ArrayList的contains方法,源代碼片段如下:

public boolean contains(Object o) {
 return indexOf(o) >= 0;
}

public int indexOf(Object o) {
 if (o null) {
 for (int i = 0; i < size; i++)
  if (elementData[i]==null)
  return i;
 } else {
 for (int i = 0; i < size; i++)
  if (o.equals(elementData[i]))
  return i;
 }
 return -1;
}

這可以看出來,在比較的過程中,又調(diào)用了一次循環(huán)。

所以removeAll兩層for循環(huán),復雜度O(m*n),所以在操作比較大的ArrayList時,這種方法是絕對不可取的。

下面看一下最終的實現(xiàn)方式:

private List<Integer> removeAll(List<Integer> src, List<Integer> target) {
 LinkedList<Integer> result = new LinkedList<>(src); //大集合用linkedlist
 HashSet<Integer> targetHash = new HashSet<>(target); //小集合用hashset
 Iterator<Integer> iter = result.iterator(); //采用Iterator迭代器進行數(shù)據(jù)的操作

 while(iter.hasNext()){ 
 if(targetHash.contains(iter.next())){
  iter.remove();
 }
 }
 return result;
}

同樣數(shù)量級list, 整個過程只需要幾十毫秒,簡直天壤之別。

回過頭來,比較一下兩種實現(xiàn)方式,為什么差距這個大。

1、外層循環(huán)

     一個是普通的for循環(huán),一個迭代器遍歷元素,二者相差不大

2、內(nèi)層數(shù)據(jù)比較

     前者通過index方法把整個數(shù)組順序遍歷了一遍;

     后者調(diào)用HashSet的contains方法,實際上是調(diào)用HashMap的containKey方法,查找時是通過hash表查找,復雜度為O(1)。

接下來我們簡單看一下hash表。

hash表是一種特殊的數(shù)據(jù)結(jié)構(gòu),它同數(shù)組、鏈表以及二叉排序樹等相比較有很明顯的區(qū)別,它能夠快速定位到想要查找的記錄,而不是與表中存在的記錄的關(guān)鍵字進行比較來進行查找。這個源于Hash表設(shè)計的特殊性,它采用了函數(shù)映射的思想將記錄的存儲位置與記錄的關(guān)鍵字關(guān)聯(lián)起來,從而能夠很快速地進行查找??梢院唵卫斫鉃椋钥臻g換時間,犧牲空間復雜度來換取時間復雜度。

hash表采用一個映射函數(shù) f : key —> address 將關(guān)鍵字映射到該記錄在表中的存儲位置,從而在想要查找該記錄時,可以直接根據(jù)關(guān)鍵字和映射關(guān)系計算出該記錄在表中的存儲位置,通常情況下,這種映射關(guān)系稱作為hash函數(shù),而通過hash函數(shù)和關(guān)鍵字計算出來的存儲位置(注意這里的存儲位置只是表中的存儲位置,并不是實際的物理地址)稱作為hash地址。

Java中ArrayList的removeAll方法詳解

上面的圖大家應該都很熟悉,hash表的一種實現(xiàn)方式,是由數(shù)組+鏈表組成的。元素放入hash表的位置通過hash(key)%len獲得,也就是元素的key的哈希值對數(shù)組長度取模得到。

另外hash表大小的確定也很關(guān)鍵,如果hash表的空間遠遠大于最后實際存儲的記錄個數(shù),則造成了很大的空間浪費,如果選取小了的話,則容易造成沖突。在實際情況中,一般需要根據(jù)最終記錄存儲個數(shù)和關(guān)鍵字的分布特點來確定Hash表的大小。還有一種情況時可能事先不知道最終需要存儲的記錄個數(shù),則需要動態(tài)維護Hash表的容量,此時可能需要重新計算Hash地址。
當然,關(guān)于hash表要說的話太多,先簡單到此吧~~~

總結(jié)

以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學習或者工作能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對億速云的支持。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI