redis五種數據類型使用場景「mysql去重查詢方法」

  • 刪除全部重複數據,一條不留
  • 刪除表中刪除重複數據,僅保留一條
  • 開始刪除重複數據,僅留一條

在公司加班到八點,此為背景。

加班原因是上線,解決線上數據庫存在重複數據的問題,發現了程序的bug,很好解決,有點問題的是,修正線上的重複數據。

線上庫有6個表存在重複數據,其中2個表比較大,一個96萬+、一個30萬+,因為之前處理過相同的問題,就直接拿來了上次的Python去重腳本,腳本很簡單,就是連接數據庫,查出來重複數據,循環刪除。

emmmm,但是這個效率嘛,實在是太低了,1秒一條,重複數據大約2萬+,預估時間大約在8個小時左右。。。

盲目依靠前人的東西,而不去自己思考是有問題的!總去想之前怎麼可以,現在怎麼不行了,這也是有問題的!我發現,最近確實狀態不太對,失去了探索和求知的慾望,今天算是一個警醒,頗有迷途知返的感覺。

言歸正傳,下面詳細介紹去重步驟。

CREATE TABLE `animal` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(20) DEFAULT NULL,
  `age` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;


INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('1', 'cat', '12');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('2', 'dog', '13');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('3', 'camel', '25');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('4', 'cat', '32');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('5', 'dog', '42');

目標:我們要去掉name相同的數據。

先看看哪些數據重複了

SELECT name,count( 1 )
FROM
 student
GROUP BY
NAME
HAVING
 count( 1 ) > 1;

輸出:

name count(1) cat 2 dog 2

name為cat和dog的數據重複了,每個重複的數據有兩條;

Select * From 表 Where 重複字段 In (Select 重複字段 From 表 Group By 重複字段 Having Count(1)>1)

刪除全部重複數據,一條不留

直接刪除會報錯

DELETE
FROM
 student
WHERE
 NAME IN (
 SELECT NAME
 FROM
  student
 GROUP BY
 NAME
HAVING
 count( 1 ) > 1)

報錯:

1093 – You can’t specify target table ‘student’ for update in FROM clause, Time: 0.016000s

原因是:更新這個表的同時又查詢了這個表,查詢這個表的同時又去更新了這個表,可以理解為死鎖。mysql不支持這種更新查詢同一張表的操作

解決辦法:把要更新的幾列數據查詢出來作為一個第三方表,然後篩選更新。

DELETE
FROM
 student
WHERE
 NAME IN (
 SELECT
  t.NAME
FROM
 ( SELECT NAME FROM student GROUP BY NAME HAVING count( 1 ) > 1 ) t)

刪除表中刪除重複數據,僅保留一條

在刪除之前,我們可以先查一下,我們要刪除的重複數據是啥樣的

SELECT
 *
FROM
 student
WHERE
 id NOT IN (
 SELECT
  t.id
 FROM
 ( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t
 )

啥意思呢,就是先通過name分組,查出id最小的數據,這些數據就是我們要留下的火種,那麼再查詢出id不在這裏面的,就是我們要刪除的重複數據。

開始刪除重複數據,僅留一條

很簡單,剛才的select換成delete即可

DELETE
FROM
 student
WHERE
 id NOT IN (
 SELECT
  t.id
 FROM
 ( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t
 )

90萬+的表執行起來超級快。

All done ~

– END –

原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/268587.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
投稿專員的頭像投稿專員
上一篇 2024-12-16 13:10
下一篇 2024-12-16 13:10

相關推薦

發表回復

登錄後才能評論