Поиск дубликатов значений в таблице SQL

Question

Дополнительно

Источник Неподдерживаемая версия AMP Редактировать

Поиск дубликатов значений в таблице SQL

Легко найти дубликаты с помощью одного поля:

SELECT name, COUNT(email) 
FROM users
GROUP BY email
HAVING COUNT(email) > 1

Итак, если у нас есть таблица

ID   NAME   EMAIL
1    John   asd@asd.com
2    Sam    asd@asd.com
3    Tom    asd@asd.com
4    Bob    bob@asd.com
5    Tom    asd@asd.com

Этот запрос даст нам John, Sam, Tom, Tom, Tom, потому что у них у всех одинаковый email.

Однако я хочу получить дубликаты с одинаковой email и name.

То есть, я хочу получить "Том", "Том".

Причина, по которой мне это нужно: Я допустил ошибку и позволил вставить дубликаты значений name и email. Теперь мне нужно удалить/изменить дубликаты, поэтому мне нужно сначала найти их.

Анна Убогих

5970

Редактировал вопрос 9-го февраля 2022 в 10:22

Pang

Редактировал вопрос 13-го сентября 2019 в 2:18

Программирование

sql duplicates

7-го апреля 2010 в 6:17

61 просмотров

Комментарии к вопросу (2)

KM.

Источник Неподдерживаемая версия AMP Редактировать

попробуйте это:

declare @YourTable table (id int, name varchar(10), email varchar(50))

INSERT @YourTable VALUES (1,'John','John-email')
INSERT @YourTable VALUES (2,'John','John-email')
INSERT @YourTable VALUES (3,'fred','John-email')
INSERT @YourTable VALUES (4,'fred','fred-email')
INSERT @YourTable VALUES (5,'sam','sam-email')
INSERT @YourTable VALUES (6,'sam','sam-email')

SELECT
    name,email, COUNT(*) AS CountOf
    FROM @YourTable
    GROUP BY name,email
    HAVING COUNT(*)>1

ВЫХОД:

name       email       CountOf
---------- ----------- -----------
John       John-email  2
sam        sam-email   2

(2 row(s) affected)

если вам нужны идентификаторы dups, используйте это:

SELECT
    y.id,y.name,y.email
    FROM @YourTable y
        INNER JOIN (SELECT
                        name,email, COUNT(*) AS CountOf
                        FROM @YourTable
                        GROUP BY name,email
                        HAVING COUNT(*)>1
                    ) dt ON y.name=dt.name AND y.email=dt.email

OUTPUT:

id          name       email
----------- ---------- ------------
1           John       John-email
2           John       John-email
5           sam        sam-email
6           sam        sam-email

(4 row(s) affected)

для удаления дубликатов попробуйте:

DELETE d
    FROM @YourTable d
        INNER JOIN (SELECT
                        y.id,y.name,y.email,ROW_NUMBER() OVER(PARTITION BY y.name,y.email ORDER BY y.name,y.email,y.id) AS RowRank
                        FROM @YourTable y
                            INNER JOIN (SELECT
                                            name,email, COUNT(*) AS CountOf
                                            FROM @YourTable
                                            GROUP BY name,email
                                            HAVING COUNT(*)>1
                                        ) dt ON y.name=dt.name AND y.email=dt.email
                   ) dt2 ON d.id=dt2.id
        WHERE dt2.RowRank!=1
SELECT * FROM @YourTable

OUTPUT:

id          name       email
----------- ---------- --------------
1           John       John-email
3           fred       John-email
4           fred       fred-email
5           sam        sam-email

(4 row(s) affected)

Анна Убогих

5970

Редактировал ответ 9-го февраля 2022 в 10:22

simhumileco

Редактировал ответ 10-го апреля 2018 в 8:46

348

0

Комментарии (0)

Chris Van Opstal

Источник Неподдерживаемая версия AMP Редактировать

Попробуйте это:

SELECT name, email
FROM users
GROUP BY name, email
HAVING ( COUNT(*) > 1 )

Анна Убогих

5970

Редактировал ответ 9-го февраля 2022 в 10:22

110

0

Комментарии (0)

AncAinu

Источник Неподдерживаемая версия AMP Редактировать

Если вы хотите удалить дубликаты, здесь'ы гораздо более простой способ сделать это, чем того, чтобы найти четных/нечетных строк в трех суб-выберите:

SELECT id, name, email 
FROM users u, users u2
WHERE u.name = u2.name AND u.email = u2.email AND u.id > u2.id

И так чтобы удалить:

DELETE FROM users
WHERE id IN (
    SELECT id/*, name, email*/
    FROM users u, users u2
    WHERE u.name = u2.name AND u.email = u2.email AND u.id > u2.id
)

Гораздо легче читать и понимать, ИМХО

Примечание: единственная проблема заключается в том, что вы должны выполнить запрос, пока нет рядов удален, поскольку вы удаляете только 1 из каждого дублировать каждый раз

62

0

Комментарии (7)

gaurav singh

Источник Неподдерживаемая версия AMP Редактировать

Попробуйте следующее:

SELECT * FROM
(
    SELECT Id, Name, Age, Comments, Row_Number() OVER(PARTITION BY Name, Age ORDER By Name)
        AS Rank 
        FROM Customers
) AS B WHERE Rank>1

41

0

Комментарии (1)

PRADEEPTA VIRLLEY

Источник Неподдерживаемая версия AMP Редактировать

 SELECT name, email 
    FROM users
    WHERE email in
    (SELECT email FROM users
    GROUP BY email 
    HAVING COUNT(*)>1)

27

0

Комментарии (0)

Indivision Dev

Источник Неподдерживаемая версия AMP Редактировать

Немного опоздала на вечеринку, но я нашел очень крутой обходной путь, чтобы найти все повторяющиеся идентификаторы:

SELECT GROUP_CONCAT( id )
FROM users
GROUP BY email
HAVING ( COUNT(email) > 1 )

22

0

Комментарии (3)

Tanmay Nehete

Источник Неподдерживаемая версия AMP Редактировать

попробуйте этот код

WITH CTE AS

( SELECT Id, Name, Age, Comments, RN = ROW_NUMBER()OVER(PARTITION BY Name,Age ORDER BY ccn)
FROM ccnmaster )
select * from CTE

Tanmay Nehete

Редактировал ответ 30-го января 2018 в 8:50

19

0

Комментарии (0)

Martin Silovský

Источник Неподдерживаемая версия AMP Редактировать

Этот выбор/удаляет все повторяющиеся записи, за исключением одной записи из каждой группы дубликатов. Итак, удалить все уникальные записи + одна запись из каждой группы дубликатов.

Выберите продублирую:

SELECT *
FROM table
WHERE
    id NOT IN (
        SELECT MIN(id)
        FROM table
        GROUP BY column1, column2
);

Удалить дубликаты:

DELETE FROM table
WHERE
    id NOT IN (
        SELECT MIN(id)
        FROM table
        GROUP BY column1, column2
);

Быть в курсе большого количества записей, это может привести к проблемам с производительностью.

17

0

Комментарии (4)

xDBA

Источник Неподдерживаемая версия AMP Редактировать

В случае, если вы работаете с Oracle, этот способ будет предпочтительным:

create table my_users(id number, name varchar2(100), email varchar2(100));

insert into my_users values (1, 'John', 'asd@asd.com');
insert into my_users values (2, 'Sam', 'asd@asd.com');
insert into my_users values (3, 'Tom', 'asd@asd.com');
insert into my_users values (4, 'Bob', 'bob@asd.com');
insert into my_users values (5, 'Tom', 'asd@asd.com');

commit;

select *
  from my_users
 where rowid not in (select min(rowid) from my_users group by name, email);

15

0

Комментарии (0)

Narendra

Источник Неподдерживаемая версия AMP Редактировать

select name, email
, case 
when ROW_NUMBER () over (partition by name, email order by name) > 1 then 'Yes'
else 'No'
end "duplicated ?"
from users

8

0

Комментарии (3)

shekhar singh

Источник Неподдерживаемая версия AMP Редактировать

Если вы хотите, чтобы увидеть, если есть любые повторяющиеся строки в таблице, я использовал ниже запрос:

create table my_table(id int, name varchar(100), email varchar(100));

insert into my_table values (1, 'shekh', 'shekh@rms.com');
insert into my_table values (1, 'shekh', 'shekh@rms.com');
insert into my_table values (2, 'Aman', 'aman@rms.com');
insert into my_table values (3, 'Tom', 'tom@rms.com');
insert into my_table values (4, 'Raj', 'raj@rms.com');

Select COUNT(1) As Total_Rows from my_table 
Select Count(1) As Distinct_Rows from ( Select Distinct * from my_table) abc

8

0

Комментарии (0)

Darrel Lee

Источник Неподдерживаемая версия AMP Редактировать

Это самая легкая вещь, которую я'вэ придумать. Он использует обобщенное табличное выражение (CTE) и окно перегородки (я думаю, что эти функции в SQL 2008 и позже).

В этом примере выполняется поиск всех студентов с одинаковыми имя и DOB. Поля, которые вы хотите проверить на дублирование перейти в пункт. Вы можете включать любые другие поля, которые вы хотите в проекции.

with cte (StudentId, Fname, LName, DOB, RowCnt)
as (
SELECT StudentId, FirstName, LastName, DateOfBirth as DOB, SUM(1) OVER (Partition By FirstName, LastName, DateOfBirth) as RowCnt
FROM tblStudent
)
SELECT * from CTE where RowCnt > 1
ORDER BY DOB, LName

8

0

Комментарии (0)

Debendra Dash

Источник Неподдерживаемая версия AMP Редактировать

select id,name,COUNT(*) from India group by Id,Name having COUNT(*)>1

8

0

Комментарии (0)

Debendra Dash

Источник Неподдерживаемая версия AMP Редактировать

С помощью КТР также мы можем найти повторяющиеся значения такой

with MyCTE
as
(
select Name,EmailId,ROW_NUMBER() over(PARTITION BY EmailId order by id) as Duplicate from [Employees]

)
select * from MyCTE where Duplicate>1

7

0

Комментарии (0)

Muhammad Tahir

Источник Неподдерживаемая версия AMP Редактировать

Как мы можем посчитать повторяющиеся значения?? либо он повторяется 2 раза или больше 2. просто подсчитайте их, а не группы мудр.

как просто, как

select COUNT(distinct col_01) from Table_01

7

0

Комментарии (1)

naveed

Источник Неподдерживаемая версия AMP Редактировать

 select emp.ename, emp.empno, dept.loc 
          from emp
 inner join dept 
          on dept.deptno=emp.deptno
 inner join
    (select ename, count(*) from
    emp
    group by ename, deptno
    having count(*) > 1)
 t on emp.ename=t.ename order by emp.ename
/

6

0

Комментарии (0)

user4877838

Источник Неподдерживаемая версия AMP Редактировать

Выберите ID, функция count(ID) из таблицы table1 группы по ID, имеющих счета(идентификатор)>1;

Я думаю, что это будет работать должным образом на поиск повторяющихся значений в определенном столбце.

6

0

Комментарии (2)

veritaS

Источник Неподдерживаемая версия AMP Редактировать

Это должно также работать, может дать ему попробовать.

  Select * from Users a
            where EXISTS (Select * from Users b 
                where (     a.name = b.name 
                        OR  a.email = b.email)
                     and a.ID != b.id)

Особенно хороши в вашем случае, если вы ищите дубликаты, которые имеют какой-то префикс или общие изменения, как, например, новый домен в Почте. затем вы можете использовать замените() на эти колонки

5

0

Комментарии (0)

Panky031

Источник Неподдерживаемая версия AMP Редактировать

SELECT * FROM users u where rowid = (select max(rowid) from users u1 where
u.email=u1.email);

4

0

Комментарии (0)

gbn · Accepted Answer · 2010-04-07T18:20:18+00:00

SELECT
    name, email, COUNT(*)
FROM
    users
GROUP BY
    name, email
HAVING 
    COUNT(*) > 1

Просто сгруппируйте оба столбца.

Примечание: по старому стандарту ANSI в GROUP BY должны быть все неагрегированные столбцы, но это изменилось с появлением идеи "функциональной зависимости":

В теории реляционных баз данных функциональная зависимость - это ограничение между двумя наборами атрибутов в отношении из базы данных. Другими словами, функциональная зависимость - это ограничение, которое описывает связь между атрибутами в отношении.

Поддержка не является последовательной:

PostgreSQL последнего поколения поддерживает ее.
SQL Server (по состоянию на SQL Server 2017) по-прежнему требует наличия всех неагрегированных столбцов в GROUP BY.
MySQL непредсказуем, и вам нужен sql_mode=only_full_group_by:
https://stackoverflow.com/q/10894820/27535;
https://stackoverflow.com/questions/6060241/which-is-the-least-expensive-aggregate-function-in-the-absence-of-any/6060414#6060414 (см. комментарии в принятом ответе).
Oracle недостаточно мейнстримен (предупреждение: юмор, я не разбираюсь в Oracle).