Suche nach doppelten Werten in einer SQL-Tabelle

Question

Mehr

Quelle Nicht AMP-Version Bearbeiten

Suche nach doppelten Werten in einer SQL-Tabelle

Es ist einfach, mit einem Feld Duplikate zu finden:

SELECT name, COUNT(email) 
FROM users
GROUP BY email
HAVING COUNT(email) > 1

Wenn wir also eine Tabelle haben

ID   NAME   EMAIL
1    John   asd@asd.com
2    Sam    asd@asd.com
3    Tom    asd@asd.com
4    Bob    bob@asd.com
5    Tom    asd@asd.com

Diese Abfrage liefert uns John, Sam, Tom, Tom, weil sie alle die gleiche E-Mail haben.

Was ich jedoch möchte, ist, Duplikate mit derselben "E-Mail" und "Name" zu erhalten.

Das heißt, ich möchte "Tom", "Tom" erhalten.

Der Grund, warum ich das brauche: Ich habe einen Fehler gemacht und erlaubt, doppelte Werte für Name und E-Mail einzufügen. Jetzt muss ich die Duplikate entfernen/ändern, also muss ich sie zuerst finden.

Pang

Bearbeitete Frage 13. September 2019 в 2:18

Programmierung

sql duplicates

7. April 2010 в 6:17

15 Aufrufe

KM.

Quelle Nicht AMP-Version Bearbeiten

Versuchen Sie dies:

declare @YourTable table (id int, name varchar(10), email varchar(50))

INSERT @YourTable VALUES (1,'John','John-email')
INSERT @YourTable VALUES (2,'John','John-email')
INSERT @YourTable VALUES (3,'fred','John-email')
INSERT @YourTable VALUES (4,'fred','fred-email')
INSERT @YourTable VALUES (5,'sam','sam-email')
INSERT @YourTable VALUES (6,'sam','sam-email')

SELECT
    name,email, COUNT(*) AS CountOf
    FROM @YourTable
    GROUP BY name,email
    HAVING COUNT(*)>1

OUTPUT:

name       email       CountOf
---------- ----------- -----------
John       John-email  2
sam        sam-email   2

(2 row(s) affected)

wenn Sie die IDs der Dups haben wollen, verwenden Sie dies:

SELECT
    y.id,y.name,y.email
    FROM @YourTable y
        INNER JOIN (SELECT
                        name,email, COUNT(*) AS CountOf
                        FROM @YourTable
                        GROUP BY name,email
                        HAVING COUNT(*)>1
                    ) dt ON y.name=dt.name AND y.email=dt.email

OUTPUT:

id          name       email
----------- ---------- ------------
1           John       John-email
2           John       John-email
5           sam        sam-email
6           sam        sam-email

(4 row(s) affected)

um die Duplikate zu löschen, versuchen Sie:

DELETE d
    FROM @YourTable d
        INNER JOIN (SELECT
                        y.id,y.name,y.email,ROW_NUMBER() OVER(PARTITION BY y.name,y.email ORDER BY y.name,y.email,y.id) AS RowRank
                        FROM @YourTable y
                            INNER JOIN (SELECT
                                            name,email, COUNT(*) AS CountOf
                                            FROM @YourTable
                                            GROUP BY name,email
                                            HAVING COUNT(*)>1
                                        ) dt ON y.name=dt.name AND y.email=dt.email
                   ) dt2 ON d.id=dt2.id
        WHERE dt2.RowRank!=1
SELECT * FROM @YourTable

OUTPUT:

id          name       email
----------- ---------- --------------
1           John       John-email
3           fred       John-email
4           fred       fred-email
5           sam        sam-email

(4 row(s) affected)

simhumileco

Bearbeitete Antwort 10. April 2018 в 8:46

348

0

Kommentare (0)

Chris Van Opstal

Quelle Nicht AMP-Version Bearbeiten

Versuchen Sie dies:

SELECT name, email
FROM users
GROUP BY name, email
HAVING ( COUNT(*) > 1 )

110

0

Kommentare (0)

gbn · Accepted Answer · 2010-04-07T18:20:18+00:00

SELECT
    name, email, COUNT(*)
FROM
    users
GROUP BY
    name, email
HAVING 
    COUNT(*) > 1

Gruppieren Sie einfach auf beiden Spalten.

Hinweis: Der ältere ANSI-Standard sieht vor, dass alle nicht aggregierten Spalten im GROUP BY enthalten sind, doch hat sich dies mit dem Konzept der "funktionalen Abhängigkeit" geändert:

In der relationalen Datenbanktheorie ist eine funktionale Abhängigkeit eine Einschränkung zwischen zwei Attributgruppen in einer Beziehung einer Datenbank. Mit anderen Worten, die funktionale Abhängigkeit ist eine Einschränkung, die die Beziehung zwischen Attributen in einer Beziehung beschreibt.

Die Unterstützung ist nicht konsistent:

Neuere PostgreSQL unterstützt es.
SQL Server (Stand: SQL Server 2017) erfordert immer noch alle nicht aggregierten Spalten in der GROUP BY.
MySQL ist unberechenbar und Sie brauchen sql_mode=only_full_group_by:
https://stackoverflow.com/q/10894820/27535;
https://stackoverflow.com/questions/6060241/which-is-the-least-expensive-aggregate-function-in-the-absence-of-any/6060414#6060414 (siehe Kommentare in der akzeptierten Antwort).
Oracle ist nicht Mainstream genug (Warnung: Humor, ich kenne mich mit Oracle nicht aus).