Dubliuojančių reikšmių paieška SQL lentelėje

Question

Daugiau

Šaltinis Ne AMP versija Redaguoti

Dubliuojančių reikšmių paieška SQL lentelėje

Dublikatus lengva rasti naudojant vieną lauką:

SELECT name, COUNT(email) 
FROM users
GROUP BY email
HAVING COUNT(email) > 1

Taigi, jei turime lentelę

ID   NAME   EMAIL
1    John   asd@asd.com
2    Sam    asd@asd.com
3    Tom    asd@asd.com
4    Bob    bob@asd.com
5    Tom    asd@asd.com

Pagal šią užklausą gausime John, Sam, Tom, Tom, Tom, nes jie visi turi tą patį email.

Tačiau aš noriu gauti dublikatus, turinčius tą patį email ir vardą.

T. y. noriu gauti "Tom", "Tom".

Man to reikia dėl šios priežasties: Padariau klaidą ir leidau įterpti pasikartojančias vardo ir pašto reikšmes. Dabar man reikia pašalinti arba pakeisti pasikartojančias reikšmes, todėl pirmiausia turiu jas surasti.

Pang

Redaguotas klausimas priešpietr rugsėjis 2019 в 2:18

Programavimas

sql duplicates

popietr balandis 2010 в 6:17

20 peržiūros

KM.

Šaltinis Ne AMP versija Redaguoti

pabandykite tai:

declare @YourTable table (id int, name varchar(10), email varchar(50))

INSERT @YourTable VALUES (1,'John','John-email')
INSERT @YourTable VALUES (2,'John','John-email')
INSERT @YourTable VALUES (3,'fred','John-email')
INSERT @YourTable VALUES (4,'fred','fred-email')
INSERT @YourTable VALUES (5,'sam','sam-email')
INSERT @YourTable VALUES (6,'sam','sam-email')

SELECT
    name,email, COUNT(*) AS CountOf
    FROM @YourTable
    GROUP BY name,email
    HAVING COUNT(*)>1

IŠĖJIMAS:

name       email       CountOf
---------- ----------- -----------
John       John-email  2
sam        sam-email   2

(2 row(s) affected)

jei norite gauti dublikatų ID, naudokite šį:

SELECT
    y.id,y.name,y.email
    FROM @YourTable y
        INNER JOIN (SELECT
                        name,email, COUNT(*) AS CountOf
                        FROM @YourTable
                        GROUP BY name,email
                        HAVING COUNT(*)>1
                    ) dt ON y.name=dt.name AND y.email=dt.email

IŠVADOS:

id          name       email
----------- ---------- ------------
1           John       John-email
2           John       John-email
5           sam        sam-email
6           sam        sam-email

(4 row(s) affected)

norėdami ištrinti dublikatus, pabandykite:

DELETE d
    FROM @YourTable d
        INNER JOIN (SELECT
                        y.id,y.name,y.email,ROW_NUMBER() OVER(PARTITION BY y.name,y.email ORDER BY y.name,y.email,y.id) AS RowRank
                        FROM @YourTable y
                            INNER JOIN (SELECT
                                            name,email, COUNT(*) AS CountOf
                                            FROM @YourTable
                                            GROUP BY name,email
                                            HAVING COUNT(*)>1
                                        ) dt ON y.name=dt.name AND y.email=dt.email
                   ) dt2 ON d.id=dt2.id
        WHERE dt2.RowRank!=1
SELECT * FROM @YourTable

IŠVADOS:

id          name       email
----------- ---------- --------------
1           John       John-email
3           fred       John-email
4           fred       fred-email
5           sam        sam-email

(4 row(s) affected)

simhumileco

Redaguotas atsakymas priešpietr balandis 2018 в 8:46

348

0

Komentarai (0)

Chris Van Opstal

Šaltinis Ne AMP versija Redaguoti

Išbandykite tai:

SELECT name, email
FROM users
GROUP BY name, email
HAVING ( COUNT(*) > 1 )

110

0

Komentarai (0)

gbn · Accepted Answer · 2010-04-07T18:20:18+00:00

SELECT
    name, email, COUNT(*)
FROM
    users
GROUP BY
    name, email
HAVING 
    COUNT(*) > 1

Tiesiog sugrupuokite abu stulpelius.

Pastaba: pagal senesnį ANSI standartą GROUP BY turi būti visi nesugrupuoti stulpeliai, tačiau tai pasikeitė dėl "funkcinės priklausomybės" idėjos:

Reliacinių duomenų bazių teorijoje funkcinė priklausomybė - tai apribojimas tarp dviejų atributų rinkinių duomenų bazės santykyje. Kitaip tariant, funkcinė priklausomybė yra apribojimas, apibūdinantis ryšį tarp santykio atributų.

Palaikymas nėra nuoseklus:

Naujausia PostgreSQL palaiko.
SQL Server (nuo 2017 m. SQL Server 2017) vis dar reikalauja, kad GROUP BY būtų nurodyti visi nesugrupuoti stulpeliai.
MySQL yra nenuspėjama ir jums reikia sql_mode=only_full_group_by:
https://stackoverflow.com/q/10894820/27535;
https://stackoverflow.com/questions/6060241/which-is-the-least-expensive-aggregate-function-in-the-absence-of-any/6060414#6060414 (žr. priimto atsakymo komentarus).
Oracle nėra pakankamai populiarus (įspėjimas: humoras, aš nežinau apie Oracle).