CUBRID | FAQ & TIP - 예제를 이용한 중복데이터 삭제

중복된 데이터 중 가장 최근의 ROW만을 나두고 삭제하는 방법이다.
아래와 같이 테이블을 만들어 보자.
CREATE TABLE DUP(ID INT, NAME CHAR(3), SEQ INT, UPDATE_TIME CHAR(10));
INSERT INTO DUP VALUES (1, 'AAA', 1, '2010-01-01');
INSERT INTO DUP VALUES (1, 'AAA', 2, '2010-01-02');
INSERT INTO DUP VALUES (1, 'AAA', 3, '2010-01-03');
INSERT INTO DUP VALUES (1, 'AAA', 3, '2010-01-04');

DUP 테이블 전체 조회를 하면 아래와 같다.
           id name                          seq update_time
======================================================================
            1 'AAA'                           3 '2010-01-04'
            1 'AAA'                           3 '2010-01-03'
            1 'AAA'                           2 '2010-01-02'
            1 'AAA'                           1 '2010-01-01'

ID, NAME컬럼이 중복된 ROW 중에서 나중에 들어온 SEQ값이 3인 ROW만 남기고 싶을 경우 아래와 같이 질의를 수행해 보자.
SELECT * FROM DUP WHERE ROWNUM NOT IN (SELECT MAX(ROWNUM) FROM DUP GROUP BY ID, NAME);
           id name                          seq update_time
======================================================================
            1 'AAA'                           1 '2010-01-01'
            1 'AAA'                           2 '2010-01-02'
            1 'AAA'                           3 '2010-01-03'

위에 남아 있는 3개의 ROW를 삭제 하면 가장 최근인 UDATE_TIEM 값이 2010-01-04 인 ROW만 남을 것이므로 아래와 같이 DELETE를 수행한다.
DELETE FROM DUP WHERE ROWNUM NOT IN (SELECT MAX(ROWNUM) FROM DUP GROUP BY ID, NAME);

중복된 데이터를 찾기 위해 사용된 ROWNUM은 오라클의 ROWID와 유사하다고 볼 수 있다.
위에 질의를 풀이하면, DUP테이블의 ID, NAME으로 그룹화 하고 그중에 최대값(가장 나중에 들어온)을 가진 ROW를 찾아
DUP테이블 전체 ROW를 조회하여 찾은 ROW보다 작은(NOT IN) ROW에 대하여 삭제를 수행하는 것이다.
ROW단위 FULL SCAN을 하는 것이므로 중복된 데이터가 많거나 테이블의 데이터 수가 많을 경우 오래 걸리수 있으므로 주의해서 사용해야 한다.

이와 반대로 먼저 입력한 ROW만을 남기고 싶다면 위 질의에서 MAX를 MIN으로 바꿔주면 된다.
SELECT * FROM DUP WHERE ROWNUM NOT IN (SELECT MIN(ROWNUM) FROM DUP GROUP BY ID, NAME);
아래와 같이 출력된 ROW를 삭제하면 UDATE_TIEM 값이 2010-01-01 인 ROW만 남게 된다.
           id name                          seq update_time
======================================================================
            1 'AAA'                           2 '2010-01-02'
            1 'AAA'                           3 '2010-01-03'
            1 'AAA'                           3 '2010-01-04'

중복된 데이터의 기준을 NAME과 SEQ로 보았을 때 아래 질의와 같이 GROUP BY ID, SEQ로 지정하면 된다.
SELECT * FROM DUP WHERE ROWNUM NOT IN (SELECT MAX(ROWNUM) FROM DUP GROUP BY NAME, SEQ);
id name seq update_time
======================================================================
1 'AAA' 3 '2010-01-03'

NAME이 AAA이고 SEQ가 3인 값이 중복 되어 먼저 들어온 UPDATE_TIME값이 2010-01-03 인 ROW를 찾은 것이다.
이 질의도 동일하게 DELETE를 수행하여 삭제를 하면 NAME과 SEQ를 기준으로 가장 최근의 ROW만 존재하도록 할 수 있다.

위 방법을 활용하여 UNIQUE INDEX 혹은 PK의 제약 조건을 부여 할 수 있다.

List of Articles
번호	분류	제목	글쓴이	날짜	조회 수
119	응용개발	JAVA SP를 통해 다른 데이터베이스 연결하는 경우 잊지 말자.	손승일	2009.12.16	17975
118	기타	CUBRID 설치 서버의 OS bit 확인하는 방법과 CUBRID bit 확인 방법.	seongjoon	2009.12.15	18961
117	기타	좀비 프로세스 일괄 삭제하기	janus	2009.12.12	33827
116	CUBRID 매니저	한 개 PC에서 CUBRID7.3과 CUBRID2008R1.4 & R2.0 매니저 사용 방법 1	정만영	2009.12.12	13054
115	운영관리	CUBRID2008 파티션 테이블 삭제 시 인덱스 drop 안 되는 현상 예시	cubebridge	2009.12.12	18459
114	운영관리	CUBRID 복제 구성 시 Update id=id+1 미지원	cubebridge	2009.12.12	11651
113	운영관리	CUBRID제거 절차	janus	2009.12.12	15888
112	운영관리	리눅스 쉘프롬프트 상에서 질의 바로 수행하기	Prototype	2009.12.10	13640
111	운영관리	CUBRID 2008 R2.0 RPM 설치후 PHP모듈 로딩에 실패할 경우	Prototype	2009.12.10	14918
110	응용개발	CUBRID odbc 드라이버 설정방법.	seongjoon	2009.12.10	20326
109	질의작성	CUBRID 예약어 사용방법	정만영	2009.12.09	17182
108	운영관리	64비트 윈도우환경에서 32비트 ODBC 사용하기	Prototype	2009.12.09	22672
107	질의작성	시스템 테이블을 이용한 인덱스 생성 구문 만들기	janus	2009.12.02	15143
»	질의작성	예제를 이용한 중복데이터 삭제	janus	2009.12.02	18540
105	운영관리	CUBRID JAVA Stored Procedure의 GC로그 출력방법	janus	2009.12.01	15315
104	운영관리	CUBRID LOCK 관련 오류(ERROR CODE = -75) 정리	정만영	2009.12.01	20658
103	운영관리	각 데이터베이스에 개별적 파라미터 적용하는 방법	정만영	2009.11.30	10182
102	운영관리	브로커 상태를 확인할 때 status 의미	시난	2009.11.27	16548
101	응용개발	PHP에서 Prepared statement 사용시 NULL 값을 바인딩 하는 방법 1	Prototype	2009.11.27	19721
100	운영관리	CUBRID 복제중인 DB 백업 중 아카이브 로그파일 삭제 방법	손승일	2009.11.26	17159

분류

글쓴이

119

응용개발

JAVA SP를 통해 다른 데이터베이스 연결하는 경우 잊지 말자.

손승일

2009.12.16

17975