Background Image
질의작성
2009.12.02 08:52

예제를 이용한 중복데이터 삭제

조회 수 18541 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

중복된 데이터 중 가장 최근의 ROW만을 나두고 삭제하는 방법이다.
아래와 같이 테이블을 만들어 보자.
 CREATE TABLE DUP(ID INT, NAME CHAR(3),  SEQ INT, UPDATE_TIME CHAR(10));
 INSERT INTO DUP VALUES (1, 'AAA', 1, '2010-01-01');
 INSERT INTO DUP VALUES (1, 'AAA', 2, '2010-01-02');
 INSERT INTO DUP VALUES (1, 'AAA', 3, '2010-01-03');
 INSERT INTO DUP VALUES (1, 'AAA', 3, '2010-01-04'); 
 
DUP 테이블 전체 조회를 하면 아래와 같다.
           id  name                          seq  update_time        
======================================================================
            1  'AAA'                           3  '2010-01-04'       
            1  'AAA'                           3  '2010-01-03'       
            1  'AAA'                           2  '2010-01-02'       
            1  'AAA'                           1  '2010-01-01'     


ID, NAME컬럼이 중복된 ROW 중에서 나중에 들어온 SEQ값이 3인 ROW만 남기고 싶을 경우 아래와 같이 질의를 수행해 보자.
SELECT * FROM DUP WHERE ROWNUM NOT IN (SELECT MAX(ROWNUM) FROM DUP GROUP BY ID, NAME);
           id  name                          seq  update_time        
======================================================================
            1  'AAA'                           1  '2010-01-01'       
            1  'AAA'                           2  '2010-01-02'       
            1  'AAA'                           3  '2010-01-03'

위에 남아 있는 3개의 ROW를 삭제 하면 가장 최근인 UDATE_TIEM 값이 2010-01-04 인 ROW만 남을 것이므로 아래와 같이 DELETE를 수행한다.
DELETE FROM DUP WHERE ROWNUM NOT IN (SELECT MAX(ROWNUM) FROM DUP GROUP BY ID, NAME);

중복된 데이터를 찾기 위해 사용된 ROWNUM은 오라클의 ROWID와 유사하다고 볼 수 있다.
위에 질의를 풀이하면, DUP테이블의 ID, NAME으로 그룹화 하고 그중에 최대값(가장 나중에 들어온)을 가진 ROW를 찾아
DUP테이블 전체 ROW를 조회하여 찾은 ROW보다 작은(NOT IN) ROW에 대하여 삭제를 수행하는 것이다.
ROW단위 FULL SCAN을 하는 것이므로 중복된 데이터가 많거나 테이블의 데이터 수가 많을 경우 오래 걸리수 있으므로 주의해서 사용해야 한다.

이와 반대로 먼저 입력한 ROW만을 남기고 싶다면 위 질의에서 MAX를 MIN으로 바꿔주면 된다.
SELECT * FROM DUP WHERE ROWNUM NOT IN (SELECT MIN(ROWNUM) FROM DUP GROUP BY ID, NAME);
아래와 같이 출력된 ROW를 삭제하면 UDATE_TIEM 값이 2010-01-01 인 ROW만 남게 된다.
           id  name                          seq  update_time        
======================================================================
            1  'AAA'                           2  '2010-01-02'       
            1  'AAA'                           3  '2010-01-03'       
            1  'AAA'                           3  '2010-01-04'  

중복된 데이터의 기준을 NAME과 SEQ로 보았을 때 아래 질의와 같이 GROUP BY ID, SEQ로 지정하면 된다.
SELECT * FROM DUP WHERE ROWNUM NOT IN (SELECT MAX(ROWNUM) FROM DUP GROUP BY NAME, SEQ);
           id  name                          seq  update_time        
======================================================================
            1  'AAA'                           3  '2010-01-03'       
 
NAME이 AAA이고 SEQ가 3인 값이 중복 되어 먼저 들어온 UPDATE_TIME값이 2010-01-03 인 ROW를 찾은 것이다.
이 질의도 동일하게 DELETE를 수행하여 삭제를 하면 NAME과 SEQ를 기준으로 가장 최근의 ROW만 존재하도록 할 수 있다.

위 방법을 활용하여 UNIQUE INDEX 혹은 PK의 제약 조건을 부여 할 수 있다.


 


List of Articles
번호 분류 제목 글쓴이 날짜 조회 수
119 운영관리 CUBRID JAVA Stored Procedure의 GC로그 출력방법 janus 2009.12.01 15317
118 운영관리 CUBRID 2008 삭제시 주의사항 file seongjoon 2009.04.01 15288
117 질의작성 시스템 테이블을 이용한 인덱스 생성 구문 만들기 janus 2009.12.02 15143
116 응용개발 jdbc에서 bit 데이터 타입 사용하기 손승일 2009.04.11 15014
115 운영관리 CUBRID 2008 R2.0 RPM 설치후 PHP모듈 로딩에 실패할 경우 Prototype 2009.12.10 14918
114 응용개발 PHP에서 prepared statement 사용시 BIND 관련 팁 Prototype 2009.06.30 14844
113 응용개발 전체 레코드 개수 확인하는 SP 김승훈 2015.05.07 14728
112 CUBRID 매니저 CUBRID Manager의 host 및 질의편집기 설정 저장 위치 seongjoon 2010.04.01 14709
111 기타 2008.11.18. 최신 우편번호부 with CUBRID file Prototype 2009.03.17 14482
110 CUBRID 매니저 CUBRID에서 여러개의 질의 결과 확인하는 방법 file seongjoon 2010.01.02 14441
109 운영관리 windows 환경에서 Manager 접속이 되지 않는 경우 처리 방안 남재우 2010.11.26 14423
108 운영관리 데이터 입력 중 디스크 공간 부족 오류가 발생하였을 때, 복구 방법 이용미 2012.06.30 14333
107 기타 windows에서의 Build 오류 발생 시 조치방법 cubebridge 2009.05.19 14255
106 질의작성 세부내역과 소계를 한개의 쿼리문장으로 수행하는 SQL 권호일 2012.03.31 14092
105 응용개발 cubrid-php module r2.2 이상 버젼에서 configure시에 주의사항 seongjoon 2010.07.20 14007
104 질의작성 게시판 응용 중 조회수로 정렬하는 경우 인덱스 생성 방법 1 손승일 2012.06.23 13907
103 질의작성 전체 테이블 UPDATE시 SELECT, UPDATE를 통한 INDEX SCAN방식으로 테이블 X_LOCK을 방지하자! file 이경오 2015.08.13 13802
102 응용개발 PHP 프로그램을 작성할때 주의할 점 Prototype 2009.07.01 13728
101 CUBRID 매니저 CUBRID Manager 메모리 설정하기(cubridmanager.ini) file 성진 2015.04.24 13712
100 운영관리 리눅스 쉘프롬프트 상에서 질의 바로 수행하기 Prototype 2009.12.10 13640
Board Pagination Prev 1 ... 4 5 6 7 8 9 10 11 12 13 14 Next
/ 14

Contact Cubrid

대표전화 070-4077-2110 / 기술문의 070-4077-2113 / 영업문의 070-4077-2112 / Email. contact_at_cubrid.com
Contact Sales