Background Image
질의작성
2009.12.02 08:52

예제를 이용한 중복데이터 삭제

조회 수 18541 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

중복된 데이터 중 가장 최근의 ROW만을 나두고 삭제하는 방법이다.
아래와 같이 테이블을 만들어 보자.
 CREATE TABLE DUP(ID INT, NAME CHAR(3),  SEQ INT, UPDATE_TIME CHAR(10));
 INSERT INTO DUP VALUES (1, 'AAA', 1, '2010-01-01');
 INSERT INTO DUP VALUES (1, 'AAA', 2, '2010-01-02');
 INSERT INTO DUP VALUES (1, 'AAA', 3, '2010-01-03');
 INSERT INTO DUP VALUES (1, 'AAA', 3, '2010-01-04'); 
 
DUP 테이블 전체 조회를 하면 아래와 같다.
           id  name                          seq  update_time        
======================================================================
            1  'AAA'                           3  '2010-01-04'       
            1  'AAA'                           3  '2010-01-03'       
            1  'AAA'                           2  '2010-01-02'       
            1  'AAA'                           1  '2010-01-01'     


ID, NAME컬럼이 중복된 ROW 중에서 나중에 들어온 SEQ값이 3인 ROW만 남기고 싶을 경우 아래와 같이 질의를 수행해 보자.
SELECT * FROM DUP WHERE ROWNUM NOT IN (SELECT MAX(ROWNUM) FROM DUP GROUP BY ID, NAME);
           id  name                          seq  update_time        
======================================================================
            1  'AAA'                           1  '2010-01-01'       
            1  'AAA'                           2  '2010-01-02'       
            1  'AAA'                           3  '2010-01-03'

위에 남아 있는 3개의 ROW를 삭제 하면 가장 최근인 UDATE_TIEM 값이 2010-01-04 인 ROW만 남을 것이므로 아래와 같이 DELETE를 수행한다.
DELETE FROM DUP WHERE ROWNUM NOT IN (SELECT MAX(ROWNUM) FROM DUP GROUP BY ID, NAME);

중복된 데이터를 찾기 위해 사용된 ROWNUM은 오라클의 ROWID와 유사하다고 볼 수 있다.
위에 질의를 풀이하면, DUP테이블의 ID, NAME으로 그룹화 하고 그중에 최대값(가장 나중에 들어온)을 가진 ROW를 찾아
DUP테이블 전체 ROW를 조회하여 찾은 ROW보다 작은(NOT IN) ROW에 대하여 삭제를 수행하는 것이다.
ROW단위 FULL SCAN을 하는 것이므로 중복된 데이터가 많거나 테이블의 데이터 수가 많을 경우 오래 걸리수 있으므로 주의해서 사용해야 한다.

이와 반대로 먼저 입력한 ROW만을 남기고 싶다면 위 질의에서 MAX를 MIN으로 바꿔주면 된다.
SELECT * FROM DUP WHERE ROWNUM NOT IN (SELECT MIN(ROWNUM) FROM DUP GROUP BY ID, NAME);
아래와 같이 출력된 ROW를 삭제하면 UDATE_TIEM 값이 2010-01-01 인 ROW만 남게 된다.
           id  name                          seq  update_time        
======================================================================
            1  'AAA'                           2  '2010-01-02'       
            1  'AAA'                           3  '2010-01-03'       
            1  'AAA'                           3  '2010-01-04'  

중복된 데이터의 기준을 NAME과 SEQ로 보았을 때 아래 질의와 같이 GROUP BY ID, SEQ로 지정하면 된다.
SELECT * FROM DUP WHERE ROWNUM NOT IN (SELECT MAX(ROWNUM) FROM DUP GROUP BY NAME, SEQ);
           id  name                          seq  update_time        
======================================================================
            1  'AAA'                           3  '2010-01-03'       
 
NAME이 AAA이고 SEQ가 3인 값이 중복 되어 먼저 들어온 UPDATE_TIME값이 2010-01-03 인 ROW를 찾은 것이다.
이 질의도 동일하게 DELETE를 수행하여 삭제를 하면 NAME과 SEQ를 기준으로 가장 최근의 ROW만 존재하도록 할 수 있다.

위 방법을 활용하여 UNIQUE INDEX 혹은 PK의 제약 조건을 부여 할 수 있다.


 


List of Articles
번호 분류 제목 글쓴이 날짜 조회 수
179 기타 CUBRID 설치 서버의 OS bit 확인하는 방법과 CUBRID bit 확인 방법. file seongjoon 2009.12.15 18961
178 응용개발 CUBRID에서 제약조건(PK,FK,UNIQUE),index 설정 시 주의 사항 cubebridge 2009.11.26 18886
177 응용개발 MySQL의 Blob타입을 CUBRID로 변환하기 cubebridge 2009.11.18 18857
176 운영관리 데이터베이스 볼륨 자동 증가 설정 남재우 2009.04.01 18801
175 응용개발 그루비로 큐브리드 함수(or 프로시저) 만들기 by 행복개발자(cyberuls) 시난 2009.07.14 18753
174 기타 glo 사용시 loaddb 주의 사항 웁쓰 2009.12.31 18650
173 응용개발 cubrid_fetch_all() php 함수로 만들어 사용하기 file 시난 2009.06.30 18619
172 운영관리 큐브리드와 hostname 관계 정만영 2009.06.25 18584
» 질의작성 예제를 이용한 중복데이터 삭제 janus 2009.12.02 18541
170 운영관리 CUBRID2008 파티션 테이블 삭제 시 인덱스 drop 안 되는 현상 예시 cubebridge 2009.12.12 18461
169 기타 utf-8 데이터 like 검색 시 설정 손승일 2009.05.12 18453
168 질의작성 데이터 필드의 타입 변경하기 admin 2008.11.21 18420
167 응용개발 패키지 형태로 생성된 JAVA class를 JAVA SP에서 사용하기 손승일 2010.02.26 18375
166 CUBRID 매니저 CUBRID와 CUBRID Web Manager설치, 그리고 XE의설치 및 연동까지 file cubebridge 2012.11.13 18099
165 기타 ODBC 드라이버만 따로 배포하는 방법 1 file 손승일 2009.06.26 18060
164 응용개발 Java Data Type의 CUBRID Data Type으로의 변경 Tip cubebridge 2009.06.16 18032
163 응용개발 JAVA SP를 통해 다른 데이터베이스 연결하는 경우 잊지 말자. 손승일 2009.12.16 17975
162 CUBRID 매니저 CUBRID Manager에서 character set 변경하기[R2.0] file seongjoon 2009.10.29 17961
161 CUBRID 매니저 java.lang.OutOfMemoryError 처리 방법 file janus 2009.04.13 17880
160 질의작성 문자(char, varchar)로 설계한 날짜데이타 검증하기 권호일 2012.04.27 17829
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 14 Next
/ 14

Contact Cubrid

대표전화 070-4077-2110 / 기술문의 070-4077-2113 / 영업문의 070-4077-2112 / Email. contact_at_cubrid.com
Contact Sales