Background Image
질의작성
2009.12.02 08:52

예제를 이용한 중복데이터 삭제

조회 수 18541 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

중복된 데이터 중 가장 최근의 ROW만을 나두고 삭제하는 방법이다.
아래와 같이 테이블을 만들어 보자.
 CREATE TABLE DUP(ID INT, NAME CHAR(3),  SEQ INT, UPDATE_TIME CHAR(10));
 INSERT INTO DUP VALUES (1, 'AAA', 1, '2010-01-01');
 INSERT INTO DUP VALUES (1, 'AAA', 2, '2010-01-02');
 INSERT INTO DUP VALUES (1, 'AAA', 3, '2010-01-03');
 INSERT INTO DUP VALUES (1, 'AAA', 3, '2010-01-04'); 
 
DUP 테이블 전체 조회를 하면 아래와 같다.
           id  name                          seq  update_time        
======================================================================
            1  'AAA'                           3  '2010-01-04'       
            1  'AAA'                           3  '2010-01-03'       
            1  'AAA'                           2  '2010-01-02'       
            1  'AAA'                           1  '2010-01-01'     


ID, NAME컬럼이 중복된 ROW 중에서 나중에 들어온 SEQ값이 3인 ROW만 남기고 싶을 경우 아래와 같이 질의를 수행해 보자.
SELECT * FROM DUP WHERE ROWNUM NOT IN (SELECT MAX(ROWNUM) FROM DUP GROUP BY ID, NAME);
           id  name                          seq  update_time        
======================================================================
            1  'AAA'                           1  '2010-01-01'       
            1  'AAA'                           2  '2010-01-02'       
            1  'AAA'                           3  '2010-01-03'

위에 남아 있는 3개의 ROW를 삭제 하면 가장 최근인 UDATE_TIEM 값이 2010-01-04 인 ROW만 남을 것이므로 아래와 같이 DELETE를 수행한다.
DELETE FROM DUP WHERE ROWNUM NOT IN (SELECT MAX(ROWNUM) FROM DUP GROUP BY ID, NAME);

중복된 데이터를 찾기 위해 사용된 ROWNUM은 오라클의 ROWID와 유사하다고 볼 수 있다.
위에 질의를 풀이하면, DUP테이블의 ID, NAME으로 그룹화 하고 그중에 최대값(가장 나중에 들어온)을 가진 ROW를 찾아
DUP테이블 전체 ROW를 조회하여 찾은 ROW보다 작은(NOT IN) ROW에 대하여 삭제를 수행하는 것이다.
ROW단위 FULL SCAN을 하는 것이므로 중복된 데이터가 많거나 테이블의 데이터 수가 많을 경우 오래 걸리수 있으므로 주의해서 사용해야 한다.

이와 반대로 먼저 입력한 ROW만을 남기고 싶다면 위 질의에서 MAX를 MIN으로 바꿔주면 된다.
SELECT * FROM DUP WHERE ROWNUM NOT IN (SELECT MIN(ROWNUM) FROM DUP GROUP BY ID, NAME);
아래와 같이 출력된 ROW를 삭제하면 UDATE_TIEM 값이 2010-01-01 인 ROW만 남게 된다.
           id  name                          seq  update_time        
======================================================================
            1  'AAA'                           2  '2010-01-02'       
            1  'AAA'                           3  '2010-01-03'       
            1  'AAA'                           3  '2010-01-04'  

중복된 데이터의 기준을 NAME과 SEQ로 보았을 때 아래 질의와 같이 GROUP BY ID, SEQ로 지정하면 된다.
SELECT * FROM DUP WHERE ROWNUM NOT IN (SELECT MAX(ROWNUM) FROM DUP GROUP BY NAME, SEQ);
           id  name                          seq  update_time        
======================================================================
            1  'AAA'                           3  '2010-01-03'       
 
NAME이 AAA이고 SEQ가 3인 값이 중복 되어 먼저 들어온 UPDATE_TIME값이 2010-01-03 인 ROW를 찾은 것이다.
이 질의도 동일하게 DELETE를 수행하여 삭제를 하면 NAME과 SEQ를 기준으로 가장 최근의 ROW만 존재하도록 할 수 있다.

위 방법을 활용하여 UNIQUE INDEX 혹은 PK의 제약 조건을 부여 할 수 있다.


 


List of Articles
번호 분류 제목 글쓴이 날짜 조회 수
34 질의작성 오류데이타검증 - 숫자 이외의 데이타 확인하는 방법 권호일 2013.01.17 21121
33 질의작성 MERGE INTO 사용 예제 ( INSERT, UPDATE문을 1개의 쿼리로 실행 ) 권호일 2015.05.01 21259
32 질의작성 A테이블의 다수의 컬럼을 B테이블로 UPDATE 하는 SQL 김승훈 2015.05.07 7414
31 질의작성 SQL튜닝 - 인덱스 활용 사례 권호일 2015.06.04 12015
30 질의작성 카디시안(한 Row를 여러 Row) 쿼리문 만들기 1 엄기호 2015.06.30 10927
29 질의작성 CUBRID dummy data생성-간단편 주현 2015.07.01 7860
28 질의작성 INSERT수행 시, 현재날짜,현재시각으로 자동 입력하는 방법 주현 2015.07.08 25217
27 질의작성 전체 테이블 UPDATE시 SELECT, UPDATE를 통한 INDEX SCAN방식으로 테이블 X_LOCK을 방지하자! file 이경오 2015.08.13 13802
26 질의작성 테이블 용량 산정 쿼리 성진 2015.12.08 7398
25 질의작성 오라클의 DBMS_RANDOM.STRING() 함수를 CUBRID 식으로 구현하는 방법 이경오 2015.12.08 7974
24 질의작성 일정 범위 임의의 정수 생성 방법(random 함수 응용) 손승일 2015.12.22 6472
23 질의작성 Cubrid는 어떤 쿼리를 동일한 쿼리로 판단할까? 이상신 2015.12.30 4011
22 질의작성 ORACLE TRIGGER를 CUBRID TRIGGER로 변환하기 김창휘 2015.12.31 6461
21 질의작성 각 테이블 PK 유무 확인 쿼리문 엄기호 2016.01.01 9021
20 질의작성 FOR UPDATE 정만영 2016.01.27 5990
19 질의작성 테이블 컬럼 변경 및 추가 정만영 2016.02.29 21863
18 질의작성 테이블 리스트 취합 SQL 김창휘 2016.03.19 5522
17 질의작성 Oracle UTL_ENCODE.TEXT_ENCODE를 CUBRID로 변환하기 김창휘 2016.03.21 4647
16 질의작성 스키마 및 인덱스 선언에 따른 최대 용량 산정을 위한 ROW SIZE 확인 성진 2016.03.21 4179
15 질의작성 ORACLE 테이블 및 컬럼 COMMENT 일광등록 스크립트 1 김창휘 2016.04.04 9337
Board Pagination Prev 1 2 3 4 Next
/ 4

Contact Cubrid

대표전화 070-4077-2110 / 기술문의 070-4077-2113 / 영업문의 070-4077-2112 / Email. contact_at_cubrid.com
Contact Sales