Skip to Main Content

 
Titelbild Muniqsoft Training

Auswahl  

20 CREATE TABLE Beispiele für Oracle (Version 10.2 bis 21c) 20 CREATE TABLE Examples for Oracle (Version 10.2 bis 21c) ACL (Access Control Lists) bei Oracle APEX 20.2 Backups selbst konfigurieren APEX 21.1 für Oracle XE 18c installieren APEX 23.2 Installation mit minimaler Downtime APEX Datenbank Initialisierungsparameterempfehlungen APEX Neue Funktionen in der Übersicht (ab 21.1) APEX Region Display Selector Status auswerten Abhängige Objekte einer Tabelle anzeigen bzw. neu erstellen Access Control Lists mit dbms_network_acl_admin Archivierung in ein Remote-Verzeichnis Autoincrement Spalten in 12c (Identity) Automatische Triggerwiedereinschaltung Automatischer Start einer Oracle Datenbank unter LINUX/UNIX Berechnung des Segmentfüllpegels Bereinigen der DB-Umgebung mittels ADRCI Besonderheiten des Datentyps LONG Best Practices für das Datenbank-Audit in Oracle 11g und 12c Bind Variable oder Substitutionsvariable? Blobs in Apex CGI Parameter unter APEX auslesen Characterset Migration Compound Trigger zur Vermeidung von Mutating Tables in 11g Crossplatform Migration DBMS_FILE_TRANSFER zum Kopieren von Binär-Dateien DBMS_OUTPUT Tipps DBMS_OUTPUT umgeleitet Das PL/SQL-Berechtigungskonzept in 12c Das Wichtigste rund um Benutzer-Profile Datendateien online verschieben Datumskonvertierungen und Datumsformate in Oracle Debuggen in 12C mit Hilfe des SQL Developers Deklaration von PL/SQL Datentypen Dem Oracle Datenbank-Link auf der Spur Die Neuerungen APEX 5.1 Die WITH-Klausel Die Zukunft ist parallel Die wahre Größe einer Tabelle mit LOB Spalten Dynamic Actions Vorlagen und Beispiele für APEX Dynamic Actions für Reportspalten Dynamisch Netzwerkdateien in SQL auslesen Dynamische Ausführung von Befehlen Einführung in Restore Points Einsatz von After Servererror-Triggern bei dem Troubleshooti Ermittlung der exakten Datenbank Edition Eval Funktion mit Execute Immediate Export Private Reports einen interactive Report in APEX Export von Tabellen als CSV-Files mit UTL_File Export von allen APEX Komponenten Filterung der Alert.log mittels SQL Flashback Funktionen in Postgres Freier Diskspace unter Windows mittels External Table ermitt Frühjahrsputz in der Datenbank Function Based Indices - Spezialfälle Funktion Return Boolean in SQL Problem lösen Gesperrte Schemata in Application Express Geändertes Verhalten bei Datendateifehlern Globale Suche in APEX Hackerangriffe in APEX Import von Bild-Dateien in die Datenbank Index To Rebuilt or not to Rebuilt Index oder nicht, das ist hier die Frage Informationssystem für APEX-Applikationen Inkrementelles Backup und Block Change Tracking mit RMAN Install APEX 21.1 for Oracle XE 18c Installation der Oracle 23ai FREE Edition auf Rocky Linux mi Installation von Oracle 21c Instanzstart Mittels RMAN ohne Parameterdatei Interessante APEX Parameter, die über die Kommandozeile gese Interessantes zum Recycle Bin-Konzept Itemcheck in APEX Anwendungen über alle Items einer Seite JSON Daten extrahieren JSON Umwandlung in realtionales Format mit JSON_TABLE Beispi Keyword in Context (KWIC) mit Oracle Konfigurieren und Nutzen des Oracle Connection Managers Konvertierung von Ref Cursor in dbms_sql Cursor (ab 11g) LISTAGG Alternative mit CLOB Datentyp (und damit 128TB Maxim Lange Laufzeiten bei Zugriff auf DBA_FREE_SPACE oder DBA_EXT Linux Kernel upgraden Linux Shell Skripten in Oracle Tabellen speichern Listener Info mittels SQL auswerten (External Table) Löschen von doppelten Datensätzen Mehrspaltige Ausgabe einer Tabelle Monatskalender in SQL*Plus Mutating Table Problem umgehen mittels zwei Trigger und eine Möglichkeiten die Datendatei eines temporären Tablespace zu Netzwerk Verschlüsselung Neue Klausel in der Create Table Anweisung Neue Online Operationen Neuerungen zu Joins in Oracle Version 12c Nützliche Parameter von SYS_CONTEXT OAUTH2 Authentifizierung mit ORDS 23.1.4 in APEX 23.1 ORDS 22.x Installation in Verbindung mit Oracle APEX ORDS Standalone Installation unter Windows Online Table Redefinition Oracle 12c Datenbank Patchstand abfragen Oracle 18c (Version 18.3) Installation Kurzanleitung Oracle 23ai FREE auf Debian (bookworm) Installation Oracle 23ai FREE on Debian (Bookworm) Installation Oracle 23ai auf Windows WSL Oracle 23ai für Windows Installation Oracle APEX 19.2 installieren für Oracle XE 18c Oracle APEX 20.2 Installation Oracle APEX 20.2 installieren in einer Oracle XE 18c Datenba Oracle APEX 21.2 in Oracle 21c Pluggable Database installier Oracle APEX 25.1 Installation Oracle APEX Export auf Kommandozeile Oracle APEX Friendly URL ab 20.1 Oracle APEX Interactive Grid Javascript Snippets Oracle APEX Interactive Grid Javascript Snippets Oracle APEX Kalender Region mit Jahresauswahl Oracle APEX Patch für 20.1 (30990551) Oracle APEX Variablen im Oracle Trigger auslesen Oracle Arithmetische Funktionen und String Funktionen Oracle Attention.log via Pipelined Table Function auslesen / Oracle Attention.log via Pipelined Table Function read / ana Oracle Constraints nachträglich anlegen Oracle Datenaustausch mit Postgres via REST Oracle Datenbanken herunterfahren Oracle Dokumentationsübersicht von Version 11.2 bis Oracle 2 Oracle Executables unter Windows erklärt Oracle FLASHBACK Oracle Fehler in Win 10 Benachrichtigungen Oracle Fehlermeldungen aus der DB anzeigen Oracle Forms 6i mit Win 10 und Oracle 18 XE Oracle Indexüberwachung Oracle JSON Date Datentyp Problem Oracle Live SQL Oracle ORDS (bis 21.1) Installation für APEX Oracle ORDS (bis 21.4.3.x) Fehler und Lösungsvorschläge Oracle ORDS 22.x-25.x Installation und Fehlerbehebung / ORDS Oracle ORDS 24.x Install mit Apache TomCat 10.1.x oder TomCa Oracle ORDS Check Skript für gängigste Webserver 404 Fehler Oracle ORDS Parameter der Datei defaults.xml Oracle Objekte umbenennen Oracle Rest Benutzer im TomCat Oracle SET Operatoren und Gruppenfunktionen und Unterabfrage Oracle SQL Insert Oracle Text I Oracle Version abfragen Oracle Workspace Manager (Package dbms_wm) Oracle XE 18c Installation (Linux) Oracle XE 18c Installation (Windows) Oracle und JSON PDF Anzeige aus Tabelle in APEX PDF display from table in APEX PL/SQL Collection Beispiele Package UTL_MAIL Parallelisierung von DML - Operatoren mit DBMS_Parallel_Exec Partitionierte Tabellen Beispiele in Postgres Partitionierte Tabellen von Postgres (ab Version 10) Pivoting in 11g - Zeilen zu Spalten PostgreSQL Listener Adresse ändern und Zugriff regulieren Postgres Backup einer Datenbank mit tar Postgres utl_file zum Lesen und Schreiben von Dateien Praktische Aliase unter Oracle / APEX und Tomcat / Apache Prozedur für das Klonen einer Oracle Datenbank Quote Operator REST Beispiele mit apex_web_service RMAN Recover Szenarien inkl. Wechsel der Inkarnation Rebuild von defekten Indizes Rechte direkt oder via Rolle Regular Expression in Oracle (Working Examples) Reguläre Ausdrücke in Oracle Reguläre Ausdrücke in Oracle (Praxisbeispiele) Result Cache SQL Tuning mit SAMPLE und ROWNUM SQL*PLUS Hilfe Erweitern SYSAUX Tablespace verkleinern / reorganisieren Save Linux shell scripts in Oracle tables Schema Export mit EXPDP erzeugt keine Benutzer ? Schutz vor DROP oder TRUNCATE Kommandos Security Scoring Segmenteinstellungen beim Datapump Import Sessions Transaktionen und Sperren Sperren auf Tabellen in einer Oracle Datenbank Spool-file als HTML-Datei ausgeben Statspack ohne Report Statspack optimiert Suche Datensatz in einem Schema Suche nach Bildern und Links in einer APEX Seite TCP Validnode Checking Tablespace Map as ASCII Ausgabe Tablespace Shrink ab 23ai Tablespace Shrink available as of Oracle 23ai Template Substitutions in Apex Tipps zu der Initialisierungsdatei Tipps zur Statistikerstellung in der Datenbank TomCat Logfiles mittels External Table lesen Tooltipps in APEX5.x Tracing mit DBMS_Monitor Trigger Beispiele in Postgres Truncate / Drop Schutz für wichtige Objekte Umbenennen Ihrer Constraints Umbennen von Oracle intervall partitionierten Tabellen (Nach Undo und Temp - Tablespace verkleinern Undokumentierte Funktion zum Abfragen von NULL Werten Unnötige Benutzer in Oracle XE 18c löschen Unsichtbare Spalten Upgrade und Migration einer Non-Container-DB (12.1.0.2) in e Verarbeitung eines dynamischen Selects Vergleich von Tabellen in 10G und 11G II Verzeichnisse Auslesen in PL/SQL Visual Studio Code für Oracle SQL und PL/SQL Wie suche ich in View-Texten? Zeilenbasierte Zugriffskontrolle Zeilenbegrenzung in 12c - Pagination leicht gemacht Übersicht der wichtigsten DDL-Befehle Übersicht der wichtigsten DDL-Befehle (Teil 2) Übersicht der wichtigsten DML Befehle Übersicht der wichtigsten SQL-Befehle Überwachung der Alert-Datei unter Linux Überwachung der Alert-Datei unter Windows
Komplett Übersicht aller Oracle Tipps

Löschen von doppelten Datensätzen 

Oracle
SQL
APEX 4.x
29.06.18 (MP)
05.04.25(NN)
SQL

Passende Schulungen zum Thema

Zum Löschen von doppelten Datensätzen gibt es eine ganze Reihe von Ansätzen. Die Suche nach der Schlagwort-Kombination duplicate delete und Oracle ergibt bei Google ca. 451.000 Treffer. Viele der Methoden funktionieren hervorragend bei den 10 bis 30 Beispieldatensätzen, die meist auch keine NULL-Werte enthalten. Wenn die Tabellen aber größer werden, stellt sich die Frage nach der performantesten Methode.

Dieser Monatstipp stellt die gängigsten Methoden am Beispiel einer manipulierten emp-Tabelle vor und vergleicht danach deren Performance anhand einer Tabelle mit 2 Mio. Datensätzen.

Vorbereitung der emp-Tabelle:
Ein Datensatz wird verdoppelt, ein anderer verdreifacht, nur die Primärschlüssel bleiben unangetastet.

UPDATE emp SET (ename, job, mgr, hiredate, sal, comm, deptno)
    = (SELECT ename, job, mgr, hiredate, sal, comm, deptno
       FROM emp WHERE empno = 7369)
WHERE empno = 7566;
UPDATE emp SET (ename, job, mgr, hiredate, sal, comm, deptno)
     = (SELECT ename, job, mgr, hiredate, sal, comm, deptno
        FROM emp WHERE empno = 7499)
 WHERE empno in (7839, 7902);
COMMIT;

 

WIE FINDET MAN DIE DUPLIKATE


Auch hier gibt es mehrere Ansätze, der gebräuchlichste ist sicher:

SELECT spaltenliste, COUNT(*)
FROM tabelle
GROUP BY spaltenliste
HAVING COUNT(*) > 1;

Mit Spaltenliste ist hier die Kombination der Spalten gemeint, die keine Duplikate aufweisen soll.

SELECT ename, job, mgr, hiredate, sal, comm, deptno, COUNT(*)
FROM emp
GROUP BY ename, job, mgr, hiredate, sal, comm, deptno
HAVING COUNT(*) > 1;
ENAME   JOB          MGR HIREDATE    SAL  COMM DEPTNO   COUNT(*)
------- ---------- ----- -------- ------ ----- ------ ----------
ALLEN   SALESMAN    7698 20.02.81   1600   300     30          3
SMITH   CLERK       7902 17.12.80    800           20          2

Dieser alternative Select mit einer korrelierten Unterabfrage liefert die kompletten Datensätze der Duplikate, sofern man NULL-Spalten mit NVL entschärft (sonst wird hier z.B. das Duplikat von Smith nicht angezeigt)

SELECT * FROM emp e1
WHERE EXISTS (SELECT 1 FROM emp e2
               WHERE e2.ename = e1.ename
                   AND e1.job = e2.job
                   AND e1.mgr = e1.mgr
              AND e1.hiredate = e2.hiredate
                   AND e1.sal = e2.sal
           AND NVL(e1.comm,0) = NVL(e2.comm,0)
                AND e1.deptno = e1.deptno
                 AND e2.rowid < e1.rowid);
EMPNO ENAME   JOB          MGR HIREDATE    SAL  COMM DEPTNO
----- ------- ---------- ----- -------- ------ ----- ------
 7566 SMITH   CLERK       7902 17.12.80    800           20
 7839 ALLEN   SALESMAN    7698 20.02.81   1600   300     30
 7902 ALLEN   SALESMAN    7698 20.02.81   1600   300     30

Eine dritte, eher exotische Methode besteht darin, einen Unique-Constraint auf die Spaltenkombination zu setzen, die eindeutig sein soll und die Fehler (die Duplikate) in die von Oracle über das Skript utlexcpt.sql zur Verfügung gestellte Exceptions-Tabelle zu schreiben.

@ ?\rdbms\admin\utlexcpt
ALTER TABLE emp ADD CONSTRAINT emp_uq
UNIQUE (ename, job, mgr, hiredate, sal, comm, deptno)
EXCEPTIONS INTO EXCEPTIONS;
SELECT e.* FROM exceptions x JOIN emp e ON e.rowid = x.row_id;
=>
EMPNO ENAME   JOB          MGR HIREDATE    SAL  COMM DEPTNO
----- ------- ---------- ----- -------- ------ ----- ------
 7369 SMITH   CLERK       7902 17.12.80    800           20
 7499 ALLEN   SALESMAN    7698 20.02.81   1600   300     30
 7566 SMITH   CLERK       7902 17.12.80    800           20
 7839 ALLEN   SALESMAN    7698 20.02.81   1600   300     30
 7902 ALLEN   SALESMAN    7698 20.02.81   1600   300     30

 

METHODE 1: LÖSCHEN DER DUPLIKATE ÜBER EINE NICHT-KORRELIERTE UNTERABFRAGE


Dies ist sicher der bekannteste Ansatz:

DELETE FROM tabelle
WHERE rowid NOT IN (SELECT MIN(rowid) FROM tabelle
                    GROUP BY spaltenliste);

In unserem Beispiel also:

DELETE FROM emp
WHERE rowid NOT IN (SELECT MIN(rowid) FROM emp
                    GROUP BY ename, job, mgr, hiredate, sal, comm, deptno);
3 rows deleted.
ROLLBACK;

 

METHODE 2: LÖSCHEN DER DUPLIKATE ÜBER EINE KORRELIERTE UNTERABFRAGE.


Allgemeine Syntax:

DELETE FROM tabelle t1
     WHERE rowid < (SELECT MAX(rowid) FROM tabelle t2
                    WHERE t1.col1 = t2.col1
                    AND   t1.col2 = t2.col2
                    AND   t1.col3 = t2.col3 ....);

Statt rowid < (SELECT MAX(rowid)... kann man natürlich auch rowid > (SELECT MIN(rowid)... oder rowid < ANY (SELECT rowid... verwenden

Nachteile:
•    Ohne die Behandlung von NULL-Spalten mit NVL erwischt man nur einen Teil der Datensätze !!!!
•    Korrelierte Update- und Delete-Statements sind als besonders unperformant berüchtigt
•    Bei Tabellen mit vielen Spalten wird das Statement sehr lang

Das Statement sieht bei der manipulierten emp-Tabelle dann so aus:

DELETE FROM emp e1
     WHERE rowid < (SELECT MAX(rowid) FROM emp e2
                    WHERE e1.ename     = e2.ename
                    AND  e1.job        = e2.job
                    AND  e1.mgr        = e2.mgr
                    AND  e1.hiredate   = e2.hiredate
                    AND  e1.sal        = e2.sal
                    AND NVL(e1.comm,0) = NVL(e2.comm,0)
                    AND  e1.deptno     = e2.deptno);
3 rows deleted.
ROLLBACK;

 

METHODE 3: LÖSCHEN DER DUPLIKATE ÜBER ANALYTISCHE FUNKTIONEN


Von Tom Kyte empfohlen. Näheres zu analytischen Funktionen erfahren Sie in unserem SQL II Kurs.

Allgemeine Syntax:
DELETE FROM tabelle
WHERE rowid IN
   (SELECT rid FROM
      (SELECT rowid rid,
             ROW_NUMBER() OVER(PARTITION BY spaltenliste ORDER BY rowid) rn
       FROM tabelle)
WHERE rn <> 1);

In unserem Beispiel also:

DELETE FROM emp
WHERE rowid IN
   (SELECT rid FROM
      (SELECT rowid rid,
             ROW_NUMBER()
             OVER(PARTITION BY ename, job, mgr, hiredate, sal, comm, deptno
             ORDER BY rowid) rn
       FROM emp)
    WHERE rn <> 1);
3 rows deleted.
ROLLBACK;

 

METHODE 4 (AUSSER KONKURRENZ): ERSTELLEN EINER NEUEN TABELLE OHNE DUPLIKATE


Auch diesen Ansatz findet man in dem oben angeführten Artikel von Tom Kyte. Er ist besonders schnell, aber in Produktivumgebungen kaum umzusetzen. Man erstellt aus den gewünschten Daten eine neue Tabelle, löscht die alte, erstellt die Indizes neu und benennt die neue Tabelle um.

CREATE TABLE emp2 AS
SELECT empno, ename, job, mgr, hiredate, sal, comm, deptno
FROM (SELECT b.*,
          ROW_NUMBER()
          OVER(PARTITION BY ename, job, mgr, hiredate, sal, comm, deptno
          ORDER BY rowid) rn
      FROM emp b)
WHERE rn = 1;
DROP TABLE emp PURGE;
ALTER TABLE emp2 ADD CONSTRAINT emp_pk PRIMARY KEY(empno);
RENAME emp2 TO emp;

 

PERFORMANCE-TESTS MIT GROSSEN TABELLEN


Für die Performance-Tests wurde eine Tabelle mit 2 Mio. Datensätzen auf Basis der dba_objects (Tom Kytes big_tab) im Schema Scott verwendet. Auch hier sind nur die Primärschlüssel noch unique.
Duplikate ermitteln:

conn sys/sys as sysdba
set timing on
SELECT COUNT(*), zahl
FROM (SELECT owner, object_name, subobject_name, object_id, data_object_id,
             object_type, created, last_ddl_time, timestamp, status,
             temporary, generated, secondary, COUNT(*) zahl
     FROM scott.big_tab
     GROUP BY owner, object_name, subobject_name, object_id, data_object_id,
              object_type, created, last_ddl_time, timestamp, status,
             temporary, generated, secondary
     HAVING COUNT(*) > 1)
GROUP BY zahl;
=>
-- für 10g
  COUNT(*)       ZAHL
---------- ----------
     48518         40
      1520         39
-- für 11g
COUNT(*)       ZAHL
---------- ----------
     36128         28
     36608         27

 Löschen der Duplikate über eine nicht-korrelierte Unterabfrage

DELETE FROM scott.big_tab
WHERE rowid NOT IN (SELECT MIN(rowid) FROM scott.big_tab
                    GROUP BY owner, object_name, subobject_name, object_id,
                         data_object_id, object_type, created, last_ddl_time,
                         timestamp, status, temporary, generated, secondary);
-- Laufzeiten für 10g: zwischen 1:29,76 und 1:35.00 Minuten
-- Laufzeiten für 11g: zwischen 1:30.18 und 2:00.85 Minuten

Löschen der Duplikate über eine korrelierte Unterabfrage.

Trotz der prinzipiell gleichen Hard- und Software-Ausstattung waren die Laufzeiten hier sehr unterschiedlich. 2 Server lagen reproduzierbar zwischen 16 und 18 Minuten, einer brachte es auf 5-6 Minuten.


DELETE FROM scott.big_tab b1
WHERE rowid <
  (SELECT MAX(rowid) FROM scott.big_tab b2
   WHERE b1.owner                      = b2.owner
   AND b1.object_name                  = b2.object_name
   AND NVL(b1.subobject_name, 'nn')    = NVL(b2.subobject_name, 'nn')
   AND b1.object_id                    = b2.object_id
   AND NVL(b1.data_object_id,0)        = NVL(b2.data_object_id,0)
   AND b1.object_type                  = b2.object_type
   AND b1.created                      = b2.created
   AND NVL(b1.last_ddl_time,sysdate)   = NVL(b2.last_ddl_time,sysdate)
   AND NVL(b1.timestamp, systimestamp) = NVL(b2.timestamp, systimestamp)
   AND b1.status                       = b2.status
   AND b1.temporary                    = b2.temporary
   AND b1.generated                    = b2.generated
   AND b1.secondary                    = b2.secondary);
-- Laufzeiten für 10g: zwischen 5:44,96 und 16:39,74 Minuten
-- Laufzeiten für 11g: zwischen 6:31,56 und 18:22.90 Minuten

Löschen der Duplikate über analytische Funktionen

DELETE FROM scott.big_tab
WHERE rowid IN
   (SELECT rid FROM
      (SELECT rowid rid,
             ROW_NUMBER()
             OVER(PARTITION BY owner, object_name, subobject_name, object_id,
                         data_object_id, object_type, created,
                         last_ddl_time, timestamp,
                         status, temporary, generated, secondary
             ORDER BY rowid) rn
       FROM scott.big_tab)
    WHERE rn <> 1);
-- Laufzeiten für 10g: zwischen 3:11,59 und 3:41,30 Minuten
-- Laufzeiten für 11g: zwischen 4:40,64 und 5:06.32 Minuten

Duplikate eliminieren über eine neue Tabelle

--Tabelle ohne Duplikate erstellen
CREATE TABLE big_tab2 AS
SELECT id, owner, object_name, subobject_name, object_id, data_object_id, object_type, created, last_ddl_time, timestamp, status, temporary, generated, secondary
FROM (SELECT b.*,

Weitere interessante Kurs-Tipps zum Thema