Eine der zentralen Aufgaben eines Datenbankadministrators sollte in der Überwachung der Alert-Datei bestehen.
Darin befinden sich - in der Regel - die Antworten auf folgende Fragen:
- Meldet das Oracle Datenbanksystem bestimmte ORA- oder TNS- Fehler? (z.B. ORA-00600, ORA-007200)
- Gibt es irgendwelche Probleme mit Daten- oder Redolog-Dateien?
- Gibt es bereits Hinweise auf zukünftig drohende Probleme?
- Läuft meine Fast Recovery Area allmählich voll?
- Wann wurde welcher SPFILE-Parameter geändert?
- Wann haben sich die Datendateien zum letzten Mal erweitert?
Da der Administrator aber nicht den Großteil seiner Zeil damit verbringen will, seine (möglicherweise zahlreichen) Alert-Dateien selber zu durchforsten und Oracle sich bei diesem Thema (freundlich ausgedrückt) sehr zurückhält, bleibt es jedem selbst überlassen, dafür eine gewisse Routine zu entwickeln.
In diesem Tipp sollen zwei Möglichkeiten vorgestellt werden, wie die Überwachung Ihrer Alert-Dateien zukünftig aussehen könnte.
MÖGLICHKEIT #1: AUSLESEN DER ALERT-DATEI
Seit Version 11gR2 gibt es zwei Datenquellen, mit denen die Alert-Dateien direkt selektiert werden können.
Zum einen steht die (undokumentierte) View V$DIAG_ALERT_EXT zur Verfügung, mit der aber sämtliche XML-Logdateien ausgelesen werden, die sich unter $ORACLE_BASE/diag befinden.
Zum anderen gibt es die interne (fixed) Tabelle X$DBGALERTEXT, die nur die Alert-Datei der aktuellen Instanz ausliest.
Aus Performance-Sicht ist es anzuraten, die X$-Variante zu wählen, die allerdings nur dem SYS-Benutzer zur Verfügung steht.
Mit der folgenden Abfrage verschaffen Sie sich zunächst einen Überblick, aus welchen XML-Dateien die View V$DIAG_ALERT_EXT Daten zurückliefert.
Damit ist auch nachvollziehbar, warum die Nutzung dieser View sehr aufwändig ist und lange dauern kann:
SQL> col component_id for a8
SQL> col originating_timestamp for a35
SQL> col message_text for a100
SQL> set timing on
SQL> SELECT component_id, count(*), filename
FROM v$diag_alert_ext
GROUP BY component_id, filename
ORDER BY 1, 3 DESC;
COMPONEN COUNT(*) FILENAME
-------- -------- -----------------------------------------------------------------------
clients 15741 <%ORACLE_BASE%>\diag\clients\user_...\alert\log.xml
clients 36716 <%ORACLE_BASE%>\diag\clients\user_...\alert\log.xml
clients 166 <%ORACLE_BASE%>\diag\clients\user_...\alert\log.xml
clients 124 <%ORACLE_BASE%>\diag\clients\user_...\alert\log.xml
rdbms 1179 <%ORACLE_BASE%>\diag\rdbms\o12test\...\alert\log.xml
rdbms 2074 <%ORACLE_BASE%>\diag\rdbms\o12se\o12se\alert\log.xml
rdbms 12514 <%ORACLE_BASE%>\diag\rdbms\o12pdb\...\alert\log.xml
rdbms 25677 <%ORACLE_BASE%>\diag\rdbms\o12c2\o12c2\alert\log.xml
rdbms 184238 <%ORACLE_BASE%>\diag\rdbms\o12c\o12c\alert\log.xml
rdbms 3935 <%ORACLE_BASE%>\diag\rdbms\o12cdb\...\alert\log.xml
rdbms 4152 <%ORACLE_BASE%>\diag\rdbms\o11gse\...\alert\log.xml
rdbms 30780 <%ORACLE_BASE%>\diag\rdbms\o11g\o11g\alert\log.xml
rdbms 10702 <%ORACLE_BASE%>\diag\rdbms\dg2\dg2\alert\log.xml
rdbms 87521 <%ORACLE_BASE%>\diag\rdbms\dg1\dg1\alert\log.xml
tnslsnr 19 <%ORACLE_BASE%>\diag\tnslsnr\...\alert\log.xml
tnslsnr 1273841 <%ORACLE_BASE%>\diag\tnslsnr\...\alert\log.xml
Abgelaufen: 00:00:41.76
Hier nun eine Auswahl an Abfragen, die auf die Alert-Datei der aktuellen Instanz abzielen sollen. Dabei werden immer beide Datenquellen berücksichtigt:
SQL> REM -------------------------------------------------------------
SQL> REM Wann war der letzte Startvorgang?
SQL> REM -------------------------------------------------------------
SQL> REM Achtung: Die FETCH FIRST-Klausel gibt es erst ab 12c.
SQL> REM In 11.2 muss noch über eine Inline View und mit WHERE
SQL> REM rownum<=1 gearbeitet werden
SQL> REM -------------------------------------------------------------
SQL> -- V$DIAG_ALERT_EXT (ab 12c)
SQL> SELECT originating_timestamp, message_text, filename
FROM v$diag_alert_ext
WHERE upper(filename) LIKE '%&SID%'
AND upper(message_text) LIKE 'STARTING ORACLE INSTANCE%'
ORDER BY originating_timestamp DESC
FETCH FIRST 1 ROWS ONLY;
Geben Sie einen Wert für SID ein: <ihre_SID>
SQL> -- V$DIAG_ALERT_EXT (in 11.2)
SQL> SELECT * FROM (
SELECT originating_timestamp, message_text, filename
FROM v$diag_alert_ext
WHERE upper(filename) LIKE '%&SID%'
AND upper(message_text) LIKE 'STARTING ORACLE INSTANCE%'
ORDER BY originating_timestamp DESC )
WHERE ROWNUM <= 1;
Geben Sie einen Wert für SID ein: <ihre_SID>
SQL> -- X$DBGALERTEXT
SQL> SELECT originating_timestamp, message_text
FROM x$dbgalertext
WHERE upper(message_text) LIKE 'STARTING ORACLE INSTANCE%'
ORDER BY originating_timestamp DESC
FETCH FIRST 1 ROWS ONLY;
SQL> REM ---------------------------------------------------------------
SQL> REM Welche ORA-Fehlermeldungen sind in den letzten 24h aufgetreten?
SQL> REM ---------------------------------------------------------------
SQL> -- V$DIAG_ALERT_EXT
SQL> SELECT originating_timestamp, message_text, filename
FROM v$diag_alert_ext
WHERE upper(filename) LIKE '%&SID%'
AND upper(message_text) LIKE '%ORA-%'
AND originating_timestamp > sysdate-1
ORDER BY originating_timestamp;
Geben Sie einen Wert für SID ein: <ihre_SID>
SQL> -- X$DBGALERTEXT
SQL> SELECT originating_timestamp, message_text
FROM x$dbgalertext
WHERE upper(message_text) LIKE '%ORA-%'
AND originating_timestamp > sysdate-1
ORDER BY originating_timestamp;
SQL> REM ----------------------------------------------------
SQL> REM Welche Parameter wurden in den letzten 24h geändert?
SQL> REM ----------------------------------------------------
SQL> -- V$DIAG_ALERT_EXT
SQL> SELECT originating_timestamp, message_text
FROM v$diag_alert_ext
WHERE upper(filename) LIKE '%&SID%'
AND upper(message_text) LIKE 'ALTER SYSTEM SET%'
AND originating_timestamp > sysdate-1
ORDER BY originating_timestamp;
Geben Sie einen Wert für SID ein: <ihre_SID>
SQL> -- X$DBGALERTEXT
SQL> SELECT originating_timestamp, message_text
FROM x$dbgalertext
WHERE upper(message_text) LIKE 'ALTER SYSTEM SET%'
AND originating_timestamp > sysdate-1
ORDER BY originating_timestamp;
Leider ist damit noch nichts automatisiert worden und falls die Abfragen eine längere Zeit nicht ausgeführt wurden, werden vereinzelte Meldungen gar nicht oder auftretende Probleme vielleicht zu spät erkannt. Deshalb kommen wir nun zur zweiten Möglichkeit der Alert-Datei-Überwachung.
MÖGLICHKEIT #2: AUTOMATISCHE E-MAIL-BENACHRICHTIGUNG BEI BESTIMMTEN MELDUNGEN ODER FEHLERN
Noch viel praktischer ist es, wenn der Administrator über auftretende Fehler oder Probleme automatisch per E-Mail informiert wird.
Dazu wird im Folgenden ein DBMS_SCHEDULER-Job eingerichtet, der über ein Skript die Alert-Datei in einem regelmäßigen (selbst festgelegten) Zeitintervall nach bestimmten Schlüsselwörtern durchsuchen soll und bei Auffinden eine E-Mail versendet.
In diesem Tipp beschränken wir uns auf den Einsatz eines Powershell-Skripts, d. h. er lässt sich nur unter Windows Systemen umsetzen.
Das nachfolgende Skript wird in einem beliebigen Verzeichnis (z. B. c:\temp unter dem Namen o12c2_alert_to_mail.ps1) abgelegt.
Hinweise
- Alle Parameter, die individuell an Ihre Umgebung anzupassen sind, sind kursiv und fett angegeben.
- Die im Skript verwendete Funktion Get-RelevantAlertLogContent ist speziell für große Alert-Dateien konzipiert, da im Gegensatz zu einer einfachen Get-Content Funktion nicht die gesamte Datei gelesen werden muss um die letzten x Minuten auszuwerten. (Vielen Dank dafür an Herrn Praßel). Ansonsten könnte die Ausführung auch wieder (etliche) Minuten in Anspruch nehmen.
- Das Format des Zeitstempels innerhalb der Alert-Datei hat sich in Version 12cR2 leider verändert (2017-04-10T23:45:56.119309+02:00) und daher ist das Skript für 12.2 derzeit nicht verwendbar.
# #########################################################
# ##### Beginn Skript c:\temp\o21c_alert_to_mail.ps1 #####
# #########################################################
# ### Powershell Skript zum Durchsuchen der Alert-Datei ###
# #########################################################
# #########################################################
function Get-RelevantAlertLogContent {
Param (
[Parameter(
Position=0,
Mandatory=$TRUE,
ValueFromPipeline=$TRUE
)][ValidateScript({
Test-Path -Path $_
})][String]$Path,
[Parameter(
Position=1,
Mandatory=$FALSE,
ValueFromPipeline=$FALSE
)][ValidateScript({
$_ -gt 0
})][int]$Minutes = 10,
[Parameter(
Position=2,
Mandatory=$FALSE,
ValueFromPipeline=$FALSE
)][ValidateScript({
$_ -gt 0
})][String]$ReadCount = 100
)
Process {
$StartDate = Get-Date
$Tail = 0
$DatePassed = $FALSE
$LogDate = $NULL
$ContentBlocks = 0
$LastContentBlocks = -1
do {
$Tail += $ReadCount
$LastContentBlocks = $ContentBlocks
$TailContent = Get-Content -Path $Path -ReadCount $ReadCount -Tail $Tail
if ($ReadCount -eq $Tail) {
$CheckBlock = $TailContent
$ContentBlocks = 1
}
else {
$CheckBlock = $TailContent[0]
$ContentBlocks = $TailContent.Length
}
$i = 0
while ((-not $DatePassed) -and ($i -lt $CheckBlock.Length)) {
$Line = $CheckBlock[$i++]
try {
$LogDate = [datetime]::ParseExact($Line, "ddd MMM dd HH:mm:ss yyyy",
[CultureInfo]::CreateSpecificCulture("en-US"))
$DatePassed = ($StartDate - $LogDate).TotalMinutes -gt $Minutes
}
catch {
$LogDate = $NULL
$DatePassed = $FALSE
}
}
} while ((-not $DatePassed) -and ($ContentBlocks -gt $LastContentBlocks))
if ($ReadCount -eq $Tail) {
$Content = $TailContent
}
else {
$Content = @()
#Lässt sich nicht per foreach oder ForEach-Object abarbeiten
for ($i = 0; $i -lt $TailContent.Length; $i++) {
$Content += $TailContent[$i]
}
}
return $Content
}
}
# Eigene Umgebung einstellen
$ORACLE_SID = "o21c"
$ORACLE_BASE = "E:\oracle"
# Eigene Sitchwörter nach denen gesucht werden soll angeben
$error_search_str = "ORA-|TNS-|Checkpoint not |WARNING |Starting ORACLE instance |Shutting down
instance|Resize operation |alter database |alter system "
$date_search_str = "^[A-Z]{1}[a-z]{2} [A-Z]{1}[a-z]{2} "
$cultureUS = New-Object System.Globalization.CultureInfo("en-US")
# Welches Zeilintervall in Minuten soll innerhalb der Alert-Datei durchsucht werden? Hier: 10 Minuten
$delta_time_minutes = 10
$alert_err_out = ""
$alertDir = "$ORACLE_BASE\diag\rdbms\$ORACLE_SID\$ORACLE_SID\trace\alert_$ORACLE_SID.log"
$block = Get-RelevantAlertLogContent $alertDir | Select-String -pattern
$date_search_str|$error_search_str"
foreach ($line in $block) {
if ($line -match $date_search_str) {
$alert_date = [datetime]::ParseExact($line.tostring().substring(4), "MMM dd HH:mm:ss yyyy",
$cultureUS)
if ($alert_date -gt (Get-Date).addminutes(-$delta_time_minutes)) {
$triggered = 1
continue
}
}
if ($triggered){
if ($line -match $error_search_str) {
$alert_err_out += "`n$alert_date $line"
$triggered = 0
}
}
}
# Wenn Fehler aufgetreten, Email verschicken
if ($alert_err_out) {
# Mail-Absender-Adresse
$emailFrom = "alert@muniqsoft.de"
# Mail-Empfänger-Adresse
$emailTo = "xxx@muniqsoft.de"
# Betreff-Zeile
$subject = "Fehler/Meldungen in alert.log von Instanz $ORACLE_SID"
# Mail-Server-Adresse
$smtpServer = "yyy.muniqsoft