Ergebnisse der Rückläuferstudie – Teil 1

Wie im letzten Beitrag schon erwähnt, ist es für eine korrekte Kategorisierung von Mail-Rückläufern von absoluter Notwendigkeit, dass die Status Codes laut SMTP Protokoll nach den Vorgaben der RFC richtig implementiert und umgesetzt werden.

eworx hat beobachtet, dass oftmals Fehlermeldungen á la „Mailbox voll“ mit dem Statuscode für Hardbounce übermittelt werden. Dadurch werden Softbounces fälschlicherweise als Hardbounces behandelt und umgekehrt. Deswegen haben wir eine Untersuchung auf die korrekte Implementierung der Status Codes seitens verschiedener Mailserver veranlasst. Dies ist nun der erste Teil einer Reihe von Ergebnisberichten der Studie:

Die von eworx Network & Internet GmbH durchgeführte Studie hatte als Ziel die Messung der Übereinstimmung der Fehlerstatuscodes der SMTP Server laut RFC 3463 zur tatsächlichen textuellen Fehlermeldung und Ursache. Analysiert wurden die laut RFC 3463 eindeutigen Rückläuferkategorien Hard- und Soft-Bounce. Nicht berücksichtigt wurden hingegen Auto-Responders nach RFC 3834.

Zu der Erklärung von Hard- und Softbounces muss hinzugefügt werden, dass immer zwischen Hard- und Softbounce laut Text (HLT und SLT) und laut Protokoll (HLP und SLP) unterschieden werden muss. Ein Fehler laut Text bedeutet, dass man aufgrund der textuellen Fehlerbeschreibung auf einen permanenten (Hardbounce) oder temporären (Softbounce) Fehler schließen kann. Bei einem Fehler laut Protokoll kann man aufgrund des Statuscodes nach RFC 3463 auf einen permanenten (Hardbounce) oder temporären (Softbounce) Fehler schließen kann.

Theoretisch sollte demnach jeder HLT auch ein HLP sein und umgekehrt. Gleiches gilt für SLT und SLP. Beobachtungen haben jedoch gezeigt, dass dies nicht immer der Fall ist.

Analyse anhand des Status Codes

Unsere im Echtsystem durchgeführte Studie umfasste153.439 Unzustellbarkeitsnachrichten, mit 115.616 Hardbounce Mails und 37.823 Softbounce Mails. Bei 99,6% der Hardbounces war der Status Code korrekt und im Allgemeinen (bei 99,9% der Hardbounces) auch vorhanden.Anders bei den Softbounces: Lediglich 85,6% der Softbounces besaßen auch wirklich einen temporären Status Code. Ganze 14,4% der Softbounces wurden fälschlicherweise mit dem Statuscodes eines Hardbounce gekennzeichnet.

Abb_Rückläufer.png

Dies bedeutet, das bei 14,4% die Adressen von potentiellen Kunden frühzeitig deaktiviert werden, obgleich dies nicht nötig wäre. Dies bedeutet auch, dass 14,4% von potentiellen Kunden vom Kommunikationskanal ausgeschlossen werden. Hierzu neue Ersatzadressen zu generieren ist mit weiteren Generierungskosten verbunden. Adressen frühzeitig auszuschließen ist also auch ein Kostenfaktor für den Kunden, welcher vermieden werden sollte.
Abb_FehlerquoteStatuscode.png
In Summe betrachtet, liegt die absolute Fehlerquote der Analysemenge bei den Rückläufern, die Aufgrund des Statuscodes identifiziert wurden bei 3,7% – dies entspricht 5.425 E-Mails.

Textuelle Analyse

Bei der textuellen Analyse kann der sogenannte Diagnostic Code ausgewertet werden (Bsp: smtp;550 invalid Name) dieser ist jedoch lediglich in 17,9% der Softbounces bzw. in 80,3% der Hardbounces vorhanden. Der Diagnostic Code ist ein semistrukturierter Text, welcher pro Mailserverimplementierung ident ist, sich jedoch dennoch je Mailserver unterscheidet. Der Vorteil dieses Codes liegt in der einfachen Auswertung (für eine textuelle Analyse), da er sehr kurz ist.


Abb_textuelleAnalyse.png

Da der Diagnostic Code jedoch nur selten vorhanden ist, muss schlussendlich der unstrukturierte Mailinhalt analysiert werden, um zu einer korrekten Analyse und Kategorisierung zu gelangen. Das automatisierte Auffinden der Fehlermeldung sowie die automatisierte textuelle Interpretation des Fehlers ist damit eine sehr große Herausforderung.


Fazit

Die regelbasierte Auswertung in mailworx zeigt, dass bei der Analyse des Statuscodes die Fehlerquote bei den Hardbounces bei lediglich 0,4% liegt, jedoch bei Softbounces bei 14,4%. Bei der textuellen Analyse konnte lediglich in 17,9% der Softbounces bzw. in 80,3% der Hardbounces ein Diagnostik Code überhaupt gefunden werden. Was ein automatisiertes finden von Fehler sehr schwierig gestaltet.

eworx hat nun die regelbasierte Auswertung durch eine Auswertung ersetzt, welche aufgrund von intelligenter Maschine-Learning-Algorithmen erstellt wurde, wie sie auch bei Systemen für künstliche Intelligenz (siehe Beitrag) eingesetzt werden.

Durch die fehlenden Informationen des Status-Codes und der möglichen Falschinterpretierung durch den Statuscode wird nun eine intelligente textuelle Analyse der Fehlernachrichten durchgeführt und aufgrund des neuen intelligenten Algorithmus eine Klassifizierung durchgeführt.

Lesen Sie im nächsten Beitrag mehr über die Veränderung der Ergebnisse durch den Einsatz von künstlicher Intelligenz in mailworx!

Kommentar schreiben