Junk Trainingsdaten mit häufigen Headern

parser

Hi

Ich verwende schon eine ganze Zeit Thunderbird, da ich aber in letzter Zeit relativ oft ziemlich gleiche SPAM Mails bekam, diese jedoch trotz der häufigen manuellen JUNK Markierung, immernoch nicht als JUNK erkannt werden, habe ich nach etwas Suche im Inernet das Plugin Mnenhy installiert, um die "Junk-Filter-Statistik" anzusehen, und was ich da aufgelistet bekam erstaunt mich sehr.

Im folgenden die Ausgabe des Punktes "Junk-Filter-Statistik"

Code

Junk-Filter-Statistik




Der Junk-Filter wurde mit 3460 Nachrichten trainiert, von denen 160 (5%) als erwünscht und 3300 (95%) als Junk eingestuft wurden.
Dabei wurden insgesamt 85238 Wörter betrachtet, 11264 (13%) gute und 73974 (87%) böse;
die Anzahl verschiedener Wörter betrug 79967.




Die folgende Tabelle zeigt nur die 5 häufigsten Wörter;
79962 Wörter unterhalb des Schwellwertes von 2010 wurden ignoriert.
 
(Die Verarbeitung der 2010802 Bytes dieser training.dat dauerte 9.67 Sekunden.)




Wörter:




1	x-gmx-antivirus:-1 (not scanned, may not use virus scanner)
62 Gut,  3141 Böse,  71.06 % Junk - Wahrscheinlichkeit




2	x-flags:1001
59 Gut,  3142 Böse,  72.08 % Junk - Wahrscheinlichkeit




3	x-mozilla-status2:00000000
126 Gut,  3214 Böse,  55.29 % Junk - Wahrscheinlichkeit




4	x-mozilla-status:0001
118 Gut,  2934 Böse,  54.66 % Junk - Wahrscheinlichkeit




5	mime-version:1.0
146 Gut,  3111 Böse,  50.81 % Junk - Wahrscheinlichkeit

Alles anzeigen

Mich erstaunt dabei, dass kein einziges "wirkliches" Wort aufgelistet wurde, sondern lediglich Header
Und zwar auch solche Header, die durchaus auch häufig in "guten" Mails vorkommen.

Kann mir jemand sagen, ob das so korrekt ist,
wie ich das Verhalten ggf optimieren kann,
bzw ggf sogar manuell das verhalten beeinflussen kann.

MfG
MS