'training.dat' irgendwann zu groß?

  • Hallo!
    Ich hab mal eine Frage zu der Junk-Filter Trainingsdatei. Ich hab irgendwann vor Jahren mal von irgendjemandem
    die 'training.dat' übernommen, der sie seinerseits schon ziemlich lange gepflegt hat. Das Bedeutet, dass meine
    Datei jetzt so 6-7 Jahre alt ist.
    Sie ist inzwischen 1434 kb groß. In letzter Zeit makiere ich immer wieder Spam mails derselben Art, in denen teilweise
    sogar dasselbe steht immer wieder als Spam. Die Mails werden dann aber trotzdem nicht als Spam erkannt, wenn
    sie wieder kommen.
    Kann es sein, dass meine Datei einfach zu alt ist ist? Oder hat sich daran nichts geändert?


    Ich hab TB 5.0


    Christoph

  • Zitat von "Thunderflirt"

    Ich hab irgendwann vor Jahren mal von irgendjemandem
    die 'training.dat' übernommen


    Keine gute Idee und nicht im Sinne des Erfinders. TBs Junk-Filter ist ein selbstlernendes Filter, dabei bezieht sich das Lernen auf die Mails, die du bekommst und die für dich(!) Spam sind.


    Vereinfacht und bewußt nicht-technisch ausgedrückt passiert folgendes: Das Filter führt ein Worttabelle mit allen Wörtern in den Mails, für jedes Vorkommen in einer Spam-Mail und in einer Nicht-Spam-Mail wird pro Wort ein Zähler aktualisiert. Kommt jetzt eine neue Mail mit einem solchen Wort, wird entsprechend diesen Zählern entschieden, wie die Mail einzuordnen ist; gleichzeitig werden die Zähler aktualisiert. Da eine Mail aber nicht nur aus einem Wort besteht, werden die Zähler für viele Wörter verglichen und daraus die Spam-Wahrscheinlichkeit errechnet. Das Ändern des Spam-Status für eine Mail wird zwar die Zähler für die enthaltenen Wörter korrigieren, aber nicht gleich das Verhältnis zwischen Spam-Zähler und Nicht-Spam-Zähler umkippen lassen. Und bei einer fremden Trainingsdatei ist das ganze völlig zweifelhaft. Beispiel: Der Ersteller der Trainingsdatei ist Urologe und hat hunderte Mails mit dem Wort Viagra bekommen, die kein Spam sind. Es ist dann klar, daß es bei dir lange Zeit dauern wird, bis die Zähler in der Datei durch immer wieder neues trainieren deinerseits so geändert sind, daß die berüchtigten Viagra-Spams bei dir eben nicht als berufliche Information bewertet werden.


    Das Alter der Datei hat dagegen keine Bedeutung.


    Konsequenz: Entweder du lebst damit, daß du etwas mehr trainieren mußt, oder du beginnst mit einer eigenen Datei neu. Dabei hilft es nach meiner Erfahrung ungemein, wenn man zu Beginn die vorhandenen Mails (auch die selbst gesendeten) neu als Junk oder nicht-Junk klassifiziert, das Filter wird dann wahrscheinlich schon nach kurzer Zeit wunschgemäß arbeiten.


    Nachtrag: Es sei nicht verschwiegen, daß es auch eine andere Ursache gibt. Mansche Spammer bereiten ihre Mails immer wieder neu so auf, daß viele Wörter enthalten sind, die erfahrungsgemäß bei der Masse der unfreiwilligen Empfänger als Nicht-Spam klassifiziert sind. Dagegen ist kein absolut wirksames Kraut gewachsen.

  • Hallo zusammen,


    früher konnte man mnenhy installieren und konnte sich damit die Junk-Filter Statistik anzeigen. Leider ist die aktuelle Version nicht kompatibel und die Erweiterung ist auch sonst mit Vorsicht zu genießen, da sie einige Einstellungen ändert, die sich nur "schwer" wieder rückgängig machen lassen. Man sollte also wissen wie man mit about:config umgeht. ;)


    schöne Grüße


    Toolman

    aktuellste TB-Version. ESET Smart Security, Windows 10 Pro

  • Hallo Leute,


    habe Thunderbird 5.0. Bei mir werden Emails die schon zuvor mehmals als Junk eingestuft wurden, immer noch im Posteingang behandelt als wären es keine Junk Mails. Eine Mail kommt zum bsp. von Neckermann und ist sehr nervig.
    Was kann man dagegen tun bzw. welche Einstellungen muss ich vornehmen.
    Allerding habe ich bereits in den Einstellungen den Junk-Filter aktiviert. Was leider zur Zeit ergebnislos ist.


    Gruss tdie511439