Što trebate znati o Bayesovom filtriranju neželjene pošte?

by Heinz Tschabitscher

Saznajte kako statistika pomaže u očuvanju pristigle pošte

Bayesovim filtrima neželjene pošte izračunavaju vjerojatnost da je poruka na temelju njezinog sadržaja neželjena pošta. Za razliku od jednostavnih filtera koji se temelje na sadržaju, Bayesov spam filtriranje uči od neželjenih poruka i dobre pošte, što rezultira vrlo robusnim, prilagodljivim i učinkovitim protupraznim pristupom koji, najbolje od svega, gotovo ne daje nikakve lažne pozitivne uvjete.

Kako prepoznajete neželjenu e-poštu?

Razmislite o tome kako otkrijete neželjenu poštu . Dovoljno je brzo pogledati. Znaš kako izgleda spam i znate kakva je dobra pošta.

Vjerojatnost da spam izgleda kao dobra pošta je oko ... nula.

Ne ocrtavajte filtre na temelju sadržaja

Ne bi li bilo sjajno da se automatski filtri za neželjenu poštu tako rade?

Ocjenjivanje filtara neželjenih sadržaja na temelju sadržaja pokušava upravo to. Tražili su riječi i druge značajke tipične za neželjenu poštu. Svaki karakterističan element dodjeljuje rezultat, a rezultat neželjene pošte za cijelu poruku izračunava se iz pojedinačnih rezultata. Neki filtri za ocjenjivanje također traže značajke legitimne pošte, smanjujući konačni rezultat poruke.

Pristup ocjenjivačkim filtrima funkcionira, ali ima i nekoliko nedostataka:

Popis značajki izgrađen je od neželjenog sadržaja (i dobre pošte) koji je dostupan inženjerima filtara. Kako bi se dobro razumio tipičan spam koji bi netko mogao dobiti, mail mora biti prikupljen na stotine e-mail adresa. To slabi učinkovitost filtara, pogotovo zato što se karakteristike dobre pošte razlikuju za svaku osobu , ali to se ne uzima u obzir.
Karakteristike za traženje su više ili manje postavljene u kamenu . Ako se spameri nastoje prilagoditi (a njihova neželjena pošta izgleda poput dobre pošte na filtre), značajke filtriranja moraju se ručno izmijeniti - još veći napor.
Rezultat dodijeljen svakoj riječi vjerojatno se temelji na dobroj procjeni, ali je i dalje proizvoljna. I poput popisa značajki, on se ne prilagođava promjenljivom svijetu spama, općenito, niti individualnim potrebama korisnika.

Bayesovim filtrima za neželjene oglase ugađaju se, postaju sve bolji i bolji

Bayesovim filtrima neželjene pošte također su vrsta filtra koji se temelje na sadržaju. Ipak, njihov pristup uklanja probleme s jednostavnim rezultatima filtriranja neželjene pošte, i to radikalno. Budući da je slabost filtara za bodovanje u ručno izrađenoj listi karakteristika i njihovih rezultata, taj se popis eliminira.

Umjesto toga, Bayesov spam filtri sami grade popis. U idealnom slučaju, počnete s (velikom) hrpa e-pošte koju ste klasificirali kao neželjenu poštu i drugu skupinu dobre pošte. Filtri gledaju na obje i analiziraju legitimnu poštu kao i neželjenu poštu kako bi izračunali vjerojatnost raznih karakteristika koje se pojavljuju u neželjenoj pošti i dobrom poštom.

Kako Bayesov spam filtar ispituje e-poštu

Karakteristike Bayesovog filtra za neželjenu poštu mogu biti:

riječi u tijelu poruke, naravno, i
njegove zaglavlja (pošiljatelji i poruke , na primjer!), ali također
druge aspekte kao što su HTML / CSS kôd (poput boja i drugih oblika) ili čak
parova riječi, izraza i
meta informacije (na primjer, ako se pojavi određeni izraz).

Ako riječ "kartezijanac", na primjer, nikada ne pojavljuje u neželjenoj pošti, ali često u legitimnoj e-poruci koju primate, vjerojatnost da "kartezijanac" označava neželjenu poštu blizu je nula. S druge strane, "toner" se pojavljuje isključivo i često u neželjenoj pošti. "Toner" ima vrlo visoku vjerojatnost da se pronađe u neželjenoj pošti, a ne puno ispod 1 (100%).

Kada dođe nova poruka, analizirat će ga Bayesov filtar za neželjenu poštu, a vjerojatnost da je cijela poruka spam, izračunava se pomoću pojedinačnih karakteristika.

Pretpostavimo da poruka sadrži "kartezijansku" i "toner". Iz ovih riječi sama još nije jasno imamo li spam ili legit mail. Ostale karakteristike (vjerojatno i najvjerojatnije) upućuju na vjerojatnost da filtar može klasificirati poruku kao spam ili dobru poštu.

Bayesov Spam Filtri mogu automatski učiti

Sada kada imamo klasifikaciju, poruka se može upotrebljavati za daljnje osposobljavanje filtra. U tom se slučaju smanjuje vjerojatnost "kartezijanskog" označavanja dobre pošte (ako se poruka o "kartezijanskom" i "toneru" smatra neželjenom), ili se mora ponovno razmotriti vjerojatnost "tonera" koja ukazuje na neželjenu poštu.

Koristeći tu auto-adaptivnu tehniku, Bayesianovi filteri mogu naučiti i vlastite i odluke korisnika (ako ručno ispravlja pogrešno suđenje filtrima). Adaptabilnost Bayesovog filtriranja također osigurava da su oni najučinkovitiji za pojedinog korisnika e-pošte. Dok spam većine ljudi može imati slične karakteristike, legitimna pošta karakteristično je različita za svakoga.

Kako se spameri mogu dobiti proteklih Bayesovih filtara?

Karakteristike legitimne pošte jednako su važne za postupak Bayesovog filtriranja neželjene pošte kao što je spam. Ako su filtri posebno osposobljeni za svakog korisnika, spameri će još teže raditi oko svih (ili čak većine) filtara za neželjenu poštu, a filtri se mogu prilagoditi gotovo svim pokušajima neželjenih pošiljatelja.

Spameri će to učiniti samo prošli dobro obučeni Bayesovim filtrima ako svoje poruke neželjene pošte izgledaju savršeno poput obične e-pošte koju svatko može dobiti.

Spameri obično ne šalju takve e-poruke. Pretpostavimo da je to zato što te e-poruke ne rade kao e-pošte bezvrijedne. Dakle, šanse su da neće raditi kada je obična, dosadna poruka e-pošte jedini način da se proširi filtriranje neželjenih poruka.

Ako se pošiljatelji neželjene pošte prebacuju na uglavnom obične e-poruke, međutim opet ćemo vidjeti puno neželjenih poruka u našim Inboxovima, a e-pošta može postati frustrirajuća kakva je bila u pred Bayezovskim danima (ili još gore). To će također uništiti tržište za većinu vrsta neželjenih poruka, iako neće dugo trajati.

Snažni pokazatelji mogu biti Bayesov filtar za spam Achilles & # 39; Potpetica

Jedna iznimka može se zamijetiti da bi spameri trebali raditi putem Bayesovih filtara čak i sa svojim uobičajenim sadržajem. U prirodi je Bayesovih statistika da jedna riječ ili karakteristika koja se vrlo često pojavljuje u dobroj pošti može biti toliko značajna da bi bilo koja poruka izobličila kao spam da bude ocijenjena kao šunka pomoću filtra.

Ako neželjeni korisnici pronađu način za utvrđivanje vaših sigurnih požara - pomoću potvrda o povratu HTML-a da biste vidjeli koje ste poruke otvorili, primjerice, one mogu uključiti jedan od njih u neželjenu poštu i doprijeti do vas čak i putem dobro poznatih poruka, obučeni Bayesov filtar.

John Graham-Cumming je to pokušao tako što su dva filma Bayesiana djelovali jedni protiv drugih, a "loše" prilagođavajući se do kojih se poruka može pronaći kroz "dobar" filtar. Kaže da to funkcionira, premda je proces dugotrajan i složen. Mislimo da nećemo vidjeti mnogo toga, barem ne na velikom mjerilu, a ne prilagođen individualnim značajkama e-pošte. Spameri mogu (pokušati) odrediti neke ključne riječi za organizacije (nešto poput "Almadena" za neke ljude na IBM-u možda?) Umjesto toga.

Obično, neželjena pošta uvijek će (bitno) biti različita od obične pošte ili, međutim, neće biti spam.

Bottom Line: Bayesian Filteringova snaga može biti njegova slabost

Bayesovski filtri za neželjene sadržaje filtri na temelju sadržaja koji:

posebno su osposobljeni za prepoznavanje neželjenih poruka i dobre pošte korisnika pojedinačnih e-pošte , što ih čini vrlo učinkovitim i teško ih se prilagoditi za neželjene poruke .
mogu kontinuirano i bez puno napora ili ručne analize prilagoditi najnovijim trikovima neželjenih pošiljatelja.
uzeti u obzir individualnu korisničku poštu i imati vrlo nisku stopu lažnih pozitivnih .
Nažalost, ako to uzrokuje slijepo povjerenje u Bayesovim filtrima za zaštitu od neželjenih sadržaja, čini povremenu pogrešku još ozbiljnijom . Suprotni učinak lažnih negativnih elemenata (neželjeni sadržaj koji izgleda kao redovna pošta) može potencijalno smetati i ometati korisnike.