Što trebate znati o Bayesovom filtriranju neželjene pošte?

Saznajte kako statistika pomaže u očuvanju pristigle pošte

Bayesovim filtrima neželjene pošte izračunavaju vjerojatnost da je poruka na temelju njezinog sadržaja neželjena pošta. Za razliku od jednostavnih filtera koji se temelje na sadržaju, Bayesov spam filtriranje uči od neželjenih poruka i dobre pošte, što rezultira vrlo robusnim, prilagodljivim i učinkovitim protupraznim pristupom koji, najbolje od svega, gotovo ne daje nikakve lažne pozitivne uvjete.

Kako prepoznajete neželjenu e-poštu?

Razmislite o tome kako otkrijete neželjenu poštu . Dovoljno je brzo pogledati. Znaš kako izgleda spam i znate kakva je dobra pošta.

Vjerojatnost da spam izgleda kao dobra pošta je oko ... nula.

Ne ocrtavajte filtre na temelju sadržaja

Ne bi li bilo sjajno da se automatski filtri za neželjenu poštu tako rade?

Ocjenjivanje filtara neželjenih sadržaja na temelju sadržaja pokušava upravo to. Tražili su riječi i druge značajke tipične za neželjenu poštu. Svaki karakterističan element dodjeljuje rezultat, a rezultat neželjene pošte za cijelu poruku izračunava se iz pojedinačnih rezultata. Neki filtri za ocjenjivanje također traže značajke legitimne pošte, smanjujući konačni rezultat poruke.

Pristup ocjenjivačkim filtrima funkcionira, ali ima i nekoliko nedostataka:

Bayesovim filtrima za neželjene oglase ugađaju se, postaju sve bolji i bolji

Bayesovim filtrima neželjene pošte također su vrsta filtra koji se temelje na sadržaju. Ipak, njihov pristup uklanja probleme s jednostavnim rezultatima filtriranja neželjene pošte, i to radikalno. Budući da je slabost filtara za bodovanje u ručno izrađenoj listi karakteristika i njihovih rezultata, taj se popis eliminira.

Umjesto toga, Bayesov spam filtri sami grade popis. U idealnom slučaju, počnete s (velikom) hrpa e-pošte koju ste klasificirali kao neželjenu poštu i drugu skupinu dobre pošte. Filtri gledaju na obje i analiziraju legitimnu poštu kao i neželjenu poštu kako bi izračunali vjerojatnost raznih karakteristika koje se pojavljuju u neželjenoj pošti i dobrom poštom.

Kako Bayesov spam filtar ispituje e-poštu

Karakteristike Bayesovog filtra za neželjenu poštu mogu biti:

Ako riječ "kartezijanac", na primjer, nikada ne pojavljuje u neželjenoj pošti, ali često u legitimnoj e-poruci koju primate, vjerojatnost da "kartezijanac" označava neželjenu poštu blizu je nula. S druge strane, "toner" se pojavljuje isključivo i često u neželjenoj pošti. "Toner" ima vrlo visoku vjerojatnost da se pronađe u neželjenoj pošti, a ne puno ispod 1 (100%).

Kada dođe nova poruka, analizirat će ga Bayesov filtar za neželjenu poštu, a vjerojatnost da je cijela poruka spam, izračunava se pomoću pojedinačnih karakteristika.

Pretpostavimo da poruka sadrži "kartezijansku" i "toner". Iz ovih riječi sama još nije jasno imamo li spam ili legit mail. Ostale karakteristike (vjerojatno i najvjerojatnije) upućuju na vjerojatnost da filtar može klasificirati poruku kao spam ili dobru poštu.

Bayesov Spam Filtri mogu automatski učiti

Sada kada imamo klasifikaciju, poruka se može upotrebljavati za daljnje osposobljavanje filtra. U tom se slučaju smanjuje vjerojatnost "kartezijanskog" označavanja dobre pošte (ako se poruka o "kartezijanskom" i "toneru" smatra neželjenom), ili se mora ponovno razmotriti vjerojatnost "tonera" koja ukazuje na neželjenu poštu.

Koristeći tu auto-adaptivnu tehniku, Bayesianovi filteri mogu naučiti i vlastite i odluke korisnika (ako ručno ispravlja pogrešno suđenje filtrima). Adaptabilnost Bayesovog filtriranja također osigurava da su oni najučinkovitiji za pojedinog korisnika e-pošte. Dok spam većine ljudi može imati slične karakteristike, legitimna pošta karakteristično je različita za svakoga.

Kako se spameri mogu dobiti proteklih Bayesovih filtara?

Karakteristike legitimne pošte jednako su važne za postupak Bayesovog filtriranja neželjene pošte kao što je spam. Ako su filtri posebno osposobljeni za svakog korisnika, spameri će još teže raditi oko svih (ili čak većine) filtara za neželjenu poštu, a filtri se mogu prilagoditi gotovo svim pokušajima neželjenih pošiljatelja.

Spameri će to učiniti samo prošli dobro obučeni Bayesovim filtrima ako svoje poruke neželjene pošte izgledaju savršeno poput obične e-pošte koju svatko može dobiti.

Spameri obično ne šalju takve e-poruke. Pretpostavimo da je to zato što te e-poruke ne rade kao e-pošte bezvrijedne. Dakle, šanse su da neće raditi kada je obična, dosadna poruka e-pošte jedini način da se proširi filtriranje neželjenih poruka.

Ako se pošiljatelji neželjene pošte prebacuju na uglavnom obične e-poruke, međutim opet ćemo vidjeti puno neželjenih poruka u našim Inboxovima, a e-pošta može postati frustrirajuća kakva je bila u pred Bayezovskim danima (ili još gore). To će također uništiti tržište za većinu vrsta neželjenih poruka, iako neće dugo trajati.

Snažni pokazatelji mogu biti Bayesov filtar za spam Achilles & # 39; Potpetica

Jedna iznimka može se zamijetiti da bi spameri trebali raditi putem Bayesovih filtara čak i sa svojim uobičajenim sadržajem. U prirodi je Bayesovih statistika da jedna riječ ili karakteristika koja se vrlo često pojavljuje u dobroj pošti može biti toliko značajna da bi bilo koja poruka izobličila kao spam da bude ocijenjena kao šunka pomoću filtra.

Ako neželjeni korisnici pronađu način za utvrđivanje vaših sigurnih požara - pomoću potvrda o povratu HTML-a da biste vidjeli koje ste poruke otvorili, primjerice, one mogu uključiti jedan od njih u neželjenu poštu i doprijeti do vas čak i putem dobro poznatih poruka, obučeni Bayesov filtar.

John Graham-Cumming je to pokušao tako što su dva filma Bayesiana djelovali jedni protiv drugih, a "loše" prilagođavajući se do kojih se poruka može pronaći kroz "dobar" filtar. Kaže da to funkcionira, premda je proces dugotrajan i složen. Mislimo da nećemo vidjeti mnogo toga, barem ne na velikom mjerilu, a ne prilagođen individualnim značajkama e-pošte. Spameri mogu (pokušati) odrediti neke ključne riječi za organizacije (nešto poput "Almadena" za neke ljude na IBM-u možda?) Umjesto toga.

Obično, neželjena pošta uvijek će (bitno) biti različita od obične pošte ili, međutim, neće biti spam.

Bottom Line: Bayesian Filteringova snaga može biti njegova slabost

Bayesovski filtri za neželjene sadržaje filtri na temelju sadržaja koji: