Kaip atsirado būtinybė filtruoti šlamštą
Kai 1971 metais buvo išsiųstas pirmasis el. laiškas, niekas negalėjo įsivaizduoti, kad po kelių dešimtmečių šis komunikacijos būdas taps vienu iš pagrindinių informacijos mainų kanalų. Tačiau kartu su populiarumu atėjo ir problema – nepageidaujami laiškai, arba kaip juos dabar vadiname – spam’as.
Pirmasis masinės reklaminio pobūdžio laiškas buvo išsiųstas 1978 metais, kai DEC kompanijos pardavėjas Gary Thuerk nusiuntė pranešimą apie naują kompiuterių liniją 400 gavėjų. Nors tai buvo tik pradžia, jau devintajame dešimtmetyje problema tapo akivaizdi. Elektroninio pašto dėžutės pradėjo skęsti reklamose, sukčiavimo schemose ir kitokiame šlamšte.
Šiandien spam’as sudaro apie 45-50 procentų viso elektroninio pašto srauto pasaulyje. Tai milžiniški skaičiai – kasdiena išsiunčiama šimtai milijardų nepageidaujamų laiškų. Be automatinių filtrų mūsų el. pašto dėžutės būtų tiesiog nenaudojamos.
Pirmieji bandymai kovoti su šlamštu
Ankstyvieji spam filtrai buvo gana primityvūs. Jie veikė pagal paprastą principą – ieškojo konkrečių žodžių ar frazių laiško tekste. Jei laiškas turėjo žodžius kaip „nemokamas”, „laimėk dabar” ar „Viagra”, jis automatiškai keliaudavo į šlamšto aplanką.
Problema buvo akivaizdi – tokius filtrus buvo labai lengva apgauti. Spam’eriai greitai išmoko rašyti žodžius su skaičiais (V1agra), tarpais (V i a g r a) ar specialiais simboliais (V!agra). Tai buvo tarsi žaidimas katės ir pelės, kuriame pelė dažnai laimėdavo.
Vėliau atsirado juodieji sąrašai – duomenų bazės, kuriose buvo kaupiami žinomų spam’erio adresų IP. Jei laiškas atėjo iš tokio adreso, jis būdavo automatiškai blokuojamas. Tačiau ir šis metodas turėjo trūkumų – spam’eriai pradėjo naudoti užkrėstus kompiuterius (botnet’us) siųsti laiškams, todėl IP adresai nuolat keitėsi.
Bayeso teorema ateina į pagalbą
Tikrasis proveržis įvyko, kai spam filtruose pradėta naudoti Bayeso teorema – matematinė formulė, sukurta dar XVIII amžiuje. Šis metodas veikia visiškai kitaip nei paprastas žodžių paieška.
Bayeso filtras mokosi iš patirties. Jis analizuoja tūkstančius laiškų, kurie jau buvo pažymėti kaip spam’as arba ne spam’as, ir ieško modelių. Pavyzdžiui, jis gali pastebėti, kad žodis „susitikimas” dažnai pasitaiko normaliuose laiškuose, o žodis „laimėk” – spam’e. Bet svarbiausia – jis žiūri ne tik į atskirus žodžius, bet ir į jų kombinacijas.
Tarkime, žodis „nemokamas” pats savaime nebūtinai reiškia spam’ą – gali būti nemokamas seminaras ar nemokama pristatymas iš parduotuvės. Bet jei kartu su žodžiu „nemokamas” yra ir „pinigai”, „greitas”, „garantuotas” – tikimybė, kad tai spam’as, labai išauga.
Bayeso filtras kiekvienam žodžiui priskiria tikimybę, kad laiškas su šiuo žodžiu yra spam’as. Paskui jis sudeda visas tikimybes ir apskaičiuoja bendrą rezultatą. Jei tikimybė viršija tam tikrą ribą (paprastai 90-95 procentus), laiškas laikomas spam’u.
Šiuolaikiniai dirbtinio intelekto metodai
Pastaraisiais metais spam filtravimas pasiekė visiškai naują lygį dėl mašininio mokymosi ir dirbtinio intelekto technologijų. Šiuolaikiniai filtrai naudoja sudėtingus neuroninius tinklus, kurie gali atpažinti daug subtilesnius modelius nei tradiciniai metodai.
Vienas iš populiariausių metodų – atsitiktinių miškų (random forest) algoritmas. Įsivaizduokite, kad turite ne vieną, o šimtus skirtingų sprendimų medžių, kurie visi balsuoja, ar laiškas yra spam’as. Kiekvienas medis žiūri į skirtingus požymius – vieni analizuoja tekstą, kiti – siuntėjo reputaciją, treti – laiško struktūrą. Galutinis sprendimas priimamas pagal balsų daugumą.
Dar pažangesni filtrai naudoja gilųjį mokymąsi (deep learning). Tokie filtrai gali suprasti kontekstą, atpažinti ironija ar net analizuoti vaizdus, pridėtus prie laiško. Jei spam’eris bando apgauti filtrą įdėdamas tekstą kaip paveikslėlį, šiuolaikinis filtras vis tiek gali jį perskaityti ir įvertinti.
Ką iš tikrųjų analizuoja spam filtrai
Daugelis žmonių mano, kad spam filtrai žiūri tik į laiško tekstą, bet tai toli gražu ne visa tiesa. Šiuolaikiniai filtrai analizuoja dešimtis, o kartais ir šimtus skirtingų parametrų.
Pirma, jie tikrina siuntėjo reputaciją. Ar šis el. pašto adresas anksčiau siuntė spam’ą? Ar domeną, iš kurio atėjo laiškas, galima patikrinti? Ar yra tinkami SPF, DKIM ir DMARC įrašai, kurie patvirtina, kad laiškas tikrai atėjo iš to serverio, iš kurio turėtų ateiti?
Antra, analizuojama laiško struktūra. Spam’eriai dažnai naudoja tam tikrus šablonus – daug nuorodų, keistą HTML kodą, paslėptą tekstą, didelius paveikslėlius su mažai teksto. Visi šie dalykai kelia įtarimą.
Trečia, svarbus gavėjų elgesys. Jei daug žmonių pažymi laiškus iš tam tikro siuntėjo kaip spam’ą, tai labai svarbi informacija. Google, Microsoft ir kiti dideli el. pašto tiekėjai kaupia tokią statistiką ir dalinasi ja tarpusavyje.
Ketvirta, žiūrima į laiško turinį. Bet ne tik ieškoma „pavojingų” žodžių – analizuojamas kalbos stilius, gramatika, sakinių struktūra. Spam’as dažnai turi būdingų bruožų – per daug didžiųjų raidžių, daug šauktuką ženklų, nenatūralus žodžių derinimas.
Kodėl kartais normalūs laiškai patenka į spam’ą
Nors spam filtrai yra labai pažangūs, jie nėra tobuli. Kartais normalūs laiškai klaidingai pažymimi kaip spam’as – tai vadinama false positive. O kartais spam’as praslysta pro filtrus – false negative.
Yra keletas tipinių situacijų, kai normalūs laiškai gali būti klaidingai užblokuoti. Jei siunčiate masinį laišką draugams ar kolegoms, tai gali atrodyti įtartina – daug gavėjų, vienodas tekstas. Jei jūsų el. pašto serveris neturi tinkamų saugos įrašų (SPF, DKIM), tai taip pat kelia įtarimą.
Kartais problema kyla dėl to, kad naudojate žodžius, kurie dažnai pasitaiko spam’e. Pavyzdžiui, jei rašote apie tikrai nemokamą renginį ir naudojate žodžius „nemokamas”, „registruokis dabar”, „ribotas vietų skaičius” – filtras gali sunerimti.
Dar viena problema – jei jūsų kompiuteris ar serveris buvo užkrėstas virusu ir siuntė spam’ą, jūsų IP adresas galėjo patekti į juoduosius sąrašus. Net išvalius virusą, reputacijos atstatymas gali užtrukti.
Kaip apsaugoti savo laiškus nuo filtrų
Jei siunčiate svarbius laiškus ir norite būti tikri, kad jie pasieks gavėjus, yra keletas praktinių patarimų.
Visų pirma, įsitikinkite, kad jūsų el. pašto domenas turi tinkamus DNS įrašus. SPF įrašas nurodo, kurie serveriai gali siųsti laiškus jūsų vardu. DKIM prideda skaitmeninį parašą prie kiekvieno laiško. DMARC nurodo, ką daryti su laiškais, kurie nepraėjo patikrinimo. Tai gali skambėti sudėtingai, bet dauguma el. pašto paslaugų teikėjų turi instrukcijas, kaip tai nustatyti.
Venkite pernelyg agresyvaus marketingo kalbos. Rašykite natūraliai, kaip rašytumėte normalų laišką. Jei kiekvienas sakinys baigiasi šauktuku ir viskas parašyta DIDŽIOSIOMIS RAIDĖMIS, tai tikrai sukels įtarimą.
Būkite atsargūs su nuorodomis. Jei jūsų laiškas turi daugiau nuorodų nei teksto, tai atrodo įtartinai. Taip pat venkite trumpintų URL (bit.ly ir panašių) – spam’eriai juos mėgsta naudoti, kad paslėptų tikrąjį adresą.
Jei siunčiate masinius laiškus, naudokite profesionalias el. pašto rinkodaros platformas (Mailchimp, SendGrid ir panašias). Jos turi gerą reputaciją ir žino, kaip išvengti spam filtrų.
Ateities perspektyvos ir nauji iššūkiai
Spam’eriai nuolat tobulėja ir ieško naujų būdų apgauti filtrus. Pastaruoju metu vis dažniau matome sofistikuotus sukčiavimo bandymus – phishing laiškus, kurie atrodo kaip tikri laiškai iš bankų, parduotuvių ar net kolegų.
Dirbtinis intelektas padeda ne tik ginti, bet ir pulti. Spam’eriai pradeda naudoti GPT ir panašias technologijas kurti įtikinamesnius laiškus, kurie neturi tipinių spam’o požymių. Jie gali būti gerai parašyti, be gramatinių klaidų, su natūralia kalba.
Atsakas į tai – dar pažangesni filtrai, kurie naudoja kontekstinį supratimą. Jie ne tik skaito tekstą, bet ir supranta, ar laiškas turi prasmę, ar jis atitinka ankstesnę komunikaciją, ar siuntėjo elgesys yra normalus.
Vis daugiau dėmesio skiriama ir vartotojų švietimui. Net geriausias filtras negali apsaugoti nuo visų grėsmių, todėl svarbu, kad žmonės patys mokėtų atpažinti įtartinus laiškus. Jei laiškas prašo paspausti nuorodą ir įvesti slaptažodį, jei jis žada neįtikėtinus laimėjimus ar bando sukurti skubos jausmą – tai aiškūs pavojaus ženklai.
Kai technologija sutinka žmogiškąjį faktorių
Galiausiai svarbu suprasti, kad spam filtravimas nėra tik technologijų klausimas. Tai nuolatinė kova, kurioje dalyvauja milijonai žmonių – tie, kurie kuria filtrus, tie, kurie bando juos apgauti, ir tie, kurie kasdien naudoja el. paštą.
Kiekvienas kartas, kai pažymite laišką kaip spam’ą ar, priešingai, ištraukiate normalų laišką iš spam aplanko, jūs padėdate tobulinti filtrus. Šiuolaikiniai spam filtrai mokosi iš mūsų visų elgesio ir nuolat prisitaiko prie naujų grėsmių.
Technologijos tikrai daug pasiekė – šiandien dauguma iš mūsų net nepastebime, kiek spam’o yra blokuojama automatiškai. Bet kartu turime būti budrūs ir suprasti, kad jokia technologija nėra 100 procentų patikima. Sveikas protas ir kritinis mąstymas lieka svarbiausi įrankiai kovojant su nepageidaujamais laiškais.
Spam filtrai toliau tobulės, naudodami vis pažangesnius dirbtinio intelekto metodus. Bet ir spam’eriai nelieka nuošalyje – jie taip pat naudoja naujausias technologijas. Ši kova greičiausiai niekada nesibaigs, bet bent jau dabar turime gana efektyvius įrankius, kurie leidžia mums naudotis el. paštu be didesnių nepatogumų.




