Bayesian ස්පෑම් පෙරහන පිළිබඳව ඔබ දැනගත යුතු දේ

by හයින්ස් චචබචර්

සංඛ්යාලේඛන ඔබගේ එන ලිපි පිරිසිදුව තබාගන්නා ආකාරය සොයා බලන්න

Bayesian ස්පෑම් ෆිල්ටර් එහි අන්තර්ගතය මත පදනම් වූ ස්පෑම් පණිවිඩයක් සම්භාවිතාව ගණනය කරයි. සරල අන්තර්ගතය පදනම් කරගත් පෙරහන් මෙන් නොව Bayesian ස්පෑම් පෙරහුරුව ස්පෑම් වලින් හා හොඳ තැපැල් වලින් ඉගෙන ගනී. ප්රතිඵලයක් වශයෙන් වඩාත්ම රළු, උපයෝගී කර ගැනීම සහ කාර්යක්ෂම විරෝධී ස්පෑම් ප්රවිෂ්ටයක් ඇති නිසා, සියල්ලටම වඩා, කිසිඳු අසත්ය ධනාත්මක උපායයන් ආපසු නොලැබේ.

Junk විද්යුත් ලිපිය ඔබ හඳුනා ගන්නේ කෙසේද?

ඔබ ස්පෑම් අනාවරණය කරන්නේ කෙසේදැයි සිතා බලන්න. ඉක්මන් පෙනුමක් බොහෝ විට ප්රමාණවත්ය. ඔබ ස්පෑම් පෙනුම පෙනෙන බව ඔබ දන්නවා, සහ ඔබ හොඳ තැපැල් පෙනුම කුමක්දැයි දන්නවා.

හොඳ තැපැල් ලෙස පෙනෙන ස්පෑම් පිළිබඳ සම්භාවිතාව වටා ... ශුන්ය වේ.

අන්තර්ගතය මත පදනම් වූ පෙරහන් ශ්රේණිගත කිරීම නොගැලපේ

ස්වයංක්රීය ස්පෑම් ෆිල්ටරයද ඒ ආකාරයටම ක්රියා කළ හොත් එය හොඳද?

අන්තර්ගතය මත පදනම් වූ ස්පෑම් පෙරහන් පිරිසිදු කිරීම සිදු කරනුයේ එය පමණි. ඔවුන් ස්පෑම් වැනි වචන සහ වෙනත් ලක්ෂණ සොයනවා. සෑම ලක්ෂණ මූල ලක්ෂයක් ලකුණු ලබා දී ඇති අතර සමස්ත පණිවිඩයට ස්පෑම් ලකුණු එක් එක් ලකුණු වලින් ගණනය කෙරේ. සමහර ඉලක්ක කරගත් ෆිල්ටර ද නීත්යානුකූල තැපැල් ලිපිවල ලක්ෂණ සොයාගෙන, පණිවුඩයේ අවසන් ලකුණු අඩු කිරීමකි.

ලකුණු ලබා ගැනීමේ පෙරහන් ප්රවේශය ක්රියා කරයි, නමුත් එය ද අඩුපාඩු කිහිපයක් ඇත:

ලක්ෂණයන් ලැයිස්තුව ලැයිස්තුගත කර ඇති ස්පෑම් (හා හොඳ තැපැල්) වලින් ඉරට්ටේ ඉංජිනේරුවන්ට ලබා ගත හැකිය. සාමාන්ය ස්පෑම් පිළිබඳ හොඳ අවබෝධයක් ලබා ගැනීම සඳහා ඕනෑම කෙනෙකුට ලැබෙනු ඇත, ඊමේල් ලිපි සිය ගණනකින් තැපැල් කළ යුතු ය. මෙමගින් ෆිල්ටරයේ කාර්යක්ෂමතාව දුර්වල වේ. විශේෂයෙන්ම හොඳ තැපැල් ලක්ෂණ එකිනෙකාගේ වෙනස එකිනෙකට වෙනස් වේ . එහෙත් මෙය සැලකිල්ලට නොගනී.
සොයා ගැනීමට ඇති ලක්ෂණ ගල් හෝ ඊට වඩා අඩුවෙන් තබා ඇත . ස්පෑම් නළාකාරයන් අනුගත වීමට උත්සාහ කළහොත් (හා ඔවුන්ගේ ස්පෑම් ලෙස ෆිල්ටර් වෙත හොඳ තැපැල් ලෙස පෙනෙනු ඇත), පෙරීමේ ලක්ෂණ රුවල් අතින් කළ යුතු වේ - ඊටත් වඩා විශාල වෑයමකි.
සෑම වචනයක් සඳහාම ලබා දෙන ලකුණු බොහෝ විට හොඳ තක්සේරුවක් මත පදනම්ව ඇත, නමුත් එය තවමත් හිතුවක්කාරය. ලක්ෂණ ලැයිස්තුවක් වැනි, එය සාමාන්යයෙන් ස්පෑම් වෙනස් වන ලෝකයට හෝ වෙන වෙනම පරිශීලකයන්ගේ අවශ්යතාවන්ට අනුව හැඩගැසී නැත.

Bayesian Spam Filters Tweak Tweak, Better and Better Getting

Bayesian ස්පෑම් ෆිල්ටරය ද අන්තර්ගතය පදනම් කරගත් ෆිල්ටර ද වර්ගයකි. ස්පෑම් පෙරහුරුවලට සරිලන ලකුණු කිරීමේ ගැටලුවලට ඔවුන් මුහුණ දෙන ගැටළුව දුර්වල වන අතර, එය ඉතාමත්ම රැඩිකල් වේ. ලිස්සා යන ෆිල්ටරවල දුර්වලතාවන් ලක්ෂණ සහ ලක්ෂණයන්ගේ අතින් සාදා ඇති ලැයිස්තුවේ මෙම ලැයිස්තුව ඉවත් කර ඇත.

ඒ වෙනුවට Bayesian ස්පෑම් ෆිල්ටර් ලැයිස්තුව තනියම ගොඩනගා ගන්න. හොඳයි, ඔබ ස්පෑම් ලෙස වර්ගීකරණය කර ඇති ඊමේල් (ලොකු) පොකුරක් සහ හොඳ තැපැල් පොකුරක් සමඟ ආරම්භ කරන්න. මෙම ෆිල්ටර දෙකම දෙස බැලීම හා ස්පෑම් නෝට්ටුවේ පෙනී සිටින විවිධ ලක්ෂණවල සම්භාවිතාව ගණනය කිරීම සඳහා නීත්යානුකූල තැපැල් සහ ස්පෑම් ලිපි විශ්ලේෂණය කිරීම සහ හොඳ තැපැල් මගින් විශ්ලේෂණය කිරීම.

Bayesian ස්පෑම් ෆිල්ටරය ඊමේල් පරීක්ෂාවට ලක් කරන්නේ කෙසේද?

Bayesian ස්පෑම් පෙරහන් ෆයර්ෆොක්ස් ෆයිල්ස් ලයිස්තු ගත කළ හැකි ලක්ෂණ වනුයේ:

පණිවුඩයේ සිරුරේ වචන, ඇත්ත වශයෙන්ම, සහ
එහි ශීර්ෂකය (උදා: පණිවිඩකරුවන් සහ පණිවිඩ මාර්ග , උදාහරණ!), නමුත් ද
HTML / CSS කේතය වැනි වර්ණ (වර්ණ සහ අනෙකුත් හැඩතල ගැන්වීම වැනි) වැනි කරුණු, හෝ පවා
වචන යුගල, වාක්ය සහ
meta තොරතුරු (උදාහරණයක් ලෙස, එක්තරා වාක්යයක් දක්නට ලැබේ).

උදාහරණයක් ලෙස, "Cartesian" උදාහරණයක් ලෙස, ස්පෑම් ස්වරූපයෙන් කිසිවිටකත් නොපෙන්වන නමුත්, ඔබ විසින් ලබා ගන්නා නීත්යානුකූල විද්යුත් ලිපිවලදී, "කාටිසියානු" ස්පෑම් ස්පෑම් ඇඟිල්ලේ ශුන්යයට ආසන්න වේ. "ටෝනර්", අනෙක් අතට, විශේෂයෙන් පෙනෙන්නේ, සහ බොහෝ විට, ස්පෑම් වලින්. "ටෝනර්" ස්පෑම් ස්පෑම් සොයා ගත හැකි ඉතා විශාල සම්භාවිතාවක්, 1 (100%) ට වඩා අඩු නොවේ.

නව පණිවිඩයක් එළඹෙන විට, එය Bayesian ස්පෑම් ෆිල්ටරය මගින් විශ්ලේෂණය කර ඇති අතර, සම්පූර්ණ පණිවුඩයේ ස්පෑම් ලෙස සම්භාවිතාව එක් පුද්ගල ලක්ෂණ භාවිතා කරයි.

"කාටිසියානු" සහ "ටෝනර්" යන දෙකම පණිවිඩයක් අනුමත කරන්න. මෙම වචන වලින් පමණක් අපට අප ස්පෑම් හෝ නීත්යානුකූල තැපැල් තිබේ දැයි තවමත් පැහැදිලි නැත. අනෙක් ලක්ෂණ (බලාපොරොත්තුවීම හා බොහෝ විට බොහෝ විට) ස්පෑම් හෝ හොඳ තැපැල් ලෙස පණිවුඩය ලෙස වර්ගීකරණය කිරීමට ඉඩ සලසන සම්භාවිතාවක් පෙන්නුම් කරයි.

Bayesian ස්පෑම් පෙරහන් ස්වයංක්රීයව ඉගෙන ගත හැකිය

දැන් අප වර්ගීකරණයක් ඇති අතර, පෙරීමම තවදුරටත් ෆිල්ටරය පුහුණු කිරීම සඳහා භාවිතා කළ හැකිය. මෙම අවස්ථාවෙහිදී, "කාටිසියානු" හොඳ තැපැල් ඇඟවුමක ඇති සම්භාවිතාව පහත හෙලනු ලැබේ ("කාටිසියානු" සහ "ටෝනර්" යන දෙකම අඩංගු ස්පෑම් ස්පෑම් ලෙස සඳහන් වී ඇත්නම්) හෝ ස්පෑම් ඇඟවීමේ "ටෝනර්" සම්භාවිතාව නැවත සලකා බැලිය යුතුය.

මෙම ස්වයංක්රිය-අනුවර්තී කෙමෝපාය භාවිතා කරමින් Bayesian ෆිල්ටර ඔවුන්ගේම සහ පරිශීලකයාගේ තීරණ වලින් ඉගෙන ගත හැකිය. Bayesian පෙරහන වල අනුවර්තනයන් තනි තනි පරිශීලකයා සඳහා වඩාත් ඵලදායී බවට සහතික වේ. බොහෝ මිනිසුන්ගේ ස්පෑම් ස්පෑම් සමාන ලක්ෂණ තිබියදීත්, නීත්යානුකූල තැපෑල සෑම කෙනෙකුටම සුවිශේෂී වෙනසකි.

Spamers අතීතයේ Bayesian පෙරහන් ලබා ගත හැක්කේ කෙසේද?

නීත්යානුකූල තැපැල්ගේ ලක්ෂණ බාහිරියානු ස්පෑම් පෙරහන් ක්රියාවලියට ස්මාර්ට්ෆෝන් ලෙස වැදගත් වේ. ෆිල්ටරය සෑම පරිශීලකයෙකුටම විශේෂයෙන් පුහුණු කළ හොත්, සෑම කෙනෙකුගේ (හෝ බොහෝමයක් මිනිසුන්ගේ ස්පෑම් පෙරහන්) අවහිර වන ස්පමර්ස් තවත් අපහසු කාලයක් ඇති අතර, සෑම චිත්රපටයක්ම ස්පෑම් නිෂ්පාදකයන්ට අනුගත වීමට හැකි වනු ඇත.

ස්පෑම්ස්එම්එම්එම්එම්එම්එම්එම්එස්එම්එන්එන්එස්එම්එස්එම්එඑ්එඑඑ්එඑඑ්එඑඑඑඑඑඑඑඑඑඑඑඑහඑහඑහඑහඑහඑහඑඑහඑඑඑහඑහඑහඑහඑහඑඑඑහඑහඑඑඑහඑහඑහඑඑඑහඑහඑහඑහඑහඑහඑහඑඑඑහඑහඑහඑහඑහඑඑඑඑඑඑහඑහඑහඑහඑහඑඑඑහඑඑඑ

සාමාන්යයෙන් ඊමේල් සාමාන්යයෙන් විද්යුත් තැපෑල යැවිය නොහැක. මෙම විද්යුත් තැපැල් ලිපිගොනු විද්යුත් තැපෑල් ලෙස ක්රියා නොකරනු ඇතැයි අපි උපකල්පනය කරමු. ඉතින්, සාමාන්යයෙන්, වෙහෙසකර විද්යුත් තැපැල් එය ස්පෑම් පෙරහන් සෑදීමට ඇති එකම මාර්ගය වනු ඇත විට ඔවුන් එය සිදු නොවේ.

කෙසේවෙතත්, සාමාන්යයෙන් අපරූපී ඊමේල් වලට ස්පෑම්කරුවන් මාරු වී ඇත්නම්, අප නැවත අපගේ අයැදුම් කරුවන්ගේ ස්පෑම් බොහෝමයක් දකිනු ඇත, ඊමේල් පෙර-Bayesian දින (හෝ ඊටත් වඩා නරක) මෙන් විය හැකිය. එනමුත් බොහෝ වර්ගයේ ස්පෑම් සඳහා ස්පෑම් වෙළඳාම විනාශ වනු ඇත. එමනිසා දිගු කාලයක් පවතින්නේ නැත.

ශක්තිමත් දර්ශකයක් Bayesian ස්පෑම් ෆිල්ටරය විය හැකිය Achilles & # 39; හීල්

එක් ව්යතිරේකයක් බාහීසියානු ෆිල්ටර් හරහා ඔවුන්ගේ සාමාන්ය සුචිය සහිතව ස්පෑම් කට්ටලකරුවන්ට ගමන් කිරීමට ඉඩ තිබේ. බොයිසියානු සංඛ්යා ලේඛනවල ස්වභාවය අනුව, හොඳ තැපැල් මඟින් බොහෝවිට දක්නට ලැබෙන එක් වචනයක් හෝ ලක්ෂණයක්, පෙරහන මගින් ස්නානය වැනි ස්පෑම් මෙන් දිස්වන ඕනෑම පණිවිඩයක් පෙරළීම සඳහා වැදගත් වේ.

උදාහරණයක් ලෙස, ඔබ විසින් විවෘත කරන ලද පණිවිඩ මොනවාදැයි බැලීමට, ඔබගේ විශ්වාසනීය හොඳ තැපැල් ලිපියක් තීරණය කිරීමට ස්පෑම්කරුවන්ට හැකි නම්, ඔවුන්ගෙන් එක් අයෙකුගේ ලිපි හුවමාරු කර ගැනීමට ඔබට හැකි අතර, පුහුණු Bayesian පෙරහන.

ජෝන් ග්රැහැම්-කුම්මින් විසින් මෙය සාර්ථක කර ගැනීමෙන් Bayesian ෆිල්ටර දෙකක් එකිනෙකාට විරුද්ධව ක්රියා කරමින්, "හොඳ" පෙරහන හරහා ලැබෙන පණිවුඩවලට අනුකූල වන "නරක" එකක් අනුගමනය කරයි. මෙම ක්රියාවලිය කාලෝචිත හා සංකීර්ණ වුවත්, එය ක්රියාත්මක වේ. අපි මේවායින් බොහොමයක් සිදුවනු ඇත, අවම වශයෙන් විශාල පරිමාණයෙන් නොව, තනි පුද්ගලයින්ගේ ඊමේල් ලක්ෂණ වලට අනුගත නොවනු ඇත. Spammers සමහර විට (සමහර විට) සමහර ආයතන සඳහා සමහර මූලධර්ම සොයා ගැනීමට (සමහර විට සමහර විට සමහර "Almaden" වගේ සමහරක්?) වෙනුවට.

සාමාන්යයෙන්, ස්පෑම් නිතරම (සැලකිය යුතු ලෙස) සාමාන්ය තැපෑලෙන් වෙනස් වන අතර, එය ස්පෑම් නොකෙරේ.

Bottom Line: බේයෙසියානු පෙරහන ශක්තිය එහි දුර්වලතාව විය හැකිය

Bayesian ස්පෑම් ෆිල්ටර අන්තර්ගතය පදනම් වූ පෙරහන් :

විශේෂිත ඊමේල් පරිශීලකයාගේ ස්පෑම් හා හොඳ තැපැල් හඳුනා ගැනීමට විශේෂයෙන් පුහුණු කර ඇති අතර , ඔවුන් ඉතා ඉහළ කාර්යක්ෂමතාවයක් සහ ස්පෑම්ස් සඳහා අනුගත වීමට අපහසුය.
නොකඩවා හා දැඩි උත්සාහයකින් තොරව හෝ අතින් සිදු කළ හැකි විශ්ලේෂණයන් නොකියයි.
තනි පරිශීලකයෙකුගේ හොඳ තැපැල් ගිණුමට බැර කළ හැකි අතර ඉතා අඩු ප්රතිවිපාකයක් ඇත.
අවාසනාවකට, Bayesian anti-spam ෆිල්ටර පිළිබඳ අන්ධ විශ්වාසයක් ඇතිවුවහොත්, එය විටින් විට වඩාත් බරපතල වැරැද්දක් කරයි. ව්යාජ නිෂේධීන්ගේ ප්රතිවිරුද්ධ බලපෑම (සාමාන්ය තැපැල් මෙන් හරියටම පෙනෙන ස්පෑම්) පරිශීලකයින්ට කලකිරීමට හා අවුල් කිරීමට ඇති හැකියාවයි.