දත්ත පතල් දත්ත වර්ගීකරණය

වර්ගීකරණය යනු වඩාත් නිවැරදිව පුරෝකථනයන් සහ විශ්ලේෂණයන් සඳහා ආධාර කිරීම සඳහා දත්ත එක්රැස් කිරීම සඳහා වර්ග එකතු කරන දත්ත පතොරම් තාක්ෂණයකි. ඇතැම් විට තීරු ගස් ලෙස හැඳින්වේ, වර්ගීකරණය යනු ඉතා විශාල දත්ත කට්ටලයක් විශ්ලේෂණය කිරීමට අදහස් කරන ක්රම කිහිපයකි.

වර්ගීකරණය ඇයි?

ඉතා විශාල දත්ත සමුදායන් "විශාල දත්ත" වර්තමාන ලෝකයේ සම්මතයන් බවට පත්වෙමින් තිබේ. දත්ත ටොරාබයිට් සමඟ දත්ත සමුදායක් සහිත දත්ත ගබඩාවක් සිතා බලන්න - ටෙරාබයිට් දත්ත එක් දත්ත ට්රිලියන එකකි.

ෆේස්බුක් එක් එක් දිනක නව දත්ත ටොරාබයිට් 600 ක් අඳුරු කරයි (2014 වන විට, මෙම පිරිවිතර වාර්තා කළ අවසන් වරට). විශාල දත්තවල ප්රධානතම අභියෝගය වන්නේ මෙය අවබෝධ කර ගැනීමයි.

විශාල පරිමාණයෙන් ද විවිධාකාර වූ, ව්යුහගත හා වේගයෙන් වෙනස් වෙමින් පවතී. ශ්රව්ය සහ දෘශ්ය දත්ත, සමාජ මාධ්ය පෝස්ට්, 3D දත්ත හෝ භූගෝලීය දත්ත සලකා බලන්න. මෙම වර්ගයේ දත්ත පහසුවෙන් වර්ගීකරණය කර හෝ සංවිධානාත්මක නොවේ.

මෙම අභියෝගයට මුහුණ දීම සඳහා ප්රයෝජනවත් තොරතුරු උකහා ගැනීම සඳහා ස්වයංක්රීය ක්රම රාශියක් සකස් කර ඇත.

වර්ගීකරණය කරන්නේ කෙසේද?

තාක්ෂනික කතාබහට බෙහෙවින් දුරස් විය හැකි අන්තරායක් ඇති විට, වර්ගීකරණය ක්රියා කරන්නේ කෙසේදැයි සාකච්ඡා කරන්න. ඉලක්කය වන්නේ ප්රශ්නයක් පිළිතුරක් දීමට, තීරනය කිරීමට හෝ හැසිරිම් පුරෝකථනය කරන පිළිවෙළේ නීති රීති සකස් කිරීමයි. ආරම්භය සඳහා, එක්තරා ගුණාංග සමූහයක් සහ එහි ප්රතිඵලයක් ලබා දෙන පුහුණු තොරතුරු දත්තයන් නිර්මාණය කර ඇත.

වර්ගීකරණ ඇල්ගොරිතමයේ කාර්යය වන්නේ එම ගුණාංගයේ නිගමනය අවසන් වන ආකාරය සොයා ගැනීමයි.

සිද්ධිය : සමහර විට ක්රෙඩිට් කාඩ් සමාගමක් ක්රෙඩිට් කාඩ් ලබා දීමක් ලැබිය යුතු අපේක්ෂාවන් තීරණය කිරීමට උත්සාහ කරයි.

මෙය පුහුණු තොරතුරු දත්ත සමූහයක් විය හැකිය:

පුහුණු දත්ත
නම වයස ස්ත්රී පුරුෂ භාවය වාර්ෂික ආදායම ක්රෙඩිට් කාඩ් පිරිනැමීම
ජෝන් ඩෝ 25 එම් ඩොලර් 39,500 කි නැත
ජේන් ඩෝ 56 එෆ් ඩොලර් 125000 ක් ඔව්

"අනාවැකිමය" තීරු වයස , ස්ත්රී පුරුෂභාවය සහ වාර්ෂික ආදායම "අනාවැකිමය ලක්ෂණ" ණය කාඩ්පත් පිරිනැමීමේ වටිනාකම තීරණය කරනු ලැබේ. පුහුණු කට්ටලයක් තුළ, අනාවැකි සලකුණු හැඳින්වේ. උපකල්පිත ගුණාංගයේ වටිනාකම සොයාගනු ලැබුවේ වර්ගීකරණ ඇල්ගොරිතමය ය: අනාවැකිකරුවන් සහ තීරණය අතර පවතින සම්බන්ධතා මොනවාද? එය ප්රක්ෂේපන නීති මාලාවක්, සාමාන්යයෙන් IF / THEN ප්රකාශය, උදාහරණයක් ලෙස:

IF (වයස> 18 හෝ වයස <75) සහ වාර්ෂික ආදායම> 40,000 THEN ක්රෙඩිට් කාඩ්පත = ඔව්

පැහැදිලිවම, මෙය සරල උදාහරණයක් වන අතර, මෙහි දැක්වෙන වාර්තා දෙකට වඩා ඇල්ගොරිතමයට වඩා විශාල දත්ත දත්ත නියැදි අවශ්ය වේ. තවදුරටත්, අනාවැකි නීති බොහෝ විට වඩා සංකීර්ණ විය හැක, ආදි තොරතුරු විස්තර අල්ලා ගැනීම සඳහා උප-නීති ඇතුළත් වේ.

ඊළඟට, ඇල්ගොරිතම විශ්ලේෂණය කිරීමට දත්ත "අනාවැකි කට්ටලයක්" ලබා දී ඇත, නමුත් මෙම සැකසුම අනාවැකි ප්රකාරයට (හෝ තීරණය) නොමැති වීම:

අනාවැකි දත්ත
නම වයස ස්ත්රී පුරුෂ භාවය වාර්ෂික ආදායම ක්රෙඩිට් කාඩ් පිරිනැමීම
ජැක් ෆ්රොස්ට් 42 එම් ඩොලර් 88,000 කි
මේරි මරේ 16 එෆ් $ 0

මෙම අනාවැකි දත්ත අනාවැකි නීති වල නිරවද්යතාවය තක්සේරු කර ඇති අතර, අනාවැකි ඵලදායී හා ප්රයෝජනවත් වන ලෙස සංවර්ධකයා සලකන තෙක් නීති රීති සකස් කරනු ලැබේ.

වර්ගීකරණයට දිනපතා නිදර්ශන

වර්ගීකරණය සහ අනෙකුත් දත්ත පතල් තාක්ෂණ ක්රමවේදය පාරිභෝගිකයින් ලෙස අපගේ එදිනෙදා අත්දැකීම්වලින් පිටුපසින් පවතී.

වැසි, හිරු හෝ වළාකුළු වේවා යන්න වාර්තා කිරීමට කාලගුණ අනාවැකි වර්ගීකරණය කළ හැකිය. වෛද්ය වෘත්තිය පුරෝකථනය කිරීම සඳහා සෞඛ්ය තත්වයන් විශ්ලේෂණය කළ හැකිය. ස්නායු ඊමේල් වර්ගීකරණය කිරීම සඳහා වර්ගීකරණ වර්ගයේ වර්ගයක් වන Naive Bayesian භාවිතා කරයි. වංචනික අනාවරණයන් සිට නිෂ්පාදන ඉදිරිපත් කිරීම් වලින්, දිනපතා දත්ත විශ්ලේෂණය සහ අනාවැකි නිපදවීම, දර්ශනය පිටුපසින් පවතී.