Ionnsachadh Inneal: Mar a tha algorithm cruinneachadh agus K-means ag obair
Is e modhan matamataigeach a th’ ann an algoirmean cruinneachadh gus seata dàta a chuir air dòigh.
Tha na seataichean dàta sin nam buidhnean no “cruinneachaidhean” aon-ghnèitheach, agus is e an slat-tomhais a chaidh a chuir an sàs feartan coltach ris an dàta fhèin.
Tha K-means a algorithm cruinneachadh a bhios a’ trèanadh modail le bhith a’ cruinneachadh nithean coltach ri chèile
Ùine leughaidh tuairmseach: 8 minuti
Buidheannachadh
a ' algorithms cruinneachadh tha iad coltach ri luchd-sgrùdaidh dàta: is e am prìomh obair aca pàtrain agus dàimhean falaichte a chomharrachadh anns an dàta agad. Smaoinich gu bheil basgaid làn de mheasan measgaichte agad agus gur e an amas na h-ùbhlan a sgaradh bho na bananathan, na measan citris bho na kiwis. Bidh algorithms cruinneachadh a’ dèanamh sin dìreach, ach air seata dàta mòr, ann an dòigh nas ionnsaichte agus nas cruinne na b’ urrainn dhuinn a dhèanamh le làimh.
Ecco alcuni punti chiave:
- Seòrsaichean Algorithms Clustering:
- rangachd: Bidh iad a’ togail rangachd brabhsair, a’ roinn an dàta ann am fo-bhuidhnean nas lugha.
- Partitives: Roinn an dàta ann an cruinneachaidhean fa leth gun rangachd.
- Gun stiùir: Tha algorithms cruinneachadh a’ tighinn a-steach don roinn de algorithms gun stiùireadh. Chan fheum iad dàta airson ionnsachadh bhuapa; coileanadh nan toraidhean a tha iad air an dealbhadh gu neo-eisimeileach.
- Tagraidhean:
- Eòlas Margaidheachd: Bidh iad a’ comharrachadh roinnean teachdaiche.
- Mion-sgrùdadh lìonra sòisealta: Lorg buidhnean de luchd-cleachdaidh le ùidhean co-chosmhail.
- Data Science: Bidh iad a’ cuideachadh le bhith a’ lorg ghluasadan falaichte ann an dàta.
Mion-sgrùdadh cruinneachadh agus cruinneachadh
Is e Mion-sgrùdadh Cluster aon de na h-innealan as cumhachdaiche agus as fheumaile airson luchd-staitistig agus luchd-saidheans dàta.
Mar eisimpleir, ma ghabhas sinn seata de dhaoine fa leth, bidh fios againn air dath an sùilean agus is urrainn dhuinn an seata a roinn ann an grunn chlàran co-ionann ris an àireamh de dhhathan sùla.
Mar sin bidh cruinneachadh againn anns am bi a h-uile duine le sùilean gorma, fear eile anns a bheil daoine le sùilean uaine is mar sin air adhart.
Is urrainn dhuinn an reusanachadh seo a leudachadh le bhith a’ smaoineachadh air àireamh nas motha de bhuadhan. Smaoinich gu bheil lèine dearg no gorm air gach neach san t-seata. Is urrainn dhuinn cruinneachadh ùr a chruthachadh gus gach neach fa leth a chuir còmhla le sùilean gorma agus lèine dhearg, sùilean gorma agus lèine ghorm, sùilean uaine agus lèine dhearg, agus mar sin air adhart.
Mar sin, gu bunaiteach, leis gu bheil seata de nithean aig a bheil àireamh shònraichte de bhuadhan, faodar iad sin a chleachdadh gus na nithean a sgaradh ann an àireamh sam bith de chlàran.
Cruinneachadh agus seòrsachadh: eadar-dhealachaidhean
Mar sin tha an cruinneachadh glè choltach ris a’ chlas, tha an diofar anns an dòigh sa bheil e a’ dol air adhart.
Nuair a bhios tu a’ dèanamh seòrsachadh tha sreath de chlasaichean agad ris an canar a priori agus ’s e an t-amas tuigsinn dè am buidheann dham buin nì le bhith a’ cumail sùil air luach a bhuadhan.
Gus seo a dhèanamh, rè ìre trèanaidh artifact seòrsachaidh (modail), bidh sinn a’ tòiseachadh bho sheata de nithean leis an roinn iad mar-thà.
Tro mhion-sgrùdadh air buadhan nithean a bhuineas do chlas sònraichte feuchaidh sinn ri pàtran cumanta a lorg. An sin seòrsachadh mar sin is e pròiseas ionnsachaidh a th’ ann fo stiùir far a bheil eòlas air roinn shònraichte ge bith dè na nithean a dh’fhaodar a chur ann.
Ann an cruinneachadh, ge-tà, tha sinn airson àireamh sònraichte de bhuidhnean a chuir a-mach às am bi e comasach nithean seata a sgaradh le bhith a’ dèanamh anailis air luachan nam feartan aca.
Anns a 'chùis seo chan eil clasaichean no eisimpleirean ro-shuidhichte ann a tha gan riochdachadh.
Thaalgorithm feumaidh iad a bhith comasach air nithean a tha “coltach” aithneachadh agus an cur còmhla. Mar thoradh air an sin tha an cnuasachadh a tha algorithm de sheòrsa gun stiùir.
Cruinneachadh: dòighean-obrach
Tha grunn dhòighean ann a leigeas leat seata de nithean a chruinneachadh. Tha a’ chiad fho-roinneadh cudromach an urra ris an dòigh ginealach cnuasach fhèin, a bhios a’ roinn na h-algorithms ann an dà roinn:
Algorithms cnuasachaidh agglomerative (bonn gu h-àrd).: Bidh iad a’ tòiseachadh le bhith a’ cuir a-steach gach nì san t-seata a-steach don bhuidheann aca fhèin agus an uairsin gan cuir ann am buidhnean a-rithist gus an ruigear suidheachadh sònraichte (me an àireamh de chlàran a tha thu ag iarraidh).
Algorithms cruinneachadh sgaraidh (gu h-àrd).: Bidh iad a’ tòiseachadh le bhith a’ cur a h-uile nì san t-seata ann an aon bhuidheann agus an uairsin ga sgaradh ann an cruinneachaidhean nas lugha gus an ruigear suidheachadh sònraichte.
Tha algoirmean cruinneachaidh uile stèidhichte air meatrach geoimeatrach a-mhàin a leigeas leat comharrachadh cho coltach sa tha dà rud ri chèile. Gu dearbh, thathas a’ faicinn na nithean fo sgrùdadh mar sheataichean de fhìor luachan a tha a’ riochdachadh am feartan (dath sùla, àirde, cuideam, msaa).
Faodar na luachan sin, an uair sin, a chur còmhla gus vectaran a chruthachadh a’ riochdachadh phuingean ann an àite Euclidean.
Ma tha sinn a’ beachdachadh air àirde mar a’ chiad cho-chomharran agus cuideam mar an dàrna fear, faodaidh na trì daoine sin a bhith air an riochdachadh leis na vectaran a leanas agus mar sin air am faicinn ann an àite Euclidean (anns a’ chùis seo de dìreach dà mheud).
Han: (180, 75)
Leia: (160, 50)
Chewbacca: (210, 130)
Amharc air an itealan Cartesianach de Leia, Han agus Chewbacca mar ghnìomh àirde is cuideam.
Mar as motha an àireamh de bhuadhan, is ann as motha a bhios an raon a tha fo cheist. Aon uair ‘s gu bheil nithean an t-seata co-cheangailte ri puingean san fhànais tha e comasach an“ co-chosmhaileachd ”aca a dhearbhadh tro bhun-bheachd astar: mar as fhaisge a tha an dà phuing, is ann as coltaiche a bhios iad.
Is iad na slatan-tomhais a thathar a’ cleachdadh sa mhòr-chuid:
● Astar euclidean.
● Astar gu Manhattan.
● Hamming astar.
K-a' ciallachadh
Thaalgorithm K-a' ciallachadh na dhòigh air cruinneachadh gun stiùireadh a tha a’ roinn seata dàta ann an (K) buidhnean (no cruinneachaidhean) a rèir am feartan. Seo mar a tha e ag obair:
- Roghainn àireamh brabhsair ((K)): An toiseach, feumaidh sinn co-dhùnadh cia mheud buidheann a tha sinn airson faighinn. Tha an luach seo (K) a’ riochdachadh na h-àireimh de bhuidhnean anns an roinnear an dàta.
- Tòiseachadh Centroids: L 'algorithm a’ taghadh puingean (K) air thuaiream mar mheadhan-mheadhanan. Tha gach centroid a’ riochdachadh “meadhan” brabhsair.
- Sònrachadh phuingean gu cruinneachaidhean: Airson gach puing dàta, bidh sinn a’ tomhas an astair gu na centroids agus a’ sònrachadh a’ phuing don bhuidheann aig a bheil an centroid as fhaisge. Bidh seo a’ cruthachadh (K) buidhnean tùsail.
- Ùrachadh luath air ìre Centroids: Bidh sinn ag obrachadh a-mach an centroid ùr airson gach brabhsair, a’ cleachdadh cuibheasachd nam puingean a chaidh a shònrachadh don bhuidheann sin.
- Iteration: Bidh sinn ag ath-aithris ceumannan 3 agus 4 gus an atharraich na centroids gu mòr no gus an tèid analgorithm a' tighinn còmhla.
- amas: Is e an amas mu dheireadh an eadar-dhealachadh taobh a-staigh gach buidheann a lughdachadh (ie na puingean a dhèanamh taobh a-staigh brabhsair coltach ri chèile) agus an eadar-dhealachadh eadar cruinneachaidhean a mheudachadh (ie na cruinneachaidhean a dhèanamh eadar-dhealaichte bho chèile).
Thaalgorithm Tha K-means air a chleachdadh gu farsaing ann an anailisean dàta, cruinneachadh luchd-cleachdaidh, sgaradh teachdaiche agus barrachd. Cuimhnich gum faod an roghainn de (K) agus tòiseachadh nan centroids buaidh a thoirt air na toraidhean, agus mar sin tha e cudromach grunn thursan a dhèanamh agus measadh a dhèanamh air na cruinneachaidhean a gheibhear.
Às deidh cruinneachadh a’ cleachdadh K-means, tha na puingean air an roinn ann an còig cruinneachaidhean, air an comharrachadh san fhigear le dathan eadar-dhealaichte.
Ercole Palmeri