Mineria de dades amb agrupació de K-mitjans

El k- significa algoritme de clustering és una eina de mineria de dades i màquina-eina que s'utilitza per agrupar observacions en grups d'observacions relacionades sense cap coneixement previ d'aquestes relacions. Mitjançant el mostreig, l'algoritme intenta mostrar en quina categoria o clúster pertanyen les dades, amb el nombre de clústers definits pel valor k.

El k- significa que l'algoritme és una de les tècniques de clusterització més senzilles i s'utilitza habitualment en la imatge mèdica, la biometria i els camps relacionats. L'avantatge de k- significa que el clúster és que informa sobre les seves dades (utilitzant el seu formulari no supervisat) en comptes d'haver d'instruir l'algoritme sobre les dades al principi (utilitzant la forma supervisada de l'algorisme).

A vegades es coneix com l'Algorisme de Lloyd, especialment en els cercles informàtics, ja que l'algoritme estàndard va ser proposat per primera vegada per Stuart Lloyd en 1957. El terme "k-means" va ser creat el 1967 per James McQueen.

Com funciona el algorisme de K-Means

El k- significa que l'algoritme és un algoritme evolutiu que guanya el seu nom del seu mètode de funcionament. Les observacions de clústers d'algorismes k grups, on k es proporciona com un paràmetre d'entrada. A continuació, assigna cada observació a clústers a partir de la proximitat de l'observació a la mitjana del clúster. La mitjana del clúster es recomputarà i el procés tornarà a començar. A continuació s'explica com funciona l'algorisme:

L'algoritme selecciona arbitràriament k punts com els centres de clúster inicial (els mitjans).
Cada punt del conjunt de dades s'assigna al grup tancat, basat en la distància euclidiana entre cada punt i cada centre de clústers.
Cada centre de clústers es recomputarà com la mitjana dels punts d'aquest clúster.
Els passos 2 i 3 es repeteixen fins que convergeixen els clústers. La convergència es pot definir de manera diferent depenent de la implementació, però normalment significa que cap observació no canvia els clústers quan es repeteixen els passos 2 i 3 o que els canvis no fan una diferència material en la definició dels clústers.

Elecció del nombre de clústers

Un dels principals desavantatges de k- significa que el clúster és el fet que heu d'especificar el nombre de clústers com a entrada a l'algoritme. Tal com està dissenyat, l'algoritme no és capaç de determinar el nombre adequat de clústers i depèn que l'usuari identifiqui això amb antelació.

Per exemple, si tenies un grup de persones que s'han d'agrupar basant-se en la identitat binària de gènere com home o dona, truqueu al k- significa algorisme amb l'entrada k = 3 obligaria a la gent a tres grups quan només dues, o un input de k = 2, proporcionaria un ajust més natural.

De la mateixa manera, si un grup d'individus es van agrupar fàcilment en funció de l'estat d'origen i el cridàveu k- significa algorisme amb l'entrada k = 20, els resultats poden ser massa generalitzats per ser efectius.

Per aquest motiu, sovint és una bona idea experimentar amb diferents valors de k per identificar el valor que millor s'adapti a les vostres dades. També és possible que vulgueu explorar l'ús d'altres algoritmes de mineria de dades en la cerca del coneixement que s'ha après a màquina.