los k- significa que el algoritmo de agrupación es una herramienta de extracción de datos y aprendizaje automático utilizada para agrupar las observaciones en grupos de observaciones relacionadas sin ningún conocimiento previo de esas relaciones. Al muestrear, el algoritmo intenta mostrar a qué categoría o grupo pertenecen los datos, con el número de grupos definidos por el valor k.
los k- significa que el algoritmo es una de las técnicas de agrupación en clúster más simples y se usa comúnmente en imágenes médicas, biométrica y campos relacionados. La ventaja de k- significa que la agrupación en clúster es que le informa sobre sus datos (utilizando su forma no supervisada) en lugar de que usted tenga que instruir al algoritmo sobre los datos al inicio (utilizando la forma supervisada del algoritmo).
A veces se lo conoce como Algoritmo de Lloyd, particularmente en círculos informáticos porque el algoritmo estándar fue propuesto por primera vez por Stuart Lloyd en 1957. El término "k-medias" fue acuñado en 1967 por James McQueen.
Cómo funciona el algoritmo de K-medias
los k- El algoritmo de medios es un algoritmo evolutivo que obtiene su nombre de su método de operación. El algoritmo agrupa las observaciones en k grupos, donde k Se proporciona como un parámetro de entrada. A continuación, asigna cada observación a grupos en función de la proximidad de la observación a la media del grupo. La media del clúster se vuelve a calcular y el proceso comienza de nuevo. Así es como funciona el algoritmo:
- El algoritmo selecciona arbitrariamente k puntos como los centros iniciales del cluster (los medios).
- Cada punto del conjunto de datos se asigna al clúster cerrado, según la distancia euclidiana entre cada punto y cada centro del clúster.
- Cada centro de clúster se vuelve a calcular como el promedio de los puntos en ese clúster.
- Los pasos 2 y 3 se repiten hasta que los grupos convergen. La convergencia se puede definir de manera diferente dependiendo de la implementación, pero normalmente significa que no hay observaciones que cambien los grupos cuando se repiten los pasos 2 y 3, o que los cambios no hacen una diferencia sustancial en la definición de los grupos.
Elegir el número de grupos
Una de las principales desventajas de k- significa que la agrupación en clúster es el hecho de que debe especificar el número de agrupaciones como una entrada para el algoritmo. Tal como se diseñó, el algoritmo no es capaz de determinar el número apropiado de agrupaciones y depende del usuario para identificar esto por adelantado.
Por ejemplo, si tiene un grupo de personas que se agruparán según la identidad de género binario como hombre o mujer, llame a k- significa algoritmo usando la entrada k = 3 obligaría a la gente a formar tres grupos cuando solo dos, o una entrada de k = 2, Proporcionaría un ajuste más natural.
De manera similar, si un grupo de individuos se agrupara fácilmente en función del estado de origen y usted llamó al k- significa algoritmo con la entrada k = 20, Los resultados pueden ser demasiado generalizados para ser efectivos.
Por esta razón, a menudo es una buena idea experimentar con diferentes valores de k para identificar el valor que mejor se adapte a sus datos. También es posible que desee explorar el uso de otros algoritmos de minería de datos en su búsqueda de conocimientos aprendidos de la máquina.