La clasificación es una técnica de extracción de datos que asigna categorías a una recopilación de datos para ayudar a realizar predicciones y análisis más precisos. También llamado a veces llamado Árbol de decisión La clasificación es uno de varios métodos destinados a hacer efectivo el análisis de conjuntos de datos muy grandes.
¿Por qué Clasificación?
Las grandes bases de datos se están convirtiendo en la norma en el mundo de hoy. grandes datos . Imagine una base de datos con múltiples terabytes de datos, un terabyte es uno trillón bytes de datos.
Solo Facebook procesa 600 terabytes de datos nuevos cada día (a partir de 2014, la última vez que informó estas especificaciones). El principal desafío de los grandes datos es cómo darle sentido.
Y el gran volumen no es el único problema: los grandes volúmenes de datos también tienden a ser diversos, desestructurados y cambiantes. Considere datos de audio y video, publicaciones en redes sociales, datos 3D o datos geoespaciales. Este tipo de datos no es fácilmente categorizado u organizado.
Para enfrentar este desafío, se han desarrollado una serie de métodos automáticos para extraer información útil, entre ellos clasificación .
Cómo funciona la clasificación
Ante el peligro de avanzar demasiado en el lenguaje técnico, discutamos cómo funciona la clasificación. El objetivo es crear un conjunto de reglas de clasificación que respondan una pregunta, tomen una decisión o predigan el comportamiento. Para comenzar, se desarrolla un conjunto de datos de entrenamiento que contiene un determinado conjunto de atributos, así como el resultado probable.
El trabajo del algoritmo de clasificación es descubrir cómo ese conjunto de atributos llega a su conclusión.
Guión: Tal vez una compañía de tarjetas de crédito está tratando de determinar qué prospectos deberían recibir una oferta de tarjeta de crédito.
Este podría ser su conjunto de datos de entrenamiento:
Nombre | Años | Género | Ingresos anuales | Oferta de tarjeta de crédito |
---|---|---|---|---|
John Doe | 25 | METRO | $39,500 | No |
fulano de tal | 56 | F | $125,000 | Sí |
Las columnas de "predictor" Años , Género y Ingresos anuales determinar el valor del "atributo predictor" Oferta de tarjeta de crédito . En un conjunto de entrenamiento, el atributo predictor es conocido. El algoritmo de clasificación intenta determinar cómo se alcanzó el valor del atributo del predictor: ¿qué relaciones existen entre los predictores y la decisión? Desarrollará un conjunto de reglas de predicción, generalmente una declaración IF / THEN, por ejemplo:
IF (Edad> 18 O Edad <75) Y Ingreso anual> 40,000 LUEGO Oferta de tarjeta de crédito = sí
Obviamente, este es un ejemplo simple, y el algoritmo necesitaría un muestreo de datos mucho más grande que los dos registros que se muestran aquí. Además, es probable que las reglas de predicción sean mucho más complejas, incluidas las sub-reglas para capturar los detalles de los atributos.
A continuación, el algoritmo recibe un "conjunto de predicción" de datos para analizar, pero este conjunto carece del atributo de predicción (o decisión):
Nombre | Años | Género | Ingresos anuales | Oferta de tarjeta de crédito |
---|---|---|---|---|
Jack Frost | 42 | METRO | $88,000 | |
Mary Murray | 16 | F | $0 |
Estos datos de predicción ayudan a estimar la precisión de las reglas de predicción, y las reglas se ajustan hasta que el desarrollador considera que las predicciones son efectivas y útiles.
Día a día ejemplos de clasificación
La clasificación y otras técnicas de extracción de datos están detrás de gran parte de nuestra experiencia cotidiana como consumidores.
Las predicciones meteorológicas pueden hacer uso de la clasificación para informar si el día será lluvioso, soleado o nublado. La profesión médica podría analizar las condiciones de salud para predecir los resultados médicos. Un tipo de método de clasificación, Naive Bayesian, utiliza la probabilidad condicional para clasificar los correos electrónicos no deseados. Desde la detección de fraudes hasta las ofertas de productos, la clasificación está detrás de escena todos los días analizando datos y produciendo predicciones.