jueves, 26 de diciembre de 2013

Diferentes métodos para definir puntos de corte de una variable cuantitativa (1)

Existen muchas formas de definir los puntos de corte de una variable cuantitativa. Esto generalmente se hace para categorizar una variable (e.d., volver una variable cuantitativa en cualitativa) para ciertos procesos de análisis. Lo que se pretende en esté es post es presentar algunos métodos comunes para realizar esto. 

Cortes naturales. Estos son generalmente utilizados cuando se tiene conocimiento de la variable de interés. Por ejemplo, si estamos interesados en estudiar la edad de un población según los niveles de estudios obtenidos. Entonces se Infantil (1-6 años), Primaria (6-12 años) secundaría básica (12-16 años), secundaría (16-18 años), universitario pregrado (18-23 años), universitario postgrado (23 a más años). Esta podría ser una buena alternativa siempre y cuando a priori se conozcan las variables de estudio.

Cortes equiprobables. Esta alternativa consiste en definir inicialmente cuantos grupos de interés se van estudiar. Algunos autores se basan en tablas como la siguiente
Número de datos
Número de intervalos
20-50
7
50-75
10
75-100
12
Más de 100
15 

Luego definir el número de grupos a tener en cuenta, dividen el rango de datos en grupos iguales y definiendo los puntos de corte de cada intervalo.


Cortes a partir de un Histograma. Similar al anterior. Aunque cabe resaltar que generalmente los programas usuales utilizan cortes de los intervalos de los histogramas con amplitud uniforme. La regla más común que utilizan los programas en este sentido es la regla de Sturges. Sin embargo, está regla funciona bien para datos que sean simétricos. Para mejorar estos tipos de particiones se recomienda las reglas de Scott (1979) o la regla de Freedman y Diaconis (1981). Otro histograma que se deberían analizar son los que utilizan intervalos de amplitudes diferentes.

Cortes a partir de un método de clasificación. Consiste en construir grupos a partir de métodos de clasificación como k-means o clasificación jerárquica de la variable de interés (exactamente hacer una clasificación de una sola variable). Estos métodos tienen la ventaja de construir grupos dentro homogéneos y entre heterogéneos.

Cortes a partir de árboles de decisión. Para utilizar estos es recomendable tener una variable auxiliar de clasificación con la cual se defina los grupos de interés a crear.

Ejemplo


Para detallar estos tipos de cortes utilizaremos los datos de la edad de consumidores de te provenientes del paquete FactoMineR (en total son 300 observaciones). Con el fin de visualizar los cortes utilizaremos dos gráficos la función de distribución acumulada empírica y el histograma de densidad. Con el primero gráfico se lograra detallar como son los cortes según la forma de los datos. Con el segundo gráfico a diferencia del histograma convencional en el cual la altura habla del número de observaciones, con el histograma de densidad es el área el cual habla del número de observaciones que hay en el intervalo; otra diferencia del histograma convencional es que es  más útiles cuando los intervalos de cortes son de diferente tamaño como veremos algunos casos.

library(FactoMineR)
data(tea)
Edad<-tea$age
summary(Edad)
Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  15.00   23.00   32.00   37.05   48.00   90.00

Inicialmente construimos una función para realizar el ejemplo.

resultados<-function(X,cortes){
X.cuali<-cut(X,cortes,include.lowest=T,right=F)
par(mfrow=c(1,2))
plot(ecdf(X))
abline(v=cortes)
hist(X,breaks=cortes,freq=F)
summary(X.cuali)
}

Comenzaremos con el primer ejemplo

Cortes naturales

Para esté ejemplo tomaremos los siguientes grupos consumidores [15,25), [25,35), [35,45), [45,60), [60,\infinty).



cortes<-c(min(Edad),25,35,45,60,max(Edad))
> resultados(Edad,cortes)
[15,25) [25,35) [35,45) [45,60) [60,90] 
     92      69      40      61      38
Nótese que los cortes son adecuados. Sin embargo,  las dos últimas observaciones las agrupa en el último intervalo lo cual debería diferenciar.

Cortes equiprobables

Según la tabla anterior como se tienen 300 observaciones entonces se utilizan 15 cortes. Para realizar esto realizaremos los cortes con la función pretty



cortes<-pretty(Edad,15)
> resultados(Edad,cortes)
[15,20) [20,25) [25,30) [30,35) [35,40) [40,45) [45,50) [50,55) [55,60) [60,65) 
     24      68      44      25      24      16      29      21      11       9 
[65,70) [70,75) [75,80) [80,85) [85,90] 
      7      12       7       1       2

A al realizar muchos cortes, el histograma representa muy bien la forma de los datos. Sin embargo, esto dificultaría para otro tipo de análisis.