viernes, 3 de enero de 2014

Diferentes métodos para definir puntos de corte de una variable cuantitativa (2)

Continuando con nuestro ejemplo ahora miraremos los puntos de cortes utilizando los histogramas de intervalo fijo e intervalos variables. Para obtener los puntos de cortes de cada regla se utilizara la función dhist_breaks, construida por Denby y Mallows (2009). Gutierrez comenta u poco acerca  como utilizar está función y como construir intervalos de anchos fijos y variables, lo cual lo utilizaremos en esté post.  Para construir los intervalos de ancho fijo, se fijara el parámetro el factor de escala en 0.0001*iqr(X), donde iqr() es el rango intercuartílico. Para los intervalos de ancho variable se fijara el parámetro de escala en 5*iqr(X).

Cortes a partir de un Histograma


Histogramas de intervalo fijo

Regla de Sturges.

k<-nclass.Sturges(Edad)
> cortes<-round(dhist_breaks(Edad,a=0.0001*iqr(Edad),nbins=k),1)
> resultados(Edad,cortes)
[15,22.5) [22.5,30) [30,37.5) [37.5,45) [45,52.5) [52.5,60) [60,67.5) [67.5,75) [75,82.5)
       74        62        45        20        45        16        14        14         8
[82.5,90]
        2
Al utilizar esté método notamos que se utilizan 10 intervalos, con una amplitud de 7.5 años. Al realizar esto y comparando con una tabla de frecuencias de las edades notamos una alta frecuencia entre las edades de 21, 22 y 25 años cosa que no se detalla en estos intervalos. Está situación no es muy clara en este tipo de corte.

table(Edad)
Edad
15 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46
 2  3  8 11 12 20 18 12  6 16  8  9  5  6  5  4  7  4  5  5  7  8  2  2  7  3  3  1  2 11  2
47 48 49 50 51 52 53 54 55 56 57 60 61 62 63 65 66 68 69 70 71 72 73 75 76 78 79 80 89 90
 6  6  4 10  4  2  2  3  4  5  2  5  2  1  1  2  3  1  1  3  4  3  2  3  2  1  1  1  1  1

Regla de Scoot.

k<-nclass.scott(Edad)
> cortes<-round(dhist_breaks(Edad,a=0.0001*iqr(Edad),nbins=k),1)
> resultados(Edad,cortes)
  [15,23.3) [23.3,31.7)   [31.7,40)   [40,48.3) [48.3,56.7)   [56.7,65)   [65,73.3)
         86          59          40          41          34          11          19
[73.3,81.7)   [81.7,90]
          8           2
Al utilizar esté método notamos que se utilizan 9 intervalos, con una amplitud de 8.3 años. Sigue sin observarse las frecuencias altas de las edades mencionadas anteriormente.

Regla de Freedman-Diaconis.

k<-nclass.FD(Edad)
> cortes<-round(dhist_breaks(Edad,a=0.0001*iqr(Edad),nbins=k),1)
> resultados(Edad,cortes)
  [15,21.8) [21.8,28.6) [28.6,35.5) [35.5,42.3) [42.3,49.1) [49.1,55.9) [55.9,62.7)
         56          74          36          32          32          25          15
[62.7,69.5) [69.5,76.4) [76.4,83.2)   [83.2,90]
          8          17           3           2
Al utilizar esté método notamos que se utilizan 11 intervalos, con una amplitud de 6.8 años. Los primeros intervalos tratan de resumir las frecuencias altas de las edades antes mencionadas (21, 22 y 25).

Hasta ahora, utilizando los histogramas de ancho fijo, parece indicar que la última propuesta es la mejor. Sin embargo, detallemos los resultados de los histogramas de ancho variable.

Histograma de intervalos variables

Regla de Denby-Mallows

cortes<-round(dhist_breaks(Edad,a=5*iqr(Edad),nbins=nclass.Sturges(Edad)),1)
> resultados(Edad,cortes)
    [15,20)     [20,23)   [23,26.7)   [26.7,32)   [32,38.8)   [38.8,46)   [46,52.5)
         24          50          42          29          38          29          34
[52.5,62.5) [62.5,74.2)   [74.2,90]
         24          20          10

Al realizar el histograma de intervalos variables se tuvieron en cuenta el número de intervalos de la regla de Sturges. Notamos que esté si tiene en cuenta las edades que tienen altas frecuencias, en el segundo y tercer intervalo. Esto mejora notablemente en comparación de los cortes de los histogramas de intervalos de ancho fijo. Sin embargo, no se logro detallar de forma adecuada las observaciones atípicas, tal como se observan en el siguiente box-plot



Cabe resaltar que los intervalos que se trabajaron en esté ejemplo son cerrados a derecha. Los resultados cambian si se tiene en cuentan los intervalos cerrados a izquierda.

Ver también: Puntos de corte de una variable cuantitativa (1)Puntos de corte de una variable cuantitativa (3)