Continuando con nuestro ejemplo ahora
miraremos los puntos de cortes utilizando los histogramas de intervalo fijo e
intervalos variables. Para obtener los puntos de cortes de cada regla se utilizara
la función dhist_breaks, construida por Denby y Mallows (2009). Gutierrez comenta u poco acerca como utilizar está función y como construir
intervalos de anchos fijos y variables, lo cual lo utilizaremos en esté
post. Para construir los intervalos de ancho
fijo, se fijara el parámetro el factor de escala en 0.0001*iqr(X), donde iqr()
es el rango intercuartílico. Para los intervalos de ancho variable se fijara el
parámetro de escala en 5*iqr(X).
Cortes a partir de un Histograma
Histogramas de intervalo fijo
Regla de Sturges.
k<-nclass.Sturges(Edad)
>
cortes<-round(dhist_breaks(Edad,a=0.0001*iqr(Edad),nbins=k),1)
>
resultados(Edad,cortes)
[15,22.5)
[22.5,30) [30,37.5) [37.5,45) [45,52.5) [52.5,60) [60,67.5) [67.5,75) [75,82.5)
74
62 45 20 45 16 14 14 8
[82.5,90]
2
Al utilizar esté método notamos que se
utilizan 10 intervalos, con una amplitud de 7.5 años. Al realizar esto y
comparando con una tabla de frecuencias de las edades notamos una alta frecuencia
entre las edades de 21, 22 y 25 años cosa que no se detalla en estos intervalos.
Está situación no es muy clara en este tipo de corte.
table(Edad)
Edad
15
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
43 44 45 46
2
3 8 11 12 20 18 12 6 16
8 9 5
6 5 4
7 4 5
5 7 8
2 2 7
3 3 1 2
11 2
47
48 49 50 51 52 53 54 55 56 57 60 61 62 63 65 66 68 69 70 71 72 73 75 76 78 79
80 89 90
6
6 4 10 4
2 2 3
4 5 2
5 2 1
1 2 3
1 1 3
4 3 2
3 2 1
1 1 1 1
Regla
de Scoot.
k<-nclass.scott(Edad)
>
cortes<-round(dhist_breaks(Edad,a=0.0001*iqr(Edad),nbins=k),1)
>
resultados(Edad,cortes)
[15,23.3) [23.3,31.7) [31.7,40)
[40,48.3) [48.3,56.7) [56.7,65) [65,73.3)
86 59 40 41 34 11 19
[73.3,81.7) [81.7,90]
8 2
Al
utilizar esté método notamos que se utilizan 9 intervalos, con una amplitud de
8.3 años. Sigue sin observarse las frecuencias altas de las edades mencionadas
anteriormente.
Regla
de Freedman-Diaconis.
k<-nclass.FD(Edad)
>
cortes<-round(dhist_breaks(Edad,a=0.0001*iqr(Edad),nbins=k),1)
>
resultados(Edad,cortes)
[15,21.8) [21.8,28.6) [28.6,35.5) [35.5,42.3)
[42.3,49.1) [49.1,55.9) [55.9,62.7)
56 74 36 32 32 25 15
[62.7,69.5)
[69.5,76.4) [76.4,83.2) [83.2,90]
8 17 3 2
Al
utilizar esté método notamos que se utilizan 11 intervalos, con una amplitud de
6.8 años. Los primeros intervalos tratan de resumir las frecuencias altas de
las edades antes mencionadas (21, 22 y 25).
Hasta
ahora, utilizando los histogramas de ancho fijo, parece indicar que la última
propuesta es la mejor. Sin embargo, detallemos los resultados de los
histogramas de ancho variable.
Histograma de intervalos variables
Regla de Denby-Mallows
cortes<-round(dhist_breaks(Edad,a=5*iqr(Edad),nbins=nclass.Sturges(Edad)),1)
>
resultados(Edad,cortes)
[15,20)
[20,23) [23,26.7) [26.7,32)
[32,38.8) [38.8,46) [46,52.5)
24 50 42 29 38 29 34
[52.5,62.5)
[62.5,74.2) [74.2,90]
24 20 10
Al
realizar el histograma de intervalos variables se tuvieron en cuenta el número
de intervalos de la regla de Sturges. Notamos que esté si tiene en cuenta las edades
que tienen altas frecuencias, en el segundo y tercer intervalo. Esto mejora
notablemente en comparación de los cortes de los histogramas de intervalos de
ancho fijo. Sin embargo, no se logro detallar de forma adecuada las
observaciones atípicas, tal como se observan en el siguiente box-plot
Cabe
resaltar que los intervalos que se trabajaron en esté ejemplo son cerrados a
derecha. Los resultados cambian si se tiene en cuentan los intervalos cerrados
a izquierda.
Ver también: Puntos de corte de una variable cuantitativa (1), Puntos de corte de una variable cuantitativa (3)
Ver también: Puntos de corte de una variable cuantitativa (1), Puntos de corte de una variable cuantitativa (3)
No hay comentarios:
Publicar un comentario