lunes, 6 de septiembre de 2010

Lectura de archivos grandes en R.

Victor Flores me envía el siguiente e-mail:

Asunto: Pregunta sin respuesta.

Hola Alex,

He leído parte de tu blog y te doy la enhorabuena por tus escritos.

Te escribo personalmente porque tengo una duda desde hace mucho tiempo que no consigo resolver, y es con la capacidad de almacenamiento de los objetos R.

He recibido un Rdata de más de 100Mb pero mi ordenado no es capaz de leerlo. Además cuando yo ejecuto mis propios scripts no consigo almacenar mas de 8 MB, de ahí me da un error de almacenamiento excesivo.

¿tu sabes cual puede ser la causa?

Mi respuesta

Gracias por leer el blog, en cuento a tú pregunta te cuento lo siguiente. Recuerdo un post que realice acerca del tiempo de lectura rápida y compresión de archivos de archivos con R. Aunque tu problema es otro. La memoria de trabajo del programa R se realiza sobre la memoría RAM a diferencia de programas como SAS o SPSS que su memoria de trabajo la realiza sobre el disco duro, razón por la cual al tratar de leer un archivo tan grande no se puede leer tan fácilmente. Este ha sido uno de los limitantes que tiene el programa R, sin embargo, muchos usuarios estan investigando como se puede resolver este inconveniente. Algunos soluciones que recuerdo las dio Carlos J. Gil Bellota (ver aquí) el cual utilizo el paquete colbycol creado por él, también a cbc (ver aquí y aquí) utilizan los paquetes ff y filehash.

Te recomiendo averiguar en el campo de Minería de Datos ojala usando R, posiblemente te puede dar ayuda (Por ejemplo tengo entendido una de las técnicas es particionar el archivo en varios pedazos y leerlos uno por uno y luego unirlos). Tres paquetes que te pueden dar ayuda son bigmemory, biganalytics y rpart.  Espero te ayude un poco estas ideas.

Saludos.

No hay comentarios:

Publicar un comentario