¿Como ultilizo datos con una hoja de calculo?

MANEJO DE DATOS CON HOJA DE CALCULO

El manejo de datos es una de las principales utilidades de una hoja de cálculo en el estudio estadístico. En general los programas de estadística no suelen tener un sistema de entrada de datos tan versátil como el que proporciona una hoja de cálculo como Open Calc. En el caso de R y R-Commander esta situación es actualmente bastante aguda, la entrada de datos es muy poco eficaz.

Introducción de datos

De forma predeterminada los datos pueden ser introducidos en columnas de modo que al terminar de escribir cada dato se pulsa alguna de las teclas Enter, Return o Intro disponibles en el teclado. El ratón y las flechas del teclado permiten desplazarse rápidamente a través de todo el teclado para intoducir los datos en el orden en que se desee. Finalmente una de las más importantes ventajas es la posibilidad de introducir resultados con la mayor rapidez. Hagamos un ejercicio de este último uso.
Descarguemos el conjunto de datos Iris que se encuentra en R y en los conjuntos de datos para demostraciones de otros muchos paquetes estadísticos. Estos datos fueron recogidos por Edgar Anderson en 1935 y analizados por Fisher en 1936 corresponden a las medidas en centımetros de la longitud y ancho del sepalo y de la longitud y ancho del petalo para 50 flores de cada una de tres especies de lirios.
La pantalla tendrá un aspecto parecido al siguiente:

Situémonos en la celda E2:
  1. Pulsando simultáneamente las teclas May-Ctrl-'Flecha Abajo', quedará resaltada todas las celdas hasta la celda E52.
  2. Sin soltar la tecla May, pero soltando la tecla Ctrl, subiremos una celda arriba para no incluir en la selección el primer dato que pertenece a la especie  versicolor.
  3. Mediante los comandos Editar->Rellenar->Abajo completaremos el nombre de la especie para todos los primero cincuenta datos.
Cualquier error cometido sobreescribiendo datos de forma indeseada (como por ejemplo borrar el nombre versicolor al rellenar hacia abajo) puede facilmente deshacerse mediante la orden deshacer (Ctrl-Z).
Ya vimos en la clase de introducción que esto mismo es posible hacerlo mediante el ratón. Hágase como ejercicio la "expansión" de valor  versicolor a los datos desde el 51 al 100.

Por último, en el caso de los últimos cincuenta datos el procedimiento incialmente utilizado no es factible, como es fácil comprobar:
  1. Situémonos en la celda E102.
  2. Pulsando las teclas May-'Flecha Izquierda' pasar a la celda D102.
  3. Pulsando simultáneamente las teclas May-Ctrl-'Flecha Abajo', quedará resaltada todas las celdas hasta la celda D151.
  4. Sin soltar la tecla May, pero soltando la tecla Ctrl, nos desplazaremos una celda a la derecha para deseleccionar la columna D.
  5. Mediante los comandos Editar->Rellenar->Abajo completaremos el nombre de la especie para todos los últimos cincuenta datos.

Exportar archivos

Una vez que tenemos completo nuestros datos, es conveniente guardarlos en el formato nativo de Open Office que para las versiones 2.X lleva el sufijo ods (Open Document Spreadsheet). Este tipo de documentos se corresponde con el estandar ISO 26300 para hojas de cálculo y que reemplaza al estandar oficioso anterior dif (Data Interchange Format), al igual que los documentos odt (Open Document Text) reemplazan al formato rtf (Rich Text Format, formato de texto enriquecido). Este estandar fue adoptado por los desarrolladores de Open Office y dio lugar al paso de la versión 1.X a la versión 2.X; la versión anterior utilizaba los formatos abiertos pero propietarios de Sun Microsystems (sx.).  Actualmente y pese a la naturaleza estándar del formato ods es preciso también guardar los datos en otros formatos para que puedan ser utilizados desde programas que aún no utilizan este estándar. Será obligatorio en Europa en el futuro inmediato.
Como formatos de exportación podemos destacar:
  • Los formatos de las versiones anteriores de OpenOffice (sxc) y de su predecesor StarOffice (sdc, Sun Microsystem mantiene a través del proyecto StarOffice una estrecha colaboración con el proyecto OpenOffice, pero mantiene derechos de propietario sobre parte de su suite).
  • Los formatos de Excel de Microsoft en diversas versiones (5.0, 95, 97/2000/XP y 2003, que se corresponden con los sufijos xls y xlm respectivamente).
  • El formato estándar para intercambio entre hojas de datos (anticuado y limitado en la inclusión de funciones dif).
  • El formato para publicación en página web html.
  • Por último citaremos (aunque hay más disponibles como veremos) el más interesante para este curso: el formato de exportanción en texto plano. Como denominación general es un conjunto de formatos a los que OpenCalc asigna el sufijo el sufijo csv (Commas Separated Value, Valores Separados por Comas) pero que también es posible encontrarlos con el sufijo txt. A diferencia del formato dif no permite guardar en el fichero las fórmulas, pero que a cambio permite visualizar los datos guardados con cualquiera de los muchos procedimientos que hay para ver documentos de texto, incluidos los navegadores de internet. Es un formato muy adecuado para el paso de datos de la hoja de cálculo al programa R de estadística que se verá en los próximos días.
Exportemos nuestra hoja de cálculo al formato csv:
  1. Mediante los comandos Archivo->Guardar como...->Abajo iniciaremos la pantalla para exportar nuestros datos al formato csv:



  2. En el campo Tipo de archivo pulsaremos en la flecha hacia abajo que hay en la parte derecha del campo. Obtendremos la lista de los diversos tipos de archivos de hojas de cálculo en los que podemos guardar nuestros datos:



  3. Mediante la barra de desplazamiento de la parte de la derecha de la lista de tipos de archivos iremos viendo los tipos que se encuentran en la parte más baja de la lista fuera de la ventana. El tercero comenzando a contar por el final de la lista es el formato Texto CSV (.csv) que buscamos.
  4. Marcaremos la casilla Editar configuración de filtros para asegurarnos de que podemos editar los detalles del formato csv.
  5. Al pulsar guardar nos avisará de que en cualquier formato que no sea el formato nativo OpenDocument es posible que no se guarde toda la información contenida en la hoja de cálculo. Contestaremos que de todos modos , queremos utilizar el formato csv.
  6. Si marcamos la casilla Editar configuración de filtros o si el programa no dispone de suficiente información para la exportación se abrirá una nueva ventana para que especifiquemos los detalle del formato. Por defecto nos ofrece la codificación de carecteres que estamos utilizando en el sistema, la separación mediante comas entre valores (como su nombre indica) y los textos con dobles comillas. Este es el formato más adecuado para la exportación de datos en el formato de hoja de cálculo estándar original que es el inglés. Este formato tiene el inconveniente en español de que la coma se utiliza como separador decimal y para salvar el problema OpenCalc convierte todos los datos en texto. Guardémoslo de todos modos.
  7. Abramos el archivo en otro espacio de trabajo utilizando el editor Diana (Gedit). Veremos que efectivamente los números se han guardado entre comillados. Cerremos el archivo.



  8. En el espacio de trabajo de la hoja de cálculo repetimos el procedimiento de exportación anterior, ahora será muy importante marcar la casilla para evitar que repita el mismo formato. Como el archivo iris.csv ya existe nos advertirá de ello y nos preguntará si deseamos sobreescribirlo. Lógicamente  deseamos sobreescribirlo.
  9. En esta ocasión cambiaremos Separador de campos el por el valor {vacío} utilizando para ello la flecha que hay en la parte derecha del campo. Otra alternativa para que los números siguiesen siendo números sería utilizar un ancho de columna fijo. Queda como ejercicio personal.



  10. En el segundo espacio de trabajo que estamos utilizando abriremos de nuevo el archivo utilizando el editor Diana (Gedit). Veremos que esta vez los datos están separados por espacios en blanco y la coma es el separador de decimales.

En los próximos días se utilizaran archivos csv del programa R-Commander y allí se volverán a ver los detalles de este tipo de archivos.
Además de los filtros de exportación disponibles en el comando Editar->Rellenar->Abajo que hemos detallado, existe la posibilidad de exportar documentos a formatos que podemos denominar de "solo lectura" para presentar resultados que posteriormente no han de ser modificados. Estos formatos son el formato pdf sobradamente conocido y el nuevo formato xhtml (eXtensible Hypertext Markup Language) para presentación en página web. Ambos están disponibles en el comando  Archivo->Exportar... y además el formato pdf está directamente disponible en el comando Archivo->Exportar en formato pdf...

Importar archivos

Como ejercicio sobre importación de archivos podemos cerrar el documento que anteriormente hemos exportado y volverlo a abrir.
  1. Cerraremos todos los documentos que tengamos abiertos mediante el comando Archivo->Cerrar
  2. Mediante el botón o mediante el comando Archivo->Abrir... abriremos el archivo iris.csv que hemos creado en el ejercicio anterior. Aparecerá la pantalla con los detalles para la importación de ficheros de texto:



  3. Los valores que aparecen  por defecto dependen de cuales se utilizaron la última vez que se importó un fichero. En el ejemplo aparece el modo en el que deben señalarse los diferentes campos para obtener un buen resultado a partir del archivo que guardamos anteriormente. Los diferentes campos son bastante autoexplicativos y no requieren mayor explicación. Si alguna columna no es entendida de forma inmediata es posible "pinchar¨ en ella y especificarle un tipo de datos. Si alguna columna utilizase el punto decimal en lugar de la coma, se pincharía sobre ella y se especificaría el idioma inglés. No es demasiado habitual tener que hacer especificaciones sobre algunas columnas en particular.
  4. Con el botón Aceptar tendremos recuperado nuestro fichero iris de datos.

Ordenar datos

Entre las posibilidades que ofrece OpenCalc para el manejo básico de datos está la ordenacion de los mismos. Podemos hacer un sencillo ejercicio de ordenación de los datos que tenemos en la hoja de calificaciones.ods:
  1. Nos situaremos en la celda A9. Manteniendo pulsada la tecla May nos situaremos en la celda I30, bien mediante el ratón o bien utilizando las teclas con flechas del teclado. Quedando seleccionada la totalidad de los datos.
  2. Mediante el comando  Datos->Ordenar... aparecerá la ventana con las posibles opciones para ordenar los datos.



  3. Como se puede ver en la pantalla anterior seleccionaremos que en primer lugar se ordenen los datos por columna I que corresponde a la nota obtenida y en caso de empate que haga la ordenación en función del nombre (columna B). Especificaremos que queremos en la nota el orden Descedente para obtener en primer lugar a los alumnos con mejores notas.
  4. En realidad en nuestro caso no hay verdaderos empates, porque aunque aparecen dos valores 4'7, entre otros empates, en realidad solo son aparentes y debidos al redondeo en la presentación. Mediante la tecla podemos incrementar los decimales de los datos y veremos que en realidad uno es 4'68 y el otro 4'65. Lo mismo ocurre con los demás empates aparentes.
  5. Mediante el comando  Datos->Ordenar... aparecerá la ventana con las posibles opciones para ordenar los datos.

No hay comentarios:

Publicar un comentario