Upload
lenin-medina
View
64
Download
2
Embed Size (px)
Citation preview
MINI MANUAL DE R-COMMANDER, COMANDOS, VENTANAS Y APLICACIONES DEL
SOFTWARE EN LA PRUEBA DE HIPÓTESIS
ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO
ESCUELA DE INGENIERIA ELECTRONICA EN TELECOMUNICACIONES Y REDES
CATEDRA:PROBABILIDAD Y ESTADISTICA.
Elaborado por: Lenin Medina
R-COMMANDER
R-Commander es una Interfaz Gráfica deUsuario (GUI en inglés), creada por JohnFox, que permite acceder a muchascapacidades del entorno estadístico Rsin que el usuario tenga que conocer ellenguaje de comandos propio de esteentorno. Al arrancar R-Commander, senos presentan dos ventanas:
La ventana de la izquierda es la consola de R. Aquí podremos ejecutar comandos de R, para lo cual
necesitamos conocer el lenguaje R y su sintaxis. La ventana de la derecha corresponde al entorno de
R-commander, que nos evita precisamente tener que usar dicho lenguaje de comandos, al menos
para las tareas que se encuentran implementadas dentro de dicho entorno.
No obstante, R-Commander no pretende ocultar el lenguaje R. Si observamos
de cerca la ventana de R-Commander, vemos que se divide en tres
subventanas: script, output y messages.
El acceso a las funciones implementadas en R-commander es muy simple y se realiza utilizando el
ratón para seleccionar, dentro del menú situado en la Si se desea ejecutar un único comando basta
con situar el cursor en cualquier punto del comando y pulsar Submit . Si se desean ejecutar varios
comandos conjuntamente hay que seleccionarlos todos con el ratón y a continuación pulsar Submit
.Introducción al uso de R-commander. primera línea de la ventana, la opción a la que queramos
acceder. Las opciones son:
File: para abrir ficheros con instrucciones a ejecutar, o para guardar datos, resultados, sintaxis,
etc.
Edit: las típicas opciones para cortar, pegar, borrar, etc.
Data: Utilidades para la gestión de datos (creación de datos, importación desde otros programas,
recodificación de variables, etc.)
Statistics: ejecución de procedimientos propiamente estadísticos
Graphs: gráficos
Models: definición y uso de modelos específicos para el análisis de datos.
Distribution: probabilidades, cuantiles y gráficos de las distribuciones de probabilidad más
habituales (Normal, t de Student, F de Fisher, binomial, etc.)
Tools: carga de librerías y definición del entorno.
Help: ayuda sobre R-commander (en inglés).
LECTURA DE DATOS DESDE UN FICHERO EXTERNO
Supongamos que hemos creado los datos con EXCEL (o equivalente), y quelos hemos guardado desde EXCEL en formato CSV (Comma SeparatedValues). Este formato es simplemente un formato de texto en el que los datosse guardan tal como se han introducido en EXCEL, separados por punto ycoma, y sin que se añada ninguna información adicional (negritas, cursivas,colores de las letras, etc.). Para que R (y cualquier otro paquete estadístico)pueda utilizar los datos, éstos deben introducirse de modo que cada variablefigure en una columna, y cada fila represente un caso. Asimismo, esconveniente que cada columna esté encabezada con el nombre de la variable.
A modo de ejemplo, vemos la pantalla de EXCEL correspondiente a una muestra de peces, de cada uno de
los cuales se ha determinado su estado de madurez sexual (0 = inmaduro, 1 = maduro) y sexo (1 = hembra, 2
= macho), midiéndose además su longitud y peso. Como se ve, cada columna corresponde a una variable, y
cada fila corresponde a un sujeto (un pez en este caso).
A veces no se dispone del valor de alguna variable o variables en alguno o varios casos. Por ejemplo, pudiera
haber peces cuyo estado de madurez o sexo no haya podido determinarse, o cuya longitud o peso se haya
podido. En EXCEL al guardar el fichero hay que seleccionar “guardar como” y elegir como tipo de fichero
CSV (delimitado por comas). EXCEL nos
informará de que sólo se guardará la hoja
activa (deberemos aceptar), y a continuación
nos avisará que el libro puede tener
características no compatibles con CSV
Deberemos elegir la opción SI, para que
Guardedefinitivamente el fichero en ese formato.
Medir cuando falte algún dato, conviene introducir
el valor NA, que R interpretará como Not Assigned
(valor no asignado). En el ejemplo que se
muestra a continuación vemos que hay valores
perdidos en varias variables y varios casos,
que han sido consignados con el valor NA.
Para leer estos datos con R commander, una vez situados en la ventana de este programa hay que
picar con el ratón en la opción Data, luego Import data y por último from text file
Data > Import data > from text file ...
Nos aparecerá entonces el cuadro que se muestra en la página siguiente, en el que hay que
especificar:
Nombre que le queremos poner al conjunto de datos (data set) que vamos a analizar. Este nombre
no tiene por qué coincidir con el nombre del fichero de datos. En este caso vamos a llamar peces
a nuestro conjunto de datos.
Como en el fichero están los nombres de las variables en la primera fila, marcamos la casilla
Variable names in file.
Una vez introducida esta información, picando en OK, nos aparece la ventana para
abrir ficheros de Windows. Buscamos el directorio en que hemos guardado nuestro
fichero de datos y lo seleccionamos:
En la pantalla de R-commander ha aparecido un comando en la ventana superior
(script) y el mismo comando repetido en la ventana inferior (Output window). Este
comando es concretamente:
peces <- read.table("C:/Estadística/Datos/peces.csv", header=TRUE, sep=";",
na.strings="NA", dec=",",strip.white=TRUE)
La sintaxis de este comando es fácil de entender: en el data set (conjunto de datos)
peces se introduce el resultado de leer (read.table) el fichero
c:/Estadística/Datos/peces.csv. Se indica que el fichero contiene los nombres de las
variables en la cabecera (header=TRUE), que el separador de los datos es el punto
y coma (sep=”;”), que los valores perdidos se han codificado como NA
(na.strings=”NA”), que el separador de cifras decimales es la coma (dec=”,”) y que
en caso de leer variables de tipo carácter (variables cuyos valores son
alfanuméricos, por ejemplo, nombres de islas) se eliminen los espacios anteriores y
posteriores al valor registrado en dichas variables (strip.white=TRUE).
En la ventana de salida (Output) no se observa ningún resultado ya que solamente
se ha procedido a la lectura de los datos. Esto se nos indica en la ventana inferior
(Messages) donde aparece una nota señalando que se ha leido el dataset peces, y
que éste tiene 20 filas y 4 columnas.
INTERVALO DE CONFIANZA
Vamos a comenzar por hallar el intervalo de confianza para la media poblacional. Existen dos tipos de estimación, la puntual se halla calculando la media de la muestra, y es de cálculo sencillo, pero es difícil que esta estimación coincida con el verdadero valor de la media poblacional, aparte de no informar sobre el error que cometemos. Otra forma es la estimación por intervalos que consiste en calcular a partir de la muestra, un intervalo con una probabilidad dada (nivel de confianza), de contener el valor de la media poblacional, informándonos del error.
Ejemplo: Queremos estudiar la altura media de todos losindividuos con un nivel de confianza de =0.05. Utilizamoscomo conjunto de datos activo el de Pulso. Lo hemosasociado al data.frame Pulsea1. Caso de desconocida:Para calcular el intervalo de confianza empleamos lasecuencia:se hace la secuencia: >Estadísticos >Medias >Testt para una muestra…
Para el intervalo de confianza bilateral hay que marcar
•En Hipótesis alternativa >Media poblacional = 0,
•Aunque hay un error y debería mostrar el texto Media poblacional <> 0, como hipótesis alternativa.
•Hay que elegir la Variable Height para altura, y dar un nivel de confianza, aquí del 95%
•La instrucción R generada:
> t.test(Pulsea1$Height, alternative='two.sided', mu=0.0, conf.level=.95)
One Sample t-test
data: Pulsea1$Height
t = 180.1207, df = 91, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 0 95
percent confidence interval: (67.95957 69.47521)sample estimates:
Si se pusiera mu=5.8, el intervalo calculado sería el mismo, siempre que indiquemos
alternative='two.sided' (Bilateral). El cálculo anterior se basa en la distribución t de Student para un
estadístico asociado a la media muestral, que es el más adecuado si no se conoce la varianza
poblacional. El intervalo de confianza bilateral se formula:
xm t(n-1, 1-α/2) s/ , con s la cuasi-desviación típica muestral, xm la media muestral, t(n-1, 1-α/2) el
valor tal que Pr(tn-1 <= t(n-1, 1-α/2)) = 1- α/2, esto es, el valor de la variable tn-1 de Student de (n-1)
grados de libertad que deja a su izquierda un área de valor (1- α/2) bajo la función de densidad, o
sea el cuantil (1- α/2) de la t de Student con (n-1) g.l.
EJEMPLOS DE APLICACIÓN DE LOS INTERVALOS DE CONFIANZA PARA CONTRASTAR HIPÓTESIS
Con el conjunto de datos de Pulsos, queremos estudiar la altura
media de los hombres solamente, por medio de un intervalo de
confianza al nivel de significación =0.05, o de confianza del 95%,
y utilizarlo para contrastar la hipótesis de si la altura media de los
hombres es de 171 cms. Vamos a generar un conjunto de datos
con las alturas de los hombres.
En principio debemos filtrar la altura por medio del Género para separar los
hombres de las mujeres con la secuencia:
>Datos >Conjunto de datos activos>Filtrar datos.
Como marcamos Incluir todas las variables, va a generar un Data.frame con
todos los datos referidos sólo a Hombres: Gender==”Male”
El nuevo conjunto de datos activo, que tiene siempre el tipo data.frame, se
llamará Alturahombres
El intervalo de confianza para la media de altiras , Emplando el R Commander,
lo producen los menús:
>Estadísticos > Medias >Test para una muestra…. Resultando en la Ventana de
resultados de R Commander
Resultando en la Ventana de resultados de R Commander
One Sample t-test
data: Alturahombres$Height
t = 206.8254, df = 56, p-value < 2.2e-16
alternative hypothesis:
true mean is not equal to 0
95 percent confidence interval:
70.06908 71.43969
sample estimates:
mean of x
70.75439
Basándonos en el intervalo de confianza para la media de alturas de hombres: (70.06908 71.43969)
consideremos ahora el contraste de hipótesis sobre que la altura media es 171 cms. Pasando esta
altura media a pulgadas, que es la información extraída de la tabla: 171/2.54= 67.3228 pulgadas.
Se concluye afirmando con el 95% de confianza que la altura media no es 171 cms, pues
67.3228 pulgadas no está contenido en el intervalo de confianza calculado.