735

Click here to load reader

Bioestadistica DANIELS

Embed Size (px)

Citation preview

1.1 INTRODUCCION 1.2 ALGUNOS CONCEPTOS BAsICOS 1.3 MEDIDAS Y ESCALAS DE MEDICION

1.4 MUESTREO ALEATORIO SIMPLE 1.5COMPUTADORAS Y ANIDSIS BIOESTADiSTICO RESUMEN

1.6

1.1

INTRODUCCIONCon frecuencia se recuerda el hecho de que se vive en la edad de la informacion, asi que, oportunamente, este libro es acerca de informacion: como se obtiene, como se analiza y como se interpreta. A la informacion que trata este libro se Ie llama datos, los cuales estan disponibles en forma de niimeros. Los objetivos de este libro sondos: 1) ensefiar al estudiante a organizar y resumir datos; 2) ensefiarle como tomar decisiones respedo a un gran volumen de datos al examinar solo una pequefia parte de ellos. Los conceptos y metodos necesarios para lograr el primer objetivo se presentan bajo el titulo de estadistica descnptiva, y el segundo objetivo se logra mediante el estudio de 10 que se conace como estadistica inforencial. En este capitulo se estudia la estadistica descriptiva. Del capitulo 2 al 5 se estudian los t6picos que conforman la base de la inferencia estadistica, y en elresto dellibro se expone la estadistica inferenciaL Puesto que.este libro esta disefiado para personas que se preparan para iniciar 0 que ya cursan una carrera en el area de ciencias de la salud, el material y los ejercicios reflejan los problema:s y actividades que tales personas probablemente encontraran en la practica de su trabajo.

1

2

CAPITULO 1 INTRODUCCION A LA BIOESTADISTICA

1.2

ALGUNOS CONCEPTOS BAsICOSAI igual que en todos los campos del aprendizaje, la estadistica tiene su propio vocabulario. AIgunas de las expresiones frecuehtes en el estudio de la estadfstica son nuevas para quienes no han tenido relaci6n previa con el tema. Otros terminos, aunque parecen familiares, probablemente tienen significados especializados que difieren del significado asociado por costumbre a dichos t'erminos. Los siguientes terminos se utilizan extensamente en todo ellibro. Datos Los datos son la materia prima de la estadfstica. Para este prop6sito se puede definir a los datos como numeros. Las dos clases de numeros que se utilizan en estadfstica son numeros que resultan de la toma --en el sentido literal del termi no- de medidas, y aquellos que resultan del proceso de conteo. Por ejemplo, cuando una enfermera pesa al paciente 0 Ie toma 1a temperatura, se obtiene 1a medida que consiste en una cantidad, por ejemp10 150 libras 0 100 grados Farenheit. Un tipo bastante diferente de numeros se obtiene cuando el administrador de un hospital cuenta el numero de pacientes, quiza 20, dados de alta en un dfa. Cada uno de los tres numeros es un dato (datum) y los tres juntos son datos. En la seccion anterior esta imp1icito el significado de la estadfstica. Estadlstica Pero, para ser mas precisos, se puede decir que la estadistica es la disciplina que se

ocupa de 1) la recoleccion, organizacion, resumen y analisis de datos, y 2) la obtenci6n de inferencias a partir de un volumen de datos cuando se examina solo una parte de estos.Las personas que realizan estas actividades estadfsticas deben estar prepara das para interpretar y comunuar los resultados a los demas, tal como 10 demande la situaci6n. En terminos sencillos, se puede decir que los datos son numeros, que los numeros contienen informacion y que el prop6sito de la estadistica es investigar y evaluar 1a naturaleza y el significado de esa informacion. EI desempeflo de actividades estadfsticas obedece a la necesi Fuente de datos dad de responder a diversas preguntas. Por ejemplo, los medicos probablemente quieran encontrar respuestas a preguntas con respettoa la utilidad relativa de pro cedimientos de tratamiento alternativos. Losadministradores posiblemente quie ran responder a preguntas respecto a areas de interescomo el espfritu de equipo de los empleados 0 el uso de las instalaciones. Cuando se determina que el enfoque adecuado para buscar una respuesta a la pregunta requiere del uso de la estadistica, se comienza a investigar datos apropiados que sirvan como la materia prima en la investigacion. Estos datos norrnalmente esrnn disponibles de una 0 mas fuentes como las siguientes: . 1. Registros rutinarios. Es diffcil imaginar algun tipo de organizaci6n que no lleve registros de 1aoperacion diaria de sus actividades. Mientras que los registtosclinicos de un hospital, por ejemplo, contienen una inmensa canti dad de informaci6nacerca de los pacientes, los registros contables de la instituci6n contienen datos en abundancia sobre las actividades financieras del hospital. Cuando surge la necesidad de tener datos, se debe buscar prime ro en los registros que se llevan rutinariamente.

1.2

ALGUNOS CONCEPTOS BAsICOS

3

2. Encuesta. 8i los datos necesarios para contestar una pregunta no estan disponibles a partir de los registros almacenados de manera rutinaria, la fuente 16gica puede ser una encuesta. Por ejemplo, suponga que el admi nistrador de una cHnica desea obtener informacion respecto a Ia forma de transporte que utiliza el paciente para visitar la cHnica. 8i Ia forma de admi sion no contiene una pregunta ace rca del transporte, es posible llevar a cabo una encuesta entre los pacientes para obtener esta informacion. 3. Experimentacion. Frecuentemente, los datos necesarios para responder una pregunta estan disponibles solo como resultado de la experimentacion. Tal vez una enfermera quiere saber que estrategia es mejor para maximizar el seguimiento de las indicaciones medicas por parte del paciente. La enferme ra podria conducir un experimento en el que se prueben diferentes estrate gias para motivar el cumplimiento del tratamiento en distintos pacientes. La evaluacion subsecuente de las respuestas a las diversas estrategias puede ca pacitar a Ia enfermera para decidir cual es mas efectiva. 4. Fuentes externas. Los datos necesarios para responder a una pregunta pue den ya existir como informes publicados, bancos de datos disponibles 0 en la literatura de investigacion. En otras palabras, uno se puede encontrar con que alguien mas ya planteo la misma pregunta y que la respuesta que obtuvo puede aplicarse a la situacion presente.Bioestadistlca Las herramientas de Ia estadistica se utilizan en muchos cam pos: negocios,ensefianza, psicologia, agricultura y economia, por mencionar algu nos cuantos. Cuando los datos que se analizan proceden de las ciencias biologicas 0 medicas, se utiliza el termino bioestadistica para diferenciar esta aplicacion particu lar de las herramientas y conceptos de la estadfstica general. Dicha aplicacion es la que se estudia en este libra. Variable Una caracteristica se clasifica como variable si, tal como se observa, se encuentra que esta toma diferentes valores en diferentes personas, lugares 0 cosas. Esto se hace por la simple razon de que la caracterfstica no es la misma cuando se observa en diferentes sujetos. Algunos ejemplos de variables son: presion sanguf nea diastolica, frecuencia cardiaca, estaturas de varones adultos, peso de ninos en edad preescoIar, y la edad de los pacientes que consultan a un dentista. Variable cumditativa Una variable cuantitativa es aquella que puede medirse en la forma usual. 8e pueden obtener mediciones de la estatura de los varones adultos, del peso de los ninos en edad preescolar, y de la edad de los pacientes que consultan a un dentista. Estos son ejemplos de variables cuantitativas. Las mediciones hechas sobre va riables cuantitativas conllevan informaci6n respecto a cantidad. Variable cualitatlva Algunas caracteristicas no pueden ser medidas como la estatura, el peso y la edad. Muchas de ellas solo se pueden clasificar, por ejemplo, cuando a una persona enferma se Ie da un diagnostico medico 0 cuando se deter mina que alguien pertenece a un grupo etnico dado, 0 bien, cuando se dice que una persona, Iugar 0 cosa poseen 0 no alguna caracteristica de interes. En tales

4

CAPITULO 1

INTRODUCCION A LA BIOESTADISTICA

casos, la medicion consiste en una clasificacion. Y las variables a las que uno se refiere se Haman variables cualitativas. Las mediciones hechas sobre este tipo de variables cdntienen informacion respecto a los atributos. Aunque en el caso de las variables cualitativas las mediciones no se llevan a cabo en el sentido usual de la palabra, se puede contar el numero de personas, lugares 0 cosas pertenecientes a varias categorfas. EI administrador de un hospital, por ejem plo, puede contar el n6.mero de pacientes internados en un dfa, con base en cada uno de los diagnosticos de admision. Estos conteos 0 jrecuencias, como se denominan, son el numero que se maneja cuando el analisis involucra variables cualitativas.Variable alealoria Siempre que se determina la estatura, el peso 0 la edad de un individuo, el resultado frecuentemente se denomina valor de la variable respec tiva. Cuando los valores se originan como resultado de factores aleatorios (al azar), que no pueden predecirse con exactitud y anticipacion, la variable se llama variable aleatoria. Un ejemplo de variable aleatoria es la estatura de los adultos; cuando nacen los ninos no es posible predecir con exactitud la estatura que tendran en su edad adulta; la estatura que alcanza un adulto es el resultado de muchos factores geneticos y ambientales. Los val ores resultantes de los procedimientos de medicion se denominan observaciones 0 medidas. Variable alealoria discreta Las variables pueden caracterizarse aun mas como discretas 0 continuos. Puesto que la definicion rigurosamente matematica de las variables discreta y continua va mas aHa del limite de este libro, en su lugar se presentan definiciones menos formales y un ejemplo de ca~ una. Una variable discreta se caracteriza por separaciones 0 interrupciones en la escala de valores que puede tomar. Estas separaciones 0 interrupciones indican la ausencia de valores entre los valores especfficos que puede asumir la variable. Algunos ejemplos ilustran el punto. EI numero de admisiones diarias en un hospital general es una variable aleatoria discreta, puesto que el numero de admisiones por dia debe repre sentarse con numeros enteros tales como 0, 1,203. EI numero de admisiones en un dfa determinado no puede ser 1.5, 2.997 0 3.333. EI n6.mero de caries, amalga mas 0 perdida de dientes por nino en una escuela primaria es otro ejemplo de una variable discreta. Variable alealoria continua

Una variable aleatoria continua no posee las sepa raciones 0 interrupciones tipicas de una variable a/eatoria discreta. Una variable aleatoria

continua puede tomar cualquier valor dentro de un intervalo espedficado de valo res asumidos poria variable. Entre los ejemplos de variables continuas se hallan las diversas mediciones que pueden hacerse en individuos tales como su estatura, peso y diametro craneano. Sin importar cuan cerca esten las estaturas de dos personas, teoricamente siempre es posible encontrar otra persona cuya estatura se encuentre entre las dos estaturas de referenda. Ahora bien, debido a las limitaciones de los instrumentos de medicion disponi bles, las observaciones sobre variables que son inherentemente continuas se registran como si fueran discretas. La estatura, por ejemplo, normalmente se redondea hacia el cuarto, media 0 pulgada completa mas cercanos, mientras que si se cuenta con el ins trumento de medicion adecuado, esa medida puede hacerse tan precisa como se desee.

1.3

MEDIDAS Y ESCALAS DE MEDICION

5

Poblacion Habitualmente se considera a una poblacion como una coleccion de entidades, por 10 general personas. Sin embargo, una poblacion 0 coleccion de entidades puede estar compuesta de animales, maquinas, plantas 0 celulas. Para los propositos de este libro, una poblaci6n de entidades se define como la colecci6n mas grande de entidades de interes en un momento particular. Si se toma la medida de alguna variable para cada una de las entidades en una poblacion, se obtiene una poblacion de valores para esa variable. Por 10 tanto, una poblaci6n de valores se puede definir como la mayor colecci6n de valores para una variable aleatoria, los cuales son de interes en un momento particular. Por ejemplo, si se tiene interes en conocer el peso de todos los niiios inscritos en el sistema de educacion primaria del estado, la poblacion esta formada por todos esos pesos. Si se tiene interes solo en el peso de los estudiantes inscritos en el primer grado, se tiene una poblacion diferente, compuesta por los pesos de los estudiantes de primer grado. Por 10 tanto, las poblaciones se determinan 0 definen con base en el campo de interes. Las pobla ciones pueden ser finitas 0 infinitas. Si una poblacion de valores consiste en un numero fijo de esos valores, se dice que la poblacion es finita. Si, por otra parte, una poblacion consiste en una sucesion interminable de valores, entonces es una poblacion infinita. Muestra Una muestra puede definirse simple mente como una parte de una po blaci6n. Suponga que una poblacion se compone de los pesos de todos los niiios inscritos en el sistema de educacion primaria del estado, y se escoge para el analisis solo una fraccion de los niiios; entonces se tiene unicamente una parte de la pobla cion, es decir, se tiene una muestra.

1.3 MEDIDAS YESCALAS DEMEDICIONEn la seccion anterior se utilizo varias veces la palabra medici6n en su sentido usual y, con seguridad, ellector ha comprendido claramente el significado deseado. Sin embargo, la palabra medici6n puede tener una defininicion mas cientifica. De he cho, existe una gran cantidad de obras dedicadas al tema de mediciOn. Una parte de estas obras se ocupa tambien de la naturaleza 'de los numeros que resultan de las medici ones. Expertos en el tema de mediciones, hablan de escalas de medicion que dan como resultado la categorizacion de mediciones de acuerdo con su naturaleza. En este apartado se define la medici6n y las cuatro escalas de medici6n resultantes. El estudio del tema con mas detalle, se encuentra en las obras de Stevens (1, 2).

MediciOn Se define como la asignaci6n de numeros a objetos 0 eventos de acuerdo con un conjunto de reglas. Las diversas escalas de medicion son consecuencia de que la medici6n puede llevarse a cabo seglin diferentes conjuntos de reglas. Escala nominal La escala de medici6n mas baja es la escala nominal. Como su nombre 10 indica, consiste en designar 0 "nombrar" las obserVaciones 0 clasificarlas en varias categorias mutuamente excluyentes y colectivamente exhaustivas. La prac tic a de utilizar numeros para distinguir entre diversos diagn6sticos medicos consti

6

CAPITULO 1 INTRODUCCION A LA BIOESTADisTICA

tuye una medicion sobre una escala nominal. Otros ejemplos incluyen dicotomfas . como masculino-femenino, sano-enfermo, menor de 65 aiios de edad-mayor de 65 aiios de edad en adelante, nifio-adulto y casado-soltero.Escala ordinal Siempre que las observaciones no solo difieran de categoria a categoria, sino que ademas puedan clasificarse por grados de acuerdo con alglin criterio, se dice que se miden sobre una escala ordinal. Los padentes convalescien tes pueden c1asificarse como sin mejoria, mejorados y bastante mejorados. Las per sonas pueden clasificarse de acuerdo con su estado sodoeconomico como de clase baja, de clase media 0 clase alta. La inteligencia de los niiios puede estar por enci ma del promedio, promedio 0 por debajo del promedio. En cada uno de estos ejemplos, todos los miembros de cualquiera de las categorias se consideran iguales, pero los miembros de una categoria se consideran inferiores, peores 0 menores que los de otra que, a su vez, guard a una relacion similar con otra categorfa. Por ejem plo, un paciente bastante mejorado esta en mejor estado de salud que uno clasifica do como mejorado, mientras que un paciente que ha mejorado esta en mejor condicion que uno sin mejoria. Por 10 general, es imposible inferir que la diferencia entre los miembros de una de las categorias y la categoria inmediata adyacente sea igual ala diferenda entre los miembros de esa categoria y los miembros de la categorfa adyacente a ella. El grade de mejoria entre los sin mejoria y los mejora dos quiza no sea el mismo que el :que existe entre los mejorados y los bastante mejorados. La implicacion es que si se hiciera una division mas fina, que produje ra mas categorfas, estas podrfan tambien ordenarse de manera semejante. La funcion de los numeros asignados a datos ordinales es la de ordenar (0 asignar una categoria seglin el rango) las observaciones desde las mas bajas hasta las mas altas; de aqui el termino ordinal. Escala de intervalos La escala de intervalos es una escala masespecializada que la nominal 0 la ordinal en el sentido de que, con esta escala, no soloes posible ordenar las mediciones, sino que tambien se conoce la distancia entre dos medicio nes cualesquiera. Por ejemplo, se sabe que la diferencia entre una medida de 20 y una medida de 30 es igual a la diferencia entre lasmedidas de,30 y 40. La capaci dad para hacer esto implica el uso de una distancia unitaria y un punto cero, los cuales son arbitrarios. El punto cero seleccionado no es necesariamente un cero verdadero en el sentido de que no indica una ausencia total de la cantidad que se esta midiendo. Quiza el mejor ejemplo de una escala de intervalos es la forma en que generalmente se mide la temperatura (grados Fahrenheit 0 Celsius). La uni dad de medidon es el grado, y el punto de comparadon es el que se selecciona arbitrariamente como "cero grados", el cual no implica una ausencia de calor. La escala de intervalos, a diferencia de las escalas nominal y ordinal, es una escala realmente cuantitativa. Escala de razones El nivel mas alto de medicion es la escala de razones. Esta escala se caracteriza por el hecho de que puede determinarse tanto la igualdad de las razones como la de los intervalos. Y para esta escala es fundamental un punto cero verdadero. La medicion de rasgos tan familiares como altura, peso y longitud, hacen uso de este tipo de escala.

1.4 MUESTREO ALEATORIO SIMPLE

7

1.4

l\'IUESTREO ALFATOmO SIMPLETal como se sefialo can anterioridad, uno de los prapositos de este libra es ensefiar los conceptos de inferencia estadfstica, la cual puede ser definida como sigue:DEFINICION La inferencia estadistica es el procedillliento por llledio del cual se llegaa una conclusion acerca de una poblacion con base en los resultados que se obtienen de una llluestra extraida de esa poblacion.

Existen muchas clases de muestras que pueden obtenerse de una poblaci6n. Sin embargo, no se puede utilizar cualquier tipo de muestra como base para hacer inferencias validas acerca de la poblacion. En general, para realizar una inferencia valida acerca de una poblacion se necesita un muestreo de la poblacion fundamen tado cientfficamente. Tambien existen muchas c1ases de muestras cientificas que pueden obtenerse de una poblacion. La mas sencilla es la muestra aleatoria sim ple. En esta secci6n se define la muestra aleatoria simple y se explica como obtener la de la poblacion. Si se utiliza la letra N para designar el tamafio de una poblacion finita, y la letra n para designar el tamafio de la muestra, es posible definir una muestra aleatoria simple como: .DEFINICION Si se extrae una muestra de tamaiio n de una poblaci6n de talllano N, de lllanera que cada llluestra posible de tamano n tenga la lllisllla probabilidad de ser seleccionada, la llluestra se llallla muestra aleatoria simple.

El sistema de seleccion de muestras que satisface la definicion anterior se llama muestreo aleatorio simple. Mas adelante se demuestra el pracedimiento del muestreo aleatorio simple, pero antes se considera la cuesti6n de si se muestrea con reemplazo a sin reemplazo. Cuando se utiliza un muestreo con reemplazo, cada elemento de la poblacion esta disponible para cada seleccion. Par ejempl0, como parte de un estudio de duracion de la estancia, se selecciona una muestra de una poblacion de pacientes que alguna vez fueran internados en el hospital. Suponga que el muestreo comprende la seleccion de una muestra de expedientes, tornados del archivo del departamento de registra medi co, de los pacientes dados de alta. En el muestreo con reemplazo se selecciona un expediente para incluirlo en la muestra, se registra la duracion de la estancia y se de vuelve el expediente al archivo. AI devolver el expediente a la "poblacion" este puede ser seleccionado de nuevo, en cuyo caso, el tiempo de estancia se registrara una vez mas. En un muestreo sin reemplazo, el expediente extrafdo no se regresa al archivo despues de registrar el data que se investiga, sino que se separa hasta extraer toda la

8

CAPiTULO I

INTRODUCCION A LA BIOESTADiSTICA

muestra. Con este procedimiento, un expediente debe aparecer solo una vez en la muestra. En la practica, por 10 general, un muestreo siempre se hace sin reempla zoo La importancia y significado de esto se explica mas adelante; por ahora, es nece sario estudiar la manera en que se selecciona una muestra aleatoria simple. Para asegurar una seleccion totalmente aleatoria, se debe seguir algful procedimiento ob jetivo, pues se intenta evitar el uso dejuicios subjetivos para decidir que elementos de la poblacion constituyen una muestra aleatoria. En el siguiente ejemplo se muestra un metodo para elegir una muestra aleatoria simple a partir de una poblacion. EJEMPLO 1.4.1 Clasen et al. (A-I) estudiaron la oxidacion de esparteina y mefenitoina en un grupo de individuos residentes en Groenlandia. Se representaron dos poblaciones en su estudio: habitantes del este y del oeste de Groenlandia. Los investigadores se interesaron en comparar los dos grupos con respecto a las variables de interes. La tabla 1.4.1 muestra las edades de 169 individuos del oeste de Groenlandia. Para propositos ilustrativos, considere que estos individuos forman una poblacion de tamafio N = 169 de la que se quiere obtener una muestra aleatoria simple de tamafio 10.

TABlA 1.4.1 Edades de 169 individuos que participan en un estudio de oxidacion de esp81'teina y mefenitoinaIndividuo num. Edad Individuo nUm. Edad Individuo num. Edad

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

27 27 42 23 37 47 30 27 47 41 19 52 48 48 32 35 22 23 37 33 26

57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 '73 74 75 76 77

29 26 52 20 37 27 63 44 2244

45 40 48 36 51 31 28 44 63 30 21

113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133

45 28 42 40 26 29 48 53 27 38 53 33 24 25 43 39 40 22 25 21 26(Continua)

1.4

MUESTREO ALEATORIO SIMPLE

9

TABlA 1.4.1Individuo num.

(Continuaci6n)Edad Individuo num. Edad Individuo num. Edad

22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 5354

55 56FUENTE:

22 48 43 34 28 23 61 24 29 32 38 62 25 34 46 24 45 26 29 48 34 41 53 30 27 22 27 38 26 27 30 32 43 29 24

78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110

III112

50 30 31 30 24 26 56 31 26 23 18 38 53 40 23 24 18 49 49 39 32 25 32 23 47 34 26 46 21 19 37 36 24 51 30

134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169

41 47 30 42 33 31 29 37 40 31 26 30 27 26 36 24 50 31 42 34 27 28 31 40 28 29 29 24 28 22 50 30 38 28 23 39

Reproducido can autorizaci6n de Kim BI1i'isen, M. D.

10

CAPITULO 1

INTRODUCCION A LA BIOESTADISTICA

Solucion: Una forma de seleccionar lUla muestra aleatoria simple es utilizar una tabla de nfuneros aleatorios como la tabla A, que se. muestra en el apendi ceo EI primer paso es localizar un punto de partida aleatorio en la tabla. Esto se puede hacer de varias formas: una de ellas es quitar la vista de la pagina mientras se toca esta con la punta del lapiz. EI punto de partida aleatorio es el dfgito mas cercano allugar donde apunte ellapiz. Suponga que el punta de partida aleatorio, obtenido mediante el procedimiento descrito, se encuentra en la intersecci6n del rengl6n 21 y la columna 28. El dfgito en ese PlUlto es 5. Puestd que se tienen unicamente 169 valores para elegir, s610 se puede utilizar nfuneros aleatorios dell a1169. Resulta conveniente seleccionar numeros de tres dfgitos, de manera que solamen te pueda elegirse entre los numeros del 001 a1169. El primer numero de tres dfgitos para el punto de partida aleatorio es 532, un numero que no se puede utilizar. AI recorrer la tabla hacia abajo, aparecen los numeros 196,372,654,928 Yfinalmente el137, que es un numero que sf se puede utilizar. La edad del sujeto que tiene ellugar 137 de la tabla 1.4.1 es 42, y este constituye el primer valor de la muestra. Se procede a registrar el numero aleatorio y la edad correspondiente en la tabla 1.4.2. Los nume ros aleatorios se registran para ver cuales fueron seleccionados. Puesto que se trata de una muestra sin reemplazos, no se incluye dos veces un mismo valor. AI continuar con este procedimiento se obtienen los nueve numeros aleatorios restantes junto con sus edades respectivas, tal como se muestra en la tabla 1.4.2. Observe que, cuando se llega al final de la co lumna, simplemente se avanzo tres digitos hasta el 028 y se continu6 ha cia arriba de la columna. Tambien se pudo haber comenzado desde la parte de arriba de dicha columna con el numero 369. De esta forma se obtiene la muestra aleatoria simple de tamano 10 a partir de la poblacion de tamano 169. En todo estudio futuro, siempre que se utilice el termino de muestra aleatoria simple, se entendera que dicha muestra se obtiene de esta forma 0 de una equivalente. TABlA 1.4.2 Muestra de 10edades extralda de las edades de la tabla t .4. t Numero aleatorio Numero de individuo de la muestra1

Edad

137114

23 4 56

155 028 085 018 164 042 053 108

78 9 10

42 28 28 61 31 23 50 34 32 37

1.5

COMPUTADORAS Y AJ~ALISIS BIOESTADISTICO

11

EJERCICIOS1.4.1

Utilice latabla de numerus aleatorios para seleccionar un nuevo punto aleatorio de partida, y extraiga otra muestra aleatoria simple de tamafto 10 apartir de la tabla 104.1. Registre las edades de losindividuos de la nueva muestra. Guarde sus datos para uso futuro. ~Cual es la variable de interes en este ejercicio? ~Que escala de medici6n se utiliz6 para obtener las mediciones? Ebja otra muestra aleatoria simple de tamafio lOa partir dela poblaci6n representada en la iabla 104.1. Compare a los sujetos de esta muestra con los de las muestras obtenidas en el ejerCicio 1.4. L (Existen individuos que aparezcan en ambas muestras? ~Cuantos? Compa re las edades de los individuos en las dos inuestras. ~Cuantas edades de la primera muestra se duplicaron en la segunda?

1.4.2

1.5 COMPUTADORAS Y ANAuSIS BIOESTADiSTICOLa difusi6n relativamente reciente del uso de la computadora ha tenido un gran imp acto, particularmente en el anal isis bioestadistico y, en general, en la investiga ci6n de ciencias de la salud. La necesidad de efectuar un gran numero de calculos aritmeticos como parte del analisis estadistico de los datos solo vive en el recuerdo de aquellos investigadores y profesionales cuyas carreras son anteriores a la llama da "revolucion de las computadoras". Las computadoras pueden ejecutar calculos mas rapidos y mucho mis predsos de 10 que puede un tecnico humano. El uso de las computadoras hace posible que los investigadores dediquen mas tiempo a me jorar la cali dad de los datos originales y a la interpretacion de resultados. El predominio actual de las computadoras y la disponibilidad de gran canti dad de programas de software para estadfstica han revoludonado aun mas el calcu 10 estadistico. EI estudiante interesado en los paquetes de software estadistico encontrara fiUY utiles las revistas como The American Statistician, publicacion tri mestral del American Statistical Association (Asodadon Estadistica de Estados Uni dos de Norteamerica), donde regularmente aparecen las resefias y promoci6n de dichos paquetes. Muchas de las computadoras actualmente en el mercado estan equipadas con capacidad para generar numeros aleatorios. Los investigadores pueden utili zar las computadoras para generar los numeros aleatorios que necesiten, como alternativa al uso de tablas impresas de numeros aleatorios. En realidad, los nu meros "aleatorios" generados por muchas computadoras son realmente numeros pseudoaleatorios porque son el resultado de una formula determinfstica. Sin em bargo, Fishman (3) asegura que los numeros parecen ser satisfactorios para mu chos prop6sitos practicos. La utilidad de la computadora en las ciencias de la salud no se limita al analisis estadistico. El estudiante interesado en aprender mas acerca del uso de la computadora en ciendas de la salud encontrara utiles los libros de Hersh (4), Johns (5), Miller et al. (6), y Saba y McCormick (7). Aquellos que quieran obtener mayor

12

CAPITULO 1 INTRODUCCION A LA BIOESTADISTICA

beneficio de la Internet probablemente quieran consultar los libros Physician's Guide to the Internet (8) y Computers in Nursing's Nurses' Guide to the Internet (9). Los avances actuales en el empleo de la computadora en los campos de biologfa, medicina y otros se publican en algunas revistas dedicadas al tema, como: Computers in Biology and Medicine, Computers and Biomedical Research, International Journal ofBio-Medical Computing, Computer Methods and Programs in Biomedicine, Computer Applications in the Biosciences y Computers in Nursing. En este libro se utili zan salidas impresas de computadora para ejemplificar el uso de computadoras en el analisis bioestadfstico; los paquetes de software estadis tico como MINITAB, SPSS YSAS, para computadoras personales obedecen al mis mo proposito. Seutilizo MINITAB para Windows en los ejemplos que muestran el uso de MINITAB. Despues de ingresar los datos para la aplicacion, MINITAB ini cia con una barra de menu como la siguiente: tile ~dit Manip Qale 5.tat Graph ~ditor Window Help Para cada ejemplo que se utiliz6 para ilustrar MINITAB se muestra el procedi miento de Windows (identificado como "Caja de dialogo") y los comandos corres pondientes (con el membrete "Comandos de la sesion") que tambien pueden teclearse.

1.6

RESllMENEn este capitulo se presentan los conceptos basicos de estadfstica. Se define a la estadistica como un area que se dedica a la recolecci6n y descripcion de datos, as! como a la elaboracion de inferencias estadfsticas. Se define la inferencia estadfsti ca como el procedimiento por medio del cual se obtienen conclusiones acerca de una poblacion con base en la informacion contenida en la muestra extraida de esa poblacion. Se estudia que el tipo basico de muestreo para hacer inferencias validas es el muestreo aleatorio simple. Se describe como milizar las tablas de numeros aleatorios para obtener muestras aleatorias simples de una poblacion. Se presentan las definiciones de algunos terminos basicos, como variable y muestra, que se usan en el estudio de la estadistica. Tambien se habla acerca de la medicion y se definen cuatro escalas de medicion: nominal, ordinal, de intervalos y de razones: Por ultimo, se menciona la importancia de las computadoras en el desarrollo de las actividades propias de la estadistica.

PREGUNTAS YEJERCICIOS DE REPASO1. 2. Explique que significa estadfstica descriptiva. Explique que significa estadistica inferenciaL

BIBLIOGRAFlA

13

3. Defina: a) Estadistica c) Variable e) Variable cualitativa g) Poblaci6ni) Poblaci6n infinita

b) Bioestadfstica d) Variable cuantitativaf) Variable aleatoria

h) Poblaci6n finita

j) Muestra1) Variable continua n) Muestreo con reemplazo

k) Variable discreta m) Muestra aleatoria simple0) Mliestreo sin reemplazo

4. Defina la palabra medici6n. 5. Enumere, describa y compare las cuatro escalas de medici6n. 6. Para cada una de las siguientes variables indique si son cuantitativas 0 cualitativas, y especi fique la escala de medicion que se utilizo cuando se tomaron las mediciones en cada una de las siguientes: a) Posicion social de los miembros de esta clase en relacion con los demas. b) Diagnosticos de admisi6n de pacientes admitidos en clinicas de salild mental. c) Peso de los bebes nacidos en un hospital en un ano. d) Sexo de los bebes nacidos en un hospital en un ano. e) Rango de movilidad de la articulaci6n del codo de estudiantes inscritos en un programa de estudios de ciencias de la salud.

f) Temperatura axilar de bebes con un dia de nacidos en el hospital.

7. Para cada una de las siguientes situaciones, responda los incisos a-e: a) (Cmil es la muestra del estudio? b) (Cual es la poblaci6n? c) lCua! es la variable de interes? d) (CUantas mediciones se hicieron para ca1cular los resultados informados? e) (Que escala de medici6n se utilizo? Situaci6n A. Un estudio de 300 hogares en un pequeno pueblo sureno revel6 que 20 por ciento tiene al menos un hijo en edad escolar. Situaci6n B. Un estudio de 250 pacientes admitidos en un hospital durante el ano pasado revel6 que, en promedio, los pacientes viven a 22.5 kilometros del hospital.

BffiUOGRAFiABibliografia de metodologia1. S. S. Stevens, "On the Theory of Scales of Measurement". Science. 103,677-680.

2. S. S. Stevens, "Mathematics, Measurement and Psychophysics", in S. S. Stevens (editor). Handbook ofExperimental Psychology, Wiley. New York.

143.

CAPITULO 1 INTRODUCCION A LA BIOESTADISTICA

George S. Fishman, Concepts and Methods in Discrete Event Digital Simulation, Wiley, New York. William R. Hersh, Information Retrieval: A Health Care Perspective, Springer, New York. Merida L. Johns, Information Management for Health Proftssions, Delmar Publishers, Albany, NY. MarvinJ. Miller, Kenric W. Hammond y Matthew G. Hile (editores), Mental Health Computing, Springer, New York. Virginia K. Saba y Kathleen A. McCormick, Essentials of Computers for Nurses, McGraw-Hill, New York. Lee Hancock, Physicians' Guide to the Internet, Lippincott-Raven, Philadelphia. Leslie H. Nicoll y Teena H. Ouellette, Computers in Nursing's Nurses' Guide to the Intemet, Lippincott, Philadelphia .

4.5. 6.

7.8. 9.

. Bibliografia de aplicaciones

A-I.

Knud Clasen, Laila Madsen, Kim Brylsen, Kurt Albylge, Susan Misfeldt y Lars F. Gram, "Sparteine and Mephenytoin Oxidation: Genetic Polymorphisms in East and West Greenland", Clinical Pharmacology & Therapeutics, 49,624-631.

2.1 INTRODUCCION 2.2 ARREGLO ORDENADO

2.4 ESTADISllCA DESCRIPTIVA:MEDIDAS DE TENDENCIA CENTRAL

2.5 ESTADISllCA DESCRIPTIVA: 2.3 DATOS AGRUPADOS YDISTRIBUCION DE FRECUENCIAS MEDIDAS DE DISPERSION

2.6 RESUMEN

2. t

JNTRODUCCIONEn el capitulo 1 se establecio que la toma de medici ones y el proceso de con teo producen numeros que contienen informacion. El objetivo de la gente que aplica herramientas estadisticas a esos numeros es determinar la naturaleza de esa informacion. Esta tare a es mucho mas facil si los numeros estan organizados y resumidos. Cuando se hacen las mediciones sobre entidades de una poblaci6n 0 . muestra, los valores resultantes estan disponibles para el investigador 0 estadfstico como una masa de datos desorganizados. Las mediciones que no han sido organizadas, procesadas 0 manejadas de alguna otra forma se les llama datos crudos (materia prima). A menos que el numero de observaciones sea extremadamente pequeno, es improbable que esos datos crudos proporcionen suficiente informaci6n hasta que sean puestos en alglin orden. En este capitulo se ensenan algunas tecnicas para organizar y procesar datos de tal manera que sea mas facil determinar que informacion contienen. Lo mas actual en procesamiento de datos es el calculo de un numero individual que de alguna manera incluye informaci6n importante acerca de los datos que sirvieron para calcularlo. A estos numeros individuales utilizados para describir datos se les llama medidas descriptivas. Despues de estudiar este capitulo el estudiante podra calcular algunas medidas descriptivas tanto para poblaciones como para muestras de datos. EI proposito de este capitulo es desarrollar en el estudiante habilidades para poder manejar la informacion numerica que se encuentre como profesional en ciencias de la salud. Entre mejor capacitado este para manejar tal informacion, tendra una mejor idea del ambiente y de las fuerzas que generan la informacion.

15

16

CAPITULO 2

ESTADISTICA DESCRIPTIVA

2.2

ARREGLO OBDENADOEI primer paso para organizar datos es preparar un arreglo ordenado. Un arreglo ordenado es una lista de valores de un grupo (sea poblacion 0 muestra) en orden de magnitud de menor a mayor valor. Se recomienda el uso de la computadora si el numero de mediciones a ordenar es bastante grande. Un arreglo ordenado permite determinar con rapidez los valores de las medi ciones mas pequefias, de las mas grandes, y otros aspectos acerca de los datos arre glados que pudieran necesitarse en caso de urgencia. A continuaci6n se muestra la construcci6n de un arreglo ordenado con los datos que se estudiaron en el ejemplo 1.4.1.EJEMPL92.2.1

La tabla 1.4.1. contiene una lista de las edades de los individuos que participaron en el estudio de residentes de Groenlandia, estudiados en el ejemplo 104.1. Como puede apreciarse, esta tabla desordenada requiere de mucha investigaci6n para determinar informacion basica como la edad de los individuos mas j6venes hasta los mas viejos.Soludon: La tabla 2.2.1 presenta los datos de la tabla 1.4.1 en forma de arreglo ordenado. AI referirse a la tabla 2.2.1 es posible determinar rapidamen te la edaddel individuo mas joven (18) y la edad del mas viejo (63). Tambien es posible identificar con facilidad que casi tres cuartas partes de los individuos tienen menos de 40 afios de edad.

Anii1isisporcompldadom Cuando se requieren cilculos adicionales y organiza cion de un conjunto de datos en forma manual, el trabajo se facilita mediante un arre glo ordenado. Si los datos son analizados por computadora, esto no es aconsejable

TABIA2.2.1 tabla 1.4.1

Arreglo ordenado de las edades de los individuos de la

18 22 24 26 27 29 30 32 37 40 43 47 51

18 23 24 26 27 29 30 33 37 40 43 47 51

\

19 23 24 26 27 29 31 33 37 40 43 48 .52

19 23 24 26 28 29 31 33 37 40 44 48 52

20 23 25 26 28 29 31 34 37 40 44 48 53

21 23 25 26 28 30 31 34 38 40 44 48 53

21 23 25 27 28 30 31 34 38 41 45 48 53

21 23 25 27 28 30 31 34 38 41 45 48 53

22 24 26 27 28 30 31 34 38 41 45 49 56

22 24 26 . 27 28 30 32 35 38 42 46 49 . 61

22 24 26 27 29 30 32 36 39 42 46 50 62

22 24 26 27 29 30 32 36 39 42 47 50 63

22 24 26 27 29 30 32 36 39 42 47 50 63

2.3

DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

17

Dialog box: Manip .. Sort Session command:

Sort

II

MTB > Sort Cl C2; SUBC> By Cl.

~===i 0 Qescending

l====i 0 }====i 0

Dgscending D&.5c"Qding Descendin!

~~~FIGURA 2.2.1

o

l;,;l.l@iIL:1

Caja de diaIogo para e1 ejemplo 2.2.1.

para preparar un arreglo ordenado, a menos que se necesite para prop6sitos de refe rencia 0 para otro uso. La computadora no necesita que el usuario haga un arreglo ordenado antes de meter los datos para construir la distribuci6n de frecuencias y para hacer otros amllisis. Si desea un arreglo ordenado, muchos paquetes de software para computado ni contienen rutinas para construirlo. Por ejemplo, suponga que se usa el MINITAB Yque las edades de la tabla 104.1 estan en la columna 1. El comando SORT C 1 C2 dasifica las edades y las pone en la columna 2, como 10 muestra la tabla 2.2.1. Si se utilizael paquete MINITAB para Windows, y los datos se colocan en la columna 1, el proceso es como sigue: con el mouse haga die en Manip, luego en Sort, escriba c1 en la caja etiquetada como "Sort column[s]", escriba c2 en la caja eti quetada como "Store sorted column[s] in" (para tener los datos dasificados en c2), y escriba c1 en la caja etiquetada "Sort by column". Si desea ordenar en forma descendente haga dic en "Descending". Si no se selecciona esa opci6n en este punto, el resultado es una clasificaci6n en orden ascendente. Finalmente, haga dic en OK. La caja de dialogo para el ejemplo 2.2.1 se muestra en la figura 2.2.1.

2.3 DATOSAGRUPADOS YDISTRIBUCION DE FRECUENCIASAunque un conjunto de observaciones puede hacerse mas comprensible y mas sig nificativo por medio de un arregloordenado, es mas util el resumen que se obtiene mediante la agrupaci6n de datos. Antes de la era de las computadoras, uno de los principales objetivos de agrupar grandes conjuntos de datos era el de facilitar el calculo de varias medidas descriptivas, como porcentajes y promedios. Debido a

18

CAPiTULO 2

ESTADiSTICA DESCRIPTIVA

. que las computadoras pueden ejecutar esos calrulos a partir de grandes conjuntos sin agrupacion previa, actualmente el proposito principal de agrupar los datos es el de resumir la informacion. Se debe tener en mente que los datos contienen infor macion y que el resumen es una forma sencilla para determinar su naturaleza. Para agruparun conjunto de observaciones se debe seleccionar un conjunto de intervalos contiguos que no se traslapen, para que cada valor en el conjunto de observaciones pueda ser puesto en uno y solo uno de los intervalos. Estos intervalos normalmente se identifican como intervalos de clase. Una de las primeras consideradones ruando se agrupan datos es la de ruantos intervalos se deben incluir. Resulta inadecuado incluir pocos intervalos, porque se perderia informacion. Por otro lado, si se utilizan muchos intervalos, el objetivo de resumir no se consigue. La mejor guia en este caso, asi como para la toma de otras dedsiones sobre la agrupadon de datos, es el conocimiento de los datos. Puede ser que los intervalos de clase queden determinados por los precedentes, como en el caso de las tabulaciones anuales, en las que los intervalos de clase de los afios anteriores se conservan para propositos comparativos. Una regIa empfrica que habitualmente se sigue establece que deben ser.entre seis y 15 intervalos. Si hay menos de seis intervalos, los datos se han resumido en exceso y la informaci6n que contienen se habra perdido. Si hay mas de 15 intervalos, los datos no fueron resumidos 10 suficiente. Quienes deseen gufas mas espedficas para decidir cuantos intervalos de clase son necesarios, pueden utilizar la f6rmula propuesta por Sturges (1). Esta formula se enuncia k = 1 + 3.322(loglO n), donde k es el numero de intervalos de clase y n es el numero de valores en el conjunto de datos en observaci6n. La respuesta que se obtiene con la regla de Sturges no es definitiva, sino que se debe considerar unica mente como gufa. El numero de intervalos de clase especificado par esta regIa debera incrementarseo disminuirse por conveniencia y para lograr una presenta cion mas clara. Por ejemplo, suponga que una muestra tiene 275 observaciones para agrupar. Ellogaritmo base 10 de 275 es 2.4393. Con la aplicacion de la formula de Sturges se obtiene k = 1 + 3.322(2.4393)::::: 9. En la practica, otras consideraciones pueden sugerir el uso de 8 0 menos, 0 quiza 10 0 mas intervalos de clase. Otra preguntaque se debe responder se refiere a la amplitud del intervalo de clase. Los interval os de clase generalmente deben ser de la misma amplitud, aun que algunas veces esto es imposible. La amplitud se determina dividiendo el rango entre k, que es el numero de intervalos de clase. Simbolicamente, la amplitud de los intervalos de clase esta dada por:

w

R k

(2.3.1)

donde R (el rango) es la diferencia entre la observacion mas pequefia y la mas grande dentro del conjunto de datos. Por 10 general, con este procedimiento se obtiene una amplitud que no es conveniente usar, y de nuevo se debe utilizar el sentido comun para elegir la amplitud (normalmente cercana a la que se obtiene con la ecuacion 2.3.1) que sea mas conveniente.

2.3

DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

19

Existen otras reglas empiricas que son de gran ayuda para armar intervalos de clase utiles. Cuando la naturaleza de los datos los hace adecuados, la amplitud de los intervalos de clase de 5 0 10 unidades y amplitudes multiplos de 10 tienden a hacer que el resumen sea mas comprensible. Cuando se utilizan estas amplitudes es una buena practica tener ellimite inferiorde cada extrema de intervalo en 0 0 5. Generalmente los intervalos de clase se almacenan de menor a mayor: es decir; el primer intervalo de clase contiene las mediciones mas pequenas y el ultimo inter valo contiene las mediciones mas grandes. Cuando sea este el caso, ellimite infe rior del primer intervalo de clase debe ser menor 0 igual que la medici6n mas pequena en el conjunto de datos, y ellimite superior del ultimf) intervalo de clase debe ser mayor 0 igual que la medici6n mas grande. Aunque muchos paquetes de software para microcomputadora contienen ru tinas para construir interval os de clase, frecuentemente requieren que el usuario registre la amplitud del intervalo y el numero de intervalos deseados. A continua ci6n se utilizan las 169 edades incluidas en la tabla 1.4.1 y arregladas en la tabla 2.2.1 para ilustrar la construcci6n de la distribuci6n de frecuencias.

EJEMPLO 2.3. tSe quiere saber cuantos intervalos de clase se tienen en la distribuci6n de frecuen cias de datos y tambien se quiere saber que tan amplios deben ser los intervalos.

Solucion: Para tener una idea del numero de intervalos a utilizar, la aplicaci6n de la regIa de Sturges indica:

k

= 1 + 3.322(log 169) = 1 + 3.322(2.227886705)"" 8

Ahora, al dividir el rango entre 8 para darse una idea de la ampli tud de los intervalos de clase, se obtiene:

R = 63 -18 = 45 =5.625 k 8 8Es evidente que un intervalo de clase con una amplitud de 5 0 10 es mas conveniente y significativo para ellector. Suponga que se decide que sea 10. Ahora es posible construir los intervalos. Puesto que el valor mas pequeno en la tabla 2.2.1 es 18 y el mayor es 63', entonces los intervalos inician con 10 Y terminan con 69. Se obtienen los siguientes intervalos: 10-19 20-29 30-39 40-49 50-59 60-69

20

CAPiTULO 2

ESTADiSTICA DESCRIPTIVA

Puede observarse que hay 6 de esos intervalos, es dedr, dos menos que el numero de intervalos calculados con la regIa de Sturges . .AIgunas veces resulta util referirse al centro Hamado punta media del intervalo de clase, el cual se determina sumando los limites extre mosdel intervalo de clase y dividiendo entre 2~ Por ejemplo, el punto medio del intervalo de clase 10-19 es (10 + 19)/2= 14.5. Cuando se agrupan datos manualmente, determinar el numero de valores que caen dentro de cada intervalo de clase es solo un problema de busqueda en el arreglo ordenadoy conteo del numero de observadones que caen en los distintos intervalos. Si se aplica esto al ejemplo anterior, se obtiene la tabla 2.3.1. Una tabla de este tipo se canoce como distribucwn de frecuencias. En ella se muestra como se distribuyen los valores dentro de los intervalos de clase espedfica dos. AI consll,ltarla, es posible determinar la frecuenda de ocurrencia de los valores dentro de cualquiera de los intervalos.

Frecuencias relaiivas En ocasiones, puede ser de utilidad conocer la pro pordon, en lugar del nlimero, de valores que caen dentro de un intervalo de clase en particular. Esta informacion se obtiene dividiendo el numero de valores en un intervalo de clase particular entre el numero total de valores. Si en el ejemplo ante rior se pretende conocer la proporci6n de valores entre 30 y 39, inclusive, se divide 47 entre 169, para obtener .2781. Esto indica que 47 de 169, ~7/169, 0 0.2781 de los valores caen entre 30 y 39. AI multiplicar .2781 por roo se obtiene el porcen taje de valores entre 30 y 39. Con 10 anterior se puede decir que el 27.81 por ciento de los individuos tienen entre 30 y 39 alios de edad. Finalmente, a la pro pordon de valores que caen dentro de un intervalo de clase se Ie conoce como la frecuencia relativa de acurrencias en ese intervalo.

TABlA 2.3.1 Distribuci6n de frecuencias de las edades de los 169 individuos incluidos en la talJla 1.4.1 y2.2.1Intervalos de clase Frecuencias

10-19 20-29 30-39 40-49 50-59 60-69 Total

4 66 47 36 12 4 169

2.3

DATOS AGRUPADOSYDISTRIBUCION DE FRECUENCIAS

21

TABlA 2.3.2 Distribuciones de: frecuencia, frecuencia acumulada, frecuencia relativa y frecuencia relativa acumulada de las edades de los sujetos descritos en el ejemplo 1.4.1 Frecuencia relativa acumulada

Intervalos de clase

Frecuencia

Frecuencia acumulada

Frecuencia relativa

10-19 20-29 30-39 40-49 50-59 60-69 Total

4 66 47 36 12 4 169

4 70 117 153 165 169

.0237 .3905 .2781 .2130 .0710 .0237 1.0000

.0237 .4142 .6923 .9053 .9763 1.0000

Para determinar la frecuencia de valores que caen dentro de dos 0 mas in tervalos de clase, se obtiene la suma del numero de valores que caen dentro de los intervalos de clase correspondientes. Analogamente, si se pretende conocer la frecuencia relativa de ocurrencia de valores que caen dentro de dos 0 mas interva los de clase, entonces, se suman las frecuencias relativas respectivas. Se pueden sumar, 0 acumular, las frecuencias y las frecuencias relativas para facilitar la obten cion de informacion ace rca de las frecuencias 0 frecuencias relativas de valores dentro de dos 0 mas intervalos de clase contiguos. La tabla 2.3.2 muestra los datos de la tabla 2.3.1 con las frecuencias acumuladas, frecuencias relativas y frecuen cias relativas acumuladas. Si el interes esta centrado en la frecuencia relativa de los valores que caen entre 30 y 59, entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla 2.3.2 y se resta .4142 de .9763 para obtener .5621. Se puede utilizar elpaquete de software estadfstico MINITAB para obtener una tabla comparable con Ja tabla 2.3.2. MINITAB genero los valores de la tabla con las frecuencias relativas y frecuencias relativas acumuladas expresados en por centajes. EI procedimiento incluye asignar codigos a los intervalos de clase y meter la informacion a traves del teclado. Cuando se asignan los codigos 0, 1, 2, 3, 4 Y 5, respectivamente, a las seis clases de intervalos, se debeteclear el siguiente comando: MTB> Code (10: 19)0 (20:29) 1 (30:39)2 (40:49)3 (50:59)4 (60:69)5 c1 c2 La caja de dialogo, los comandos de la sesion y la salida se muestran en la figura 2.3.1.

E1 histograma Es posible presentar una distribucion de frecuencias (0 una distribucion de frecuencias relativas) graficamente en forma de histograma, que es un tipo especial de grafica de barras.

22

CAPITULO 2

ESTADISTICA DESCRIPTIVA

Caja de dialogo:

Comandos de la sesi6n:

Stat

>-

Tables

>--

Tally

Teclear C2 en Variables. Verifique Counts, Percents, Cumulative Counts y Cumulative percents en Display. Clic OKResultados: Resumen estadlstico para variables discretas

MTB> SUBC> SUBC> SUBC> SUBC>

C2i

Countsi CumCountsi Percents; CumPercents.

C2 0 1 2 3 4 5

Count CumCnt 4 4 66 70 47 117 36 153 12 165 4 169

Percent 2.37 39.05 27.81 21.30 7.10 2.37

CumPct 2.37 41.42 69.23 90.53 97.63 100.00

N

169FIGURA 2.3.1 Distribuci6n de frecuencia, frecuencias acumuladas, porcentajes y porcentajes acumulados de las edades de los individuos descritos en el ejemplo 1.4.1, tal como 10 construy6 el paquete MINITAB.

Para construir un histograma, los valores de la variable respectiva se ponen sabre el eje horizontal, y las frecuencias (0 frecuencias relativas, si as! se quiere) de ocurrencia, en el eje vertical. Sobre cada intervalo de clase, arriba del eje hori zontal, se levanta una barra rectangular, 0 celda, como algunas veces se Ie nom bra, hasta que intercepte con la frecuencia respectiva. Las barras del histograma deben ser adyacentes, y es necesario tomar en cuenta los lfmites correctos de los intervalos de clase para evitar la separacion de barras en la grafica. El nivel de precision que se observa en los datos obtenidos y que tienen medi ciones ~obre una escala continua indica algUn orden de redondeo. El orden de redon dec refleja la preferencia personal del informante 0 las limitaciones de los instrumentos de medicion empleados. Cuando una distribucion de frecuencia se construye a par tir de los datos, los Hmites de los intervalos de clase frecuentemente reflejan el grado de precision de los daws originales. Esto mismo se ha efectuado en el ejemplo. Sin embargo, se sabe que algunos de los valores que caen dentro del segundo intervalo de clase, por ejemplo, probablemente seran un poco menores que 20 mientras que

2.3

DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS70 60 50'0 c:Q)t,)

23

TABlA 2.3.3 Datos de la iabla 2.3. t que muestra los IImites COl'l"ectos de los intervalos de claseIntervalos de clase 9.5-19.5 19.5-29.5 29.5-39.5 39.5-49.5 49.5-59.5 59.5-69.5 Total Frecuencias 4 66 47 36 12 4 169::l:::J

40 30

u:

Q)

20

10

14.5

24.5 34.5 44.5 Edad

54.5 64.5

FIGURA 2.3.2 Histograma de las edades de 169 individuos a partir de la tabla 2.3.1.

otros seran un poco mayores que 29, cuando la medici6n es precisa. AI considerar la continuidad implfcita de la variable, y suponiendo que los datos fueran redondeados al entero positivo inferior mas pr6ximo, entonces es 16gico suponer que 19.5 y 29.5 son los limites correctos para este segundo intervalo. Los limites correctos para cada intervalo de clase se toman como semuestra en la tabla 2.3.3. Si se elabora una grafica utilizando estos lfmites de intervalos de clase como la base de los rectangulos, no habra separaciones entre las barras, y se obtendra el histograma que se muestra en la figura 2.3.2. Se utiliz6 el paquete MINITAB para elaborar el histograma. Se almacenaron los datos en la columna 1 y se Ie nombr6 "Edad". El procedimiento se muestra en la figura 2.3.3. EI mensaje 14.5:64:5110 indica que el primer punto medio es 14.5, que el ultimo punto medio es 64.5 y que los intervalos estan igualmente espaciados en incrementos de 10 unidades. Se con sider6 un espacio delimitado por el eje horizontal y ellfmite exterior formado por las barras en la figura 2.3.2.

Caja de dialogo: Graph ,.. HistogramTeclear Edad en X. Clic Options. Elegir MidPoint. Teclear 14.5:64.5/l0 en MidPoint/cutPoint positions: Clic OK dos veces.

Comandos de la sesi6n:MTB> Histogram 'Edad'; SUBC> MidPoint 14.5:64.5/10; SUBC> Bar.

FIGURA 2.3.3 Caja de diilogo y comandos de la sesi6n de MINITAB para elaborar el histograma a partir de los datos del ejemplo 1.4.1.

24

CAPITULO 2

ESTADISTICA DESCRIPTIVA

AI espacio entre los limites del histograma se Ie conoce como area del histograma. A cada observacion se Ie asigna una unidad de esta area. Puesto que se tienen 169 observaciones, el histograma tiene en total 169 unidades. Cada harra contiene cierta proporcion del area total, de acuerdo con la frecuencia. La segunda barra, por ejemplo, contiene 66/169 del area. Esto, como ya se estudi6, es la fre cuencia de ocurrencia de los valores entre 19.5 y 29.5. A partir de esto se observa que las subareas del histograma definidas por las barras corresponden a las fre cuencias de ocurrencia de valores entre los lfmites de las areas de la escala horizon tal. El porcentaje de una subarea particular del area total del histograma es igual a la frecuencia relativa de ocurrencia de los val ores entre los puntos correspondientes sobre el eje horizontal.

El polfgono de jrecuencia Una distribuci6n de frecuencia tambien puede ser representada graficamente por medio de un poligono de frecuencia, que es una dase especial de grafica lineal. Para dibujar este poHgono, primero se hace una marca arriba del punto medio de cada intervalo de clase, representado sobre el ~je horizontal de la grafica, como se muestra en la figura 2.3.2. La altura con respecto del eje horizontal de una marca dada corresponde ala frecuencia del intervalo de c1ase. AI unir las marcas mediante lineas rectas se obtiene el poligono de frecuen cia. La figura 2.3.4 muestra el polfgono de frecuencia para los datos de edades de la tabla 2.2.1. Observe que el poligono cae sobre el eje horizontal en los extremos en los puntos que corresponderian a los puntos medios en caso de haber una celda adi donal en cada extremo del histograma correspondiente. Esto permite que el area total sea delimitada. El area total bajo el poligono de frecuencia es igual al area bajo

'5 c:(J

'"

Probability Distributions> Poisson

Comandos de la sesi6n:MTB > CDF Cl; Poisson SUBC>

Seleccionar Cumulative probability. Teclear .70 en Mean. Seleccionar Input column y teclear Cl. Clic OK.Resultados: Probability Distribution FunctionPoisson with mux

.70.

=

0.700000

0.00 1.00 2.00 3.00 4.00 5.00 6.00

P(X = x) 0.4966 0.8442 0.9659 0.9942 0.9992 0.9999 1.0000FIGURA 4.4.2 Calculo efectuado par el paquete MINITAB de la probabilidad de Poisson acumulada para x = 0 hasta x 6 y Ie = .7.

104

CAPiTULO 4

DISTRIBUCIONES DE PROBABILIDAD

4.4.2 Suponga que en un periodo de varios aftos el nfunero promedio de muertes por cierta enfer medad no contagiosa es de 10. Si el numero de muertes por esa enfermedad sigue la distri buci6n de Poisson, emil es la probabilidad de que durante el ano en curso: Exactamente siete personas mueran por esa enfermedad b) Diez 0 mas personas mueran por esa enfermedad c) No haya muertes por esa enfermedada)

4.4.3 Si el numero promedio de accidentes graves por ano en una fibrica grande (donde el nfunero de empleados es constante) es de cinco, calcule la probabilidad de que en el ano en curso haya:a) Exactamente siete accidentes c) Cero accidentes b) Diez 0 mas accidentes

d) Menos de cinco accidentes

4.4.4 En un estudio sobre a la efectividad de un insecticida contra cierto insecto, se fumig6 una gran area de tierra que, mas tarde, se examin6 por cuadrantes elegidos aleatoriamente y en la que se cont6 el numero de insectos vivos por secci6n. Experiencias previas han demostra do que el numero promedio de insectos vivos por cuadrante, despues de fumigar, es de .5. Si el numero de insectos vivos por secci6n sigue una distribuci6n de Poisson, emil es la probabi lidad de que cierto cuadrante elegido tenga:a)

Exactamente un insecto vivo

b) Cero insectos vivos

c) Exactamente cuatro insectos vivos

d) Uno 0 mas insectos vivos

4.4.5 En cierta poblaci6n, cada ano se diagnostica un promedio de 13 nuevos casos de cancer esofagico. Si la incidencia anual de este tipo de cancer sigue una distribuci6n de Poisson, calcule la probabilidad de que en un ano determinado el numero de nuevos casos diagnosti cados de cancer sea:a)

Exactamente 10 c) No mas de 12

b) AI menos ocho

d) Entre nueve y IS, inclusive

e) Menos de siete

4.5 DISmmUCIONES DE PROBABHIDAD CONTINUALas distribuciones de probabilidad consideradas hasta aqui, binomial y de Poisson, son distribuciones de variable discreta. Ahora se consideran las distribuciones de variable aleatoria continua. En el capitulo 1 se dijo que una variable continua es aquella que puede asumir cualquier valor en un intervalo espedfico de valores. Consecuentemente, entre cualesquiera dos valores asumidos por la variable conti nua existe un m1mero infinito de valores. Para comprender, la naturaleza de la distribuci6n de una variable aleatoria continua, considere los datos presentados en la tabla 1.4.1 yen la figura 2.3.2. En la tabla hay 169 valores para la variable aleatoria edad. EI histograma de la figura 2.3.2 esta construido con puntos espedficos localizados sobre una linea, que repre senta la medici6n de interes y que forma una serie de rectangulos, cuyas bases son las distancias entre dos puntos espedficos, sobre la linea y cuyas alturas representan el numero de val ores de la variable que caen entre los dos puntos especificados. Los intervalos delimitados por cualquier par de puntos especificados consecutivos se llaman intervalos de clase.

4.5fIx)

DISTRIBUCIONES DE PROBABILIDAD CONTINUA

105

x

FIGURA 4.5.1 Histograma resultante de un gran numero de valo res y c1ases de intervalos pequenos.

Como se estudi6 en el capitulo 2, las subareas del histograma corresponden a las frecuencias de ocurrencia de los valores de la variable entre los lfmites de la esc ala horizontal de esas subareas. Esto proporciona un metodo para calcular la frecuen cia relativa de ocurrencia de valores entre dos puntos especfficos; tan s610 es nece sario determinar la proporci6n del area total del histograma que se encuentra entre los puntos especificados. Esto se puede hacer mas convenientemente consultando las columnas de frecuencia relativa 0 frecuencia relativa acumulada en la tabla 2.3.2. Imagine ahora una situaci6n donde el numero de valores de la variable aleatoria es muy grande y la amplitud de los intervalos de clase es muy pequefia. EI histograma resultante seria como el que se muestra en la figura 4.5.1. Si se conectan los puntos medios de las celdas del histograma en la figura 4.5.1 para formar un poligono de frecuencia, se obtendra una figura mas suave que el polfgono de frecuencia de la figura 2.3.4. En general, cuanto mas se aproximan a infinito el numero de n observacio nes, y la amplitud de los intervalos de clase se aproximan acero, el polfgono de frecuencia se aproxima a una curva mas suave como la que se muestra en la figura 4.5.2. Estas curvas suaves se utili zan para representar gnlficamente las distribuciofIx)

FIGURA 4.5.2

Representaci6n grafica de una distribuci6n continua.

106

CAPiTULO 4fIx)

DISTRIBUCIONES DE PROBABILIDAD

a x FIGURA 4.5.3 Gratica de una distribuci6n continua que muestra el area entre a y b.

nes de las variables aleatorias continuas. Esto tiene algunas consecuencias imp or tantes cuando se trabaja con distribuciones de probabilidad. Primero, el area total bajo la curva es igual a uno, como 10 es para el histograma, y la frecuencia relativa de ocurrencia de los valores entre dos puntos especfficos cualesquiera, sobre el eje de las x, es igual al area total delimitada por la curva, el eje de las x y las rectas perpen diculares levantadas sobre ambos puntos del eje de las x, tal como 10 muestra la figura 4.5.3. La probabilidad de cualquier valor especifico de la variable aleatoria es cera. Esto es logico, puesto que un valor especffico se representa como un punto sobre el eje de las x y el area por encima de ese punto es cero.COIRO encontrar el area bajo la curva En un histograma, seg(tn se ha visto, las subareas de interes se calculan sumando areas representadas por las co lumnas (celdas). En el caso de una curva, esta no presenta celdas, por 10 que se debe buscar un metodo para calcular las subareas. Este metodo es suministrado por el cileu 10 integral. Para calcular el area bajo la curva entre dos puntos cualesquiera a y b, se integra lafunci6n de densidad de a a b. Unafunci6n de densidad es una formula em pleada para representar la distribuci6n de una variable aleatoria continua. La inte gracion es el caso lfmite de la sumatoria, aunque aqui no se efectua ninguna integracion, puesto que las materna tic as involucradas estan mas aHa del alcance de este Iibro. Tambien, como se ve mas adelante, para todas las distribuciones conti nuas a considerar existe una forma mas fadl para calcular el area bajo la curva. Aunque la definicion de distribucion de probabilidad para una variable aleatoria continua esta implfcita en el estudio anterior, a modo de resumen se pre senta como sigue en forma mas concreta.

DEFINICION A una funci6n no negativa f(x) se Ie llama distribucion de probabilidad (tambien llamada, algunas veces, funci6n de densidad de probabilidad) para la variable aleatoria continua X, si el area total deliInitada por su curva y el eje de las x es igual a 1 y si la subarea delimitada por la curva, el eje de las x, y por las lineas perpendiculares levantadas sobre dos puntos cualesquiera a y b da la probabilidad de que X este entre los puntos a y b.

4.6

DISTRIBUCI6N NORMAL

107

4.6

DISTRIBUCION NORMALA continuaci6n se estudia la distribuci6n mas importante en toda la estadistica: la distribucwn normal. La f6rmula para esta distribuci6n fue publicada por Abraham De Moivre (1667-1754) el 12 de noviembre de 1733. Muchos otros matem:hicos destacan en la historia de la distribuci6n normal, induyendo a Carl Friedrich Gauss (1777-1855). A esta distribuci6n frecuentemente se Ie llama distribuciOn de Gauss como reconocimiento a las contribuciones de este matematico. La densidad normal esta dada porf(X) =/20')

oo es aproximadamente normal con una media de: con variancia

cuando n 1 Y n 2 son [Jrandes.

Se considera a n 1 Yn 2 suficientemente grandes cuandondl' n 2 P2' nJ(l-P 1 ), Y n 2(l - P2 ), son mayores que 5.

Dirf;tribucion nzuestral de /11 Y /12: elaboracion Para elaborar fisicamen te la distribuci6n muestral de la diferencia entre las proporciones de dos muestras, se procede en la forma descrita en la seccion 5.4 para obtener la distribucion muestral de la diferencia entre dos medias. Dadas dos poblaciones suficientemente pequenas, es posible extraer de la poblacion 1 todas las muestras aleatorias posibles de tamano n J y calcular a partir de cada conjunto de datos de la muestra, la proporcion de la muestra PI' De la poblaci6n 2, puede extraerse independientemente todas las muestras aleatorias simples de tamano n 2 Y calcular, para cada conjunto de datos de la muestra, la proporci6n de la muestra P2' Es posible calcular las diferencias entre todos los pares posibles de proporciones muestrales, donde un miembro de cada par tiene un valor PI> y el otro un valor P2' Asi la distribuci6n muestral de la diferencia entre las dos proporciones de las muestras consta de todas las diferencias existentes acom panadas de sus frecuencias de ocurrencia (0 frecuencias relativas). Para poblaciones grandes finitas 0 poblaciones infinitas, es posible obtener un calculo aproximado de la distribuci6n muestral de la diferencia entre las proporciones de las muestras, tomando un gran numero de muestras aleatorias simples independientes para pro ceder de la forma descrita.

5.6

DISTRIBUCION DE LA DIFERENCIA ENTRE LAS PROPORCIONES

145

Para responder a preguntas respecto a la diferencia entre las proporcio nes de dos muestras, se utiliza la siguiente formula:

Z=-r==============(5.6.1)

EJEMPLO 5.6.1Suponga que la proporcion de consumidores moderados a grandes consumidores de estupefacientes ilegales es de .50 para la poblacion 1, en tanto que en la poblaci6n 2 la proporci6n es de .33. ~Cual es la probabilidad de que muestras de tamaiio 100, extrafdas de cada una de las poblaciones, presente un valor de PI - P2 igual a .30?

Solucion: Se supone que la distribuci6n muestral de PI normal, con una media de

P2 es aproximadamente

y variancia. (}'2

p,-p,

= (.33)(.67)100 .004711

(.5)(.5)

100

EI area correspondiente ala probabilidad buscada es la que se encuen tra bajo la curva de PI - P2' a la derecha de .30. AI transformar en la distribucion normal estandar se obtiene

Z=-r==============V!PI(l-PI) P2(I-P2) : + "-'---'--''nl

(Pt -P2)-(PI-P2)n2

~.004711

:30 -.17 . =.189

AI consultar la tabla D, se encuentra que el area bajo la curva normal estandar que esta a la derecha de Z 1.89 es 1 - .9706 = .0294. Por 10 tanto, la probabilidad de observar una diferencia igual a .30 es de .0294.

EJEMPLO 5.6.2Se sabe que en una poblacion de adolescentes 10 por ciento de los varones son obesos. Si la misma proporcion de mujeres en esa poblacion son obesas, ~cual es la probabilidad de que una muestra al azar de 250 varones y 200 mujeres proporcione un valor de PI - P2 ;:: .06 ? .

Solucion: Se supone que la distribucion muestral de PI - P2 es aproximadamente normal. Si la proporci6n de individuos obesos es la misma en ambas poblaciones, la media de la distribucion es igual a 0 y la variancia es:

146

CAPITULO 5

ALGUNAS DISTRIBUCIONESDE MTIESTREO IMPORTANTES

.00081 El area de interes bajo la curva de PI - P2 es la que se encuentra a la derecha de .06. El valor correspondiente de z es:

z=

.06-0

~.00081

2.11

AI consultar la tabla D se encuentra que el area a la derecha de z es 1 .9826 =.0174.

= 2.11

EjERCICIOS5.6.1 En una poblaci6n de ninos con retraso mental, se sabe que la proporci6n de los que son hiperactivos es de .40. Se extrajo una muestra aleatoria de tamano 120 de esa poblaci6n, y otra de tamano 100 a partir de otra pohlaci6n de ninos con el mismo problema. Si la propor ci6n de ninos hiperactivos es la misma en ambas poblaciones, ~cual es la probabilidad de que la muestra presente comoresultado una diferencia P2de .160 mas?

PI

5.6.2 Se tienen bases para suponer que 40 por ciento de las casas en cierta area de la ciudad estan en malas condiciones. Una muestra aleatoria de 75 casas de esa area y otra compuesta de 90 casas de otra secci6n dieron una diferencia'de PI - P2 = .09. Si no hay diferencia en la proporci6n de casas en malas condiciones entre estas dos areas, ~cuaI es la probabilidad de observar una diferencia de esta magnitud 0 mucho mayor? 5.6.3 EI resultado de una investigaci6n realizada por el National Center for Health Statistics (A-5) revela que 14 y 23.8 por ciento de los hombres y de las mujeres, respectivamente, con edades entre 20 y74 arros tienen una desviaci6n de 20 por ciento 0 mas con respecto a su peso ideal. Suponga que se extrae una muestra aleatoria simple de 120 varones y una muestra aleatoria simple independiente de 130 mujeres. ~Cual es la probabilidad de que la diferencia entre las proporciones de las muestras PF - PM este entre .04 y .20?

5.7 RESUMENEI tema principal de este capitulo son las distribuciones muestrales, por 10 que aqul se presenta el concepto, aSI como los mas importantes tipos de distribuci6n muestral:1. Distribuci6n de la media de una muestra unica.

2. Distribuci6n de la diferencia entre las medias de dos muestras. 3. Distribuci6n de la proporci6n de la muestra; 4. Distribuci6n de la diferenciaentre las proporciones dedos muestras. Se destaca la importancia de estos aspectos, y se exhorta allector para que se asegure que los ha comprendido antes de pasar al siguiente capitulo.

PREGUNTAS Y EJERCICIOS DE REI'ASO

147

PHEGUNTAS YF-JERCICIOS DE REPASOes una distribucion muestral? 2. Explique como se puede elaborar una distribucionmuestral a partir de una poblacion.1. ~Que

3. Describa la distribtiCion muestral de la media de una muestra cuando el muestreo es con reemplazos a partir de una p~blacion que sigue una distribucion normal. 4. Explique el teorema del Hmite central. 5. mn que forma difiere la. distribucion muestraide la media (')'>-'-----''-

(n -1)s2

2

(n -1)s2Xi'-(a/2)

X~/2

N6tese que la direcci6n de las desigualdades cambian cuando se aplica el elemento redproco. Pero si se invierte el orden de los terminos se tiene- - - < (')' < -'---'--(-I)s22

(n-l)s2

X~-(a/2)

~/2

(6.9.1)

que es un intervalo de confianza de 100(1- a.) por ciento para (')'2. Si se toma la rafz cuadrada de cada termino de la ecuaci6n 6.9.1, se tiene el siguiente intervalo de confianza de 100(1 - a.) para la desviaci6n estandar de la poblaci6n:

1..0. Basic Statistics> 1-Sample tTeclear Cl en Variables. Seleccionar Test mean y teclear 34.5 en la caja de texto. Clic OK.

Comandos de la sesi6n:MTB > TTEST 34.5 Cl

Resultados: T-Test of the MeanTEST OF MUN

34.500 VS MU N.E. 34.500 STDEV 0.630 SE MEAN 0.163T

15FIGURA 7.2.6

MEAN 33.798

-4.31

P VALUE 0.0007

Procedimiento y resultados del paquete MINITAB para el ejemplo 7.2.5.

Solndon: Se snpone que las condiciones para utilizar la estadlstica t se cumplen. Se registran los datos en la columna 1 y se procede como se muestra en la figura 7.2.6. Cada uno de los comandos del paquete MINITAB para pruebas unilaterales necesita un subcomando, EI subcomando es + 1 para prue bas unilaterales con la regi6n de rechazo en la cola derecha de la distri buci6n de t; -1 es el subcomando para pruebas unilaterales con la regi6n de rechazo en la cola izquierda de la distribuci6n. Por ejemplo, si la hip6tesis alternativa para este ejemplo hubiera sido Il > 34.5, el coman do del programa MINITAB serfaTTEST 34.5 Cli ALTERNATIVE +1.

Si la hip6tesis alternativa hubiera sido Il < 34.5, los comandos del pro grama MINITAB serian:~--------------~

TTEST 34.5 Cli ALTERNATIVE -1.

Para indicar que se trata de una prueba unilateral, en Windows, se hace dic con el mouse para seleccionar sobre la flecha que esti a un lado de la caja identificada como Alternative, y se elige la opci6n "less than" 0 "greater than" segUn sea el requerimiento. Si la distribuci6n z es la esta distica de prueba que conviene, la primera palabra comando del pro grama MINITAB es ZTEST. En Windows se escoge para la distribuci6n z I-Sample desde el menu Basic Statistics. Los demas comandos son los mismos que se utilizan para la prueba de la distribuci6n t.

EJERCICIOS

225

A partir de la impresi6n se deduce que el valor calculado para la estadis tica de prueba es -4.31 y que el valor p para la prueba es .0007. Los usuarios que utilizan el paquete SAS pueden obtener estos resultados mediante los procedimientos PROC MEANS 0 PROC UNIVARIATE para pruebas de hip6tesis. Cuando las estadisticas z y t son pruebas estadisticas inadecuadas para utilizarlas con los datos disponibles, es deseable el uso de una tec nica no parametrica para probar una hip6tesis respecto a una sola medi da de tendencia central. Uno de estos procedimientos, la prueba del signo, se estudia en el capitulo 13.

FJERCICIOS

Para cada uno de los siguientes ejercicios utilizar el procedimiento de prueba de hip6tesis de los diez pasos para los niveles de significaci6n dados. Para cada ejercicio, donde sea conve niente, explique la raz6n por la cual se escogi6 el tipo de prueba: unilateral 0 bilateraL Analice c6mo podrfan los investigadores y medicos utilizar los resultados de la prueba de hip6tesis de estos ejercicios. Para los medicos e investigadores 'que decisiones y acciones sedan las mas convenientes seglin los resultados de las pruebas realizadas? Los investigadores Bertino et al. (A-3) condujeron un estudio para examinar los datos reco lectados correspondientes a la farmacocinetica de la gentamicina en tres poblaciones mayores de 18 afios: pacientes con leucemia aguda, pacientes conotros padecimientos malignos no leucemicos y pacientes sin enfermedad maligna oculta 0 fisiopatologfas distintas de la insu ficiencia renal que se sabe alteran la farmacocinetica de la gentamicina. Entre las estadisticas reportadas por los investigadores estaba el valor 59.1 como media inicial calculada de la depuraci6n de creatina, con una desviaci6n estandar de 25.6 para una muestra de 211 pa cientes con enfermedad maligna distinta de la leucemia. Se pretende saber si es posible conduir que la media para la poblaci6n de individuos que presenta el mismo cuadro patol6 gico es menor que 60. Sea ex: 10. U no de los estudios de los investigadores Klesges et al. (A-4) tiene como prop6sito averiguarlos factores asociados con las discrepancias entre los niveles de carboxihemoglobina y el estado de tabaquismo autodedarado. Una muestra de 3918 no fumadores autodedarados present6 un nive! medio de carboxihemoglobina de .9 con una desviaci6n estandar de .96. Se pretende saber si es posible conduir que la media de la poblaci6n es menor que 1.0. Sea ex: =.01. El doctor Jeffrey M. Barrett (A-5) de Lakeland, en el estado de Florida, Estados Unidos, report6 los datos correspondientes a 8 casos de prolapso del cordon umbilical. Las edades de las madres eran de 25, 28, 17, 26, 27, 22, 25 Y 30 afios. Se pretende saber si es posible conduir que la media de la poblaci6n de la que se sup one fue extrafda la muestra es mayor a 20 afios. Sea ex: =.01. Se hizo un estudio de una muestra de 25 expedientes de enfermos cr6nicos atendidos como pacientes externos. El niimero medio de consultas por paciente fue de 4.8 y la desviaci6n estandar de la muestra fue de 2. ms posible conduir a partir de estos datos que la media de la poblaci6n es mayor que cuatro visitas por paciente? Suponga que la probabilidad de come ter un error de tipo I es de .05. ~Cuales son los supuestos que se deben cumplir? En una muestra de 49 adolescentes que se prestaron como sujetos para un estudio inmunol6gico, una variable de interes fue la prueba del diametro de reacci6n de la pie! a un antfgeno. La media de la muestray la desviaci6n estandar fueron eritema de 21 y 11 mm, respectivamen teo ,Es posible conduir a partir de estos datos que la media de la poblaci6n es menor que 30? Sea ex: =.05.

7.2.1

7.2.2

7.2.3

7.2.4

7.2.5

2267.2.6

CAPiTULO 7 PRUEBA DE HIPOTESIS

Nueve animales de laboratorio fueron infectados con cierta bacteria y luego inmunosuprimi dos. El numero medio de organismos aislados posteriormente de los tejidos de dichos ani males fue de 6.5 (datos codificados) con una desviaci6n estandar de .6. iEs posible concluir a partir de estos datos que la media de la poblaci6n es mayor que 6? Sea ex = .05. ~Que supuestos se deben cumplir? Una muestra de 25 estudiantes de enfermeria de primer ano tuvo una calificaci6n media de 77 en una prueba para medir su actitud hacia el paciente moribundo. La desviaci6n estandar de la muestra fue de 10. tProporcionan estos datos evidencia suficiente como para indicar, en un nive1 de significaci6n de .05, que la media de la poblaci6n es menor que 80? tQue supuestos se deben cumplir? Se desea saber si es posible concluir que el consumo medio diario de calorias de la poblaci6n rural de un pais en desarrollo es de menos de 2000. Una muestra de 500 individuos produjo un consumo medio de 1985 y una desviaci6n estandar de 210. Sea ex = .05. Una encuesta de 100 hospitales de tamano similar revel6 un censo medio diario en el servi cio de pediatria de 27 con una desviad6n estandar de 6.5. ~Proporcionan estos datos sufi dente evidenda para indicar que la media de la poblaci6n es mayor que 25? Sea ex = .05. Despues de seguir un programa de capacitaci6n en supervisi6n de hospitales durante una se mana, 16 administradores de hospital obtuvieron una calificaci6n media de 74 en una prueba llevada a cabo como parte de la evaluaci6n del programa de capacitacion. La desviaci6n estandar de 1a muestra fue de 12. Mathematical Expressions Tedear Diff en Variable. En la caja de Expression ted ear C2 - Cl. Clic OK. Stat> Basic Statistics> 1-Sample t

Comandos de la sesion:MTB > Name C3 = 'diff' MTB > Let 'diff' = C2 C1

MTB > TTest 0.0 'diff'; SUBC> Alternative -1

Tedear Diff en Variables. Seleccionar "less than" en la caja de Alternative. ClicOK.Resultados:Test of mu variable N diff 9 0.00 vs mu < 0.00 Mean StDev SE Mean -22.59 5.32 1.77

T

-12.74

P-Value 0.0000

FIGURA 7.4.2 Procedimiento y resultados para prueba de comparaciones por parejas. Ejemplo 7.4.1 (datos della tabla 7.4.1). Program a MINITAB.

EJERCICIOS

247

mas variables importantes puede requerir una gran inversion en tiempo y dinero. Otra desventaja es la perdida de grados de libertad. Si no se utilizan observaciones por parejasse tienen 2n 2 grados de libertad disponibles, comparados con n - 1 cuando se utiliza este procedimiento. En general, para decidir si se utiliza 0 no el procedimiento de comparaciones por parejas, se debe tener en cuenta tanto los aspectos economicos como las venta jas que provee el control de variaciones extrafias. Si las estadisticas de prueba z y t no son adecuadas para utilizarlas Alternativas con los datos disponibles, el investigador tal vezquiera utilizar alguna tecnica no parametrica para probar una hipotesis acerca de la diferencia entre las medianas. En el capitulo 13 se presenta la prueba del signo, que puede ser utilizada en esos casos.

FJERCICIOS

En los siguientes ejercicios, ponga en practica el procedimiento de los diez pasos de la prue ha de hipotesis con nivel de significacion especificado. Para cada ejercicio, donde sea opor tuno, explique por que conviene utilizar la prueba bilateral 0 la unilateral. Analice como pueden utilizar los resultados de la prueba de hipotesis los investigadores y medicos. ~Que decisiones 0 acciones medicas y de investigacion pueden ser adecuadas al conocer los resul tados de las pruebas? 7.4.1 Un articulo publicado por Kashima et ai. (A-12) describe una investigacion relacionada con los padres de niftos con retraso mental, en la cual se presenta informaci6n sobre la enseftan za de autocuidados en un programa apoyado en diferentes medios de comunicaci6n, princi palmente a traves de videotapes y manuales de instruccion. Como parte del estudio, participaron 17 familias en el programa de capacitaci6n impartido por personal con amplia experiencia en proyectos de capacitaci6n paterna. Antes y despues del programa de capacitaci6n, se aplico una prueba de comportamiento y descripci6n a cada jefe de familia 0 padre principal. EI examen evahla el conocimiento de los principios de modificacion del comportamiento. Una . calificaci6n alta indica mayor conocimiento. Las siguientes calificaciones corresponden a las pruebas de losjefes de familia, antes y despues del programa de capacitacion: Antes: Despues:FUENTE:

7 11

6 14

10 16

16 17

8 9

13 15

8 9

14 17

16 20

11 12

12 14

13

9

10 15

17 18

8 15

5 9

15 14

Datos utilizados con el permiso de Bruce L. Baker, Ph. D.

2Es posible conduir, con base en estos datos, que el programa de capacitaci6n aumenta el conocimiento respecto a los principios de modificaci6n del comportamiento? Sea IX := .01. 7.4.2 Schwartz et al. (A-13) realizaron un estudio para probar la hipotesis de que perder peso en pacientes apneicos causa disminuci6n de la presion critica de las vias respiratorias superiores (Pcrit) y que estas disminuciones estan asociadas con disminuciones en la severidad de la apnea. Los individuos estudiados eran pacientes de la renombrada Clinica de trastornos del

248

CAPiTULO 7 PRUEBA DE HIPOTESIS

sueftoJohn Hopkins, a quienes se diagnostico, de nueva cuenta, apnea del suefto obstructiva. Se invito a los pacientes a participar en uno de dos programas: el programa para bajar de peso (grupo experimental) 0 el programa de "cuid~dos generales" (gropo de control). Entre los datos recolectados durante el curso del estudio estan las siguientes calificaciones de Pcrit (cm H 20) antes y despues para los individuos que perdieron peso: Antes: Despues:FUENTE:

-2.3 -6.3

5.4 .2

4.1 -5.1

12.5

.4

-.6

2.7

2.7

-.3 -5.2

3.1 3.5

4.9 2.2

8.9 -1.5 -1.5 -3.2

6.6 -6.8 -6.9 -2.0 -6.6

Con el permiso de Alan R. Schwartz, M. D.

~Es posible conduir, con base en estos datos, que el programa para bajar de peso es eficaz para disminuir la presion crftica de las vias respiratorias superiores (Pcrit)? Sea ex = .01. 7.4.3 EI proposito de una de las investigaciones realizadas por Alahuhta et al. (A-I4) es evaluar la influencia del bloqueo extradural para la operaci6n cesarea en diversas variables hemodinamicas maternas y fetales, simultaneamente, y determinar si el bloqueo modifica la funci6n del miocardio fetal. Los individuos estudiados eran ocho parturientas sanas con 38 a 42 semanas de embarazo de un solo feto, sin complicaciones, que serian sometidas a operaci6n cesarea con anestesia para bloqueo extradural. Los siguientes datos corresponden a los valores infe riores de esta variable en las dos etapas:

Etapa 1: Etapa 2:FUENTE:

70 79

87 87

72 73

70 77

73 80

66 64

63 64

57 60

Con el permiso de Seppo Alahuhta, M. D.

~Ofrecen suficiente evidencia estos datos, con un nivel de significacion de .05, para indicar que, bajo condiciones similares y generales, la media de la presion arterial diastolica en las madres es diferente en las dos etapas? 7.4.4 Wolin et aI. (A-I 5) demostraron que la luz ultravioleta de onda larga (UV) promueve el rela jamiento, incrementa el metabolismo de H 20 2 a traves de la catalasa, y estimula el consumo no mitocondrial de 02 en el musculo lisa vascular de la arteria pulmonar bovina. Tambien demostraron que la hipoxia y el cianuro inhiben la relajaci6n producida por la luz UV y el metabolismo de H 20 2 que depende de la catalasa en los musculos de la arteria pulmonar bovina. Entre las mediciones realizadas por los investigadores se reportaron las siguientes mediciones (nmol/g1min) de la formacion de formaldehidos a partir del metanol por el musculo lisa de la arteria pulmonar durante la irradiaci6n con luz UV en ausencia de (A) y presencia (P) de cianuro (1 mM NaCN).

A:

1.850 .000

.177 .000

.564 .000

.140 .140

.128 .000

.500 .000

.000 .000

.759 .000

.332 .332

P:

FUEYfE:

con el permiso de Michael S. Wolin, Ph. D.

estos datos suficiente evidencia, en un nivel de significaci6n de .05, para apoyar las afirmaciones de los investigadores de que el cianuro impide el relajamiento producido por la luz UV? 7.4.5 Los propositos de una de las investigaciones realizadas por Mancebo et aI. (A-16) fueron: I) evaluar los efectos mas peligrosos de la inhalaci6n de albuterol broncodilator fl2 -agonista en un estudio de trabajo respiratorio (TR), intercambio de gases y patrones de ventilaci6n en pa cientes intubados con respiraci6n espontanea durante el retiro del ventilador mecanico, y 2) Yaveriguar si los cambios inducidos en TR por tal inhalaci6n estan 0 no relacionados can un

~Ofrecen

EJERCICIOS

249

efecto broncodilator espedfico. Los individuos eran pacientes adultos intubados (edad me dia de 59.5 afios) que se recuperaban de insuficiencia respiratoria aguda y cumplfan otros criterios tecnicos. Los. siguientes valores de TR Goules/min) se obtuyieron de los individuos estudiados antes (I) y despues (2) de inhalar el albuterol: .

Paciente COND

TR

1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 1011 11

1 2 2 2 1 2 1 21

2 1 2 2 1 2 1 2 1 2 2 1 2 2 1 2

12 12 13 13 14 14 15 15FUENTE:

6.972 5.642 4.850 3.634 8.280 5.904 19.437 18.865 14.500 13.400 10.404 8.832 9.856 7.560 4.531 4.546 6.732 5.893 7.371 5.512 6.037 4.239 12.600 11.784 11.067 12.621 5.959 4.978 11.739 11.590

Utilizada conpermiso del Dr. Jorge Mancebo.

(Ofrecen estos datos suficiente evidencia que permita concluir que, en general, bajo condi ciones similares, la inhalaci6n de albuterol tiene efectos en la media de TR? Sea a =.01.

250

CAPiTULO 7 PRUEBA DE HIP6TESIS

7.5 PRLlEBA DE IUPOTESIS PARA LA PROPORCION DE UNA SOLA POBLACIONLa prueba de hip6tesis de proporciones poblacionales se realiza casi en la misma forma utilizada para las medias cuando son satisfechas las condiciones necesarias para emplear la curva normaL Pueden efectuarse pruebas unilaterales 0 bilatera les, dependiendo de la cuesti6n que se plantee. Cuando se dispone de una muestra 10 suficientemente grande para la aplicaci6n del teorema del limite central, tal como se estudia en la secci6n 5.5, la estadistica de prueba es (7.5.1)

la cual, cuando Ho es verdadera, sigue aproximadamente una distribud6n normal

esGindar.EJEMPLO 7.5.1

En una investigaci6n de consumidores de drogas intravenosas en una ciudad gran de, Coates et al. (A-17) encontraron a 18 de 423 individuos con VIR positivo. Se pretende saber si es posible concluir que menQs de 5 por dento de los consumido res de drogas intravenosas en la poblacion muestreada tienen VIR positivo.Solucion:

1. Datos. Los datos se obtienen a partir de la respuesta de 423 indivi duos de los cuales 18 tenian la caracteristica de interes (VIR positi yo), es dedr, P= 18/423 = .0426.2. Supuestos. La distribucion muestral de p sigue una distribucion aproximadamente normal de acuerdo con el teorema del limite central. 3. Hipotesis.H: p? .05 o H:p < .05A

Se realiza esta prueba en el punto de igualdad. La conclusi6n a la que se puede lIegar seria igual a la que se lIegaria de llevarse a cabo la prueba utilizando un valor supuesto de p mayor que .05. Si Ho es verdadero,p = .05 Y el error estandar (Jp ~(.05)(.95)/423. No tese que se utiliza el valor supuesto de p p~ra calcular (J p' Esto se hace porque la prueba entera se basa en la suposici6n de que la hipotesis nula es verdadera. Utilizar la proporcion muestral, p, para calcular (Jfj no se