AlcEst Programa de Gestión y Análisis Estadístico de Datos · monográficas de diferentes servicios (Nefrología, Diálisis, Hipertensión, Digestivo, UCI etc) ... Como es lógico

© 2004 ... Alce Ingenieria

AlcEst

Programa para elAnálisis Estadístico y

Gestión de Datos

AlcEst 1.0Programa para gestión y análisis estadístico de datos

Autor:

· Luis Miguel Molinero Casares (c) Alce Ingeniería

Reservados todos los derechos. No está permitida la reproducción, adaptación, reproducción parcial o integral deeste documento, cualesquiera que sean los medios, sin la autorización escrita de Alce Ingeniería.Los nombres de otros productos y organizaciones a los que se hace referencia en este documento pueden sermarcas registradas por sus correspondientes propietarios.A pesar de los continuos esfuerzos que Alce Ingeniería realiza para asegurar la exactitud de los manuales, y elperfecto funcionamiento del software, no asume ninguna responsabilidad por las omisiones que puedan existir, nipor las consecuencias que se deriven del uso de la información en ellos contenida, no ofreciéndose ninguna garantíade utilidad o idoneidad para ningún fin, ya sea general o específico.Ni Alce Ingeniería, ni sus proveedores, en ningún caso se responsabilizarán de cualquier daño (inclusive, sinlimitación, daños por lucro cesante, interrupción en los negocios, pérdida de información comercial u otra pérdidapecuniaria) que pudiere surgir del uso o de la imposibilidad de uso de este producto, aún cuando Alce Ingenieríahubiera sido advertido de la posibilidad de tales daños. En todos los casos, la responsabilidad económica de AlceIngeniería con respecto a cualquier cláusula de este contrato, se limita a la cantidad efectivamente abonado por elcliente en concepto de pago por la licencia de uso del producto.

Impreso: septiembre 2004 en Las Rozas - Madrid (España)

http://www.alceingenieria.net

AlcEst Programa de Gestión y AnálisisEstadístico de Datos


Tabla de Contenidos

Cap.I Introducción 5

................................................................................................................................... 51 Autor

................................................................................................................................... 62 Historia

................................................................................................................................... 63 Antes de empezar

................................................................................................................................... 84 Instalación

................................................................................................................................... 95 Programas externos utilizados

................................................................................................................................... 106 ¿Y si el programa no tiene la prueba que necesito?

Cap.II Base de datos 13

................................................................................................................................... 131 Conceptos básicos

......................................................................................................................................................... 13Estructura de los archivos de datos

......................................................................................................................................................... 14Tipos de variables

......................................................................................................................................................... 15Indices

......................................................................................................................................................... 17Funciones permitidas en la definición de un índice

......................................................................................................................................................... 21Alias

......................................................................................................................................................... 22Condiciones

......................................................................................................................................................... 23Selección de campos que se presentan

......................................................................................................................................................... 24Ordenar según un criterio

......................................................................................................................................................... 25Desplazamientos por la base de datos

......................................................................................................................................................... 25Creación y modificación de datos

......................................................................................................................................................... 26Localización de un registro

......................................................................................................................................................... 26Borrado de datos

................................................................................................................................... 272 Definición de la estructura de una tabla

......................................................................................................................................................... 27Definición de la estructura de variables

......................................................................................................................................................... 29Definición de categorías para una variable cualitativa

......................................................................................................................................................... 29Definición de fórmulas

......................................................................................................................................................... 31Funciones matemáticas

................................................................................................................................... 313 Cambios en la estructura de la base de datos

......................................................................................................................................................... 32Creación y modificación de variables cualitativas

......................................................................................................................................................... 35Variables cuantitativas agrupadas en categorías

......................................................................................................................................................... 36Variables cualitativas cuyas categorías se definen mediante condiciones (grupos)

......................................................................................................................................................... 38Variables internas (dummy)

................................................................................................................................... 384 Opciones avanzadas

......................................................................................................................................................... 38Nombres y descripciones de las variables

......................................................................................................................................................... 39Variable de texto combinando otras variables

......................................................................................................................................................... 39Importación de datos

......................................................................................................................................................... 40Exportación de datos

......................................................................................................................................................... 42Búsqueda por índice

......................................................................................................................................................... 43Gestión de índices

......................................................................................................................................................... 44Creación de subficheros

......................................................................................................................................................... 44Añadir registros de una tabla a otra

......................................................................................................................................................... 44Asignación automática de valores

......................................................................................................................................................... 44Crear un grupo de registros con los mismos datos

......................................................................................................................................................... 45Asignar variable según contenido de un texto libre

AlcEst Programa de Gestión y Análisis Estadístico de DatosI


......................................................................................................................................................... 46Separador decimal

Cap.III Estadística 48

................................................................................................................................... 481 Consideraciones generales para las pruebas estadísticas

................................................................................................................................... 512 Procesador de textos

................................................................................................................................... 533 Estadística descriptiva

......................................................................................................................................................... 53Recuentos

......................................................................................................................................................... 53Estadística descriptiva de una variable cuantitativa

......................................................................................................................................................... 56Estadística descriptiva de un grupo de variables

......................................................................................................................................................... 59Distribución de frecuencias de variables cualitativas

......................................................................................................................................................... 61Porcentajes de variables dicotómicas

......................................................................................................................................................... 63Distribución de frecuencias para variables de texto o cuantitativas

......................................................................................................................................................... 64Creación de un fichero de medias

................................................................................................................................... 654 Comparación de dos grupos

......................................................................................................................................................... 65t de Student para muestras independientes

......................................................................................................................................................... 66t de Student para muestras pareadas

................................................................................................................................... 685 Tablas de contingencia

......................................................................................................................................................... 68Tablas 2x2

......................................................................................................................................................... 71Tablas FxC

......................................................................................................................................................... 72Tablas 2x2 estratificadas: prueba de Mantel-Haenszel

................................................................................................................................... 736 Análisis de la varianza

......................................................................................................................................................... 73Análisis de la varianza para 1 factor

......................................................................................................................................................... 76Análisis de la varianza 1 factor en bloques aleatorizados

......................................................................................................................................................... 77Análisis de la varianza para 2 factores

......................................................................................................................................................... 79Variables dicotómicas en bloques aleatorizados (Prueba Q de Cochran)

......................................................................................................................................................... 80Análisis de la covarianza

................................................................................................................................... 827 Correlación

......................................................................................................................................................... 82Correlación lineal simple

......................................................................................................................................................... 82Coeficiente de correlación de Spearman

......................................................................................................................................................... 83Matriz de varianzas y covarianzas

................................................................................................................................... 848 Regresión

......................................................................................................................................................... 84Regresión lineal simple

......................................................................................................................................................... 87Regresión lineal múltiple

......................................................................................................................................................... 91Variables internas (dummy) en el modelo de regresión

......................................................................................................................................................... 94Interacciones en el modelo de regresión

......................................................................................................................................................... 94Regresión logística

.................................................................................................................................................. 94Regresión logística incondicional para un suceso dicotómico

.................................................................................................................................................. 99Regresión logística condicional para variables dicotómicas

.................................................................................................................................................. 100Regresión logística politómica

......................................................................................................................................................... 101Regresión de Poisson

................................................................................................................................... 1039 Medidas de concordancia

......................................................................................................................................................... 103Medidas de concordancia para variables cualitativas

......................................................................................................................................................... 107Coeficiente de correlación intraclase

......................................................................................................................................................... 111Método gráfico propuesto por Altman para evaluar la concordancia entre dos variables continuas

................................................................................................................................... 11210 Análisis de Supervivencia

......................................................................................................................................................... 112Introducción al análisis de supervivencia

......................................................................................................................................................... 112Función de supervivencia. Método de Kaplan-Meier

......................................................................................................................................................... 117Comparación de funciones de supervivencia. Método del logrank

......................................................................................................................................................... 119Modelo de riesgo proporcional de Cox

................................................................................................................................... 12211 Pruebas no paramétricas

IIContenido


......................................................................................................................................................... 122Prueba de Mann-Whitney

......................................................................................................................................................... 124Prueba de Wilcoxon para muestras pareadas

......................................................................................................................................................... 125Prueba de Kruskal-Wallis: análisis de la varianza no paramétrico

......................................................................................................................................................... 126Prueba de Friedman: ANOVA no paramétrico pareado

................................................................................................................................... 12712 Modelos de regresión de efectos mixtos

......................................................................................................................................................... 127Introducción a los modelos de regresión de efectos mixtos

......................................................................................................................................................... 131Modelo de regresión lineal de efectos mixtos con autocorrelación

......................................................................................................................................................... 135Modelo de regresión logística de efectos mixtos

Cap.IV Gráficos 140

................................................................................................................................... 1401 Conceptos generales sobre gráficos

................................................................................................................................... 1412 Editar formato de la gráfica

................................................................................................................................... 1413 Editar formato de presentación de los datos de un gráfico

................................................................................................................................... 1414 Editar propiedades del gráfico y de los datos

................................................................................................................................... 1425 Editar valores de un gráfico

Cap.V Anexos 145

................................................................................................................................... 1451 Licencia GNU

Indice 150

AlcEst Programa de Gestión y Análisis Estadístico de DatosIII


Capítulo

I

5 AlcEst Programa de Gestión y Análisis Estadístico de Datos


09/09/2004

Introducción

1.1 Autor

Ingeniero industrial por la Escuela Técnica Superior de Ingenieros Industriales de Madrid,especialidad Electrónica y Regulación Automática.

Ha sido profesor de Bioestadística en la Facultad de Medicina de la Universidad Autónoma deMadrid; profesor de electrónica en Escuela Técnica Superior de Ingenieros Industriales de Madrid.

Trabajó como Investigador Asociado en el Centro Científico de IBM en Madrid.

Fue socio fundador de Horus Hardware, empresa dedicada al desarrollo de sistemas deautomáticos de control de sistemas industriales en los que intervienen procesos de pesaje ydosificación, así como al desarrollo de software de aplicación en entornos médicos.

Fue el responsable del software del proyecto P.A.I.S., cuyo objetivo fundamental era la evaluaciónde la energía del haz reflejado por los heliostatos de la Central Electrosolar de Almería (CESA-I)en la boca de caldera.

Los principales proyectos en los que ha trabajado son:

· Diseño de una tarjeta para permitir que un ordenador personal funcionase como un terminaltélex (no existía el fax todavía)

· Diseño de un programa de análisis estadístico para su utilización en entornos biomédicos(INVEST, SIGMA, RSIGMA BABEL)

· Diseño de un sistema de dosificación y pesaje para la automatización de procesos defabricación de materiales de construcción: hormigón, asfalto y terrazos.

· Diseño de un medidor de humedad para silos de áridos (Becado por el IMADE)· Diseños de diferentes programas para la gestión y archivo de historias clínicas

monográficas de diferentes servicios (Nefrología, Diálisis, Hipertensión, Digestivo, UCI etc)· Diseño de un programa para la gestión de la lista de espera de transplantes para del Centro

Nacional de Transplantes.· Diseño de un programa de farmacovigilancia para Pfizer.· Informatización completa de una Mutua Laboral de Accidentes de Trabajo (El Fénix Mutuo)· Diseño de diferentes programas de Nutrición· Fue el encargado del proceso informático y análisis estadístico de los datos en el Estudio

Nacional de Nutrición y Alimentación 1991 (ENNA), a partir de los datos de la Encuesta dePresupuestos Familiares 1990-91 del INE.

· Diseño de un programa para gestión integral de Laboratorios de Análisis Clínicos paraAbbott Científica, funcionando en entorno de red local y con conexión de autoanalizadores.

· Diseño de un programa para la gestión de Bancos de Sangre para Abbott Científica.· Diseño de un sistema para el control de acceso en Congresos Médicos y sistema de

información.

Ha trabajado como asesor estadístico en numerosos proyectos de investigación, colaborando endiferentes publicaciones.

En la actualidad dirige Alce Ingeniería, empresa dedicada al desarrollo de software médico y degestión de datos y análisis estadístico. .

Diseño del Programa GEA para la elaboración de cálculos nutricionales, así como valoración yprogramación de dietas.

Responsable del diseño y mantenimiento del web de la Sociedad Española de Hipertensión (SEH-LELHA)

http://www.seh-lelha.org

6Introducción


Autor de la publicación mensual en Internet de la sección de bioestadística del web de la SEH-LELHA.

Junio de [email protected]

1.2 Historia

Los orígenes de este programa se remontan a 1983 cuando siendo el autor profesor deBioestadística en la Facultad de Medicina de la Universidad Autónoma de Madrid, desarrolló parauso en el departamento un programa para efectuar los contrastes estadísticos más habituales enuna calculadora Casio FX-702-P. Poco después llegaban al mercado los primeros ordenadorespersonales IBM PC y una casa comercial se interesó por el programa por lo que se desarrolló unprograma para ordenador personal que se comercializón con el nombre de INVEST.En 1985 la sociedad creada para diseñar y comercializar el programa INVEST fue disuelta y elautor, junto con sus socios, creó una nueva empresa con la que diseñó y comercializó un nuevoprograma de análisis estadístico denominado SIGMA para sistema operativo MS-DOS, que fueevolucionando a lo largo del tiempo con diferentes versiones (RSIGMA y RSIGMA BABEL) hastael año 2000 en el que se crea la firma ALCE INGENIERIA y el autor comienza a desarrollar unnuevo programa de estadística que con el nombre AlcEst tiene ud actualmente en sus manos.

1.3 Antes de empezar

El programa AlcEst pretende ser una herramienta de ayuda tanto en el registro y organización dedatos, como en su análisis y estudio.Los datos que se van a analizar estarán guardados en tablas de una base de datos. El formatoque en el que por defecto se guardan los datos es dBase IV, aunque se puede leer cualquiera otraversión del formato dBase.También se pueden crear y analizar tablas en formato Interbase o Firebird.Se pueden abrir y gestionar tablas en formato MS-Access 97, aunque no se pueden crear.También es posible trabajar con tablas en formato Paradox.

Por otro lado el programa permite importar datos de ficheros antiguos de RSIGMA, de ficheroscreados por el programa PRESTA, de ficheros Excel y a partir de de ficheros ASCII.

En general, salvo que ud tenga ya creada una tabla de datos mediante otro programa,necesitará empezar definiendo qué estructura va a tener la información que se va a recoger paraluego ser analizada. Para definir la estructura de variables se utiliza el programa DEFINE , quefunciona de forma independiente al AlcEst.Como es lógico se puede definir diferentes tipos de campos: numéricos, cualitativa, texto, etc.

Las tablas de datos se guardarán en diferentes carpetas de su ordenador, a las que accederáindicando la ruta completa, por ejemplo:

c:\Archivos de Programa\ALCE INGENIERIA\Alcest\Datos\Estudio1

o bien para evitar tener que teclear un texto tan largo o que desplazarse mediante el exploradorpor tantas carpetas, puede asociar a esa ruta un nombre o alias y utilizarlo de forma equivalente.Así en este ejemplo podríamos utilizar el alias ESTUDIO1.

Una vez que tenemos creada la estructura, el siguiente paso será ya empezar a registrar los

http://www.seh-lelha.org/stat1.htm



datos, esta vez sí será mediante el programa AlcEst, donde desde la opción Fichero > Abrirprocederemos a cargar la tabla recién creada.

Para poder empezar a registrar datos, ya sea crear nuevos registros o modificar los ya existentes,es preciso marcar la casilla etiquetada como Permitir modificar, que por defecto está deshabilitadapara evitar modificaciones accidentales:

Aparecerán entonces más botones de navegación:

Utilizando los diferentes botones podemos ir al principio o final de la tabla de datos, avanzar oretroceder registros, añadir un nuevo registro (símbolo +), borrarlo (símbolo -, se pideconfirmación), entrar en modo edición (triángulo con el vértice hacia arriba), aceptar o cancelar loscambios, y recargar los datos (útil si estamos trabajando en red y pueden haber cambiado).También podemos utilizar las flechas para desplazarnos por la base de datos, o la teclatabulación, o la tecla Enter.Si estamos en el último registro de la tabla y nos desplazamos hacia abajo se crearáautomáticamente un registro en blanco, que desaparece si volvemos a desplazarnos hacia arribasin introducir ningún dato.

El programa permite tener abiertos más de un fichero al tiempo, así como diferentes ventanas deresultados, gráficos, etc.

Para aprender más sobre el manejo de la base de datos consulte el apartado Conceptos básicos.

Una vez que ya tenemos datos registrados se puede invocar diferentes pruebas estadísticas sobrelos campos o variables de la tabla. En general cuando solicitemos una orden estadística elprograma nos preguntará la variable o variables que intervienen en los cálculos, y en principio seutilizarán todos los registros de la tabla para realizar el análisis, salvo aquellos para los que noexiste dato (ausencia) en alguna de las variables implicadas. Cuando sólo se desea efectuar loscálculos con una parte de los registros de la tabla no hay mas que indicar una condición, que seaplicará a todos los cálculos hasta que se desactive.Para cada orden estadística el programa presentará una nueva ventana de resultados con una omás solapas:

Pulsando en el botón derecho del ratón con el cursor en la ventana de resultados o invocando lafunción Resultados del menú principal se obtiene un menú específico que amplia las posibilidades

8Introducción


relativas a los resultados obtenidos:

Conviene destacar la primera de ellas Opciones, que habitualmente permitirá obtener páginasadicionales de resultados.

El programa dispone de un editor de informes o procesador de textos propio en el que se puede irmemorizando aquellos resultados que nos interese conservar, para luego editarlos desde esemismo procesador o para copiarlos a otro procesador de textos como puede ser MS-Word, ocualquier otro. Al solicitar la función Copiar resultados al informe éstos se añaden a esedocumento en la posición en la que actualmente se encuentre el cursor.Para ampliar esta información conviene que consulte el apartadoConsideraciones generales para las pruebas estadísticas.

En ocasiones los resultados pueden venir acompañados de representaciones gráficas que sesolicitarán en el menú correspondiente de la ventana de resultados (en la figura anterior vemosque se puede obtener una gráfica de una Curva ROC), o también se pueden invocar desde lafunción Gráficos del menú principal. Los gráficos también se pueden guardar en disco y transvasara otros programas a través del portapapeles. Para más información cosulte la sección dedicada alos Gráficos.

Una vez creada una la estructura de una tabla de datos es posible añadir y borrar variablesposteriormente, para ello se utilizará también el programa DEFINE si se trata de variables queexisten físicamente, mientras que si se trata de fórmulas o de variables cualitativas que seconstruyen a partir de campos que ya tenemos definidos en la tabla, no será necesario redefinir laestructura y podemos añadirlas, borrarlas y modificarlas directamente desde el menú de Edicióndel programa AlcEst.

1.4 Instalación



1.5 Programas externos utilizados

El desarrollo y generalización del uso de Internet ha cambiado muchas facetas de la actividadhumana, hasta tal punto que se considera ya como una nueva revolución, tan importante comofue en su día el comienzo de la industrialización de las tareas productivas. Y como es lógico eldesarrollo de software influye y se beneficia de la existencia de Internet. Así cada vez nosencontramos con que se dispone de más herramientas y programas de libre distribución, y cadavez se comparte más información y programas a través de la red.

Los primeros programas desarrollados por el autor eran autocontenidos y todos los algoritmosimplementados directamente en los mismos. Pero como actualmente nos encontramos con queexisten en Internet programas específicos de estadística, de libre distribución y no obstante degran calidad, tanto de tipo general como, y esto es quizás lo más importante, centrados enaspectos concretos del análisis estadístico, resulta absurdo volver a programar lo que ya hanhecho otros, si el resultado es de calidad y teniendo en cuenta además que la libre distribuciónamplifica el número de usuarios y por tanto las posibilidades de prueba y verificación deidoneidad y correcto diseño del producto. Por otro lado y aunque no cabe duda que laimplementación de algoritmos matemáticos es una labor sofisticada y por tanto laboriosa,curiosamente es el diseño de la interfase con el usuario la que consume con diferencia un mayortiempo en el diseño de los programas, por lo que si a eso añadimos que en general el diseñadorlibre de programas de tipo matemático trabaja para su propio consumo o para su utilización porun público de características similares a las suyas, nos encontramos con que los programas delibre distribución reúnen habitualmente unas muy buenas características técnicas, a menudosuperiores a las de los programas comerciales, y sin embargo tienen una interfase de usuario engeneral muy pobre y difícil de usar salvo por alguien avezado. Por todo ello el autor ha llegado unmomento en que el autor se ha planteado que merece la pena aprovechar lo que haya de buenoen ese material disponible en Internet y no dedicar tiempo a reprogramar lo que ya está hecho ycentrarse en por un lado mejorar la interfase con el usuario, y hacerla asequible al personal noexperto, y por otro en desarrollar aquellos programas o aplicaciones que no se encuentren en lared.

Así el R es un excelente programa de dominio público, cuyo código es compatible con el paquetecomercial S (y S Plus). El R se distribuye de forma gratuita bajo licencia GNU.

Dadas las excelentes prestaciones del R y las ventajas que proporciona sus características delibre distribución en cuanto a difusión, verificación y evolución, el autor ha llegado a la conclusiónde que no tenía sentido "reinventar la rueda". Sin embargo la interfase de R no es sencilla deusar, y no dispone de capacidad de acceso a bases de datos, aspectos ampliamente cubiertosen el programa AlcEst, por lo que la parecía interesante combinar las ventajas de los dosproductos. En la actualidad el programa AlcEst utiliza en algunas pruebas el software del R,invocado en modo batch. A lo largo del manual se indicará expresamente si se usa el R en elapartado dedicado a cada prueba.

Puesto que R es un software de libre distribución, cuando ud adquiere el programa AlcEst noestá pagando por el programa R, que puede descargar libremente en:

CRAN: The Comprehensive R Archive Network

sino que está pagando por las funciones específicas del AlcEst y en aquellas que utilizan R por lainterfase de enlace.

Para que el programa AlcEst pueda enlazar con el R, en el fichero de configuración AlcEst.ini,que debe encontrarse en la misma carpeta en la que reside el programa AlcEst.exe, tiene que

http://cran.r-project.org/

10Introducción


existir una línea en la sección [R] con nombre path y que indique el camino en el que seencuentra el programa, similar a la siguiente:

[R]path=c:\Archivos de programa\ALCE INGENIERIA\AlcEst\R\bin

Donde en lugar de Rw1050 normalmente figurará el nombre de la versión R instalada.Para cada orden que utiliza el R se ejecuta el programa Rcmd en modo batch, utilizando comofichero de comandos AlcEst.R generado por la orden solicitada. Los datos se guardan enAlcEst.dat desde donde son cargados por el R y los resultados se almacenan en AlcEst.sal.Todos estos archivos se encontrarán en la ruta indicada en el fichero de configuración para R.

Para poder enlazar con el programa R en modo batch es necesario que en el ordenador estéinstalado un intérprete del lenguaje de programación de script PERL. ActivePerl es unadistribución gratuita que se puede descargar en:

http://www.ActiveState.com/ActivePerl

Para la estimación de modelos de regresión de efectos mixtos, el programa AlcEst proporcionauna interfase con los programas MIXREG y MIXNO, de libre distribución y disponibles, junto conlos manuales, en:

http://tigger.uic.edu/~hedeker/mix.html

MIXREG: a computer program for mixed-effects regression analysis with autocorrelated errorsDonald Hedeker, Robert D. Gibbons

MIXNO: a computer program for mixed-effects nominal logistic regressionDonald Hedeker

Para que el programa AlcEst pueda enlazar con estos programas, en el fichero de configuraciónAlcEst.ini, que debe encontrarse en la misma carpeta en la que reside el programa AlcEst.exe,tiene que existir una línea en la sección [MIXREG] con nombre path y que indique el camino enel que se encuentra el programa, similar a la siguiente:

[MIXREG]path=c:\Archivos de programa\ALCE INGENIERIA\AlcEst\RMM

Para el acceso a las tablas de datos el programa utiliza Borland Data Engine, que dispone de unprograma de administración externo específico BDEAdmin.

1.6 ¿Y si el programa no tiene la prueba que necesito?

El número de posibles pruebas estadísticas es inmenso; en este programa hemos incluido las quepensamos que son más habituales e incluso algunas que no lo son tanto. Se podría haberadoptado, por así decirlo, una actitud enciclopédica y haber añadido muchas más pruebas, peroresulta triste dedicar esfuerzo a programar algo que quizás nadie use nunca, y por ello preferimos

http://www.ActiveState.com/ActivePerl



ponernos a disposición de los usuarios registrados del producto, quienes nos pueden solicitar laprogramación de pruebas no incluidas en la versión actual y que precisan utilizar. Si es éste sucaso remítanos un correo a la dirección:

[email protected]

indicándonos qué es lo que precisa. Si se trata de una prueba que conocemos intentaremosincluirla lo antes posible. Si no hemos oído hablar de ella, y no encontramos información, lesolicitaremos bibliografía al respecto y si es capaz de suministrárnosla, la estudiaremos paraproceder a implementarla.Este programa tiene una finalidad práctica y ha sido desarrollado en parte gracias a lassugerencias y solicitudes de los usuarios.

Capítulo

II



09/09/2004

Base de datos

2.1 Conceptos básicos

2.1.1 Estructura de los archivos de datos

Un programa de Base de Datos gestiona información almacenada en fichas o registros. Cadaregistro constituye la unidad básica de información y comprende un conjunto de variables ocampos que se van a recoger por cada unidad de observación, ya sea ésta un paciente, unaanalítica, una visita...Todos los registros constan del mismo número e idénticas variables, identificándose éstasmediante un nombre, que puede tener una longitud máxima de 10 caracteres. En el nombre devariable se puede utilizar letras y/o números, pero no otros símbolos; tampoco se puede dejarespacios en blanco, pero sí el guión bajo _. No se distingue entre minúsculas y mayúsculas; nose puede emplear acentos, y los nombres tienen que comenzar con una letra, no puedenempezar con una cifra. La Ñ no es un carácter permitido en el nombre de las variables.El nombre tiene que ser único para cada variable.

Además del nombre se puede incluir por cada variable una descripción, donde ya no haylimitaciones en cuanto a los caracteres que se emplean ni la longitud. Esta descripción esopcional, y puede indicarse para algunas variables y no para otras, y se utilizará a la hora depresentar los resultados de los análisis estadísticos.

Para cada variable se indica además el tipo (número, cualitativa, texto, etc)

Al conjunto de registros o fichas se le denomina Tabla y se guarda en un archivo en disco.En la figura vemos como presenta el programa los datos de en una tabla, organizados en filaspara cada registro o ficha. Cada columna corresponde a una de las variables que sedefinieron en la estructura de la tabla.

14Base de datos


Los archivos se guardan en el ordenador dentro de una carpeta. La ruta para localizar unacarpeta en el disco del ordenador puede ser complicada y prolija de especificar, sobre todo sihay que ir abriendo muchas carpetas para llegar al destino.Un ejemplo de ruta (carpeta) para un archivo esC:\Archivos de programa\Alce Ingenieria\AlcEst\Datos

Al conjunto de tablas que residen en una misma carpeta se le suele denominar base de datos.Para facilitar el acceso a una carpeta de base de datos se puede asignar un nombre a la ruta, detal manera que en lugar de escribir el camino completo que hay que seguir hasta encontrar lacarpeta, basta con especificar directamente el nombre asignado. Es lo que se denomina Alias.

2.1.2 Tipos de variables

Las variables o campos de una tabla de datos pueden definirse como pertenecientes a alguno delos siguientes tipos

· Número· Cualitativa



· Dicotómica· Texto· Fecha· Hora· Expresión· Texto libre

Las variables de tipo número permiten registrar cantidades. Por defecto son de tipo real, por loque pueden tener decimales, pero se pueden configurar como enteros.

Las variables cualitativas son aquellas cuyo resultado es una categoría de entre un conjuntofinito de posibilidades. Por ejemplo el sexo (mujer, hombre), el estado civil (soltero, casado,viudo, divorciado), grupo sanguíneo (0, A, B, AB) etc. Las posibles respuestas tienen que serexcluyentes, sólo se puede escoger una de ellas.Aunque cada categoría recibe un nombre, internamente se guardan con un número enterocorrelativo que empieza en el 0. Así en el ejemplo del sexo, la categoría mujer corresponde al 0 yhombre al 1, si fueron definidas en ese orden.

Una variable dicotómica es aquella que sólo puede tener dos resultados, y por supuestoademás existe la posibilidad de ausencia de información, cuando no se conoce o no se haregistrado el resultado. En realidad una variable dicotómica es una variable cualitativa especial,con dos categorías: 0. No, 1.Sí.

Las variables de texto permiten registrar cualquier carácter, pero cuando se define la estructurade variables se acota la longitud máxima que se va a registrar en ese tipo de campos.

Las variables de texto libre permiten registrar cualquier carácter y no tienen longitud predefinida.No pueden ser utilizadas ni en las pruebas estadísticas ni para imponer condiciones a la hora defiltrar el fichero de datos.

Las fechas pueden ser de dos tipos: completas o parciales. En éstas últimas se puede indicarsólo mes/año o sólo el año, mientras que en las primeras hay que especificar la fecha completacon día, mes y año (separados por el símbolo /)

Hora: permiten registrar información horaria con el formato hh:mm:ss. La especificación deminutos y segundos es opcional.

Los campos de tipo expresión son variables cuyo resultado se obtiene a partir de otras variablesmediante una fórmula matemática preconfigurada, y pueden ser de dos tipos dependiendo de sise guardan físicamente en el archivo de datos en disco como un campo más. Por defecto lasexpresiones no se guardan físicamente sino que se calculan cuando hace falta.Probablemente el único motivo para definir las expresiones como variables físicas (guardadas enel archivo) se presenta cuando se va a abrir el archivo desde otros programas con el fin de queencuentren esos datos.

2.1.3 Indices

La función de un índice en una base de datos es permitir la localización rápida de un registro, asícomo facilitar la presentación o proceso de los datos según una secuencia ordenada de acuerdoa algún criterio basado en una o varias variables.Si en un colectivo grande de fichas se pretende encontrar una de ellas, identificándola medianteun atributo especial, por ejemplo el título si se trata de libros, el DNI si son personas, el nº dehistoria si son pacientes…, no será lógico leer uno por uno todos los registros hasta que seencuentre aquél que buscamos, ya que si estuviera situado precisamente al final del fichero, sehabrá perdido mucho tiempo en la localización, máxime si el tamaño de cada ficha es grandepuesto que, cuanto mayor es, más tiempo se tarda en leerla del disco. Este tipo de búsqueda

16Base de datos


–lectura desde el primer registro, uno a uno, hasta que se encuentre el deseado-, se denominasecuencial y es el tipo de acceso que utiliza el programa por defecto.Si en una biblioteca hay pocos libros, una búsqueda secuencial será la más adecuada, ya que essimple y no hay problemas de tiempo al ser el volumen de información pequeño. Pero si labiblioteca es grande, los libros estarán anotados en fichas, que se encontrarán, en un cajónaparte, ordenadas alfabéticamente según el título y los autores. Antiguamente, cuando en lasbibliotecas no había ordenadores, y solicitábamos un libro, el bibliotecario buscaba en el cajón delas fichas (índices) y en pocos segundos localizaba el título deseado, si existía, y a partir de esaficha obtenía la referencia sobre el lugar de la biblioteca en el que se encontraba o si estabaprestado. En el caso de los ficheros informatizados el procedimiento para localizar de manerarápida los datos es muy similar y el objeto análogo de esas fichas lo constituyen los índices.Un índice es un dato identificador que ordenado convenientemente, en un fichero diferente delde los datos, indica al programa en qué lugar del disco está la información deseada, permitiendoencontrarla con gran rapidez y además presentarla no el orden en que fue registrada sino en elorden marcado por ese índice.

Los índices se guardan en un fichero diferente del de datos, con el mismo nombre y extensión.MDX, siendo el formato de éstos dBase.

Los índices se pueden crear cuando se define por primera vez la estructura del fichero o bienañadir posteriormente desde el programa de gestión de datos, opción Añadir índice del menúUtilidades.

En la figura vemos la pantalla de definición de índices desde el programa DEFINE

y desde el programa de gestión de datos la pantalla es

Un índice puede crearse directamente a partir de una variable ya existente, en cuyo caso se



tratará de guardar ordenadamente los valores de ese campo. O bien como una combinación(expresión) de varios campos.

Cada índice se identifica con un nombre de hasta 10 caracteres, que empieza por una letra(A..Z), y puede contener letras o números pero no espacios en blanco, no distinguiéndose entreminúsculas y mayúsculas.Así en la primera de las imágenes tenemos definidos tres índices. Los dos primeros PACIENTE$y N_CENTRO$ corresponden a los campos que recogen el nº de paciente y el nº de centrorespectivamente. El tercer campo ID$ corresponde a una expresión que combina informaciónprocedente de más de un campo.

Supongamos que tenemos definidos dos campos de texto denominados NOMBRE yAPELLIDOS respectivamente. Si queremos ordenar por apellidos y nombre podemos crear uníndice en cuya expresión definimos:APELLIDOS+NOMBRESupongamos ahora que tenemos un fichero en el que recogen revisiones de los pacientespudiendo existir más de una revisión por paciente. Cada paciente se identifica de forma únicapor su número de historia, campo HISTORIA (definido como de tipo texto para permitircaracteres alfanuméricos), de tal manera que si se recoge la fecha de revisión en un campodenominado FVISITA (definido como de tipo fecha), con ambos tenemos perfectamenteidentificada cada revisión, pudiendo ordenarla por pacientes y dentro de cada paciente por fechade visita. Sin embargo la expresiónHISTORIA+FVISITAno funcionaría al ser campos de tipo diferente y dado que la ordenación alfabética de las fechasno se corresponde con la ordenación cronológica. Así 23/01/2001 alfabéticamente está detrás de12/11/2002, y nosotros buscamos una ordenación cronológica en este campo y alfabética enHISTORIA (pues contiene letras). Nos interesa que las fechas se consideren de la siguienteforma año mes día, en el ejemplo anterior: 20010123 y 20021112 en cuyo caso ya coincide laordenación alfabética y la cronológica. La función DTOS nos permite pasar al fecha a eseformato por lo que en la expresión escribiríamosHISTORIA+DTOS(FVISITA)que ya funciona como deseábamos.

Consulte qué funciones que se pueden utilizar para definir un índice.

2.1.4 Funciones permitidas en la definición de un índice

La estructura de los índices utilizada en los ficheros del programa AlcEst es de tipo dBase. Enestas expresiones no se pueden mezclar libremente campos de diferente tipo porque se puedeproducir un error.Si T1 y T2 son dos campos de tipo texto T1+T2 corresponde a encadenar ambos campos.Si F1 y F2 son dos campos de tipo fecha F1-F2 devuelve el número de días entre esas fechas.

ABSFunción: Devuelve el valor absoluto (magnitud, sin tener en cuenta el signo)Declaración: Abs(<expN>)Resultado: numéricoEjemplo: Abs(-22) devuelve 22

ASCFunción: Devuelve el código ASCII del primer carácter en <expC>.Declaración: Asc(<expC>)Resultado: numéricoEjemplo: Asc("A") devuelve 65. Asc("Bernardo") devuelve 66.

AT

18Base de datos


Función: Busca la aparición de un texto en otro y devuelve la posición de comienzo0 si no se encuentra

Declaración: At(<expC1>,<expC2>)Resultado: numéricoEjemplo: At("son","masones") Resultado 3

CDOWFunción: Acepta una expresión de tipo fecha, devuelve el nombre del día de la semana.Sintaxis: Cdow(<expD>)Resultado: textoEjemplo: Cdow(Ctod("20/09/1995")) Resultado "miércoles"

CHRFunción: Acepta un número, devuelve el carácter correspondiente al código ASCIISintaxis: Chr(<expN>)Resultado: characterEjemplo: Chr(65) Resultado "A"

CMONTHFunción: Acepta una expresión de tipo fecha, devuelve el nombre del mes.Sintaxis: Cmonth(<expD>)Resultado: textoEjemplo: Cmonth(Ctod("20/09/1995")) Resultado "Septiembre"

CTODFunción: Convierte un texto a fecha.Sintaxis: Ctod(<expC>)Resultado: fecha

DATEFunción: Devuelve la fecha del sistema.Sintaxis: Date()Resultado: fecha

DAYFunción: Acepta una expresión de tipo fecha, devuelve el día del mes como número.Sintaxis: Day (<expD>)Resultado: numéricoEjemplo: Day(Ctod("20/09/1995")) Resultado 20

DOWFunción: Acepta una expresión de tipo fecha, devuelve el nº del día de la semana (1 to 7,el domingo es el 1.Sintaxis: Dow(<expD>)Resultado: numéricoEjemplo: Dow(Ctod("20/09/1995")) Resultado 4

DTOCFunción: Convierte una expresión fecha a texto.Sintaxis: Dtoc(<expD>)Resultado: characterEjemplo: Dtoc(Date()) devolvería cuando escribo esto "05/06/2002"

DTOSFunción: Acepta una expresión fecha, devuelve un texto en el formato AAAAMMDD.Sintaxis: Dtos(<expD>)Resultado: texto



Ejemplo: Dtos(Ctod("20/09/1995")) Resultado "19950920"

INTFunción: Devuelve el mayor entero menor o igual que <expN>Sintaxis: Int(<expN>)Resultado: numéricoEjemplo: Int(2.99) Resultado 2, Int(3) Resultado 3

LEFTFunción: Devuelve <expN> caracteres de <expC>, empezando en el primer carácter de<expC>.Sintaxis: Left(<expC>,<expN>)Resultado: texto

LENFunción: Devuelve el número de caracteres en <expC>.Sintaxis: Len(<expC>)Resultado: numérico

LOWERFunción: Convierte <expC> a minúsculas.Sintaxis: Lower(<expC>)Resultado: textoEjemplo: Lower("ESTO ES una prueba") Resultado "esto es una prueba"

LTRIMFunción: Elimina los espacios al comienzo de <expC>Sintaxis: LTrim(<expC>)Resultado: texto

MAXFunción: Devuelve el máximo de dos expresiones numéricasSintaxis: Max(<expN1>,<expN2>)Resultado: numéricoEjemplo: Max(-6,13) Resultado 13

MINFunción: Devuelve el mínimo de dos expresiones numéricasSintaxis: Min(<expN1>,<expN2>)Resultado: numéricoEjemplo: Min(-6,13) Resultado -6

MODFunción: Devuelve resto de dividir <expN1> entre <expN2>Sintaxis: Mod(<expN1>,<expN2>)Resultado: numéricoEjemplo: Mod(10,3) Resultado 1

MONTHFunción: Acepta una expresión fecha, Resultado el número del mes.Sintaxis: Month (<expD>)Resultado: numéricoEjemplo: Month (Ctod("20/09/1995")) Resultado 9

RECNOFunción: Devuelve el nº de registro actual.Sintaxis: Recno()Resultado: numérico

20Base de datos


REPLICATEFunción: Devuelve un texto consistente en <expC> repetido <expN> vecesSintaxis: Replicate(<expC>,<expN>)Resultado: textoEjemplo: Replicate("X",5) Resultado "XXXXX"

RIGHTFunción: Devuelve el trozo de texto de <expC> consistente en los <expN> caracteres mása la derecha.Sintaxis: Right(<expC>,<expN>)Resultado: texto

ROUNDFunción: Resultado <expN1> redondeado a <expN2> decimalesSintaxis: Round(<expN1>,<expN2>)Resultado: numéricoEjemplo: Round(1/3,2) Resultado 1.33

SPACEFunción: Resultado texto consistente en <expN> espacios.Sintaxis: Space(<expN>)Resultado: textoEjemplo: Len(Space(10)) Resultado 10

STRFunción: Convierte una expresión numérica en texto. <length> es la longitud del texto quedevuelve, incluyendo decimales, punto decimal, y signo. El texto se ajusta a la izquierda espaciossi es necesario. Si se omite <decimals> , Str() redondea al entero más próximo. Si <length> y<decimals> se omiten, Str() devuelve 10 dígitos.Sintaxis: Str(<expN>[,<length>[,<decimals>]])Resultado: texto

STUFFFunción: Reemplaza parte de <expC1> con <expC2>, empezando en la posición<expN1>, continuando hasta <expN2> caracteres. Si <expN2> es 0, Stuff() inserta <expC2> en<expC1> empezando en la posición <expN1>. Si <expC2> está vacío, Stuff() elimina <expN2>caracteres de <expC1>.Sintaxis: Stuff(<expC1>,<expN1>,<expN2>,<expC2>)Resultado: textoEjemplo: Stuff("HOLA MUNDO", "GENTE", 6, 5) Resultado "HOLA GENTE"

SUBSTRFunción: Extrae texto de <expC>, empezando en la posición <expN1> hasta <expN2>caracteres. Si se omite <expN2>, se extrae hasta el final de <expC>.Sintaxis: Substr(<expC>,<expN1>,[<expN2>])Resultado: textoEjemplo: Substr("20/09/95",4,2) Resultado "20"

TRIMFunción: Elimina espacios al final de <expC>Sintaxis: Trim(<expC>)Resultado: texto

UPPERFunción: Convierte <expC> a mayúsculas.Sintaxis: Upper(<expC>)Resultado: textoEjemplo: Upper("Una Prueba") Resultado "UNA PRUEBA". Usada frecuentemente en



índices para uniformizar.

VALFunción: Convierte un texto en número. Val() ignora espacios iniciales y termina en elprimer carácter no numéricoSintaxis: Val(<expC>)Resultado: numéricoEjemplo: Val("32") Resultado 32. Val(" 32x44") Resultado 32. Val("x32") Resultado 0

YEARFunción: Acepta una fecha, Resultado el año.Sintaxis: Year (<expD>)Resultado: numéricoEjemplo: Year (Ctod("20/09/1995")) Resultado 1995

2.1.5 Alias

Un Alias es un nombre con el que se identifica la ruta que hay que seguir en la estructura dearchivos del ordenador para localizar una carpeta de base de datos.Así por ejemplo podemos tener la siguiente ruta:c:\Archivos de Programa\ALCE INGENIERIA\AlcEst\Datos\Estudio1y asignarle el nombre Estudio1, de tal manera que desde AlcEst a la hora de abrir una tabla enesa ubicación se puede usar la ruta completa o el alias indistintamente:

Se crea un nuevo Alias desde el programa DEFINE en la opción Alias del menú principal.Desde ese programa también se puede borrar un Alias ya existente. Para modificar primero loborramos y después lo volvemos a crear con los cambios deseados.

22Base de datos


2.1.6 Condiciones

Si se desea trabajar con parte de los datos, solo con aquellos registros que cumplen unasdeterminadas condiciones, se utilizará la opción Condición filtro del menú Edición, o bien sepulsa sobre el botón como el representado en la figura.

En el diálogo que aparece se puede indicar la condición que han de cumplir los registros con losque se va a trabajar

Una condición se especifica mediante un nombre de variable, un símbolo de comparación y unvalor.EjemploPAS < 130

Los símbolos de comparación que se puede utilizar son

Para enlazar más de una condición se puede utilizar los operadores AND (Y lógico) y OR (Ológico, no exclusivo), o los símbolos & (AND) y ^ (OR).En la condición se puede utilizar paréntesis.

Ejemplo:SEXO=MUJER AND (PAS >= 130 OR PAD >= 85)

Se puede escribir también comoSEXO=MUJER & (PAS >= 130 OR PAD >= 85)

También se puede especificar una condición negada (complementaria) empelando el operadorNOT o el símbolo | (pulsando Alt Gr 1)Así la condiciónNOT PAS >= 130es equivalente a



PAS < 130Para las variables cualitativas el valor se puede indicar con el nombre de la categoría o con elnúmero. Así, si hemos definido la variable SEXO (0.Mujer, 1.Hombre), las condicionesSEXO=MujerSEXO=0son equivalentes.

Para las variables de tipo texto se permite las mismas condiciones que para las variablesnuméricas, siguiéndose para evaluar la comparación el orden alfabético, y el valor debe indicarseentre comillas. EjemploAPELLIDOS > "M"selecciona todos los registros con apellidos que empiezan con la M en adelante.También se puede utilizar el carácter global asterisco (*) para indicar que es indiferente el grupode caracteres que se encuentra en esa posición:

"TEXTO*" se cumple cuando el valor actual comienza con el TEXTO especificado"*TEXTO" se cumple cuando el valor actual finaliza con el TEXTO especificado"*TEXTO*" se cumple cuando el valor actual contiene en algún lugar el TEXTO especificado.En el caso de las variables de texto se puede indicar si desea o no distinguir entre letrasminúsculas y mayúsculas.

Importante: En las condiciones no se puede incluir variables de tipo texto libre con másde una línea (Memo). Si se desea escoger registros en función del contenido de una variable deeste tipo, hay que utilizar una variable intermedia, por ejemplo dicotómica (NO/SI), cuyo valorpreviamente se asignará dependiendo del contenido del texto libre utilizando la función deasignación que se describe opciones avanzadas, y luego utilizaremos esa variable en lacondición.

2.1.7 Selección de campos que se presentan

Cuando se abre una base de datos en pantalla aparece una nueva ventana con una columna porcada campo (variable) definido y una fila por cada registro (ficha) existente. Si se deseapresentar únicamente alguno de los campos y no todos, se utilizará la función Columnas delmenú de Edición, o bien se pulsa el botón que se indica en la figura

Accedemos entonces al diálogo de selección de variables:

24Base de datos


En el lado de la izda. se presenta la relación de variables disponible ordenadas según aparecenen el archivo (orden de creación), aunque también se pueden ordenar alfabéticamente, y en ellado de la dcha. tenemos los campos que van a aparecer en el listado. Con los botones Añadir yQuitar pasamos de una lista a la otra.Los botones con las flechas azules, arriba y abajo, nos permiten alterar el orden de presentaciónde los campos.

2.1.8 Ordenar según un criterio

Los registros de la base de datos se presentan por defecto según el orden en que fueroncreados, el más antiguo primero. Si se desea ordenar según otro criterio, según el valor de uncampo (por ejemplo APELLIDOS o FECHA), o una combinación de campo (expresión), espreciso utilizar un índice, y si éste no existiera previamente habrá que crearlo.Para seleccionar el índice que se desea utilizar en la ordenación del fichero se utiliza la funciónOrdenar del menú Edición, o bien se pulsa en el botón

Se obtiene entonces el diálogo de la figura

que nos permite elegir un índice de entre los existentes o bien indicar que no se desea utilizarcriterio de ordenación (Sin ordenar), volviendo entonces al orden natural o de registro.



2.1.9 Desplazamientos por la base de datos

Cuando se abre una base de datos ya existente en pantalla se presenta una tabla con una filapor cada registro (ficha) existente y una columna por cada campo (variable) definido. Se puederestringir qué registros se presentan dependiendo de que cumplan o no unas condicionesespecificadas (filtro) y además en qué orden se presentan. Por otro lado también se puedelimitar qué campos se desea que aparezcan en la tabla.Para desplazarnos por la base de datos disponemos de una serie de botones de navegaciónsituados en la esquina superior izda. por encima de la tabla. El registro en el que estamosposicionados aparece marcado con una flechita negra en lado de la izda. En la esquina superiorderecha aparece el nº de registro actual y el total de registros del fichero.

2.1.10 Creación y modificación de datos

Al abrir una base de datos inicialmente no se puede modificar, para evitar cambios accidentales.Si se desea modificar valores de los registros existentes o añadir nuevos registros es precisoactivar la función Permitir modificar marcando el recuadro que se encuentra situado en la partesuperior de la tabla, en la zona central.

Cuando se marca la casilla que habilita la posibilidad de modificar los datos se presentan nuevosbotones de navegación en la esquina superior izda.Si nos posicionamos en cualquier punto de la tabla es posible modificar los datos (pulsando latecla F2 se pasa a editar el campo en el que estamos posicionados). Si se modifica algún dato latabla pasa automáticamente a modo Edición, lo que se reflejará en el panel de estado en la partesuperior dcha.Con la tecla de tabulador pasamos de un campo a otro (mayús. + Tabulador para retroceder).

26Base de datos


También podemos usar las flechas para desplazarnos de un campo a otro, o de un registro aotro. La tecla Intro primero entra en modo edición del campo, seleccionando todo su contenido, ya la siguiente pulsación salta al campo contiguo.Los cambios efectuados en un registro no se guardan en disco hasta que no se pulsa el botón de

aceptar cambios en el panel de navegación . También se guardan automáticamente, sinnecesidad de aceptación explícita, si nos movemos a otro registro.Para cancelar los cambios (antes de que hayan sido guardados en disco) y restaurar los valores

anteriores disponemos del botón

El icono permite "refrescar" los datos que se están presentando en pantalla recargándolosdesde el disco donde, si estamos trabajando en red local con un archivo compartido, puedenhaber cambiado.

Pulsando entramos en modo Edición a modificar los datos del registro actual.

Para añadir un nuevo registro al final de la base de datos podemos, desde cualquier punto dela tabla, utilizar la tecla del panel de navegación etiquetada con un signo + o bien desplazarnoscon alguna de las teclas de movimiento hacia abajo cuando estamos situados en el últimoregistro. Al igual que en la modificación de datos, hasta que estos no se guarden en disco sepuede cancelar la inserción de un registro nuevo utilizando el botón de cancelar del panel denavegación.

Para suprimir un registro existente utilizaremos el botón del panel de navegación etiquetadocon el signo -. El programa pide confirmación para esta operación.

2.1.11 Localización de un registro

Enter topic text here.

2.1.12 Borrado de datos

Para poder borrar registros individualmente antes hay marcar la casilla Permitir modificar, en laventana que presenta los registros de la tabla. Si es así, al lado de los botones de navegación enla parte superior izquierda habrá también un botón con el signo menos -. Si una vez localizadonos posicionamos en el registro que queremos borrar y pulsamos ese botón, el programa nospide confirmación y al responder afirmativamente se procede a eliminar ese registro de la tabla.

En los archivos DBF con los que habitualmente trabaja AlcEst, los registros borradospermanecen en el fichero hasta que éste se compacte (Utilidades > Compactar), únicamentetienen una marca interna que indica que están borrados y no se presentan en pantalla.Si marcamos Gestión > Ver borrados se presentarán en pantalla los registros que estánmarcados como borrados pero que no han sido eliminados definitivamente de la tabla con laopción de Compactar. En la parte superior de la ventana aparecerá entonces un indicadorinformándonos de que se visualizarán los registros borrados, que aparecen marcados en fondorojo.



Si una tabla tiene muchos registros borrados puede ser interesante compactarla para que ocupemenos espacio y las operaciones que se efectúen con ella tarden menos.

Es posible también proceder a borrar un grupo de registros que cumplen unas condicionesespecificadas, con la opción:

Gestión > Borrar registros

Para borrar todos los registros de una tabla, dejándola en blanco, utilizaremos

Gestión > Vaciar tabla

Recuperar registros borradosSi se activa la función Ver registros borrados, en el menú Gestión aparece una opción más:Recuperar todos los registros borradosque nos permite quitar la marca de borrado a aquellos registros que fueron eliminados perotodavía están en el archivo porque todavía no fue compactado.Si nos posicionamos sobre uno de los registros borrados (marcado con fondo rojo), tenemos otroopción más en el menú GestiónRecuperar registro actualque permite quitar la marca de borrado a un registro concreto.

Borrar registros que tienen un campo de texto libre vacío

Los campos de texto libre aparecen en el listado con fondo amarillo cuando no están vacíos. Sise desea borrar los registros que no tienen ningún texto en un determinado campo de texto libre,seleccionamosGestión > Borrar registros con texto libre vacíoY el programa nos preguntará el nombre del campo de tipo texto libre que se utilizará paraverificar la condición sobre si está o no vacío.

2.2 Definición de la estructura de una tabla

2.2.1 Definición de la estructura de variables

Antes de proceder a archivar datos hay que definir la estructura de la tabla en la que se van aguardar. Para ello se utiliza el programa DEFINE.EXE. Cada tabla consta de un conjunto de unmáximo de 255 variables o campos, que se identifican con un nombre de cómo máximo 10caracteres.Los nombres de variable tienen que empezar por un carácter alfabético y pueden contener letrasy números, así como el símbolo _, no pudiendo tener espacios en blanco. No se distingue entreminúsculas y mayúsculas, no se puede utilizar acentos ni la letra eñe.Además del nombre, que es obligatorio, se puede opcionalmente indicar una descripción para

28Base de datos


cada variable, donde ya no se aplican todas las restricciones anteriores, es decir que se puedeemplear minúsculas y mayúsculas, acentos, la letra ñ, no hay limitación de longitud. Cuandoexiste descripción para una variable, se utilizará ésta en la presentación de resultados.Para cada variable hay que especificar el tipo (número, cualitativa, texto, etc).En la figura podemos ver parte de la pantalla de definición de una estructura de datos

El contenido del campo Opciones depende del tipo de variable. Cuando se puede escoger entrediferentes alternativas disponemos de una lista desplegable para la elección, o podemos teclearel texto completo o la letra inicial de la opción seleccionada

Para las variables cualitativas y las expresiones cuando se edita el campo Opciones aparece unbotón de diálogo

al pulsar ese botón se presenta el diálogo de definición de características correspondiente al tipode variable en cuestión. También se invoca de forma automática en cuanto se teclea algo en esacolumna.



2.2.2 Definición de categorías para una variable cualitativa

Al pulsar en el botón de opciones de una variable cualitativa en el programa de definición de laestructura se presenta un diálogo similar al de la figura

A diferencia de los nombres de las variables, en los nombres de las categorías se permitecualquier tipo de caracteres y no se limita la longitud. El programa cambia automáticamente losespacios en blanco por el símbolo _.Internamente los datos de una variable cualitativa se guardan como un número entero queempieza en 0 para la primera categoría, 1 para la segunda, y así sucesivamente. En el ejemplode la figura a la última categoría, Estudiante, le corresponderá internamente el valor 4.

2.2.3 Definición de fórmulas

Es posible definir variables numéricas cuyo valor es el resultado de evaluar una expresiónmatemática, por ello a este tipo de variables se las denomina en el programa comoExpresiones.

Si se selecciona ese tipo de variable, al pulsar cualquier tecla en la columna Opciones o al pulsarel botón aparece el diálogo para especificar la expresión que se evaluará y algunascaracterísticas adicionales

30Base de datos


En el campo Fórmula se indica la expresión matemática. En ella puede intervenir cualquiera delas variables de la tabla ya definidas, así como constantes. Se puede utilizar los siguientessímbolos de operaciones matemáticas así como paréntesis+ Suma- Resta

* Multiplicación/ División^ PotenciaAdemás se dispone de funciones matemáticas que pueden escribirse directamente oseleccionar desde la lista desplegable y copiar en el campo pulsando en el botón Selec. Func.Matemáticas.Las variables de tipo Expresión pueden ser de dos tipos dependiendo de si su resultado seguarda en la base de datos como un campo más de cada registro o si, por el contrario, setrata de una variable "virtual" cuyo resultado se calcula cuando es necesario pero no se guardafísicamente en la base de datos. La elección entre un tipo u otro vendrá determinadaúnicamente por la necesidad de utilizar la base de datos para abrirla desde otros programas, encuyo caso será necesario indicar que se desea que el resultado se guarde en la base de datos,ya que en caso contrario el resultado no estará disponible cuando se abra la tabla desde otrosprogramas.También existe una diferencia en cuanto a visualización del resultado entre ambos tipos deexpresiones: los de las que se guardan en la base de datos no son presentados hasta que seactualiza el registro, es decir hasta que se guardan los datos en el fichero.

Cuando definimos la expresión se puede indicar si queremos el resultado se presente siemprecon un número fijo de decimales. Si no se indica nada es el programa quien decide el númerode decimales a utilizar en cada caso.

En general cuando en una expresión interviene una variable cuyo valor es actualmentedesconocido –no se indicó el dato- el resultado de la misma es también desconocido yaparecerá en blanco. No obstante podemos asignar por defecto el valor 0, para su utilización enla expresión, a aquellas variables vacías que intervienen en la fórmula, marcando para ello lacasilla Asignar a las ausencias el valor 0.



2.2.4 Funciones matemáticas

· ABS(X) Valor absoluto· ALEN(M,S) Devuelve un número aleatorio de una distribución normal de media M y

desviación típica S· ALEU(R) Devuelve un número aleatorio de una distribución uniforme (> 0 , < R)· ARCTAN(X) Arcotangente· ARG(X)· CEIL(X)· COS(X)· COSH(X)· COTAN(X)· D(F)· DIFA(F1,F2)· DA(F)· EDA(F)· ENT(X)· EXP(X,Y)· FA(F)· FM(F)· FD(F)· HEAV(X)· INTPOT(X,Y)· LN(X)· LOG(X)· LOG2(X)· LOGN(X,Y)· MAX(X,Y)· MIN(X,Y)· PH· POT(X,Y)· RAIZ(X)· SENH(X)· SIGN(X)· SQR(X)· TAN(X)· TRUNC(X)· ZERO(X)

2.3 Cambios en la estructura de la base de datos

Si una vez creada la estructura de una tabla de datos se desea suprimir variables o añadirlas, seránecesario acudir al programa DEFINE, pero sólo si trata de variables que existen físicamente, sise trata de variables virtuales, cuyo valor se obtiene a partir de otras variables ya existentes, comoes el caso de las fórmulas o de algunas variables cualitativas que se obtienen a partir de otroscampos, entonces no es necesario redefinir el archivo con el programa DEFINE, sino que sepueden introducir las modificaciones directamente desde el programa AlcEst.

En concreto se puede, sin necesidad de acudir a redefinir la estructura, convertir cualquier variablenumérica en variable categórica, añadir categorías a una variable cualitativa ya existente,modificar los nombres de las categorías, agregar y/o suprimier categorías, construir una variable

32Base de datos


cualitativa nueva a partir de unas condiciones especificadas (grupos), crear variables cualitativas apartir de variables numéricas manteniéndose los dos tipos de variable:

Edición > Cualitativas

En los capítulos siguientes se describen detalladamente estas opciones.

También es posible añadir fórmulas a la estructura directamente desde AlcEst:

Edición > Fórmulas

2.3.1 Creación y modificación de variables cualitativas

Denominamos variables cualitativas a aquellas cuyo posible resultado corresponde a una listafinita de posibilidades. Así ejemplos de variables cualitativas son el sexo (Mujer, Hombre), elgrupo sanguíneo (O,A,B,AB), el Rh (Negativo, Positivo), situación laboral (Desempleado,Estudiante, Ama de casa, Empleado, Jubilado), el resultado de una terapia (Fallece, Empeora,Sin cambios, Mejora, Curación), etc. Las posibles respuestas tienen que ser mutuamenteexcluyentes, por lo que si se selecciona una las demás respuestas quedan excluidas. Por ellono podríamos definir con una única variable cualitativa el Factor de riesgo cardiovascular conrespuestas (Obesidad, sedentarismo, hipertensión, tabaquismo, etc.) porque no son excluyentes:se puede ser a la vez obeso y tener hipertensión.Las variables dicotómicas o booleanas son un caso especial de variables cualitativas, con sólodos categorías NO y SI.Las respuestas de una variable cualitativa se pueden identificar indistintamente utilizando elnúmero de la categoría (de 0 a K-1) o utilizando el texto de la categoría.

Las bases de datos tradicionales no contemplan el tipo cualitativa como una posibilidad más encuanto a los tipos de variables que se almacenan en la base de datos, por lo que en realidad enel programa AlcEst se lleva a cabo es indicar que ciertas variables que pueden ser internamentede tipo numérico o de texto tienen acotado el número de respuestas posibles.Cuando una variable numérica de la base de datos, ya sea de tipo entero o real, se definecomo cualitativa el programa AlcEst sólo permitirá asignarle valores enteros entre 0 y K-1, siendoK el número de categorías, y a cada una de las K respuestas se permite asignar un textodescriptivo.Cuando en el AlcEst se convierte una variable de texto en cualitativa lo que hacemos es locontrario de la variable numérica, es decir que aunque internamente se esté guardando un texto(que es el que también se presenta), se le asocia un número entre 0 y K-1, y sólo se permitiráescribir alguno de los textos contemplado en la lista de categorías.Salvo que no quede más remedio, porque procede de una base de datos ya creada desde otroprograma, se recomienda que para las variables cualitativas se utilice un tipo numérico,preferiblemente entero, ya que es óptimo para la función que debe cumplir y ocupa menosespacio en disco que una variable de texto.



En ocasiones las variables cualitativas tienen una estructura ordinal, en la que es importante elorden que ocupan las respuestas aunque no la distancia entre ellas. Así la variable Resultado deuna terapia (0.Fallece, 1.Empeora, .2.Sin cambios, 3.Mejora, 5.Curación) tiene una estructuraordinal siendo 0. Fallece el peor resultado y 5. Curación el mejor, pero no podemos decir que 2.Sin cambios sea el doble de 1. Empeora. La codificación de las variables cualitativas comonúmeros enteros correlativos empezando en 0 permite su utilización como variables ordinales.

Si la estructura de variables se ha definido originalmente con el AlcEst, lo habitual serácontemplar ya las cualitativas que se desea que exista en el archivo. En este caso el proceso esmuy sencillo y las variables cualitativas se guardan internamente como números enteros, sinnecesidad de que el usuario intervenga.Pero en ocasiones se trabajará con tablas de datos preparadas desde otros programas por loque se dispone de una serie de funciones para crear y manipular las variables cualitativas. Atodas esas funciones se accede desde el menú Edición.

Definir una variable cualitativa nueva

Con esta opción es posible convertir una variable numérica o de texto en una variable cualitativa.Hay que tener bien claro que no se crea una nueva variable sino que lo hacemos es convertiruna variable ya existente en cualitativa, de tal manera que si existen datos que no pueden serconvertidos en alguna de las categorías, por ejemplo si la variable es numérica porque existe unvalor mayor que K-1 o menor que 0, el resultado para ese registro es una ausencia.Una vez que se selecciona la variable sólo hay que indicar las posibles categorías, que en elcaso de que sea una variable de texto deben corresponder a los textos que se va a permitir

Modificación de los nombres de las categorías

Con esta opción se puede cambiar los nombres de las categorías de una variable numérica. Elvalor numérico interno de los datos (número entero de 0 a K-1) no cambiará.

34Base de datos


Suprimir variable cualitativa

La variable seleccionada deja de tratarse como variable cualitativa para volver a ser simplementeuna variable numérica o de texto, según el formato que tuviera internamente en la base de datos.Por lo tanto la variable no desaparece de la base de datos sino que únicamente deja de sercualitativa. Esto se puede hacer de forma temporal, sólo para la sesión actual o bien de manerapermanente.

Agrupar, suprimir y/o añadir categorías

Desde esta opción es posible agrupar, suprimir y añadir categorías sin que se pierda informaciónsi se efectúa adecuadamente.Una vez que seleccionamos la variable que se va a manipular, aparece una tabla con doscolumnas, en la de la izquierda irán los nombres de las nuevas categorías y en la de la derechalos nombres de las nuevas. Inicialmente son idénticas.Para agrupar dos o más categorías escribiremos en el lado derecho los nombres de lascategorías antiguas que vamos a agrupar, separados por comas.Para suprimir una categoría se utiliza el botón con el símbolo – (menos) , para añadir una nuevacategoría se utiliza el botón con el símbolo + (más). Si añadimos una categoría nuevalógicamente la casilla correspondiente de la columna de la derecha estará en blanco, ya que notiene contrapartida en la definición original.Esta función también sirve para cambiar el orden original de las respuestas, utilizando las flechasazules arriba o abajo.

Intercambiar primera y segunda categoría

Esta función está especialmente pensada para variables cualitativas de dos categorías o



dicotómicas, cuyas respuestas no se encuentran inicialmente en el orden idóneo para efectuarun análisis estadístico determinado. Así por ejemplo para un análisis de supervivencia seconsidera que el suceso está codificado con la segunda respuesta (1) y la ausencia de éste conla primera (0). Si no fuera así disponemos de esta función para intercambiar el orden de lasrespuestas.

2.3.2 Variables cuantitativas agrupadas en categorías

En ocasiones interesa manejar variables numéricas o cuantitativas como variables cualitativas,es decir agrupando en clases según diferentes intervalos de valores.Así por ejemplo si disponemos en nuestra tabla de un campo IMC que recoge el índice de masacorporal puede interesar agrupar a los sujetos en diferentes niveles de obesidad:

Otros posibles ejemplos pueden ser agrupar la edad en varios intervalos, clasificar el resultadode una prueba analítica numérica como positivo (presencia de patología) o negativo, etc.El programa permite crear nuevas variables cualitativas a partir de variables numéricas yaexistentes. Para ello seleccionamosEdición > Cualitativas > Numéricas a cualitativas

Las nuevas variables creadas coexistirán con las originales, a partir de las cuales fuerondefinidas y su resultado no se guarda físicamente en la base de datos sino que se calcula en elmomento de la presentación o de su utilización en las pruebas estadísticas.

En la pantalla que aparece disponemos de tres posibilidades con otros tantos botones:

· Nueva: Para definir una nueva variable cualitativa a partir de una numérica ya existente.· Modificar: Para cambiar la definición de una variable que fue creada previamente.· Borrar: Para eliminar de la estructura una variable.

36Base de datos


Para definir la nueva variable cualitativa hay que indicar el nombre con el que será identificada,no pudiendo lógicamente existir ya otra variable con ese nombre.Hay que seleccionar la variable cuantitativa ya existente que va a ser clasificada en intervalos. Ypor último hay que indicar los intervalos de clase, límite inferior y límite superior, teniendo encuenta que cuando un valor coincide con el límite superior de una clase se incluye en lasiguiente.Como todas las variables virtuales (aquellas que no se guardan físicamente en la base dedatos), se puede indicar si se va a utilizar sólo en la sesión de trabajo actual o si se deseaconservar su definición para futuras ocasiones (Permanente).

2.3.3 Variables cualitativas cuyas categorías se definen mediante condiciones(grupos)

Resulta muy útil poder clasificar los registros en diferentes categorías de acuerdo a si secumplen o no unas condiciones y poder convertir esa clasificación en una variable cualitativapara utilizarla en las diferentes pruebas estadísticas. Veamos un ejemplo.Supongamos que una base de datos de pacientes se ha registrado la presión arterial sistólica ydiastólica y se desea efectuar una serie de pruebas estadísticas en las que se va a considerar demanera diferente los pacientes hipertensos respecto de los que no lo son. Si utilizamos laclasificación de un paciente como hipertenso cuando su PA sistólica (PAS) es superior a 140 ocuando su PA diastólica (PAD) es superior a 90, tenemos dos grupos definidos de la siguienteforma:

NO hipertenso cuando PASM<140 y PADM<90HIPERTENSO cuando PASM>=140 o PADM>=90

Podríamos crear una nueva variable cualitativa HTA (NO, SI) y utilizar la orden de Asignarvalores para rellenarla de forma automática en función de las dos condiciones anteriores. Sinembargo existe un método más sencillo.Seleccionamos Edición > Cualitativas > Definir grupos y creamos una nueva variable



Se indica un nuevo nombre de variable que no exista previamente y se define las diferentescategorías indicando el nombre en la columna categoría y la condición que se ha de cumplirpara clasificar el resultado en esa categoría.Podemos también indicar si se trata de una variable que vamos a utilizar únicamente en lasesión actual (temporal) de tal forma que su existencia se perderá en cuanto cerremos elarchivo o si deseamos que se conserve (permanente) para ocasiones sucesivas en las quetrabajemos con estos datos.En cualquier caso el resultado de la nueva variable en cada registro no se guarda físicamente endisco sino que se calcula en el momento de la presentación a partir de las condiciones definidas.Sólo se presenta un resultado por lo que se espera que las condiciones sean mutuamenteexcluyentes; sin embargo el programa no lo comprueba. Las condiciones se van evaluando en elorden en que fueron definidas y en el momento que se cumple una de ellas se asigna esacategoría, por lo que podría ocurrir que una condición definida más adelante también se cumpla.Por ello es posible también dejar en blanco la última condición, lo que significa que si no secumple ninguna de las anteriores es la que se asignará por defecto.

En la imagen siguiente se define la variable SINDROMEX cuando se cumple una condicióncompleja en la que intervienen la hipertensión, índice de obesidad, el colesterol, LDL y lostriglicéridos. Si la condición no se cumple se clasifica automáticamente como NO.

Este procedimiento facilita la definición de la segunda categoría, pero tiene sus inconvenientes siexisten ausencias en las respuestas. Así si por ejemplo un registro no dispone del valor de lavariable OBESIDADIMC, la primera condición no se cumple (no sabemos si es superior a 2) ypor lo tanto se asignará a la segunda categoría SINDROMEX=NO, cuando quizás lo correcto esdejar la respuesta en blanco ya que ignoramos el verdadero valor del SINDROMEX. Si sólo esavariable tiene ausencias, la solución sería definir la segunda condición como:

OBESIDADIMC # ?

38Base de datos


ya que al evaluarse las condiciones en orden, sólo se asignará la segunda categoría cuando nose cumple la primera condición y en ese caso sólo si OBESIDADIMC está cumplimentado,quedando en caso contrario el resultado vacío.Supongamos que además de esa variable también hay ausencias en COLESTEROL, LDL y/oTRIGLICER; entonces las cosas se complican ya que al desconocer alguno de esos valorestambién desconocemos el resultado de la variable SINDROMEX cuando no se cumple la primeracondición. La solución ahora sería indicar como segunda condición

OBESIDADIMC # ? & COLESTEROL # ? & LDL # ? & TRIGLICER # ?

2.3.4 Variables internas (dummy)

Para que una variable cualitativa nominal con más de dos categorías pueda intervenir en unmodelo de regresión debe ser convertida en un conjunto de K-1 variables dicotómicas convalores 0,1, siendo K el número de categorías original. Por ello este tipo de transformación sedescribe de forma más completa en el apartado de regresión. Allí vemos que a la hora desolicitar una ecuación de regresión se puede indicar qué variables cualitativas van a serconvertidas a variables internas. Sin embargo cuando se va a interactuar con otros programas(MIXREG, MIXNO, R) o exportar datos para otros programas, interesa poder disponer de lasvariables transformadas, por lo que se ha definido una opción para crearlas expresamente,solicitando Edición > Variables internas (dummy).La pantalla que aparece es idéntica a la que nos encontramos cuando se definen desde unaorden de regresión por lo que vale lo que allí se explica.Cuando se construye un conjunto de variables internas, el programa crea K-1 variables con elmismo nombre y un sufijo consistente en un número, empezando por 1, precedido de _ (guiónbajo). Así si tenemos la variable SINTOMA con cuatro categorías, se crearán las variablesinternas SINTOMA_1, SINTOMA_2, y SINTOMA_3.

2.4 Opciones avanzadas

2.4.1 Nombres y descripciones de las variables

Trabajando con ficheros cuya estructura ha sido creada desde AlcEst el nombre de las variablesestá limitado a 10 caracteres que pueden ser alfabéticos o numéricos, debiendo empezar poruna letra. También podemos emplear el símbolo _ (guión bajo) como símbolo de separación. Nose puede utilizar la Ñ ni acentos. Es indiferente utilizar minúsculas o mayúsculas ya que losnombres de las variables se convierten a mayúsculas. Estas limitaciones se deben a que se estáempleando el formato estándar dBase que tiene esas restricciones.Además del nombre a cada variable de la estructura de una tabla de datos se el puede asociaruna descripción textual en la que ya no existen las limitaciones anteriormente descritas. Estadescripción aparecerá en la cabecera de la pantalla de presentación de datos y en los resultadosde las diferentes pruebas.Se puede indicar la descripción cuando se define la estructura, o posteriormente invocandoEdición > Descripción de las variables



2.4.2 Variable de texto combinando otras variables

Si se desea disponer de una variable de tipo texto que encadene los resultados de otrasvariables, que pueden ser de cualquier tipo, se acudirá a la opciónEdición > Textos combinando variables

El valor de la nueva variable en cada registro será el texto de cada uno de los campos definidosen la expresión, en el orden en que fueron incluidos, separados por comas.

Este nuevo tipo puede servir por ejemplo para detectar duplicados en combinaciones devariables. Veamos un ejemplo: supongamos que tenemos un fichero de revisiones y que solopuede haber una ficha de revisión para un paciente en el mismo día. Si tenemos definidos loscampos NHISTORIA (nº de historia del paciente) y FECHA (fecha de la revisión), y construimosuna nueva variable de texto que combina NHISTORIA,FECHA, no debería haber repeticiones enel valor de esta nueva variable. Podemos solicitarEstadística > Frecuencias > Numéricas, Textoy en la tabla obtenida localizar aquellos valores para los que la Frecuencia > 1.

2.4.3 Importación de datos

El programa AlcEst permite importar datos desde ficheros en formato ASCII delimitado. Para ellola estructura de datos tiene que estar ya creada, es decir que tiene que existir ya el ficheroAlcEst.SeleccionandoUtilidades > Exportar / Importar > Importar ASCII delimitadoel programa pregunta por el nombre y ruta del archivo en el que se van a guardar los datos. Unavez indicado éste nos pregunta por el delimitador que va a separar cada campo (un solocarácter), que por defecto es la coma. Se espera que cada registro esté separado por loscaracteres ASCII CR,LF. También se espera que el orden de los campos sea el mismo que elque se está utilizando actualmente para la presentación y sólo se espera información de loscampos que se están presentando.

Utilización del portapapeles para importar datosSe puede emplear el portapapeles para crear registros con datos obtenidos de otro programa.

40Base de datos


Para ello previamente hay que tener definida la estructura de la tabla en el AlcEst y presentar loscampos que se van a importar y en el mismo orden. En el programa que contiene los datos quese va a recoger habrá que marcar la parte de éstos que se va a importar, por ejemploarrastrando el ratón con el botón izquierdo pulsado o por cualquier otro sistema dependiente delpropio programa. Con los datos ya marcados se seleccionará en el menú de Edición la funciónCopiar o también se puede utilizar Ctrl+Insert para colocar los datos marcados en elportapapeles. Una vez que tenemos los datos a importar colocados en el portapapeles,volvemos al AlcEst y seleccionamosEdición > Crear registros desde el portapapelesrealizándose el proceso de forma automática. Si se produjera algún error el programa nos locomunica indicándonos la posición del mismo.

También es posible rellenar un campo determinado (columna de la tabla de datos) desde elportapapeles. Una vez que tenemos los datos en el portapapeles, con cada registro en una línea,seleccionaremosEdición > Rellenar columna desde el portapapelesy el proceso se efectuará de forma automática colocando de forma secuencial desde el principiohasta el final de la tabla, en la columna correspondiente a la variable seleccionada, los valoresalmacenados en el portapapeles. Si el número de valores es menor que el número de registrosde la tabla sólo se cumplimentan los primeros registros. Por el contrario, si el número de valoreses superior al número de registros, se crean nuevos registros con todos los campos vacíos aexcepción del que se está rellenando que contendrá el valor obtenido del portapapeles.

2.4.4 Exportación de datos

Hablamos de exportación de datos cuando se trasvasan datos desde tablas creadas omodificadas con AlcEst a otros programas de gestión de base de datos, hojas de cálculo o deestadística.Hay que destacar que el formato dBase utilizado por AlcEst para almacenar los datos facilita elintercambio con la mayoría de los programas, ya que se trata de un estándar muy difundido, yque pueden importar programas tales como Access, Excel o SPSS por citar algunos, por lo quenormalmente no se necesitará ninguna operación especial desde AlcEst para exportar datos aprogramas que permiten importar ficheros dBase.Si no fuera éste el caso se dispone de una función para exportar datos a un fichero en formatoASCII delimitado. Se solicita desdeUtilidades > Exportar / Importar > Exportar a ASCII delimitado



En este tipo de formato los datos se guardan en código ASCII, separando el contenido de cadacampo con un delimitador que se puede escoger (por defecto se utiliza la coma). Cada registrose separa automáticamente con los caracteres CR y LF (ASCII 13, 10).Por defecto se utiliza el punto como símbolo que separa la parte decimal de la parte entera enlos números, pero si se quita la marca en la casilla correspondiente se empleará la coma comosímbolo decimal, por lo que obviamente deberemos emplear otro carácter que no sea la comacomo delimitador de campo.Las cualitativas se pueden exportar por número (por defecto) o por nombre de categoría. En elcaso de que se exporten por número, se puede escoger el origen (valor de la primera categoría),que por defecto es 0 pero puede cambiarse a 1 o cualquier otro valor.También se puede escoger que texto se quiere registrar cuando el valor de un campo esdesconocido (ausencia). Podemos escribir por ejemplo NA.Algunos programas cuando importan datos desde un fichero ASCII necesitan que los campos detexto, que pueden incluir en su contenido espacios en blanco, vayan entre comillas.También se permite escoger entre dos tipos de formato para los campos fecha y diferentesformatos para las variables dicotómicas o booleanas, se pued escoger entre (0,1), (NO,SI),(false,trae) o indicar específicamente el texto que se va a emplear.

Por último hay que especificar la ruta y el nombre del archivo en el que se guardarán los datos.

Hay que destacar que sólo se exportarán los registros que cumplen las condicionesespecificadas y sólo las columnas o campos que se están presentando actualmente y en elorden en que se están presentando, por lo que disponemos de una gran flexibilidad paraconstruir el fichero que se exporta.

Exportación de datos utilizando el portapapeles

Otra posibilidad consiste en utilizar el portapapeles. Seleccionamos

42Base de datos


Edición > Copiar registros al portapapeles

Si se selecciona incluir nombre de variables se añade una primera línea con ese contenido.Se puede añadir un número de línea como primera columna en cada línea, salvo la que contieneel nombre de las variables si fue seleccionado.Como en el caso anterior las cualitativas se pueden copiar con el nombre o con el número de lacategoría y se puede también usar el punto o la coma para separar los decimales.También podemos especificar qué texto se utilizará para las ausencias.Ahora también podemos indicar qué caracteres se emplean para final de registro.

Una vez que tenemos copiados los registros en el portapapeles vamos al programa en el que sequieren pegar (podemos hacer una prueba con una hoja de cálculo, por ejemplo Excel) y seselecciona la opción Edición > Pegar, o bien directamente nos posicionamos en el lugar en elque se van a pegar y pulsamos Cambio a mayúsculas + Insert.

También se dispone de una función para copiar el registro en el que estamos posicionados(registro actual) al portapapeles. En este caso se copia una línea con los nombres de lasvariables y otra con los valores.

2.4.5 Búsqueda por índice

Tal y como se ha indicado en otra sección los índices son campos o combinaciones de camposque se guardan de forma ordenada para permitir la búsqueda rápida de registros cuyo índicetiene un valor especificado o bien para presentar los registros ordenados según los valores deese índice.Si se ha seleccionado utilizar un índice determinado desde la funciónEdición > Ordenar (Indice)y en el índice escogido sólo interviene un campo, en la parte inferior de la pantalla aparece uncampo en blanco que nos permite indicar valores de búsqueda para ese índice



de tal manera que a medida que vamos escribiendo el programa se va posicionando en losregistros que empiezan con ese valor, como podemos ver en la figura.

Si el índice que se está utilizando emplea más de un campo, por ejemplo si tenemos definido uníndice con nombre ID$ con la expresión:APELLIDOS+","+NOMBREno aparece el campo del que hemos hablado en el párrafo anterior, ya que para buscar unregistro se necesita indicar valores para más de una variable, pero se puede emplearGestión > Buscar por índiceapareciendo entonces una pantalla como la de la figura

en la que se puede especificar los valores para cada uno de los campos que intervienen en elíndice, así como si la búsqueda que se desea efectuar es exacta –los valores del registro abuscar deben coincidir exactamente con los especificados- o sólo nos posicionamos en el primerregistro que más se aproxime.

2.4.6 Gestión de índices

El programa AlcEst almacena los índices en formato dBase IV en un fichero con el mismonombre que la tabla de datos pero con extensión MDX. Si por algún motivo el fichero de índicesno estuviera en buen estado se pueden regenerar desde el menú de Utilidades, existiendo dosopciones. La primera de ellas, Reindexar, reconstruye el contenido del fichero de índices a partirde los datos actuales de la tabla. La segunda opción es adecuada cuando no se puede abrir elfichero MDX o se ha perdido, ya que reconstruye el fichero de índices por completo.

Desde el menú de Utilidades se pueden añadir nuevos índices a una tabla con Añadir índice, oeliminar uno ya existente con Borrar índice o todos con Borrar todos los índices.

44Base de datos


2.4.7 Creación de subficheros

La orden Gestión > Subfichero permite crear una nueva tabla con la misma estructura que laoriginal pero sólo con los registros que cumplan la condición que tengamos activada.

2.4.8 Añadir registros de una tabla a otra

La funciónGestión > Añadir esta tabla a otrapermite añadir los registros de la tabla actual que cumplen la condición que esté activada a unanueva tabla que se debe especificar. La tabla sobre la que se añaden registros puede tener unaestructura completamente igual que la primera o sólo parcialmente igual, por lo que se debeespecificar si para la asignación de los datos a cada campo se sigue el criterio de que coincidanlos nombres de los mismos o simplemente se asignan por orden de número de campo.

2.4.9 Asignación automática de valores

Mediante la funciónGestión > Asignación de valoreses posible rellenar campos de forma automática con valores prefijados u obtenidos mediante unafórmula. Además, si previamente hemos activado una condición, sólo se efectuará la asignaciónde valores a aquellos registros que cumplen la condición.En la pantalla vemos un ejemplo en el que se asignan valores a una variable de tipo texto, a unafecha, una variable numérica, dos cualitativas.La variable numérica URICO se le asigna un valor que se obtiene a partir de una fórmula, eneste caso corresponde al valor existente dividido entre 10. Siempre que deseemos asignar unafórmula habrá que comenzarla con el signo =.

Cuando nos posicionamos en el campo variable aparece un símbolo a la derecha que nospermite obtener una lista desplegable con las variables disponibles. Si marca la casilla situada enla parte inferior dicha lista aparecerá ordenada alfabéticamente, en caso contrario aparece en elorden que tienen en la tabla.

2.4.10 Crear un grupo de registros con los mismos datos

La funciónGestión > Crear grupo de datospermite crear un número especificado de registros con una serie de valores para los diferentescampos



Se especifican los valores de los campos que se desee, de tal manera que los que se dejen enblanco serán campos sin cumplimentar (ausencias). Se puede indicar cuántos registros se deseacrear.

2.4.11 Asignar variable según contenido de un texto libre

Tal y como quedó dicho en la explicación de las condiciones, los campos de texto libre de más deuna línea (Memos) no pueden intervenir en las condiciones, pero podemos acudir a un subterfugioque consiste en asignar el valor de otra variable intermedia dependiendo del contenido de lavariable texto libre, y luego utilizaremos esa variable intermedia para imponer condiciones alfichero.La orden para asignar una variable según el contenido de otra variable de texto libre laencontramos en:

Asignar > Asignar variable cuando texto libre contiene...

Hay que indicar la variable de texto libre cuyo contenido se va a verificar, así como el texto que sebusca.Por defecto no se tiene en cuenta minúsculas y mayúsculas, considerandose equivalentes, perose puede indicar lo contrario. Sin embargo siempre se distingue entre presencia o ausencia de

46Base de datos


acentos. Hay que cuidar la ortografía.

También se especificará la variable cuyo contenido se va a rellenar automáticamente según que eltexto libre presente o no la frase buscada, así como el valor a asignar dependiendo de que seencuentre esa frase o no se encuentre.

2.4.12 Separador decimal

A juicio del autor, se trata por tanto una opinión personal, es una papanatería que solo sirve paracausar problemas el considerar que en español el símbolo que se debe emplear para separar laparte entera de la parte decimal es la coma, dado que felizmente el lenguaje de las matemáticases un lenguaje universal con sus propias normas y caracteres, de tal manera que incluso enidiomas que utilizan diferentes caracteres que las lenguas latinas, anglosajonas o germanas,como puede ser las lenguas orientales o las árabes, sin embargo utilizan los símbolos numéricosuniversales. Por ello no tiene sentido hablar de un símbolo numérico "español", máxime cuandotodos hemos utilizado las calculadoras con el punto para separar los decimales. Perodesgraciadamente el sistema operativo Windows considera por defecto que el símbolo pordefecto a utilizar en España como separador decimal es la coma y como la gran mayoría de losusuarios o no saben como cambiarlo o no les preocupa el asunto, el caso es que la situaciónmás probable es que se esté trabajando con la coma como separador decimal.En principio en cuanto al programa AlcEst no hay casi ningún problema en trabajar con la comapara separar los decimales. Únicamente hay que tener en cuenta que a la hora de definirfórmulas se debe emplear el punto como separador decimal, independientemente de cómoestemos trabajando habitualmente, ya que el empleo de la coma en fórmulas podría dar lugar aconfusión ya que si tenemos una función de dos parámetros como por ejemplo la que obtiene lapotencia de un número elevado a un exponente, se indica:

POT(a,b)

Donde a es la base y b el exponente, por ejemplo

POT(35.8,3)

Está claro que si escribiésemos 35,8 el programa es bastante más difícil de implementar.

Capítulo

III

48Estadística


09/09/2004

Estadística

3.1 Consideraciones generales para las pruebas estadísticas

Las pruebas estadísticas se evalúan sobre los datos del fichero que tenemos seleccionado enpantalla, incluyéndose únicamente los registros que cumplen la condición actualmenteespecificada o todos los registros si no tenemos ninguna condición activada.

Si desplegamos el menú Estadística nos aparecen, organizadas en secciones, las diferentespruebas disponibles en el programa. Al seleccionar una de ellas el programa presentará unaventana de diálogo que nos permitirá en cada caso escoger las variables que intervendrán en loscálculos. El aspecto de esa ventana depende de cada prueba, pero en esencia constará decampos en blanco donde podemos indicar el nombre de una o unas variables (en este últimocaso separadas por punto y coma ;). O bien podremos escogerla en una lista desplegable que seobtiene al pulsar en el botón situado en el lado derecho del campo de entrada de datos



Cuando el campo sólo admite una variable, al pulsar en el botón aparece una lista que nospermite seleccionar una variable de entre las posibles:

Mientras que si es un campo para indicar más de una variables, por ejemplo covariantes de unaregresión múltiple, veremos una ventana con dos listas como la de la figura

Por defecto en las pruebas estadísticas se considera que cada registro o ficha de la base dedatos es una observación, salvo en aquellos casos en los que al solicitar los datos para efectuarla prueba estadística figura un campo etiquetado como Frecuencia (véase la tercera imagenmás arriba correspondiente a la solicitud de datos para Estadística descriptiva de una variablecuantitativa), en cuyo caso se puede indicar el nombre de una variable numérica que contendráel número de observaciones o repeticiones correspondiente a los valores de esa ficha.

Una vez que se ha completado la indicación de las variables con las que se desea efectuar loscálculos, pulsaremos el botón Aceptar y el programa recorrerá todas las fichas que cumplen lacondición actualmente especificada efectuando los cálculos pertinentes y presentado unapantalla con los resultados

50Estadística


En la ventana de resultados habitualmente se organiza en más de una página a las que seaccede pulsando en la correspondiente solapa. Si, con el cursor situado en la ventana deresultados, pulsamos en el botón derecho del ratón o bien seleccionamos la opción Resultadosdel menú principal, se desplegará un menú con diferentes opciones disponibles para cada tipode prueba, como poder presentar más páginas de resultados opcionales, obtenerrepresentaciones gráficas, seleccionar el número de decimales a presentar, copiar los resultadosa diferentes destinos, etc.La primera línea de ese menú suele ser Opciones, que permite escoger qué páginas deresultados se desea presentar. En la figura podemos ver un ejemplo para la orden Tablas decontingencia



Marcaremos la casilla de aquellas páginas que deseamos presentar.Los resultados se pueden ir almacenando en el procesador de textos (Informe). Para ello en elmenú de resultados disponemos de dos opciones:Copiar resultados al informe: Añade, en la posición en la que dejamos posicionado el cursoren el informe (por defecto al final de éste), las páginas de resultados que se están presentandoen pantalla.Inicializar informe, Copiar resultados y copiar a portapapeles: Esta opción también permitecopiar las páginas de resultados visibles en el informe pero previamente borra todo lo quehubiera en éste y además copia también los resultados en el portapapeles (en formato RTF).El procesador de textos es el lugar adecuado para ir memorizando los resultados obtenidos, paraimprimirlos adecuadamente o para colocarlos en documentos elaborados por otros programasde proceso de textos como pueden ser MS Word, Wordperfect, Lotus AmiPro etc.

También podemos copiar al portapapeles en formato ASCII la página (tabla) que tenemosactualmente en pantalla con la opción Copiar tabla al portapapeles del menú de Resultados.O incluso seleccionar un conjunto contiguo de celdas para llevarlas al portapapeles con lafunción Copiar selección al portapapeles. Estas dos últimas opciones de trasvase de datos enASCII mediante el portapapeles pueden ser especialmente útiles para intercambiar datos conprogramas de tipo hoja de cálculo como Excel o Lotus ya que se copiará cada celda deresultados en una celda de la hoja de cálculo.

3.2 Procesador de textos

El programa AlcEst dispone de un editor/procesador de textos similar a MS Word aunque, comoes lógico, con menos funciones. En él se puede ir almacenando los resultados de las pruebasestadísticas para en cualquier momento proceder a imprimirlos, archivarlos en disco o quizástrasladarlos a otro programa a través del portapapeles.

52Estadística


El editor de textos (o informes) trabaja en formato RTF (Rich Text Format) que es compatiblecon la gran mayoría de procesadores de texto. Así podemos copiar parte o todo el contenido delinforme y pegarlo en nuestro procesador favorito, ya sea éste MS Word, Word Perfect, LotusAmiPro o cualquier otro.

Para ir añadiendo los resultados obtenidos en una prueba estadística solicitaremos la ordencorrespondiente y cuando nos aparece la ventana de resultados pulsaremos en ésta el botónderecho del ratón y escogemos la opción Copiar resultados al informe. También se puedeacceder desde el menú principal Resultados.Para entrar en el editor de textos seleccionamos desde el menú Informe la opción Presentarinforme.

Desde el editor de textos podemos guardar su contenido en un archivo en disco seleccionado laopción Guardar como… del menú Archivo. Se almacenará con formato RTF.Podemos copiar o cortar trozos del informe al portapapeles para pegarlo en otros programas deproceso de textos. Para ello marcamos el texto que se desea copiar, arrastrando el ratónmanteniendo pulsado el botón izquierdo. Una vez marcada la zona que se desea copiar seselecciona la opción correspondiente en el menú Edición, o bien se utiliza los botones deacceso rápido, o las combinaciones de teclas estándar de Windows (Ctrl+Insert para copiar,Ctrl+X para cortar). Si ahora nos colocamos en el programa en el que se desea pegar lo queacabamos de copiar, seleccionaremos en su menú de Edición la opción Pegar, o bienutilizamos la combinación de teclas estándar (Mayúsculas+Insert).

Para agilizar la tarea de copiar todo el contenido del informe al portapapeles se dispone en elmenú Informe de AlcEst, sin necesidad de entrar en el editor, de la función Copiar informe enel portapapeles. También desde el menú de Resultados disponemos de una función–Inicializar informe, copiar resultados y copiar al portapapeles- que, en un solo paso, nospermite tener en el informe y en el portapapeles sólo los resultados actuales.



3.3 Estadística descriptiva

3.3.1 Recuentos

La operación estadística más sencilla que se puede efectuar es contar cuántos registroscumplen unas condiciones especificadas

En el recuento cada ficha o registro que cumpla la condición especificada se contará una vez, ano ser que se especifique el nombre de una variable en el campo Frecuencia (opcional), quecontendrá el número de veces que se repite esa ficha, indicando por lo tanto el número vecesque se cuenta cada registro concreto.Se puede asignar un nombre al grupo que cumple la condición para presentarlo luego en lapantalla de resultados de forma más descriptiva.

En los resultados se indica el número de veces que se cumple y no se cumple la condición(frecuencia) , el porcentaje % con respecto al total, error estándar de este porcentaje y suintervalo de confianza del 95 %.

3.3.2 Estadística descriptiva de una variable cuantitativa

Dentro del menú Descriptiva cuantitativas la opción Descriptiva 1 variable nos permite obtenerlas estadísticas más habituales para una variable numérica. Por defecto aparecen dos solapas:Básica y percentiles.

54Estadística


Los resultados se agrupan en cuatro páginas:Básica

· Media· Desviación típica· Tamaño del conjunto de datos sobre el que se efectuaron los cálculos· Error estándar de la media· Límite inferior y superior del intervalo de confianza del 95% para la media· Valores mínimo y máximo observado· Rango· Coeficiente de variación· Varianza

Percentiles· Mediana· Primer y tercer cuartil (Percentil 25 y 75)· Rango intercuartílico· Percentiles 5, 10, 90 y 95

Adicional· Coeficiente de asimetría (valor y dividido por su error estándar)· Curtosis (valor y dividido por su error estándar)· Contraste combinado de los valores del coeficiente de asimetría y Curtosis con los deuna

distribución normal y nivel de probabilidad de ese contraste· Suma de todos los datos· Suma del cuadrado de todos los datos· Número de ausencias (si existen)

Ajuste a una distribución normal (Kolmogorov-Smirnov)· Diferencia máxima observada con respecto a la función de distribución normal· Nivel de probabilidad de la prueba de Kolmogorov-Smirnov

Diagrama de barrasEn este gráfico se representa una línea vertical para cada valor presente en la muestra conaltura igual a la frecuencia con la que se observa el citado valor

HistogramaSi se divide el rango de valores posibles en intervalos de igual amplitud, y en cada uno de ellosse representa una barra de anchura igual a la amplitud del intervalo y de altura el número decasos observados que tienen valores comprendidos dentro de ese intervalo, obtenemos lo quese denomina un histograma.El anterior gráfico, diagrama de barras, corresponde a un histograma de amplitud de intervalo



igual a uno: se representa una barra para cada posible valor.Cuando desde una pantalla de resultados solicitamos un histograma se presenta el siguientediálogo

donde se indicará el límite inferior para el primer intervalo, la amplitud y número de los intervalos.Pulsando en el botón Automático el programa calcula unos valores para esos datos que despuéspodemos modificar a nuestro gusto.También podemos representar superpuesta una curva que correspondería a la situación ideal dedatos obtenidos de una distribución normal, con igual media y desviación típica que la denuestros datos.

Una vez que se representa el histograma aparece una solapa más en la ventana de resultadoscon datos de frecuencias absolutas y porcentajes para cada intervalo:

56Estadística


3.3.3 Estadística descriptiva de un grupo de variables

Además de la orden que permite obtener la estadística descriptiva de una variable cuantitativa,se dispone una función para solicitar dicha estadística para un conjunto de variables y/o paraunos grupos de pacientes concretos

En el ejemplo se solicita la estadística descriptiva de las variables EDAD, PESO, TALLA e IMCpara los sujetos según SEXO y según la variable CULTURA.Obtenemos una solapa para cada una de las variables indicadas y con una línea para cada unade las categorías de los grupos seleccionados:



Si no se indican grupos y sólo se especifica una lista de variables, todos los resultados sepresentan en una única tabla con una línea para cada variable

Es posible obtener diferentes gráficos desde la ventana de resultados de esta opción.Se puede obtener un Gráfico de medias, en el que para cada línea de la tabla (grupo) serepresenta el valor de la media en el eje de las Y

También podemos obtener un gráfico de la media con su intervalo de confianza del 95 %

58Estadística


Otra posibilidad es representar un diagrama de Box and whiskers, en el que para cada grupo(línea de la tabla) se dibuja un rectángulo con una línea central correspondiente al valor de lamediana, cuyos límites corresponden al primer y tercer cuartil (luego su altura es igual al rangointercuartílico), dos líneas que sobresalen a ambos lados correspondientes a los valores mínimoy máximo, y un rombo que indica la posición de la media

También se puede representar los valores de la desviación típica de cada grupo en función de lamedia



3.3.4 Distribución de frecuencias de variables cualitativas

Decimos que una variables es cualitativa cuando ésta puede tomar un valor de entre unconjunto finito de posibilidades. Ejemplos de variables cualitativas son el SEXO, ESTADO CIVIL,ESTUDIOS, etc. A este tipo de variables cualitativas se las conoce como nominales, ya que noexiste ninguna relación matemática entre los diferentes valores que no son mas que nombres oetiquetas. Cuando existe una relación de orden, no cuantificable de forma matemática, sedenominan variables cualitativas ordinales. Como ejemplo podemos considerar el resultado deun tratamiento que se clasifique como Fallece, Empeora, Estable, Mejora y Curación.Al seleccionar en el menú Estadística, Frecuencias, Cualitativas se obtiene el siguiente diálogo:

Donde podemos indicar directamente Todas las variables cualitativas del fichero actual oescoger una o varias de entre las posibles.El programa considera que cada vez que se encuentra un registro con una de las respuestas dela variable cualitativa es un nuevo caso (frecuencia 1), a no ser que se indique una variablenumérica en el campo Frecuencia que contendrá en cada registro el número de veces que se daese valor. Si cada registro es una observación el campo Frecuencia se dejará en blanco.Se obtienen los siguientes resultados

60Estadística


· Frecuencia absoluta o número de observaciones para cada categoría· % o porcentaje sobre el total (sin considerar ausencias)· Error estándar de ese porcentaje· Intervalo de confianza del 95 % para ese porcentaje· Total de observaciones con dato· Número de registros sin dato (no se incluyen en el total y no entran por tanto en el cálculo

del %)

Cuando se solicita la prueba para más de una variable cualitativa, en la venta de resultadostenemos una solapa para cada variable.

Una vez realizados los cálculos es posible obtener dos tipos de gráfica: una tarta o un diagramade barras.



Existe una orden para solicitar la distribución de frecuencias de un conjunto de variablescualitativas por estratos, definidos según las categorías de otra variable cualitativa. Lapresentación de resultados es similar, con la única salvedad de que podemos escoger el estrato

3.3.5 Porcentajes de variables dicotómicas

Las variables cualitativas con dos respuestas (NO/SI, VERDADERO/FALSO) se conocen comodicotómicas y tienen una importancia especial.Puede calcularse la distribución de frecuencias de cada una de las dos respuestas utilizando laorden general para variables cualitativas, pero además se dispone de una orden especial quepresenta algunas características específicas.La pantalla de solicitud de datos para la orden es idéntica a la que veíamos en el cálculo de ladistribución de frecuencias de variables cualitativas, y la pantalla de resultados es también igual

62Estadística


La diferencia se presenta cuando solicitamos Opciones en el menú de Resultados donde sepresenta la siguiente pantalla

que nos permite seleccionar si se presenta sólo la frecuencia y % de la respuesta SI (situaciónpor defecto) o de la respuesta NO, o ambas. En el caso de que existan registros sin información(ausencias) nos permite indicar cómo se tratan: no se tienen en cuenta a la hora de efectuar loscálculos (situación por defecto) o se consideran como NO.También se puede ordenar los resultados en la tabla que se presenta.En cuanto a los gráficos se puede solicitar un diagrama de barras cuya altura corresponda o biena la frecuencia absoluta (número de observaciones) o a la relativa (porcentaje %). Además sepuede representar un diagrama de Pareto



En el diagrama de Pareto se presenta una barra con altura igual a la frecuencia de cada una delas variables (eje de la izquierda), ordenadas en sentido decreciente. También se indica unalínea con el porcentaje acumulado de cada variable con respecto al total (el total se calculasumando la frecuencia de todas las barras) correspondiente al eje de la derecha.

3.3.6 Distribución de frecuencias para variables de texto o cuantitativas

Mientras que en el caso de las variables cualitativas el número de posibles valores o respuestasestá limitado por diseño, esto no es así para las variables numéricas o las de texto que enprincipio pueden tomar infinitos valores.Dentro del menú Estadística, Frecuencias hay una orden para conocer los diferentes valorespresentes en nuestros datos de un campo numérico o de texto, así como la frecuencia deaparición de cada uno de ellos.En este caso el programa crea un fichero de base de datos con tres campos: el primero registralos valores de la variable para la que se solicitó la distribución de frecuencias, y tiene el mismonombre que esa variable; el segundo FREC registra el número de observaciones para cadavalor; y el tercero PORCENT el porcentaje de ese número de observaciones con respecto altotal.

64Estadística


En el fichero se incluyen dos índices que permiten ordenar, en sentido creciente, según el valor(por defecto) o según la frecuencia de repetición.

En el diálogo de petición de datos, además de solicitar la variable para la que se desea calcularla distribución de frecuencia, se deberá indicar el fichero en el que se van a guardar los datos.Por defecto se utiliza un nombre temporal genérico ~TEMPSIV.dbf.

3.3.7 Creación de un fichero de medias

En ocasiones se dispone de más una observación para el mismo sujeto y lo que interesa esobtener un sólo dato por sujeto, que es el que intervendrá luego en los cálculos estadísticos.Supongamos, por ejemplo, que se registra para cada paciente una ficha con su identificación(Número de historia y Nombre), así como unos datos de revisión (número de revisión, tensiones,analítica, etc), existiendo una ficha para cada paciente y para cada revisión. Estamos interesadosen crear un nuevo fichero que contenga los datos de identificación del paciente y un único dato porpaciente de tensión y de cada una de las pruebas analíticas, que corresponda a la media de todoslos datos de ese paciente en todas las revisiones registradas.

Para ello se dispone de la función:

Procesos > Crear archivo de Medias según un índice

En primer lugar el archivo sobre el que vamos a trabajar debe tener creado un índice que



identifique de manera única a cada sujeto (por ejemplo el número de historia) y este índice debeestar seleccionado como criterio de ordenación.

El programa nos pregunta de qué variables se va a calcular la media y van a incorporarse al nuevoarchivo:

También se pueden incluir variables adicionales cuyo contenido se rellena con el valor registradoen la primera de las fichas encontradas para cada sujeto. La utilidad de estas variables es recogerdatos que no varían con el tiempo como los relativos a identificación (número de historia, nombre)u otros como por ejemplo el sexo.

Seguidamente el programa nos pregunta por el nombre del archivo en el que se van a guardar loscálculos y procede a su creación, presentándolo en pantalla.

3.4 Comparación de dos grupos

3.4.1 t de Student para muestras independientes

Esta prueba nos permite comparar dos medias calculadas en dos muestras independientes.En el diálogo que aparece indicaremos el nombre de la variable para la que se calcula la media ylas condiciones que han de cumplir cada una de las muestras. Además se puede asignar unnombre a cada grupo para la presentación de los resultados:

Se obtiene dos solapas de resultados, la primera de ellas con la estadística básica de cada unode los grupos (media, desviación típica, etc) y en la segunda tenemos los resultados delcontraste: la diferencia de medias, con su error estándar; el valor de la t de Student y el nivel deprobabilidad para un contraste bilateral, así como el intervalo de confianza del 95 % para ladiferencia de medias (LI, LS).También se comparan las varianzas mediante la distribución F, y si dicha comparación resultasignificativa (p > 0.05), es decir si no se puede considerar que las varianzas son homogéneas,los grados de libertad de la t de Student se ajustan mediante la corrección de Welch.

66Estadística


3.4.2 t de Student para muestras pareadas

La prueba t de Student pareada compara dos grupos de valores relacionados, por ejemplo elvalor de la presión arterial sistólica de cada paciente antes y después de seguir un tratamiento.Para ello calcula la diferencia entre cada pareja de valores y determina cómo de probable esobtener un valor igual o mayor que el observado para la media de diferencias, si éstas hubieransido obtenidas al azar a partir de una distribución de probabilidad normal de media 0.

En este caso la unidad experimental está constituida por cada registro de la base de datos, de talmanera que las variables a analizar deben recogerse en cada registro.Cuando se solicita la orden el programa pregunta por el nombre de las dos variables quecontienen los valores para cada sujeto o unidad experimental:



Al igual que en la prueba t de Student para muestras independientes, tenemos dos solapas deresultados: una con la estadística básica de cada variable

y otra con los resultados para la lista de diferencias (media, desviación típica, etc) y el contrastecon la distribución t de Student correspondiente.

68Estadística


3.5 Tablas de contingencia

3.5.1 Tablas 2x2

Cuando se estudia la posible relación entre dos variables cualitativas nominales se emplean lasdenominadas tablas de contingencia, en las que se representa las posibles respuestas de unade las variables en las filas de la tabla y las de la otra variable en las columnas.Vamos a ver ahora el caso de variables cualitativas dicotómicas (2 respuestas) y en el siguienteapartado se comenta la situación general cuando tenemos más de dos categorías.Para solicitar una tabla de contingencia se indicarán las variables cualitativas que se deseaanalizar:

El programa presenta la tabla de frecuencias y permite contrastar la hipótesis nula de noasociación mediante la distribución chi2 o mediante la prueba exacta de Fisher.

Además de las opciones que aparecen por defecto si pulsamos con el botón derecho en laventana de resultados o entramos en el menú Resultados, podemos elegir más solapas depresentación de datos:



En la siguiente figura vemos los porcentajes de cada respuesta referidos al total de lascolumnas, así en este ejemplo vemos que en los obesos el % de hipertensos es de 93.9,mientras que en los no obesos el porcentaje es del 78.3 %.

Esta será forma de trabajar cuando queremos estudiar diferencias en la tasa de respuestas entregrupos: en filas colocaremos la variable respuesta y en columnas la variable grupo.En la solapa Diferencia tenemos los datos relativos a esa diferencia de proporciones:

Como medidas relativas tenemos el odds ratio

70Estadística


y el riesgo relativo

si la respuesta de interés o de riesgo no es como en este ejemplo la segunda categoría de lavariable respuesta (HIPERTENSO=SI) y fuera la primera respuesta (en el ejemploHIPERTENSO=NO), seleccionamos en el menú Resultados la función Cambiar respuesta deinterés, y ahora en la página de Diferencia tendremos los datos con respecto a esa categoría

cambiando ahora el riesgo relativo (en este ejemplo será 6.1/21.7 mientras que antes era93.9/78.3).También cambia el odds ratio siendo ahora el inverso del valor anterior (1/4.286 = 0.233)

Para tablas 2x2 con tamaños de muestra o valores de frecuencias esperadas pequeños, sepuede solicitar en las opciones la prueba exacta de Fisher

Se puede obtener una representación en diagrama de barras de los porcentajes con respecto alas filas o con respecto a las columnas. Se explica en el siguiente apartado referido a tablas deF filas x C columnas.



3.5.2 Tablas FxC

La orden para el estudiar la existencia de asociación entre variables cualitativas permite laconstrucción de tablas de contingencia con más de dos filas o dos columnas. Los datos seindican de igual forma que se ha explicado para Tablas 2x2 y la presentación de resultados essimilar:

Se puede solicitar un gráfico de barras de los porcentajes, bien con respecto al total de filas ocon respecto al total de columnas.

En este caso podemos utilizar las posibilidades de edición de gráficos para obtener a partir de lagráfica original una sólo con las barras correspondientes a la respuesta SI

72Estadística


3.5.3 Tablas 2x2 estratificadas: prueba de Mantel-Haenszel

Cuando estudiamos la posible asociación entre dos variables dicotómicas, por ejemplo laaparición de una patología y la presencia de un factor de riesgo, es habitual "controlar" la posibleinfluencia de otras variables que pueden influir también en la aparición del suceso pero que noson el objeto de interés en el estudio, como puede ser la edad, sexo o otras características delos pacientes.El análisis estratificado es una de las técnicas de análisis que permite nos permite controlar lainfluencia de esas variables extrañas, siendo otra la utilización de modelos matemáticos como laregresión logística. Precisamente la difusión de los ordenadores y de programas cada vez máspotentes y fáciles de usar ha ocasionado el abandono paulatino del análisis estratificado a favorde la utilización de la regresión logística, que al permitir incluir no solo factores dicotómicos sinotambién variables cuantitativas tiene mayor flexibilidad.Para poder utilizar esta prueba es preciso organizar las variables de control como variablesdicotómicas, cualitativas de 2 categorías.Solicitamos Tablas de contingencia -> Tablas estratificadas: prueba de Mantel –Haenszel

Tenemos que indicar la variable dicotómica que registra el Suceso, la variable Grupo con la cualse está estudiando la posible asociación, y los Factores de control para los que se va aestratificar.El programa presenta dos páginas de resultados. En la primera de ellas se indican los resultadosdel análisis de presencia de asociación chi2 en diferentes supuestos:

· Sin ajustar, sin tener en cuenta la presencia de las variables de control.



· Ponderado, teniendo en cuenta la estratificación para cada combinación de los factores decontrol. Cada una de las tablas de cada estrato contribuye al chi2 global ponderada con unpeso proporcional a la inversa de la varianza.

· chi2 de Mantel-Haenszel ponderado teniendo en cuenta todos los factores· chi2 de Mantel-Haenszel ponderado teniendo estratificando sólo para un factor, para 2

factores, etc.

En la segunda página, Frecuencias, se puede ver la tabla de contingencia 2x2 suceso-grupopara cualquiera de las combinaciones de los diferentes niveles de los factores, que se puedenescoger en la parte superior de la ventana, como se indica en la figura

Si se utiliza la función Copiar resultados al informe se trasladan todas las tablas 2x2 para todaslas combinaciones, sin necesidad de ir copiándolas una a una.

3.6 Análisis de la varianza

3.6.1 Análisis de la varianza para 1 factor

Con el término "análisis de la varianza" se identifica el procedimiento analítico en el que lavariabilidad total de un conjunto de datos se subdivide en una serie de componentes cuya causaes conocida, sirviendo para contrastar la hipótesis de que la respuesta es igual en los distintosgrupos experimentales frente la componente de variabilidad cuyas causas son desconocidas yque se denomina variabilidad residual o atribuida al azar.El análisis de la varianza fue ideado por Fisher en 1925 y forma parte de un conjunto más ampliode técnicas de investigación estadística correspondientes a lo que se ha dado en llamar "diseñode experimentos", que engloba aquel área de la estadística cuyo objetivo son los métodos derecogida y análisis de los datos, de tal manera que con el tamaño de muestra mínimo, se

74Estadística


obtenga el máximo de información, con la mayor precisión posible.En el análisis de la varianza para 1 factor se permite comparar K tratamientos diferentes en unamuestra de N unidades experimentales, de las cuales n1 recibieron el primer tratamiento, n2 elsegundo, hasta nk que recibieron el tratamiento K. La hipótesis nula que se desea contrastar esla de que las medias de los K subgrupos son todas iguales, esto es que no existe diferenciaentre los tratamientos.La filosofía de la prueba es la siguiente: la variabilidad total (diferencias de cada valor conrespecto a la media global) se descompone en dos términos, atribuíbles a dos causas. Elprimero al tratamiento y el segundo a causas desconocidas entre las cuales estará el errorexperimental, errores humanos, variaciones individuales y, ¡vaya usted a saber qué!, por lo que aese cajón de sastre se le denomina variabilidad residual o debida al azar.El efecto de los tratamientos se medirá en cómo se alejan las medias de cada grupo de la mediaglobal, y la variabilidad residual se determinará por las desviaciones individuales con respecto ala media del grupo.Sólo nos falta suponer que los datos provienen de poblaciones que se distribuyen normalmente,y que, de existir diferencias entre los grupos, éstas serán sólamente en cuanto al valor medio,pero no en cuanto a la variabilidad (varianza).El contraste a realizar consiste en comparar la variabilidad (varianza) debida al tratamiento ofactor con la variabilidad debida a todo eso que desconocemos y llamamos azar. Si la primera essignificativamente mayor que la segunda diremos que sí existen diferencias entre lostratamientos, que no todos son iguales.El parámetro utilizado es el cociente entre la varianza debida al factor y la varianza residual, queen el caso de que se cumpla la hipótesis nula sigue una distribución F de Fisher.

Para solicitar el análisis de la varianza de 1 factor hay que indicar dos variables. La primera deellas, que denominamos Medida, contendrá los datos con la variable respuesta que se haestudiado en cada unidad de observación. La segunda, que denominaremos Factor, debe sercualitativa, identifica a qué grupo pertenece cada una de las observaciones:

Los resultados se agrupan en tres solapas, la primera de ellas con la estadística básica de cadauno de los grupos:



la segunda con los resultados del análisis de la varianza:

Si el contraste resultó ser significativo puede interesar conocer entre qué muestras concretas seencuentran diferencias significativas. Por ello el programa presenta una tercera solapa con lascomparaciones dos a dos. El método empleado es el conocido como prueba de Newman-Keuls,ésta se basa en ordenar las medias y calcular para cada diferencia q=(m1-m2)/s, siendos=Ö(VR/n), donde VR es la varianza residual (azar) y n el tamaño de las muestras, m1 y m2 lasmedias de las dos muestras. Cuando los tamaños de las muestras son diferentes n1 # n2, esafórmula no es aplicable, pero se puede obtener un valor de q aproximado haciendon=(1/n1+1/n2), es decir igual a la media armónica de las dos muestras. A los valores de qobservados se les asigna un rango en función del orden que ocupan las medias, al clasificarlasde mayor a menor, y se contrastan con un valor q teórico, límite atribuíble al azar con un nivel deprobabilidad prefijado (p<0.05 o p<0.01 en el programa).

76Estadística


El uso de esta prueba resulta necesario, ya que el nivel de probabilidad utilizado en unacomparación de medias dos a dos, mediante al prueba de la t de Student tradicional, no seríaválido, pues la probabilidad de equivocarnos al detectar diferencias significativas entre una omás parejas de medias es algo mayor del nivel indicado (p.e. p < 0.05), ya que, simplificando lascosas, al hacer ahora más contrastes simultáneos tentamos más veces a la suerte: no tiene lamisma probabilidad de ganar a la lotería el que sólo compra un décimo que el que compra unaserie.

No obstante, nos permitimos recordar al lector, que si la F global del análisis de la varianza no hapermitido rechazar la hipótesis de igualdad de las muestras, pero el contraste pormenorizado sí,el investigador debe examinar cuidadosamente sus datos antes de extraer conclusiones a laligera, y recuerde que esto es como en los juicios: a la hora de publicarlo hay que contarlo todo,lo que nos interesa y lo que no, pues el ocultamiento de los hechos es también "delito".

3.6.2 Análisis de la varianza 1 factor en bloques aleatorizados

Esta técnica constituye una generalización de la comparación de medias pareadas. Recordemosque allí "emparejábamos" para eliminar el efecto de una variable ajena al estudio.En el caso de que se desee comparar k medias formaremos "bloques" de k unidadesexperimentales, lo más homogéneas posible con respecto ala variable cuya influencia sepretende eliminar.Veamos un ejemplo: Se desea comparar la energía requerida para el desarrollo de tres trabajosdiferentes. La variable respuesta estudiada es el número de kilocalorías consumido durante untiempo prefijado de desarrollo de la actividad. Puesto que parece claro que las diferencias demetabolismo entre los individuos afectarán a los resultados de la prueba, se desea controlar suinfluencia. Se seleccionaron 8 sujetos obteniéndose los siguientes resultados:



Como vemos cada unidad experimental corresponde a un registro de la base de datos (una fila),y cada una de las mediciones a un campo (una variable) En este caso hemos definido al menostres variables: TAREA1, TAREA2, TAREA3.Solicitamos Análisis de la Varianza -> Bloques aleatorizados, apareciendo una ventana en la queindicaremos las variables que se incluirán en el análisis

El programa presenta dos páginas de resultados, una con la tabla del análisis de la varianza yotra con la estadística descriptiva de cada variable.

3.6.3 Análisis de la varianza para 2 factores

En algunos experimentos es preciso estudiar la influencia de más de una variable. En este casohablaremos de experimentos factoriales para indicar que en el proceso entra en juego más de unfactor.Cuando el número de factores en estudio sea dos, la técnica estadística utilizada es el análisisde la varianza para dos factores, que puede ser fácilmente generalizada para más de dos.La idea es similar a la del análisis de la varianza para un factor: se trata de descomponer lavariabilidad total en una serie de términos cuyas causas son conocidas y un término residual.Ahora la variabilidad total será debida al efecto del primer factor actuando independientemente,al efecto del segundo factor actuando independientemente, al efecto de ambos factoresconjuntamente (ya que determinadas combinaciones pueden potenciarse o anularse) y unacausa no explicada (variabilidad residual).

Veamos un ejemplo. En la tabla adjunta se presentan una lista parcial de los tiempos de vida deun grupo de 48 animales a los que se les administró un veneno de entre tres posibles, y un

78Estadística


tratamiento de entre cuatro diferentes. El experimento formó parte de una investigación paracombatir el efecto de determinados agentes tóxicos.Se indican los tiempos de vida de los animales, en cada caso, en unidades de 10 horas.

El fichero que se preparó con el programa, constaba de tres variables, la primera el tratamiento(TRATAMIEN), cualitativa con cuatro categorías: A, B, C, D. La segunda variable es el tipo deveneno (VENENO), también cualitativa y con tres categorías: I, II, III. Por último, la terceravariable es el TIEMPO, que es numérica y es la variable efecto medida, sobre la que se pretendedeterminar la posible influencia de los factores, aisladamente y su interacción.Solicitando Estadística -> Análisis de la varianza -> 2 factores aparece el diálogo de petición dedatos

donde EFECTO es la variable numérica que registra el efecto medido, FACTOR1 y FACTOR2son cualitativas y sus combinaciones reflejan los casos estudiados.Nótese que en cada ficha habrá por tanto una observación para una combinación de losfactores.

En nuestro ejemplo el TIEMPO es la variable respuesta que se midió en el experimento y eltratamiento y el veneno los dos factores en estudio.El programa presenta una primera página con la tabla para el análisis de la varianza



En las siguientes solapas se presentan las medias de la variable EFECTO para cada nivel de losfactores, por separado y la combinación de los dos.En las Opciones la función Cambiar modelo Anova nos permite seleccionar el modelo de anovaque se desea utilizar, por defecto se supone niveles fijos para ambos factores.

3.6.4 Variables dicotómicas en bloques aleatorizados (Prueba Q de Cochran)

Ya se ha comentado el concepto de bloque experimental aleatorizado en el análisis de lavarianza para variables cuantitativas; cuando las variables estudiadas son de tipo dicotómico(NO, SI) la prueba equivalente más utilizada se conoce como Q de Cochran (1950). El bloqueestará definido por cada registro, existiendo una variable para cada respuesta:

En la figura se ha determinado la respuesta de 8 sujetos (filas o registros) en 5 situaciones(columnas o variables).Solicitamos Análisis de la varianza -> Q de Cochran para variables dicotómicas

80Estadística


El programa presenta el valor de la Q y su contraste (bajo la hipótesis nula se distribuyeaproximadamente como una chi2 con v-1 grados de libertad, siendo v el número dedeterminaciones por bloque (en nuestro ejemplo 5).

3.6.5 Análisis de la covarianza

El análisis de la covarianza puede ser considerado como una extensión del análisis de lavarianza, en el cual se tiene en cuenta sobre la variable medida, además del efecto del factor enestudio, la influencia de una o más variables incontroladas que se denominan covariantes.

Un ejemplo servirá para ilustrar la filosofía de esta técnica: supongamos que se estádeterminando la eficacia de una terapia antihipertensiva en varios hospitales. Se trata decomprobar si existen diferencias significativas en cuanto a los resultados en cada uno ellos. Sinembargo, se sabe que en la eficacia del tratamiento influye la edad del paciente (covariante).Para controlar el efecto de esa variable se puede acudir a diseños experimentales especiales,agrupando en estratos o bloques homogéneos. Esto no siempre es posible o conveniente,existiendo entonces una alternativa de control estadística, que permite realizar ajustes sobre elefecto del covariante (la edad en nuestro ejemplo) en la comparación de la eficacia entre losgrupos. Se trata, precisamente, de la técnica conocida como análisis de la covarianza.Así, en nuestro ejemplo, la diferencia entre los grupos puede ser o no explicada exclusivamentepor las diferencias de edad entre los pacientes de los diferentes hospitales. Para comprobarlo selleva a cabo una regresión lineal entre el resultado del tratamiento y la edad.

La pregunta que surge es ¿qué tipo de regresión se emplea?. En la figura se representan, parados grupos por simplicidad, los tres casos de regresión posibles:En la figura 1 se ha ajustado una recta de regresión para cada grupo.En la figura 2 cada recta de regresión pasa por el centro de gravedad de la nube de cada grupopero tienen pendiente común (líneas paralelas).En la figura 3 la recta de regresión se calculó considerando los datos como un todo, sin hacerparticularizaciones en cuanto a los grupos. El objetivo del análisis de la covarianza es determinarcuál de las tres situaciones es la apropiada a nuestros datos y extraer las conclusionespertinentes.

En el primer caso la regresión es diferente para cada grupo (en nuestro ejemplo para cadahospital). Por lo tanto existe interacción entre ambos factores (edad y hospital) y las diferenciasen cuanto a las medias obtenidas en cada grupo deben ser analizadas con sumo cuidado, ya



que su interpretación no es sencilla.Si, por el contrario, no hay evidencia estadística en favor de esa primera hipótesis, o dicho deotra forma: si no hay razones para rechazar la hipótesis de igualdad de las pendientes de lasrectas de regresión, se trata de decidir entre la segunda y tercera posibilidades. Si ahora lasituación apropiada es la segunda, indica que las diferencias en cuanto a los valores delcovariante (edad) no son suficientes para explicar las diferencias en cuanto a la eficacia deltratamiento en los grupos (hospitales), ya que al tener las rectas de regresión la mismapendiente para cada grupo (hospital), aunque las medias de las edades hubieran sido lasmismas en todos los grupos (hospitales), la eficacia del tratamiento (Y) diferiría.Sin embargo, si la situación correcta es la tercera, razonaremos que no hay diferenciassignificativas entre los grupos (hospitales), una vez eliminada la influencia de la edad; es decir,que la conclusión sería la misma, tanto si hay o no diferencias de edad entre los pacientes de losdistintos hospitales.

Se solicita Estadística > Análisis de la varianza > Análisis de la covarianza y la pantalla depetición de datos es muy parecida a la de la regresión lineal múltiple, con la única salvedad deque ahora tenemos que indicar la variable cualitativa que define los grupos.

El programa presenta tres solapas de resultados

82Estadística


3.7 Correlación

3.7.1 Correlación lineal simple

Para analizar la presencia de una relación lineal entre dos variables numéricas se utiliza elparámetro denominado coeficiente de correlación.Existe relación lineal entre dos variables cuando al incrementar una de ellas los valores de la otraaumentan o disminuyen de manera proporcional al cambio experimentado por la primera, esdecir cuando su relación, representada en un plano XY, se ajusta a una recta.El coeficiente de correlación es el parámetro que mide la importancia de esa relación lineal. Setrata de un coeficiente adimensional que puede variar entre ±1. Un valor de cero o próximo acero indica ausencia de relación lineal entre las variables, mientras que un valor próximo a launidad registra una fuerte relación lineal. Valores negativos del coeficiente de correlación indicanque incrementos en una de las variables se traducen en decrementos en la otra y viceversa,mientras que valores positivos nos señalan que si la una aumenta la otra también lo hará.La medida de asociación entre dos variables cuantitativas más utilizadas es el coeficiente decorrelación de Pearson que se calcula como

Solicitamos Estadística -> Correlación -> Coef. Correlación Pearson y se indica los nombres delas variables que se desea incluir en el análisis

El programa presenta dos páginas de resultados, la primera con los coeficientes de correlación,marcando en color azul aquellos que son estadísticamente diferentes de 0 para un nivel deprobabilidad de 0.05, y una segunda página con el error estándar de cada coeficiente

3.7.2 Coeficiente de correlación de Spearman

En ocasiones no es válido operar con el coeficiente de Correlaci_n_lineal_simple coeficiente decorrelación de Pearson, debido a que los datos no se puede suponer que proceden de unadistribución normal bivariante, o cuando se trata de datos con una relación ordinal. En estoscasos se acude a ordenar en sentido creciente ambas muestras y asignar un número de orden a



cada observación, desde 1 hasta n (siendo n el tamaño de la muestra). Si calculamos elcoeficiente de correlación entre los rangos (número de orden), y no entre los valores de lasobservaciones, obtenemos el denominado coeficiente de correlación de Spearman.También emplearemos este coeficiente cuando los datos están determinados según una escalaordinal; así, por ejemplo, el dato 2 es inferior al 4 y éste al 5, pero no quiere decir que la distanciaentre el 2 y el 4 sea el doble que entre el 4 y el 5. Este tipo de situaciones se presenta, confrecuencia, en valoraciones subjetivas, por ejemplo puntuaciones obtenidas en función delnúmero de síntomas existentes.Como ya se ha reseñado, el coeficiente de correlación de Spearman se calcula como elcoeficiente de correlación de Pearson pero aplicado a los rangos. Sin embargo, se suele emplearla siguiente fórmula simplificada:

donde di es la diferencia entre los rangos de X e Y.En el caso de que existan empates en la ordenación es preciso realizar una corrección en esecálculo (el programa la lleva a cabo).Como es lógico r varía entre +1 y -1 y es adimensional.Para n ³ 10 el error estándar del coeficiente de correlación de Spearman se puede calcular conla misma expresión que en el caso del coeficiente de correlación de Pearson.Para solicitar la orden seleccionamos Estadística -> Correlación -> Coef.correlación Spearman

Esta orden presenta una única página con los resultados

3.7.3 Matriz de varianzas y covarianzas

La orden Estadística -> Correlación -> Matriz de varianzas y covarianzas se invoca de formasimilar a la orden descrita para calcular el coeficiente de correlación de Pearson y permiteobtener tanto la matriz de varianzas y covarianzas, como la matriz de coeficientes de correlacióny la matriz de sumas de cuadrados y productos cruzados

84Estadística


3.8 Regresión

3.8.1 Regresión lineal simple

El propósito de la regresión es determinar una ecuación mediante la cual una estimación delvalor de la variable Y pueda ser calculado conociendo los valores de una variable X (regresiónsimple) o más de una variable (regresión múltiple).Cuando la ecuación matemática buscada sea de tipo lineal (una recta en el caso de la regresiónsimple, un hiperplano en el caso de la regresión múltiple) se dice que la regresión es lineal.Hablamos de regresión simple cuando se considera únicamente una variable predictora. Sesuele denominar Y a la variable dependiente y X a la variable predictora o independiente.

El método utilizado para buscar la recta de regresión que relaciona los valores de la variable Ycon los de X es el de mínimos cuadrados. La idea del método es muy simple: de entre todaslas rectas que pasan por la nube de puntos formada por las parejas de valores X-Y, vamos aescoger aquella que hace mínima la suma de los cuadrados de los errores cometidos al estimarel valor de Y con la ayuda de la recta, en lugar de tomar el valor verdaderamente observado.

Cada pareja de valores se registrará en dos campos de una base de datos y la orden se solicitaEstadística -> Regresión -> Regresión lineal -> SimpleEn el diálogo que aparece indicaremos la variables

Se presentan tres páginas de resultados

En la primera tenemos los coeficientes de la ecuación que en este ejemplo corresponden a laecuación:



Y = 0.159 + 1.228 X0.159 es el término independiente, constante u ordenada en el origen, y 1.288 es la pendientede la recta.

Para poder realizar inferencias estadísticas en cuanto a los coeficientes es preciso conocer elerror estándar de los mismos que también se presenta.En el contraste de significación frente a cero de los coeficientes de la ecuación se utiliza laexpresión:

cociente que sigue una distribución t de Student con n-1 grados de libertad.

En muchos casos la relación observada carece de sentido para x=0, por lo que en lugar deutilizar la expresión de la recta

y = a + b . x

Será más conveniente emplear la expresión alternativa:

y - my = b . (x - mx)

en la que sólo figura la pendiente, ya que equivale a referir la recta a un sistema de coordenadassituado en el centro de gravedad de la nube de puntos. my es aquí el valor medio de la variabley, mx la media de x.En la segunda página se proporciona información referida fundamentalmente al coeficiente decorrelación entre las dos variables

Y en la última se proporciona una tabla con el análisis de la varianza para la regresión

Si se solicita Opciones de esta prueba obtenemos

86Estadística


donde podemos solicitar la estadística descriptiva básica de las dos variables, intervalos deconfianza del 95% para los coeficientes, valores de los coeficientes estandarizados einformación en cuanto a ausencias si éstas existen.Además es posible obtener tres tipos de gráficos:Nube de puntos y recta de regresiónNube de puntos, recta de regresión y banda de confianza para la media de las estimacionesNube de puntos, recta de regresión y banda de confianza para estimaciones puntualesEn la figura vemos un gráfico del segundo tipo

También es posible solicitar en el menú de Resultados guardar la ecuación obtenida como uncampo fórmula de la base de datos y los residuos



Estas fórmulas se pueden guardar de forma permanente en la base de datos, o por el contrario,si no se marca la casilla correspondiente, sólo estarán disponibles en la sesión actual, hasta quese cierre el archivo.

3.8.2 Regresión lineal múltiple

Esta orden permite construir una ecuación para estimar el valor de una variable dependiente Yen función de p variables predictoras X, según una relación de tipo lineal de la forma

Para estimar los coeficientes b0 a bp de la ecuación se utiliza el método de mínimos cuadrados.b0 corresponde al término independiente o constante, también denominado ordenada en elorigen ya que es el valor que toma y cuando todas las variables x son cero.Aunque la mayor parte de las situaciones en la vida real no son lineales, este modelo resulta degran utilidad, al menos como primera aproximación a modelos más complejos.Se invoca Estadística > Regresión > Regresión lineal > MúltipleAparece la siguiente pantalla para seleccionar las variables a utilizar en la prueba

En primer lugar hay que escoger la variable dependiente Y entre las variables numéricas. En elrecuadro variables independientes se indicarán los nombres de las variables predictorasseparados por punto y coma, o bien se pueden escoger a partir de la lista de variables pulsandoen el botón del lado derecho de ese campo, presentándose entonces una ventana similar a la dela figura

88Estadística


en la que vamos colocando las variables predictoras en la lista de la derecha.

Se puede incluir variables cualitativas, pero si éstas son de más de dos categorías convieneconvertirlas en variables internas o indicadoras (en la literatura anglosajona se conocen comodummy).

También es posible incluir términos de interacción (producto) entre dos o más variablesindependientes.

En la estimación de la ecuación de regresión sólo intervienen los casos completos, los quetienen información para todas las variables, o lo que es lo mismo aquellos casos en los que sedesconoce alguno de los datos no intervienen en los cálculos.

El programa presenta por defecto tres páginas de resultados: ecuación de regresión, datos decorrelación múltiple y análisis de la varianza para la regresión.En la primera página Correlación, aparecen los coeficientes de correlación con su error estándary el contraste de cada coeficiente frente al valor cero



En la imagen vemos un ejemplo de un modelo "complicado" en el que se incluye una variableinterna (dummy) OBESIDADIMC correspondiente a una variable cualitativa con cinco categoríasy que por tanto se ha convertido automáticamente en 4 variables internas y una variableinteracción SEXO x OBESIDADIMC que se convierte automáticamente en el producto de lascuatro variables internas por SEXO.Las variables cualitativas que se ha recodificado como variables internas se marcan con unasterisco y las variables internas reciben el mismo nombre seguido de un número. En el caso delas variables internas como no tienen sentido de forma aislada el contraste para considerar sucontribución al modelo debe efectuarse de forma global por lo que se proporciona el valor de la Fparcial al comparar los modelos con y sin las variables internas correspondientes. En el resto decoeficientes se utiliza la t de Student para el contraste frente a 0.En la siguiente figura vemos otro modelo de regresión en el que no hay ninguna variablecualitativa de más de dos categorías y por lo tanto no hay variables internas, ya que en este casoel IMC se incluye como variable cuantitativa.

Si seleccionamos Opciones desde el menú de Resultados aparece la siguiente ventana deposibilidades

Si se escoge Modificar el modelo en el menú de Resultados podemos incluir o excluir variablesy obtener un contraste con el modelo anterior

90Estadística


Lógicamente tendremos ahora una ecuación diferente y además aparece una nueva página deresultados para el contraste con el modelo anterior

Sólo se puede modificar el modelo considerando las variables inicialmente incluidas al solicitaroriginalmente la orden, por lo que se debe empezar con el modelo máximo, con el mayor númerode variables e interacciones, si se desea efectuar contrastes entre diferentes modelos posibles.Seguidamente se ve un ejemplo de las otras dos páginas de resultados estándar Corr. Múltiple yAnova para la regresión.



Es posible también solicitar desde el menú Resultados una Regresión por pasos (haciadelante) en la que el programa va incluyendo o excluyendo de forma automática variables deentre las indicadas hasta que ya no entra ni sale ninguna variable del modelo.La probabilidad límite para que una variable entre tiene que ser menor que 0.15, para que unavariable salga tiene que ser mayor de 0.2. El programa proporciona una ventana con un registrodel proceso de selección de variables que finalmente se ha presentado

Desde el menú de Resultados también es posible guardar la fórmula, como una nueva variable,con la ecuación estimada así como los residuos (diferencia entre el valor real y el valorestimado)

3.8.3 Variables internas (dummy) en el modelo de regresión

Para que una variable cualitativa intervenga en una ecuación de regresión hay que asignar unnúmero a cada una de las posibles respuestas. Si la variable es dicotómica, dos categorías, a laprimera de ellas se le asigna el valor 0 y a la otra el valor 1, de tal manera que entonces elcoeficiente b correspondiente marca el cambio en la estimación de Y cuando, manteniendoconstantes el resto de variables, pasamos de la primera respuesta a la segunda. Esta táctica noes correcta cuando hay más de dos respuestas posibles, sobre todo si se trata de categoríasnominales sin ninguna relación ordinal entre ellas. Así por ejemplo, si la variable fuese elESTADO CIVIL con las posibles respuestas SOLTERO, CASADO, VIUDO, DIVORCIADO, yasignamos a cada una de ellas los números 0 a 3 correlativamente, estaríamos planteando a lahora de estimar la ecuación de regresión que VIUDO es el doble de CASADO lo cual es absurdoa todas luces. La solución en estos casos es crear un conjunto de variables artificiales

92Estadística


dicotómicas, de tal manera que si tenemos C categorías habrá que crear C-1 nuevas variables.En nuestro ejemplo como tenemos 4 categorías posibles hay que definir 3 variables, existiendodiferentes posibilidades para construirlas. La más habitual es la siguiente:

Este tipo de codificación, que en el programa AlcEst se denomina Nivel de referencia, permite lasiguiente interpretación de los coeficientes: la primera categoría se va a usar como nivel dereferencia y por eso se le asigna el valor cero a todas las variables internas. El coeficiente de laecuación para la variable Z1 nos marca el cambio en la estimación cuando pasamos de laprimera categoría a la segunda, manteniendo constantes el resto de las variables; el coeficientepara Z2 marca el cambio al pasar de la primera categoría a la tercera y así sucesivamente.Cuando se trata de variables en las que no interesa considerar una categoría como nivel dereferencia o no es natural, se puede usar una codificación alternativa:

Con este esquema, si la ecuación obtenida es

para cada una de las categorías la estimación de la media de y es

Se comprueba que entonces b0 corresponde a la media de la estimación de Y en las cuatrocategorías, sin tener en cuenta la contribución del resto de variables

b1 corresponde a la diferencia con respecto a la media de los que pertenecen a la segundacategoría (casado)b2 corresponde a la diferencia con respecto a la media de los que pertenecen a la terceracategoría (viudo)b3 corresponde a la diferencia con respecto a la media de los que pertenecen a la terceracategoría (divorciado)La diferencia con respecto de la media de los que pertenecen a la primera categoría viene dadapor –b1-b2-b3La codificación que acabamos de describir se conoce en el programa AlcEst como Variaciónrespecto a la media.

Otro posible esquema de codificación es



En este caso b1 cuantifica el cambio al pasar de la primera a la segunda categoría, b2 ladiferencia entre la segunda y la tercera, y b3 entre la tercera y la cuarta.Este tercer tipo de codificación en el programa AlcEst se identifica como Variación respecto alnivel anterior.

Puesto que mediante las variables internas se codifica el resultado de una variable cuantitativano tiene sentido considerarlas de forma aislada y deben entrar en bloque en el modelo deregresión, al igual que en bloque debe contrastarse si se incluyen o no en él.

Cuando se solicita una orden de regresión múltiple en el diálogo que aparece para indicar lasvariables encontramos un botón Diseño de variables internas (dummy) que nos permite, una vezque hemos especificado qué variables independientes intervienen en el modelo, indicar quévariables cualitativas se van a convertir en variables internas y el método de codificación que seva a emplear.

En la lista de la izquierda aparecen los nombres de todas variables cualitativas con más de doscategorías que se hayan incluido como covariantes en el modelo y podemos seleccionar cuálesse van a convertir en variables internas pasándolas a la lista de la derecha. El tipo decodificación que se usa por defecto se marca en el lado izquierdo escogiendo una de las tresposibilidades. Si deseamos cambiar el tipo de codificación de alguna de las variables que ya seencuentran seleccionadas en la lista de la derecha la podemos seleccionar y cambiar el tipo decodificación en los círculos de opción del lado de la derecha (identificada aquí como A, B o C).

94Estadística


3.8.4 Interacciones en el modelo de regresión

En un modelo de regresión una forma sencilla de considerar la interacción entre dos o másvariables consiste en incorporar términos con los productos de las variables correspondientes.Así por ejemplo para un modelo lineal con 3 variables independientes X1, X2 y X3, siconsideramos las posibles interacciones de primer orden tenemos la siguiente ecuación:

Al pulsar en el botón de Selección de interacciones del diálogo de datos de una orden deregresión múltiple, el programa presenta una nueva ventana con dos listas. En la lista de laderecha tenemos todas las variables independientes que se haya especificado para el modelo.Para seleccionar qué variables intervienen en una interacción las marcamos con el botónizquierdo del ratón manteniendo pulsada la tecla Ctrl y a continuación se añaden a la lista de laderecha pulsando Crear.

Cuando una de las variables que intervienen en la interacción es una cualitativa que ha sidoconvertida en variable interna, el programa automáticamente construye tantas variablesinteracción como variables internas haya.

3.8.5 Regresión logística

3.8.5.1 Regresión logística incondicional para un suceso dicotómico

Este es el modelo logístico utilizado habitualmente para estimar la relación entre la probabilidadde un suceso dicotómico y un conjunto de variables explicativas o covariantes. Cuando se puedesuponer que el suceso de interés observado constituye una muestra aletoria procedente de unadistribución binomial se puede estimar a partir de los datos un modelo de regresión logísticaincondicional, seleccionando desde el menú estadística:Regresión > Regresión logística > Incondicional

El diálogo de entrada de datos es igual que el descrito para la regresión lineal múltiple, con laúnica salvedad de que ahora en la lista desplegable de posibles variables independientes sóloaparecerán las variables dicotómicas o cualitativas con dos categorías.



Por lo tanto sirve todas las consideraciones hechas en el apartado de regresión lineal múltiplecon respecto a la utilización de variables cualitativas que deberían ser convertidas previamente avariables internas o dummy, y la inclusión de interacciones entre variables.Por defecto se presentan tres solapas de resultados: Regresión, Bondad de ajuste y Odds ratio.

La página correspondiente a la ecuación de regresión es similar también a la que se presenta enuna ecuación de regresión lineal múltiple. Como allí las variables cualitativas convertidas envariables internas se marcan con un asterisco en el nombre (en la primera columna) y sedesglosan en las correspondientes variables internas que son las que intervienen en la ecuacióncon el coeficiente que se indica, y que tiene asociado lógicamente un error estándar.Para cada coeficiente se presenta el valor del contraste frente a 0 con el valor del chi² de Wald,el nivel p de probabilidad y una información ilustrativa en cuanto al nivel de significación. En elcaso de las variables internas, dado que deben entrar en bloque en la ecuación de regresión, yaque no tienen sentido de forma aislada, se indica el contraste chi² que compara los modelos cony sin las variables internas correspondientes en bloque (línea marcada con el asterisco).

En la solapa Bondad de ajuste se proporciona información sobre la estimación por el método demáxima verosimilitud:

96Estadística


La solapa odds ratio nos proporciona la estimación del odds ratio para cada variable utilizando elmodelo logístico, así como el intervalo de confianza aproximado del 95%.

Si seleccionamos Resultados > Opciones, aparece el siguiente diálogo

muy parecido también al descrito para la regresión lineal múltiple, donde además de los Oddsratio encontramos como principal novedad la Prueba de Hosmer-Lemeshow que constituye unaprueba de bondad de ajuste.Si se selecciona esta prueba de bondad de ajuste, el programa para calcular los resultados



prepara una base de datos temporal en la misma carpeta que la base de datos con la queestamos trabajando y con nombre ~HosmerLemeshow.dbf, que una vez confeccionada contienetantos registros como entran en la estimación del modelo y dos campos, el primero con el nivelde probabilidad estimado por el modelo y otro con información respecto a si ese registro es o noun suceso.Se utiliza el primero de los métodos propuestos por Hosmer y Lemeshow, en el que se forman10 grupos conteniendo cada uno de ellos r=N/10 observaciones, siendo N el total deobservaciones. En el primer grupo tenemos los r sujetos con las probabilidades estimadas másbajas, y en así en sentido creciente hasta el último grupo que tiene las probabilidades más altas.Para cada grupo se determinan las frecuencias observadas y esperadas de cada uno de losposibles sucesos (0,1), de tal manera que tenemos una tabla 2x10, para la que se calcula elestadístico de Hosmer-Lemeshow que, si el modelo logístico es correcto, se distribuyeaproximadamente como una chi² con 8 grados de libertad.

En las opciones también es posible solicitar la obtención de una estimación de la curva ROCpara ese modelo logístico en la que se representa en unos ejes XY la Sensibilidad frente a (1-Especificidad) para todos los valores de corte según las probabilidades estimadas por el modeloen nuestros datos. Para ello el programa construye una base de datos temporal en la carpeta enla que se encuentran los datos, con nombre ~ROC.dbf, y que tiene la estructura que se muestraen la figura

98Estadística


En cada registro tenemos el valor de probabilidad de corte, la sensibilidad, 1-especificidad,especificidad, valor predictivo positivo (VPP), valor predictivo negativo (VPP), cociente deprobabilidad positivo (CPP), cociente de probabilidad negativo (CPN), número de eventos=NO(NEV) y número de eventos=SI (EV).



3.8.5.2 Regresión logística condicional para variables dicotómicas

Los coeficientes del modelo logístico de regresión se estiman mediante el método de máximaverosimilitud suponiendo que los datos proceden de una muestra extraída de forma aleatoria dela población y que la variable dependiente observada (suceso) sigue una distribución deprobabilidad binomial. Sin embargo, cuando se estudian sucesos con una baja probabilidadpuede ser imposible utilizar un esquema de muestro aleatorio simple ya que para observar unmínimo número de sucesos, al tener una probabilidad de aparición muy baja, necesitaremosunos tamaños de muestra enormes. En estos casos se suele acudir a un diseño del tipodenominado caso-control, en el que se fija el número de casos (sucesos) y el número decontroles por cada caso, de tal manera que el resultado de la variable binomial está fijado pordiseño, determinándose los valores de los covariantes (factores de riesgo) para cada sujetoseleccionado.En estos casos aunque también se utiliza el método de máxima verosimilitud para estimar elmodelo de regresión, ésta función se calcula de forma diferente ya que corresponde al productode la función de verosimilitud para cada uno de los estratos, que depende de la probabilidad deque el sujeto sea seleccionado para entrar en la muestra y de la distribución de probabilidad delos covariantes.El programa AlcEst utiliza el R para el cálculo de la regresión logística con función deverosimilitud condicional. La solicitud de datos es similar a la descrita en el procedimientogeneral de estimación de una ecuación de regresión logística, con la única salvedad de queahora nos pregunta por la variable estrato, que ha de ser una variable numérica entera ocualitativa, que identifica cada uno de los estratos que condicionan el cálculo de la función deverosimilitud.

Se puede por tanto definir conversiones a variables internas (dummy) para las variablescualitativas que entren en el modelo, así como definir interacciones entre variables (productos).El programa presenta una primera pantalla con la ecuación de regresión

donde la columna Exp(coef.) corresponde a los odds ratio, que además se presenta en unapágina adicional con su intervalo de confianza.

100Estadística


3.8.5.3 Regresión logística politómica

La regresión logística se utiliza fundamentalmente para modelar la probabilidad del resultado deuna variable dicotómica, pero puede extenderse fácilmente al caso de que la variable analizadatenga más de dos categorías, lo que se denomina respuesta politómica.Cuando tenemos más de dos grupos el modelo logístico introducido para una variabledicotómica (dos grupos) se puede extender de forma natural, con pocas modificaciones,conociéndose entonces como regresión logística politómica. La idea es la siguiente: en laregresión logística si denominamos P a la probabilidad del suceso (por ejemplo probabilidad depertenecer al grupo I), su complementaria (probabilidad de no suceso o en nuestro casoprobabilidad de pertenecer al grupo II) es 1-P. Al cociente entre ambas probabilidades se ledenomina odds del suceso, y el modelo logístico para dos categorías postula

es decir que modela el odds del grupo I respecto al grupo II. P(I/X) indica probabilidadcondicionada a observar el vector X.Consideremos ahora tres grupos, es decir un modelo logístico para una variable cualitativa contres posibles categorías, y referenciemos el primer grupo con el valor 0, el segundo con el 1 y eltercero con 2, para utilizar la terminología habitual de la regresión. Podemos extender el modeloanterior de la forma siguiente:

que modela el odds del grupo 1 respecto al 0 y del grupo 2 respecto al 0. A partir de esos oddsse puede calcular la probabilidad condicional de cada una de las categorías (probabilidad depertenecer a cada uno de los grupos), dado X unos valores de las variable explicativas. Despuésde unas sencillas operaciones algrebraicas obtenemos:

Para calcular una regresión logística politómica solicitamosEstadística > Regresión > Regresión logística > Politómica

El programa pregunta los mismos datos que para una regresión logística dicotómica, con la



única salvedad de que ahora la variable respuesta ha de ser una variable cualitativa con más dedos respuestas. También nos permite indicar qué variables cualitativas entrarán en el modeloconvertidas en variables internas (dummy) y qué interacciones se incluirán en el modelo.Obtenemos una solapa para el modelo del odds de cada categoría con respecto a la primeracategoría, tal y como se ha descrito anteriormente, así como una página con datos respecto alajuste total y la distribución de frecuencias de la variable respuesta

En la página Ajuste se indica la Desviación residual del modelo ("Residual deviance") queequivale al doble de la diferencia entre el logaritmo de la función de verosimilitud para el modelosaturado y el logaritmo de la función de verosimilitud para el modelo estimado.También se indica el valor de AIC (Criterio de información de Akaike).

Para los cálculos del modelo logístico politómico se utiliza el R.

3.8.6 Regresión de Poisson

Descrito de forma simplista este tipo de regresión permite modelar una variable dependientediscreta correspondiente a un recuento.Se puede aplicar este tipo de modelos por ejemplo al número de nuevos casos de leucemia enuna determinada población durante un periodo de tiempo, al número de urgencias que precisancirugía durante un periodo de tiempo, número de salidas de ambulancia con servicio de cuidadosintensivos durante un periodo de tiempo, etc.Solicitamos Estadística > Regresión > Regresión de PoissonEn el diálogo que aparece hay que indicar la variable dependiente que se va a modelar(recuento), la variable intervalo (tiempo, espacio, etc) y los covariantes. Como en otros modelosde regresión las variables cualitativas pueden convertirse en variables internas y se puede incluirinteracciones.

102Estadística


Se presentan por defecto tres solapas de resultados

En el menú de contexto Resultados se dispone de opciones similares a las descritas en elapartado correspondiente a Regresión logística.



3.9 Medidas de concordancia

3.9.1 Medidas de concordancia para variables cualitativas

Si solicitamos Estadística > Medidas de concordancia, la primera de las opciones es Variablescualitativas (2 evaluadores) nos permite obtener diferentes índices de concordancia paravariables cualitativas (con dos o más respuestas) cuando hay solo dos evaluadores.El programa pregunta el nombre de las dos variables que se van a utilizar para los cálculos, en laprimera de ella se recoge la respuesta del primer evaluador o método, y en la segunda variablela respuesta del otro evaluador o método.El caso más sencillo se presenta cuando la variable cualitativa es dicotómica (dos posibilidades)y se está comparando dos métodos de clasificación (por ejemplo dos escalas clínicas). Estasituación se puede representar en una tabla de frecuencias:

La medida más simple de concordancia es la proporción de coincidencias frente al total desujetos:(a + d) / n.Esta proporción se denomina proporción de concordancia global y se presenta en la primerasolapa de resultados como % concordancia observada.Aunque no existiera ninguna relación entre los dos métodos de clasificación, está claro que esprevisible que encontremos algún grado de concordancia entre ellos por puro azar. Así, si elmétodo A consiste en clasificar al paciente con resultado positivo si sale cara al lanzar unamoneda al aire y cruz en el caso contrario, y hacemos lo mismo en el método B (con otramoneda diferente), es previsible encontrar en promedio del orden de un 50 % de coincidencias.Supongamos que el sistema A es un método científico de diagnóstico y el método B es la opiniónde un "vidente"; también ahora es previsible encontrar un cierto grado de concordancia debidoen parte al azar.Con el fin de determinar hasta qué punto la concordancia observada es superior a la que esesperable obtener por puro azar, se define el índice de concordancia kappa de la siguientemanera:

donde Po es la proporción de concordancia observada (en tanto por 1) y Pe es la proporción deconcordancia esperada por puro azar. En caso de acuerdo perfecto la proporción deconcordancia será 1, por lo que 1-Pe representa el margen de acuerdo posible no atribuíble alazar. De ese margen nosotros observamos probablemente sólo una parte Po-Pe, salvo que hayaacuerdo perfecto Po=1.Así pues en caso de concordancia perfecta el valor de kappa es 1; si la concordancia observadaes igual a la esperada kappa vale 0; y en el caso de que el acuerdo observado sea inferior alesperado el índice kappa es menor que cero.Para calcular Pe, la concordancia esperada, el razonamiento es el siguiente: de acuerdo con latabla anterior la probabilidad de que el método A clasifique a un sujeto como positivo podemosestimarla como f1/n; mientras que la correspondiente probabilidad del método B la estimaremoscomo c1/n. Si consideramos que existe independencia entre ambos métodos de clasificación, laprobabilidad de que coincidan clasificando al mismo sujeto como positivo será entonces elproducto de las dos probabilidades (sucesos independientes). Aplicando el mismo razonamientocalculamos la probabilidad de que se produzca acuerdo entre los métodos al clasificar a unsujeto como negativo, y entonces la probabilidad de acuerdo cualquiera de las dos

104Estadística


clasificaciones será la suma de ambos valores, esto es:

El coeficiente kappa fue propuesto originalmente por Cohen (1960) para el caso de dosevaluadores o dos métodos, por lo que a menudo se le conoce como kappa de Cohen, y fuegeneralizado para el caso de más de dos evaluadores por Fleiss, por lo que a veces también sehabla del índice kappa de Fleiss.Landis y Koch propusieron unos márgenes para valorar el grado de acuerdo en función delíndice kappa:

Este índice se puede generalizar para clasificaciones multinomiales (más de dos categorías) ypara más de dos evaluadores, siendo similar su interpretación.En el caso de más de dos categorías, además del índice de concordancia global puede serinteresante determinar el grado de concordancia específico en alguna de las categorías (oen todas), lo que equivale a convertir el resultado posible en dos únicas respuestas: se clasificaal paciente en la categoría de interés o se clasifica en alguna de las restantes. De esta manerapara cada una de las categorías vamos convirtiendo la tabla original en tablas 2x2 y podemosentonces calcular el valor del correspondiente índice kappa como si de una variable dicotómicase tratara.

Los resultados se organizan en diferentes páginas:



En la última solapa etiquetada Stuart-Maxwell se presenta el resultado de la prueba del mismonombre para determinar si existe homogeneidad entre los totales de los márgenes de la tabla(homogeneidad marginal). En el caso de que se trate de una variable cualitativa de doscategorías tenemos una tabla 2x2 como la que se representaba más arriba y existehomogeneidad marginal si:

(a + b) = (a + c)(c + d) = (b + d)

Puesto que en el primer caso a está ambos lados de la ecuación y en el segundo d, las dosecuaciones anteriores se resumen en

b=cy constituyen la base de la prueba que en este caso (tabla 2x2) se denomina de McNemar. Elestadístico de McNemar se calcula como

y se distribuye según una chi² con 1 grado de libertad.En el caso de más de dos respuestas podríamos analizar si existe homogeneidad marginalagrupando las categorías en una tabla 2x2 para cada categoría con el resto y calculando elresultado de la prueba de McNemar correspondiente, pero al efectuar más de un contraste seránecesario corregir el nivel de probabilidad (problema de las comparaciones múltiples). Otraalternativa es utilizar la prueba de Stuart-Maxwell que contrasta de forma global para todas lascategorías la presencia de homogeneidad marginal, calculándose un estadístico que bajo lahipótesis de homogeneidad se distribuye según una chi² con K-1 grado de libertad, siendo K elnúmero de categorías en las que se puede clasificar la respuesta.

La prueba de Stuart-Maxwell y la de McNemar coinciden para una tabla 2x2.

106Estadística


También se puede obtener un diagrama de barras con el número de clasificaciones porrespuesta para cada uno de los evaluadores:

Indice Kappa generalizado cuando existen múltiples evaluadores y el diseño esincompletoEl programa AlcEst permite obtener el índice Kappa para el caso más general de respuestapolitómica (más de dos categorías), y múltiples evaluadores, cuando no todos los casos sonevaluados por todos los evaluadores (*). Además si las variables son ordinales, se indicanvalores del índice Kappa considerando pesos lineales y bicuadrados.

El pregunta por los nombres de las variables que recogen la categoría asignada por cadaevaluador a cada sujeto



* Abraira V, Pérez de Vargas A. 1999. Generalization of the Kappa coefficient for ordinalcategorical data, multiple observers and incomplete designs. Questiió, vol. 23, 3, p. 561-571.

3.9.2 Coeficiente de correlación intraclase

El coeficiente de correlación intraclase es una medida de concordancia, por tanto de fiabilidadpara variables cuantitativas.El concepto de coeficiente de correlación intraclase está ligado al análisis de la varianza parabloques aleatorizados y conviene distinguir al menos tres modelos:

1) Modelo de Replicación simple: Hay N sujetos y a cada uno de ellos (i = 1,…,N) se le mideuna variable ki veces (réplicas), no necesariamente las mismas para cada sujeto, por ejemplovarias mediciones de la presión arterial, o varias evaluaciones de una escala, sin ningunaestructura de replicación, es decir no hay ninguna relación entre, por ejemplo, la segundamedición de un paciente y la segunda de otro. En términos del análisis de la varianza,corresponde a un diseño de una vía de afectos aleatorios.

La tabla de Anova correspondiente sería

La estimación del coeficiente de correlación intraclase es

( )0

ˆ1

B M S W M SR

B M S k W M S

-=

+ - siendo

2

0ks

k kK

= - y k y

2ks la media y la varianza del número de

réplicas.

El límite inferior del intervalo de confianza aproximado (si los ki son iguales es exacto) al 100(1-a)% es

108Estadística


2) Modelo de Inter-examinador: Hay k examinadores (o instrumentos) y cada uno de ellosexamina (o mide) a los N sujetos. Ahora sí hay estructura de replicación: el segundo examinadores siempre el mismo para todos los sujetos, y lo mismo para el resto de examinadores. Entérminos del análisis de la varianza, corresponde a un diseño de medidas repetidas y puede serde efectos fijos (sólo hay los k examinadores del estudio) o de efectos aleatorios (los kexaminadores del estudio son una muestra aleatoria de una población de examinadores).

La tabla de Anova correspondiente sería

2.a) Modelo de Efectos Fijos


( )( ) ( )( )

ˆ1 1 1

N P M S E M SR

N P M S k R M S N k E M S

-=

´ + - + - -

y no hay fórmula simple ni exacta ni aproximada, para construir su IC.

2.b) Modelo de Efectos Aleatorios


( )( )

ˆ N P M S E M SR

N P M S k R M S N k N K E M S

-=

´ + ´ + - -

y para construir el IC hay que usar la llamada aproximación de Satterthwaite:

primero se calculan se calculan los grados de libertad

( )( ) ( ){ }( ) ( ){ }

2

22 2 2

ˆ ˆ ˆ1 1 1 1

ˆ ˆ ˆ1 1 1

N k k R F N k R k R

N k R F N k R k Rn

é ù- - + + - -ë û=

é ù- + + - -ë û siendo

R M SF

E M S=

y después el límite superior delintervalo de confianza aproximado al 100(1-a)% es



( )( )

1 , ,

1 , ,

N

N

N P M S F E M SR

N P M S F k R M S N K N K E M S

n a

n a

-

-

- ´>

é ù´ + ´ + - -ë û

Para valor un coeficiente de correlación intraclase Fleiss propone

Landis y Koch propusieron unos márgenes para valorar el grado de acuerdo en función delíndice kappa que también se puede aplicar en este caso

En el programa AlcEst se solicita Estadística -> Medidas de concordancia -> Coeficiente decorrelación intraclase, donde seleccionaremos si se trata de un modelo de replicación simple ode un modelo inter-examinador, apareciendo entonces el diálogo para indicar las variables querecogen las puntuaciones de cada examinador. La unidad de observación es cada registro, porlo que debe haberse definido tantas variables como posibles examinadores.

Las páginas de resultados son muy parecidas en ambos modelos

110Estadística


En el modelo de replicación simple se indica el coeficiente de correlación intraclase junto con ellímite inferior del intervalo de confianza del 95%, y de forma opcional se puede presentar la tabladel análisis de la varianza para bloques aleatorizados correspondiente.

En el modelo Inter-examinador se indica el coeficiente de correlación intraclase tanto para unmodelo de efectos fijos como para un modelo de efectos aleatorios, así como el límite inferior delintervalo de confianza del 95 % de este coeficiente suponiendo un modelo de efectos aleatorios.

Bibliografía

· Griffin D, González R. Correlational analysis of dyad-level data in the exchangeable case.Psychological Bulletin 1995; 118, 430-439

· Shrout PE, Fleiss JL. Intraclass Correlations: Uses in Assessing Rater Reliability .Psychological Bulletin 1979; 2, 420-428

· Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley & Sons,1986.



3.9.3 Método gráfico propuesto por Altman para evaluar la concordancia entredos variables continuas

Bland JM y Altman DG proponen un gráfico sencillo para evaluar la concordancia entre dosmétodos de medida. Consiste en representar la diferencia entre cada pareja de valores frente ala media de cada pareja de valores. Para los datos de la tabla 3 se obtiene la siguiente gráfica:

En el caso de que no haya error sistemático los puntos se distribuirán de forma aleatoria a uno yotro lado de la recta correspondiente a la diferencia 0 entre medidas (línea horizontal negra). Lalínea roja representa la media de las diferencias, que en nuestro ejemplo corresponde a 4.4(error sistemático del segundo método respecto al primero). Las líneas azules representan loslímites de confianza del 95 % para esa diferencia, y se denominan límites de concordancia. A suvez las líneas amarillas representan el límite confianza inferior para cada límite de concordancia.En el programa se solicita Estadística > Medidas de concordancia > Método de Bland-Altman.Hay que indicar las dos variables en las que se recogen las mediciones. Cada sujeto o unidadexperimental se guardará en una ficha o registro diferente.Además del gráfico el programa presenta una tabla con los resultados

Referencias

Bland JM, Altman DG (1986) Statistical methods for assessing agreement between twomethods of clinical measurement. Lancet: 307-310

112Estadística


3.10 Análisis de Supervivencia

3.10.1 Introducción al análisis de supervivencia

Bajo el término genérico de Análisis de supervivencia se engloban un conjunto de técnicasestadísticas que permiten estudiar una variable aleatoria definida como el tiempo que tarda enacontecer un determinado suceso, siendo éste, generalmente aunque no necesariamente, elfallo de un componente físico, mecánico o eléctrico, en problemas de ingeniería, y el tiempo quetarda en fallecer una unidad biológica (paciente, animal, etc.) en el caso de estudios biológicos.Así pues, aunque el suceso estudiado puede no tener nada que ver con un fallo o una muerte,hablaremos de probabilidad de "supervivencia", tasa de "fallos", etc.Una característica peculiar del análisis de supervivencia es que no todos los datos soncompletos, quiere esto decir que no se observan todas las unidades hasta que fallan, y puedenpresentarse tres casos distintos para esas observaciones incompletas:

Se fija un tiempo máximo de observación y se anota cuando fallan los elementos o se muerenlos pacientes. Al final pueden haber muerto todos o quedar algunos con vida, siendo estasobservaciones incompletas.Se observa la muestra de N individuos o elementos, hasta que fallan al menos R de ellos (R<N).En un experimento clínico los pacientes se incorporan (entran en el estudio) en diferentesinstantes de tiempo. Algunas observaciones se pierden durante el estudio (traslado del paciente,cambio de la terapia, etc.). Al finalizar, por razones prácticas la investigación, puede que notodos estén muertos.

Las observaciones que no llegan a fallar, bien porque no se estudian durante el tiemposuficiente, bien porque se pierde su evolución, se denominan incompletas y se conocen en laliteratura anglosajona como datos "censurados" (censored), mientras que aquellasobservaciones que se estudian hasta que fallan se denominan completas, puesdesgraciadamente la aparición del fallo siempre será cuestión de que transcurra el tiemposuficiente (ya dice el refrán que dentro de 100 años todos calvos).Es importante recalcar que todos los análisis desarrollados se basan en que no existe relaciónentre el tiempo de fallo y el de dato incompleto o censado.En este tipo de estudios estamos interesados, normalmente, en conocer la probabilidad de queun individuo sobreviva hasta un tiempo prefijado. Es lo que se conoce como función desupervivencia acumulada.En las pruebas disponibles en el programa AlcEst para el estudio de supervivencia, la variablecontinua observada, tiempo hasta el fallo o suceso, ha de ser numérica. El estado al transcurrirese tiempo estará reflejado en el resultado de una variable dicotómica o cualitativa de doscategorías, correspondiendo la segunda categoría al fallo o suceso. Así podemos tener definidauna variable dicotómica MUERTO (NO, SI) o bien una cualitativa con dos categorías 0. VIVO, 1.MUERTO.

Recuerde: el fallo debe ser la segunda categoría.

3.10.2 Función de supervivencia. Método de Kaplan-Meier

En el análisis de supervivencia la variable tiempo hasta que se produce el suceso es unavariable continua no negativa, cuya distribución de probabilidad se pretende caracterizar. En estetipo de análisis se suele utilizar la denominada función de supervivencia S(t) que se define como

y por tanto proporciona para cada valor de t la probabilidad de que la variable sea mayor que esevalor, es decir cuantifica la probabilidad de que un caso sobreviva hasta ese momento.



Aunque obviamente el tiempo es una variable continua, en nuestro estudio sólo dispondremos devalores discretos. Si tenemos una muestra de tamaño n habremos observado k tiemposdiferentes (k<n), t1<t2<...<tk. En cada tiempo ti continúan ri individuos expuestos al riesgo, paralos que puede ocurrir el suceso T>ti y en ese grupo se observan mi sucesos.Para estimar la función de supervivencia se utiliza el denominado método de Kaplan-Meier, quese basa en algo que es obvio: para sobrevivir un año hay que sobrevivir cada uno de los días deéste. Calculamos entonces para cada día la proporción de sucesos que se observan en ese día.Utilizando el concepto de probabilidad condicional decimos que para vivir 31 días hay que vivir 30días y luego un día más. En estadística esto se calcula multiplicando las probabilidadilidades. Laprobabilidad de vivir una semana vendrá dada por

Siendo p1 la tasa de supervivencia el primer día, p2 la del segundo, etc. La tasa desupervivencia para un día dado, por ejemplo para el séptimo, se calcula como el cociente entreel número de pacientes vivos el día 7 (o que no experimentaron el suceso) de entre los queestaban vivos el día anterior, el 6.Así que la supervivencia se calculará mediante la siguiente fórmula recursiva:

para cada instante de tiempo la supervivencia se calcula como la supervivencia en el instanteanterior multiplicada por la tasa de supervivencia en ese instante. En el denominador tenemos elnúmero de pacientes r que continuaban en el estudio en el instante anterior (expuestos al riesgo)y en el numerador a ese valor se resta el número de pacientes m que presentan el suceso enese instante.A lo largo del tiempo van saliendo del estudio los pacientes que presentan el suceso y aquellospara los que finaliza la observación por otras causas (incompletos).Los valores de la curva de supervivencia sólo hay que calcularlos para aquellos momentos en losque se produce algún suceso, ya que en el resto de casos el numerador y el denominadorcoinciden y por tanto el cociente vale 1 y la supervivencia es igual que en el instante anterior, nocambia.Si hay observaciones incompletas (censuradas o pérdidas) hacen que vaya cambiando elnúmero de pacientes expuestos al riesgo, pero si en un instante determinado sólo hayobservaciones incompletas y no hay sucesos la curva de supervivencia no cambia al ser m = 0,aunque r haya cambiado, lo que se tendrá en cuenta en el siguiente instante en el que seobserven sucesos ya que habrá menos pacientes expuestos.Aunque la tasa de supervivencia p calculada en nuestra muestra para cada instante individual esuna estimación muy burda del valor verdadero, sin embargo el producto de muchas de esastasas constituye una estimación bastante precisa de la curva de supervivencia.

Este método de estimación de la función de supervivencia es no paramétrico en el sentido deque no hace ninguna suposición en cuanto a qué modelo de probabilidad sigue la variabletiempo.

En el programa solicitamosEstadística > Análisis de supervivencia > Función de supervivencia Kaplan-MeierY nos solicita la variable suceso (dicotómica o cualitativa de dos categorías, con el sucesoregistrado como SI o la segunda categoría ) y la variable tiempo, numérica.

114Estadística


En la primera solapa de resultados (Supervivencia), el programa presenta para cada tiempo enel que ocurre al menos un suceso la función de supervivencia estimada por el método deKaplan-Meier, el error estándar de ésta calculado mediante la fórmula de Greenwood, el númerode sucesos (al menos 1) que se produce en ese valor del tiempo, el número de casos expuestosque hay desde el tiempo anterior hasta el actual y el total acumulado de sucesos hasta esetiempo incluyendo los que ocurren en el tiempo actual.

En la solapa Resumen se presenta información en cuanto al número de sucesos, deobservaciones censuradas o incompletas, total de casos y ausencias (campo en blanco).

En la solapa Incompletos tenemos una distribución de hasta cuando se observan los casosincompletos o censurados



Una forma alternativa de caracterizar la supervivencia consiste en utilizar la función de riesgo(hazard function), que es la función de densidad de probabilidad de la variable T, condicionada aque T>t. El interés de esta función es que su aspecto permite sugerir la utilización de un modeloparámetrico para la supervivencia.La función de riesgo que se suele denotar como h(t) está relacionada con la función desupervivencia S(t) por la siguiente ecuación:

Se presenta una estimación de h(t) en la solapa Función de Riesgo, con su correspondienteerror estándar.

El programa permite la obtención de varias gráficas. Se puede representar la función desupervivencia, sola o con una banda de confianza del 95 %, como vemos en la figura

116Estadística


También se puede representar en una gráfica en función del tiempo el número acumulado desucesos y de observaciones incompletas o censuradas

Se puede representar la función de riesgo y la función de riesgo acumulada. Vemos esta últimaen la siguiente figura



También se puede representar las funciones –lnS(t) y ln[-lnS(t)].

3.10.3 Comparación de funciones de supervivencia. Método del logrank

En la literatura estadística se describen diferentes pruebas para contrastar la igualdad de variascurvas de supervivencia, o dicho de otro modo, para verificar si la probabilidad de supervivenciaa lo largo del tiempo es igual en diferentes grupos. Comenta R. Peto y otros autores en unartículo clásico sobre el tema ("Design and analysis of randomized clinical trials requiringprolonged observation of each patient", Br.J. Cancer 1977), que la base de esta prueba es tanevidente que resulta sorprendente el hecho de que su descripción haya sido tan reciente, en unartículo publicado por Mantel en 1966.El razonamiento es el siguiente: si estamos analizando dos tratamientos, y en nuestro grupo depacientes asignamos aleatoriamente la mitad a cada uno de ellos, es previsible esperar, que enun día determinado, en promedio, la mitad de los muertos correspondan al grupo tratado con elprimer tratamiento y la otra mitad al otro grupo, a no ser que uno de los tratamientos sea máseficaz. Lógicamente a medida que transcurre el tiempo la proporción de pacientes en los dosgrupos va variando, debido a que algunos pacientes han muerto o bien se ha perdido suevolución, de tal manera que en otro día determinado, si quedan el doble de pacientes en elprimer grupo, y los tratamientos fueran igualmente eficaces, es previsible esperar el doble demuertes, en media, en el primer grupo frente al segundo.

El procedimiento es similar al empleado cuando se desea combinar tablas de contingencia 2x2en un análisis estratificado para obtener una medida de asociación global.

Si estamos comparando dos muestras, dos funciones de supervivencia, para cada instante detiempo ti en el que se produce algún suceso en alguna de las muestras podemos construir unatabla 2x2 de la siguiente forma:

En la hipótesis nula de que no hay diferencia el valor esperado de sucesos en la primera muestraes

118Estadística


y otro tanto para la segunda muestra, substituyendo el 1 por un 2. Es decir que el valor esperadode sucesos en cada grupo se reparte proporcionalmente según el número de sujetos quequedan expuestos al riesgo en cada grupo. Se contrastan los valores esperados frente a losobservados con el estadístico de Mantel-Haenszel, que en la hipótesis nula sigueaproximadamente una distribución chi² con k-1 grados de libertad, siendo k el número de gruposo funciones de supervivencia que se comparan.

Para solicitar una comparación de curvas de supervivencia por el método log-rank, el camino aseguir esEstadística > Análisis de supervivencia > Comparación de funciones de supervivenciaEl programa pregunta los nombres de las variables que registran el tiempo, el estado cuando hatranscurrido el tiempo registrado en la variable anterior (dicotómica o cualitativa con doscategorías, la última respuesta corresponde al suceso) y la variable cualitativa que define losgrupos.

El programa proporciona dos solapas de resultados. En la primera tenemos el resultado delcontraste con su nivel de probabilidad.

Se puede obtener una gráfica de las curvas de supervivencia para cada grupo. En la figura



vemos un ejemplo para comparación de dos grupos

3.10.4 Modelo de riesgo proporcional de Cox

Es interesante poder modelar no sólo la relación entre la tasa de supervivencia y el tiempo, sinotambién la posible relación con diferentes variables registradas para cada sujeto. Se trata portanto de calcular la tasa de mortalidad como una función del tiempo y de las variables pronóstico.Aunque la idea fundamental es la misma que en cualquier modelo de regresión, aquí lamatemática necesaria para la estimación de los coeficientes del modelo se complicasensiblemente, y a pesar de que existen diferentes alternativas, el sistema más utilizado es eldenominado de riesgos proporcionales o modelo de Cox, en el que la tasa de mortalidad secalcula como

siendo por tanto el producto de dos componentes, uno que depende del tiempo y otro

que depende de las variables pronóstico o covariantes, y no depende el tiempo.Vemos que en este modelo los riesgos para dos conjuntos diferentes de valores de loscovariantes conservan la misma proporción a lo largo del tiempo; de ahí el nombre de modelosde riesgos proporcionales. Así, por ejemplo, si una de las variables pronóstico fuera tener o nohipertensión, codificada como 0 y 1, manteniendo iguales el resto de covariantes, podemos

calcular los valores del término para sujetos con y sin hipertensión, obteniendo dosnúmeros diferentes: 1 para ausencia de hipertensión (e0=1) y si, por ejemplo para loshipertensos fuese 2 , ello supondría según este modelo, que a lo largo del tiempo la tasa demortalidad de los hipertensos es siempre el doble que para los no hipertensos.Esta característica del modelo de proporcionalidad de riesgos para diferentes grupos decovariantes hay que tenerla bien presente a la hora de aplicar la técnica a nuestros datos, ya queno siempre es ni siquiera aproximadamente válida tal suposición. Así ocurre cuando la influenciade algún covariante depende precisamente del tiempo.

representa la función de riesgo cuando todos los covariantes valen 0, o el riesgo basalcuando no tiene sentido físico que alguna de las variables valga 0.Para la estimación de un modelo de riesgos proporcionales se podría postular para la función deriesgo basal un modelo matemático cualquiera, por ejemplo el de Weibull. Sin embargo, la

120Estadística


aproximación propuesta por Cox se basa en que a menudo no se conoce la forma de yademás no es de interés primordial, ya que el verdadero objetivo es valorar la influencia de los

factores pronóstico en la supervivencia. Por ello en el modelo de Cox no se determina .La interpretación de los coeficientes estimados mediante el método de Cox es directa, y seasemeja a la que veíamos en el modelo de regresión logística.Exp(bi), donde bi es el coeficiente correspondiente a la variable Xi, es el riesgo relativo cuandoXi aumenta una unidad, manteniéndose constantes las demás.Precisamente uno de los factores que pueden intervenir en la ecuación es el tratamiento,permitiendo evaluar su influencia en la supervivencia, ante la presencia de otras variables; esdecir calcular el efecto del tratamiento en la supervivencia, corrigiendo el efecto debido a otrosfactores. Cuando únicamente interviene el tratamiento en la ecuación, el resultado es similar(aunque no exactamente igual) a comparar la supervivencia para los diferentes grupos detratamiento con una prueba como la del logrank.En cuanto a la utilización de variables cualitativas con más de dos categorías, valen lasconsideraciones ya señaladas en la sección sobre regresión lineal múltiple.

Se solicitaEstadística > Análisis de supervivencia > Modelo de CoxEl programa pregunta las variables que van a intervenir en el análisis: el campo que recoge elsuceso que tiene que ser dicotómico o cualitativa de dos categorías con la segunda respuestapara la muerte o fallo; la variable tiempo numérica; y las variables independientes que entran enel modelo o covariantes. Al igual que en otras órdenes para construir modelos de regresión esposible seleccionar qué variables cualitativas se convertirán a variables internas y añadirtérminos de interacción al modelo.

El programa presenta las siguientes páginas de resultados



En Resultados (menú de contexto, botón derecho del ratón) se dispone de Opciones similar aotras órdenes de regresión

También es posible modificar el modelo, partiendo del modelo máximo con todas los covariantesque se han especificado y sacar variables, o luego añadir, comparándose el nuevo modelo con elanterior

También es posible solicitar una regresión por pasos.

En Resultados se puede también solicitar Estimar supervivencia para unos valores de los

122Estadística


covariantes

En la parte inferior disponemos de tres botones que permiten asignar automáticamente losvalores mínimos de los covariantes, los valores medios o los valores superiores. Al pulsarAceptar se presenta la curva de supervivencia para los valores indicados según el modeloestimado. En la figura vemos tres curvas de supervivencia para los valores mínimos, medios ymáximos de los covariantes

3.11 Pruebas no paramétricas

3.11.1 Prueba de Mann-Whitney

Existen diferentes pruebas no paramétricas que permiten comparar dos muestras de formaequivalente a la prueba de la t de Student, y quizás la más difundida es la que se conoce comoprueba de Mann-Whitney, que fue propuesta originalmente por Wilcoxon (1945) y modificada porMann y Whitney (1947).En esta prueba, como en la mayoría de las no paramétricas, no se trabaja directamente con losvalores sino con sus rangos, obtenidos al juntar y ordenar ambas muestras y asignarles unnúmero de posición correlativo, corrigiendo los empates con el valor medio.El estadístico de Mann-Whitney para la muestra 1 se calcula como

donde n1 y n2 son los tamaños de muestra y S1 es la suma de los rangos de la muestra 1. Deforma equivalente se calcula U2.Un valor de U anormalmente alto en una de las muestras respecto a lo que es previsible esperar



si éstas hubieran sido extraídas al azar de la misma población, traerá aparejado un valorexcepcionalmente pequeño del valor de U para la otra muestra, y se trata pues de calcular laprobabilidad de observar un valor como el obtenido o más extremo bajo la hipótesis nula deigualdad.Se cumple que

Cuando la suma de rangos de una muestra es grande, lo que corresponde a presencia devalores altos respecto a los de la otra muestra, el valor de U es pequeño. Precisamente losvalores de U tienen una interpretación interesante. Si comparamos todos los datos de la primeramuestra con todos los de la segunda se pueden efectuar n1xn2 comparaciones, el valor de U1

nos indica la proporción de ese total de comparaciones en las que los valores de la muestra 1son inferiores a los valores de la muestra 2.La prueba de Mann-Whitney puede también utilizarse con variables cualitativas cuyas categoríasguarden una relación ordinal.

El diálogo para indicar los datos con los que se efectuará la prueba es idéntico al descrito para lacomparación de dos medias mediante la t de Student.Se presentan dos páginas de resultados:

Cuando los tamaños de muestra son grandes ( > 20) la distribución de U bajo la hipótesis nula seaproxima mediante una normal, indicándose en la segunda página el valor de la media ydesviación típica de esa distribución.En el caso de muestras pequeñas los valores críticos de U se encuentran tabulados (ficheroMannW.dbf) para los niveles de probabilidad 0.002, 0.01, 0.02, 0.05, 0.1 y 0.2. Si el valor mínimode U observado es menor o igual que el valor crítico teórico podemos rechazar la hipótesis nulacon ese nivel de probabilidad.

124Estadística


3.11.2 Prueba de Wilcoxon para muestras pareadas

La prueba de Wilcoxon para rangos en muestras pareadas es el equivalente no paramétrico dela prueba de la t de Student para muestras pareadas, por lo que el diálogo de petición de datoses el mismo que en aquella. Al igual que en aquella prueba el procedimiento de contraste precisacalcular las diferencias entre cada pareja de valores, para después proceder a ordenarlas deacuerdo a su magnitud absoluta (sin signo). Después se calcula la suma de los rangos de lasdiferencias positivas y de las diferencias negativas.Cuando la muestra es pequeña el valor de la menor de las sumas de rango se compara con unvalor crítico tabulado, para determinar su nivel de probabilidad. Si la muestra es grande (100 omás parejas), las distribución de la suma de rangos se puede aproximar mediante unadistribución normal, de media

y error estándar

Hay que resaltar que en el AlcEst cuando el valor coincide en un par, diferencia cero, no seincluye en el análisis. En los resultados se indica en cuántas parejas la diferencia es cero.



3.11.3 Prueba de Kruskal-Wallis: análisis de la varianza no paramétrico

La prueba de Kruskal-Wallis constituye el equivalente no paramétrico del análisis de la varianzapara 1 factor, permitiendo comparar varios grupos.Hay que indicar la variable que contiene la medición y la variable que indica el grupo (factor)

Como muchas otras pruebas paramétricas utiliza el rango de las observaciones, asignado comosi se tratase de una sola muestra, para determinar el estadístico de contraste, siendo éste:

donde Ri es la suma de los rangos correspondientes a la muestra i, ni es el tamaño de lamuestra i, k el número de grupos, N es el tamaño total.

El valor de H bajo la hipótesis nula se distribuye aproximadamente según una con k-1 gradosde libertad.

Cuando los tamaños de muestra son pequeños (menor de 5), dicha aproximación no es buena yel valor obtenido se compara con un valor crítico tabulado.

126Estadística


3.11.4 Prueba de Friedman: ANOVA no paramétrico pareado

La prueba de Friedman es el equivalente no paramétrico del análisis de la varianza para 1 factoren bloques aleatorizados, y está por tanto indicada cuando se desea comparar K muestras y sesospecha que existe otra variable que puede influir en el proceso (variable de confusión), nosiendo sin embargo de interés su efecto, aunque sí es conveniente controlarlo.Para controlar el efecto de la variable de confusión que puede interferir en el resultado, seestudian N unidades experimentales o bloques, en cada una de las k situaciones

donde cada columna corresponde a un tratamiento diferente, y cada fila un bloque distinto. Cadabloque está constituido por la misma unidad de observación, por ejemplo el sujeto, al que seaplican los diferentes tratamientos, o bien por unidades los más parecidas posible en cuanto a lavariable cuya influencia se desea eliminar.Para contrastar la hipótesis nula, efectos iguales para todos los tratamientos, se asigna un rangoa las observaciones dentro de cada bloque (fila), cuyo valor irá de 1 a K, desde el menor almayor valor observado en la fila. Si hay empates se corrigen con el rango medio. Seguidamentese calcula la suma de rangos para cada tratamiento (columna). Si la hipótesis nula fuera cierta,dichas sumas serán bastante parecidas. Se puede demostrar que el valor esperado, o másprobable, para cada suma de rangos, si se cumple la hipótesis de igualdad, es

Si se restan los valores obtenidos para cada suma de rangos del valor esperado, se leva ladiferencia la cuadrado, y se suman todas ellas, se obtiene un parámetro que será próximo a cerosi se cumple la hipótesis nula, y será tanto mayor cuanto mayor sean las diferencias entre lostratamientos. Este parámetro constituye el estadístico S de Friedman. Transformándolo según laexpresión:

obtenemos un estadístico cuya distribución de probabilidad, cumpliéndose la hipótesis nula,

puede ser aproximada mediante una con K-1 grados de libertad, y que utilizaremos como



estadístico de contraste para determinar el nivel de probabilidad de nuestro resultado si seaceptáramos la hipótesis nula.

Para solicitar la prueba de Friedman mediante el programa cada bloque experimental estarárecogido en un registro o ficha diferente, en K variables diferentes

El programa presenta los resultados agrupados en dos solapas:

3.12 Modelos de regresión de efectos mixtos

3.12.1 Introducción a los modelos de regresión de efectos mixtos

Los métodos estadísticos más utilizados en el análisis de variables numéricas continuas estánen su mayoría diseñados para situaciones en las que se registra una única medida por cadaunidad de observación (una medida por paciente), es el caso del análisis de la varianza y de lastécnicas de regresión. Sin embargo, en la práctica nos encontramos con estudios en los que setoman varias medidas por paciente. Este tipo de estudios en los que para cada paciente unamisma variable es registrada en diferentes momentos a lo largo del tiempo, se conocen como"longitudinales". Así, por ejemplo, se puede registrar diferentes medidas de presión arterialpara cada paciente en diferentes días. Las diferentes presiones registradas para cada unidad deobservación (paciente) están correlacionados -es razonable pensar que la variabilidad entre lasmedidas de cada sujeto sea menor que entre los diferentes sujetos- y no pueden por tantoconsiderarse como observaciones independientes, supuesto básico para estimar un modelo de

128Estadística


regresión clásico.Es verdad que mediante el análisis de la varianza es posible contemplar diseños en los quetenemos medidas repetidas sobre el mismo elemento de observación, pero tienen elinconveniente de que el número de observaciones por elemento debe ser idéntico (balanceado),requisito que salvo en los estudios experimentales es muy difícil de cumplir, y aún en éstos esposible que se den pérdidas que rompen el equilibrio del diseño.Para ilustrar este tipo de situaciones, vamos a plantear un ejmeplo. Supongamos que queremosestudiar la influencia de la actividad física del sujeto en la variabilidad de la presión ambulatoria,así como las posibles diferencias entre hombres y mujeres y la influencia del índice de masacorporal. Para simplificar vamos a considerar sólo la PAS. Tenemos para cada sujeto diferenteslecturas de PAS, y para cada una de ellas un índice de actividad física (que suponemos medidoen una escala de 0 a 100). Empezamos formulando un modelo de regresión lineal para cadapaciente

Tenemos tantas ecuaciones de regresión (PAS en función de la Actividad) como pacientes, porlo que vamos a representar el modelo de una forma más general:

donde el subíndice i corresponde al paciente, j corresponde a cada observación para un mismopaciente, y es la variable dependiente (en el ejemplo PAS), x la variable independiente (demomento vamos a considerar una sola, que en el ejemplo planteado será el índice de actividad).e recoge la parte de variabilidad individual no explicada por la regresión (error o residuo).Si estudiamos N pacientes, tenemos N ecuaciones de regresión, y por lo tanto N valores para los

coeficientes y para .

Los valores de esos coeficientes y pueden considerarse como una variable aleatoria ycalcular su media y desviación típica. Si tenemos dos grupos de pacientes clasificados por

ejemplo según el sexo, es razonable calcular para cada grupo la media de (media de laspendientes de las regresiones individuales) y compararlas para ver si existen diferencias: paracomprobar si influye de diferente manera el índice de actividad en la PAS en el grupo dehombres que en el de mujeres.Si, de una forma más general, se contempla la posible influencia de una variable numéricacontinua (no cualitativa como el sexo), como por ejemplo el índice de masa corporar (eso sí hayun único valor de IMC para cada paciente, a lo largo de todas sus observaciones), nos interesatambién conocer su posible influencia en esa relación entre la PAS ambulatoria y el índice deactividad. Al igual que hicimos antes con los valores de PAS y Actividad podemos ahora buscar

ajustar una ecuación de regresión para los coeficientes y en función del IMC.

Para en el paciente i planteamos la siguiente ecuación:

y tendremos una ecuación similar para La combinación de los dos modelos de regresión nos permite considerar la influencia del gradode actividad en la variabilidad de la lectura de PAS ambulatoria, así como tener en cuenta lasposibles diferencias debidas al IMC del sujeto.Tanto en la primera ecuación de regresión como en la segunda pueden intervenir más variablesindependientes. Así en la primera ecuación para cada valor de PAS además del índice deactividad se podría haber incluido, por ejemplo, una variable dicotómica que indica si la lecturacorresponde al día o a la noche. Y en la segunda ecuación podría intervenir también, además delIMC, el sexo, si fuma, tipo de medicación antihipertensiva...Otra clase de estudios en los que nos encontramos con observaciones correlacionadas, noindependientes, son los denominados datos agrupados (clustered data) , en los que existe undiseño jerárquico. Por ejemplo, pacientes agrupados en hospitales, en los que interesa conocerqué características del paciente afectan a la variable analizada o también qué características delgrupo o bloque (en este caso el hospital) afectan asimismo a ese resultado. Un ejemplo podría



ser un estudio para analizar qué factores de riesgo se asocian con hipertensión en pacientesdiabéticos en atención primaria, en el que se incluyen centros con diferentes características.Cada centro aporta inicialmente el mismo número de pacientes al estudio, seleccionados deforma aleatoria. Es razonable pensar que con datos agrupados las observaciones pertenecientesal mismo grupo o bloque son en general más similares entre sí que con respecto a las de otrosgrupos, lo que violaría la condición de independencia entre las observaciones. Así en nuestroejemplo puede ocurrir que los pacientes que atiende uno de los centros sean todos ancianos,otro centro fundamentalmente sujetos desempleados por encontrarse en una zona de poblacióncon alta tasa de paro...Cuando las observaciones no son independientes las pruebas estadísticas habituales, que sebasan en que sí existe esa independencia, tienden a producir errores estándar más pequeños, alconsiderar el tamaño de la muestra como el conjunto de todas las observaciones, con lo que seobtiene una sobreprecisión espuria, y más resultados "estadísticamente signficativos" de lodebido. Está claro que si vamos a extraer conclusiones respecto a los hospitales, nuestrotamaño de muestra no es el número de pacientes, sino el número de hospitales.Esta estructura jerárquica de los datos: observaciones agrupadas en bloques, hace que este tipode modelos se conozca con el nombre de modelos multinivel (multilevel), siendo los másutilizados los de 2 niveles. En el caso de los estudios longitudinales el nivel 2 lo constituyen lossujetos y el nivel 1 las observaciones sobre cada sujeto. En los estudios de datos agrupados elnivel 2 correponde al bloque (por ejemplo hospital) y el nivel 1 a las unidades de observación(sujeto). Podríamos tener 3 niveles (o más): hospital, servicio, paciente.Otros tipo de investigaciones con medidas correlacionadas son los estudios de crecimiento, enlos que los sujetos se evalúan en diferentes edades o momentos, y también los de curvas dedosis-respuesta en los que se evalúa la respueta de cada sujeto para diferentes dosis delfármaco.También en los metanálisis en los que se dispone de datos individuales de los pacientes, nosencontramos asimismo con un caso de análisis de datos agrupados; en el que los pacientes(nivel 1) se agrupan en bloques constituídos por cada estudio particular (nivel 2).Podemos describir el modelo jerárquico de una forma general, que incluye cualquiera de loscasos enunciados anteriormente. Para ello supongamos que tenemos i = 1 .. N unidades en elnivel 2 (bloques en el caso de datos agrupados, sujetos para los estudios longitudinales) y

tenemos j = 1 .. observaciones en el nivel 1 (sujetos en datos agrupados, observacionesrepetidas en el contexto de estudios longitudinales), el modelo de regresión se puede escribirentonces de forma general como:

donde y es el vector respuesta de dimensión x 1 (obsérvese el subíndice i que indica que

puede haber diferentes observaciones por sujeto o por bloque), Wi es una matriz diseño x p

para los efectos fijos, es un vector p x 1 de coeficientes de regresión fijos a estimar

(desconocidos), Xi es es una matriz diseño x r para los efectos aleatorios, bi es un vector r x

1 de efectos individuales a estimar (desconocido), y ei es un vector x 1 de residuos deregresión que corresponde a la variabilidad de las observaciones que aún queda sin explicar connuestro modelo. He utilizado letras griegas para designar los efectos fijos y letras romanas paralos efectos aleatorios.Con objeto de ilustar cómo se traduce este modelo a la hora de aplicarlo a datos reales,supongamos un ejemplo sencillo en el que estamos evaluando dos fármacos antihipertensivosen pacientes nuevos, divididos en dos grupos a los que se les asigna el tratamiento de formaaleatoria. Para simplificar vamos a fijarnos únicamente en la PAS que se registra antes deltratamiento (valor basal) y durante los cinco meses siguientes. Estamos interesados en evaluarsi hay evidencia de mejora diferencial a lo largo del tiempo entre los pacientes tratados con uno uotro fármaco. Una representación matricial de este modelo para el paciente i es la siguiente:

130Estadística


Tenemos pues un modelo que estima la PAS con dos factores aleatorios: una ordenada (primeracolumna de unos) y tendencia lineal a lo largo del tiempo (segunda columna 0..5, basal y mesessiguientes); y dos factores fijos: tratamiento (primera columna de la segunda matriz. Asignamosel valor 0 para el primer tratamiento y 1 para el segundo tratamiento). El tratamiento de cadapaciente no varía a lo largo de todo el estudio, por lo que para algunos pacientes tendremos unaprimera columna de 0 y para otros una columna de 1 en la segunda matriz. Y, por último, en lasegunda columna de la segunda matriz tenemos la interacción Tratamiento - semana (productode ambas variables), que nos permitirá evaluar si los dos grupos de pacientes difieren en suevolución a lo largo del tiempo.Este tipo de modelos aquí planteado se conoce también con el nombre de modelos linealesmixtos ("linear mixed model"), debido a que, como vemos, incorporan tanto factores fijos(tratamiento) como aleatorios (evolución del paciente a lo largo del tiempo).En este ejemplo, la constante u ordenada ("intercept" en la linteratura anglosajona) determina el

nivel basal medio de la PAS para los pacientes que reciben el primer tratamiento (TRAT=0).cuantifica cuánto más alta o baja (signo negativo) es la PAS basal en el segundo grupo detratamiento (TRAT=1) respecto del primero. Esto es así por cómo se ha elegido la codificación (0para el instante basal en la variable tiempo y 0 para el primer grupo de tratamiento), con otracodificación el significado sería diferente.El coeficiente b1 cuantifica el descenso global (si su signo es negativo) de la PAS de los

pacientes a lo largo del estudio, y el coeficiente nos permite contrastar si hay diferencias enesa evolución entre los dos grupos de tratamiento.El modelo nos permite también calcular la varianza y covarianza de los efectos aleatorios, esdecir la variabilidad individual de la PAS basal y de la evolución.Este clase de modelos se puede extender a relaciones no lineales entre las observaciones y lostérminos fijos y aleatorios, como puede ser por ejemplo una regresión logística, cuando lavariable resultado es un suceso dicotómico o politómico (más de dos respuestas nominales). Eneste caso se habla de modelos lineales mixtos generalizados ("generalized linera mixedmodel"), y el concepto e interpretación es similar al aquí descrito aunque la matemática estodavía más compleja.Los modelos lineales generalizados permiten también manejar observaciones multivariantes,es decir situaciones en las que se considera más de una variable dependiente (variablesobjetivo) para los sujetos. En nuestro ejemplo podría interesar el análisis de forma conjunta de laPAS y PAD. La formulación planteada por los modelos lineales mixtos es más flexible que laregresión multivariante tradicional, ya que por ejemplo permite usar covariantes diferentes ycomunes para cada variable dependiente, y además no se excluyen los pacientes con ausenciasen alguna de las variables dependientes.

En el modelo planteado hasta ahora se ha supuesto que los residuos son independientes,pero en los estudios longitudinales, en los que las observaciones siguen una secuencia temporal,es razonable pensar que las observaciones contiguas se parezcan más entre sí que lasobservaciones separadas en el tiempo. En estos casos se puede considerar incluir esa relaciónpara los residuos, usando técnicas del área de la estadística matemática conocida como"análisis de series temporales" y que no vamos a comentar de momento para no complicar



aún más las cosas.La aplicación de estas técnicas está poco difundida en la literatura biomédica, probablementedebido a su complejidad, y a que hasta hace poco no existía el software adecuado para efectuarlos cálculos, y de hecho he encontrado pocas referencias en la literatura médica para ilustrareste artículo. No obstante es indudable su gran utilidad en bastantes situaciones, aunquetambién en muchas otras, en las que no se da la complejidad estructural aquí planteada, serásuficiente con las técnicas de regresión clásicas.En cualquier caso los modelos matemáticos y estadísticos no son sino una herramienta máspara ayudar en la investigación de teorías que deben estar bien argumentadas y nunca a lainversa, y el objetivo ha de ser siempre simplificar y clarificar la interpretación de los datos y noañadir complejidad adicional mediante artificios matemáticos.

El programa AlcEst proporciona una interfase con los programas MIXREG y MIXNO, de libredistribución y disponibles, junto con los manuales, en:

http://tigger.uic.edu/~hedeker/mix.html

MIXREG: a computer program for mixed-effects regression analysis with autocorrelated errorsDonald Hedeker, Robert D. Gibbons

MIXNO: a computer program for mixed-effects nominal logistic regressionDonald Hedeker

3.12.2 Modelo de regresión lineal de efectos mixtos con autocorrelación

Mediante una interfase con el programa MIXREG se puede estimar un modelo de regresiónlineal de efectos mixtos para una variable respuesta con distribución normal.Si se solicita Estadística > Modelos de regresión de Efectos Mixtos tenemos dos posibilidadesdependiendo de si estamos analizando datos longitudinales, cuando se tiene información de lossujetos en diferentes momentos, o de si se está analizando datos agrupados (clustered), en losque en el modelo se tiene en cuenta que los datos dentro de un mismo bloque o conglomerado(cluster) están relacionados, no son independientes

En el caso de datos longitudinales un mismo sujeto es observado en diferentes ocasiones y sepuede indicar si existe autocorrelación entre las observaciones de un mismo sujeto y el modeloque para ellas se postula.Los datos se recogerán de tal manera que habrá un registro para cada observación de cadasujeto. En el ejemplo que se presenta en el manual del MIXREG la variable que se va a analizares la puntuación en la escala de depresión de Hamilton (HDRS). Se recoge también informaciónde la semana en la que se ha registrado esa puntuación (0 para el comienzo del estudio hasta 5semanas después) y si el paciente es endógeno o no (0,1). Además es preciso que cada sujetosea identificado mediante una variable, en este caso ID.

132Estadística


Si deseamos estimar un modelo en el que se va a incluir un como términos aleatorios (diferentespara cada paciente) la constante y pendiente con el tiempo (semana), y como términos fijos(iguales para todos los pacientes) el efecto debido al tipo de paciente (endógeno) y la interacción(producto) entre el tipo y la semana de observación, y no se va a considerar la posibleautocorrelación entre las determinaciones de un mismo sujeto, solicitamos Modelo lineal deefectos mixtos para datos agrupados.

En la imagen vemos los datos que nos solicita el programa. En el campo de más abajo seespecifica la variable que identifica al paciente (en nuestro ejemplo ID).Una de las ventajas de este tipo de modelo radica en que no es necesario que todos los sujetosdispongan de valores en todo los puntos de observación.

Obtenemos las siguientes pantallas de resultados.1. Estimación del modelo de regresión:



En este caso para el modelo postulado, dado que se ha codificado como 0 los pacientes noendógenos, y la variable semana toma valores 0 a 5, el término constante corresponderá a laestimación del valor medio de HDRS para los pacientes no endógenos al comienzo del estudio(semana 0). Puesto que el coeficiente de la variable endógeno es 1,988, estos pacientes tienensegún el modelo un valor de HDRS inicial aproximadamente 2 unidades mayor que el de lospacientes no endógenos, y esa diferencia está cerca del nivel de significación = 0.063.La variación del HDRS en ambos grupos a lo largo del tiempo tiene una pendiente negativa deaproximadamente 2.4 y es estadísticamente significativa, mientras que no parece que hayadiferencias en esa variación en cuanto a los dos grupos de pacientes (interacción).

2. Varianzas y covarianzas de los términos de efectos aleatorios

Vemos que variabilidad es estadísticamente significativa tanto en las condiciones iniciales de lospacientes (constante), como en la mejora a lo largo del tiempo (SEMANA).

3. Información general

4. Covarianzas de los efectos aleatorios expresadas como correlaciones (-1,1)

5. Matriz de correlación de los coeficientes estimados

134Estadística


6. Matriz de correlación de las varianzas estimadas

Si se desea tener en cuenta la presencia de autocorrelación –las observación de un sujeto en uninstante dado estará más relacionada con las observaciones inmediatamente anteriores que conlas que se encuentran más alejadas en el tiempo-, solicitaremos un Modelo lineal de efectosmixtos para datos longitudinales.

donde ahora habrá que indicar en qué variable se recoge la información relativa al tiempo (ennuestro ejemplo SEMANA) y el modelo de autocorrelación que se va a considerar.

Como en la página general disponemos del dato del ln de la verosimilitud de cada modelo,podemos contrastar si el añadir un término de autocorrelación modifica significativamente éste.En nuestro ejemplo, el valor de la verosimilitud cuando añadimos el término AR1 es -1103.4, porlo que teniendo en cuenta que el cociente de verosimilitud se calcula como

y se distribuye según una chi² con un grado de libertad, y en este caso tenemosR = 2 (-1103.4+1107.5) = 8.2

que es mayor que 3.84, el valor crítico de la chi² con un grado de libertad para el nivel 0.05.

En una nueva solapa Autocorrelación vemos que el coeficiente de autocorrelación estimado vale0.37.



En el menú Resultados disponemos de una opción para ver el fichero de salida original delprograma MIXREG. Si en el proceso de cálculo se produjo algún error este fichero aparecerá deforma automática.

Desde el menú Gráficos la opción Líneas de evolución nos permite obtener una gráfica con unalínea quebrada que marca la evolución para cada paciente. Para ello es preciso definir un índiceque identifique a cada paciente y tenerlo activo. Seguidamente el programa pregunta quevariables se representa en el eje de las Y y de las X. En nuestro ejemplo obtenemos una gráficacomo la de la figura:

en la que se pinta una línea para cada sujeto identificado con la variable ID que es la que se hautilizado como índice.

3.12.3 Modelo de regresión logística de efectos mixtos

Mediante una interfase con el programa MIXNO se puede estimar un modelo de regresiónlogística de efectos mixtos para una variable respuesta cualitativa politómica.Es adecuado para datos agrupados en conglomerados o para estudios longitudinales. En losestudios de conglomerados los sujetos se agrupan en bloques que pueden corresponder porejemplo a hospitales, regiones, etc. En los estudios longitudinales la unidad de agrupación laconstituye el propio sujeto para el que se efectúan mediciones múltiples. En ambos casos cabeesperar que las observaciones dentro de cada conglomerado estén correlacionadas, y para teneren cuenta esas agrupaciones es preciso introducir efectos aleatorios en el modelo, que en elcaso de análisis de conglomerados corresponden a los bloques y en el caso del análisislongitudinal a los sujetos. La idea es similar a la que se plantea para un modelo de regresiónlineal pero ahora la variable respuesta es una variable cualitativa nominal, con dos o másposibles respuestas.

Se solicita Estadística > Modelos de Regresión de Efectos Mixtos > Modelo Logístico de Efectos

136Estadística


Mixtos.Hay que indicar la variable dependiente (cualitativa) y las variables que intervienen en el modelo,ya sean como términos correspondientes a efectos aleatorios (diferentes para cada sujeto obloque) o términos de efectos fijos.También hay que especificar la variable que identifica los bloques o los sujetos (puede ser porejemplo en número de historia). Si ésta no se indica el programa estimará un modelo logísticotradicional.

También se puede especificar si la varianza de los términos aleatorios se mantiene constante opuede ser diferente para cada nivel de la respuesta.

Los resultados que el programa presenta se pueden ver en las siguientes figuras. En la primerasolapa tenemos la distribución de frecuencias para cada una de las respuestas de la variabledependiente

En la solapa General tenemos información en cuanto al ajuste del modelo, el número deunidades en cada nivel de agrupación y cuántas unidades de nivel 2 tienen igual respuesta entodos sus componentes.



En las siguientes solapas tenemos los coeficientes del modelo logístico correspondiente a cadauna de las categorías de la variable respuesta versus la primera categoría.

Se presenta la estimación de la desviación típica de los efectos aleatorios incluidos en el modeloy el contraste de Wald frente al valor 0, cuyo resultado conviene que se interprete con cautela.

También se proporciona el coeficiente de correlación intraclase

Si se especificó que la varianza de los términos aleatorios puede variar para los diferentesniveles de la respuesta, el contenido de las dos últimas solapas es algo diferente.

138Estadística


Capítulo

IV

140Gráficos


09/09/2004

Gráficos

4.1 Conceptos generales sobre gráficos

El programa permite obtener gráficos directamente a partir de la información contenida en labase de datos, o bien a partir de los resultados de una prueba estadística.En la figura vemos un ejemplo de gráfico

Las opciones disponibles para trabajar con un gráfico aparecen en el menú principal delprograma, una vez que está seleccionada la ventana del gráfico, en la función Gráfico. Tambiénse puede acceder desde el menú de contexto que se obtiene al pulsar el botón derecho del ratónestando posicionados sobre el gráfico en cuestión.Es posible pasar gráficos a otros programas utilizando el portapapeles y también se puedenarchivar en disco. En ambos casos el formato que se utiliza es WMF (Windows MetaFile).Los datos que se representan en el gráfico se organizan en series. Todo gráfico contiene almenos una serie de datos. En el de la figura tenemos dos series, una se está representando encolor amarillo y la otra en color rojo.Se puede utilizar diferentes tipos de representación para las series de datos: líneas, barrasverticales u horizontales, área, puntos, tarta, formas, burbujas y flechas.Cada gráfico tiene una serie de características que es posible modificar: aspecto de los ejes,título y pie, leyenda (la caja que en la figura anterior vemos en el lado derecho con la informaciónsobre las dos series), etc.También es posible combinar dos gráficos. Para ello nos situamos en uno de los gráficos ypulsamos el botón izquierdo del ratón, el cursor cambia a un símbolo de prohibido; arrastramosel ratón con ese botón pulsado hasta el otro gráfico, el cursor cambia a un símbolo de una flechacon un cuadrado. Soltamos el botón izdo. del ratón que hemos mantenido pulsado hasta esemomento y aparecerá añadidas en este gráfico las series de datos que hubiera en el otro.

Hay cuatro opciones disponibles en el menú de gráficos para permitir modificar el aspecto deéstos:

· Editar formato de la gráfica· Editar formato de presentación de los datos· Editar propiedades del gráfico y de los datos· Editar valores



4.2 Editar formato de la gráfica

Si en el menú Gráfico se selecciona la función Editar formato de la gráfica, se obtiene lasiguiente ventana

desde donde podemos modificar el título y pie del gráfico; cambiar las etiquetas con las que seidentifica cada uno de los ejes; definir el escalado de los ejes; indicar si queremos que aparezcauna rejilla (líneas de punto) para cada subdivisión de los ejes.También se puede forzar que el gráfico sea cuadrado (altura igual a la anchura), seleccionar siqueremos una representación en 3D; cambiar el fondo del gráfico a color blanco, en lugar delgris que se presenta por defecto, y decidir si se presenta o no la leyenda con la informaciónrespecto a las series de datos.

4.3 Editar formato de presentación de los datos de un gráfico

Esta opción nos permite cambiar alguna de las características de las series de datos: nombre,color, tipo de línea (cuando procede), ancho, tipo de punto (cuando procede)

4.4 Editar propiedades del gráfico y de los datos

Esta opción es la más completa ya que nos permite modificar todas las características tanto delas series de datos como del propio gráfico, ya sean relativas a los ejes, al fondo, leyenda, etc.

También nos permite añadir nuevas series de datos al gráfico cuyos valores se pueden editar

142Gráficos


desde la función Editar valores.

4.5 Editar valores de un gráfico

Con esta opción podemos modificar los datos de las series que haya en el gráfico, borrar puntosy añadirlos.En primer lugar aparece un diálogo para escoger que serie se quiere modificar, si hay más deuna, y seguidamente aparece la ventana para modificar, borrar o añadir valores



Capítulo

V



09/09/2004

Anexos

5.1 Licencia GNU

GNU GENERAL PUBLIC LICENSETERMS AND CONDITIONS FOR COPYING, DISTRIBUTION ANDMODIFICATIONEn la dirección

http://www.gnu.org/copyleft/lgpl.html

encontrará información relativa a los términos y condiciones de la licencia GNU.

0. This License applies to any program or other work which containsa notice placed by the copyright holder saying it may be distributedunder the terms of this General Public License. The "Program", below,refers to any such program or work, and a "work based on the Program"means either the Program or any derivative work under copyright law:that is to say, a work containing the Program or a portion of it,either verbatim or with modifications and/or translated into anotherlanguage. (Hereinafter, translation is included without limitation inthe term "modification".) Each licensee is addressed as "you".

Activities other than copying, distribution and modification are notcovered by this License; they are outside its scope. The act ofrunning the Program is not restricted, and the output from the Programis covered only if its contents constitute a work based on theProgram (independent of having been made by running the Program).Whether that is true depends on what the Program does.

1. You may copy and distribute verbatim copies of the Program'ssource code as you receive it, in any medium, provided that youconspicuously and appropriately publish on each copy an appropriatecopyright notice and disclaimer of warranty; keep intact all thenotices that refer to this License and to the absence of any warranty;and give any other recipients of the Program a copy of this Licensealong with the Program.

You may charge a fee for the physical act of transferring a copy, andyou may at your option offer warranty protection in exchange for a fee.

2. You may modify your copy or copies of the Program or any portionof it, thus forming a work based on the Program, and copy anddistribute such modifications or work under the terms of Section 1above, provided that you also meet all of these conditions:

a) You must cause the modified files to carry prominent notices stating that you changed the files and the date of any change.

b) You must cause any work that you distribute or publish, that in whole or in part contains or is derived from the Program or any part thereof, to be licensed as a whole at no charge to all third parties under the terms of this License.

c) If the modified program normally reads commands interactively when run, you must cause it, when started running for such interactive use in the most ordinary way, to print or display an announcement including an appropriate copyright notice and a

http://www.gnu.org/copyleft/lgpl.html

146Anexos


notice that there is no warranty (or else, saying that you provide a warranty) and that users may redistribute the program under these conditions, and telling the user how to view a copy of this License. (Exception: if the Program itself is interactive but does not normally print such an announcement, your work based on the Program is not required to print an announcement.)

These requirements apply to the modified work as a whole. Ifidentifiable sections of that work are not derived from the Program,and can be reasonably considered independent and separate works inthemselves, then this License, and its terms, do not apply to thosesections when you distribute them as separate works. But when youdistribute the same sections as part of a whole which is a work basedon the Program, the distribution of the whole must be on the terms ofthis License, whose permissions for other licensees extend to theentire whole, and thus to each and every part regardless of who wroteit.

Thus, it is not the intent of this section to claim rights or contestyour rights to work written entirely by you; rather, the intent is toexercise the right to control the distribution of derivative orcollective works based on the Program.

In addition, mere aggregation of another work not based on the Programwith the Program (or with a work based on the Program) on a volume ofa storage or distribution medium does not bring the other work underthe scope of this License.

3. You may copy and distribute the Program (or a work based on it,under Section 2) in object code or executable form under the terms ofSections 1 and 2 above provided that you also do one of the following:

a) Accompany it with the complete corresponding machine-readable source code, which must be distributed under the terms of Sections 1 and 2 above on a medium customarily used for software interchange;or,

b) Accompany it with a written offer, valid for at least three years, to give any third party, for a charge no more than your cost of physically performing source distribution, a complete machine-readable copy of the corresponding source code, to be distributed under the terms of Sections 1 and 2 above on a medium customarily used for software interchange; or,

c) Accompany it with the information you received as to the offer to distribute corresponding source code. (This alternative is allowed only for noncommercial distribution and only if you received the program in object code or executable form with such an offer, in accord with Subsection b above.)

The source code for a work means the preferred form of the work formaking modifications to it. For an executable work, complete sourcecode means all the source code for all modules it contains, plus anyassociated interface definition files, plus the scripts used tocontrol compilation and installation of the executable. However, as aspecial exception, the source code distributed need not includeanything that is normally distributed (in either source or binaryform) with the major components (compiler, kernel, and so on) of theoperating system on which the executable runs, unless that componentitself accompanies the executable.



If distribution of executable or object code is made by offeringaccess to copy from a designated place, then offering equivalentaccess to copy the source code from the same place counts asdistribution of the source code, even though third parties are notcompelled to copy the source along with the object code.

4. You may not copy, modify, sublicense, or distribute the Programexcept as expressly provided under this License. Any attemptotherwise to copy, modify, sublicense or distribute the Program isvoid, and will automatically terminate your rights under this License.However, parties who have received copies, or rights, from you underthis License will not have their licenses terminated so long as suchparties remain in full compliance.

5. You are not required to accept this License, since you have notsigned it. However, nothing else grants you permission to modify ordistribute the Program or its derivative works. These actions areprohibited by law if you do not accept this License. Therefore, bymodifying or distributing the Program (or any work based on theProgram), you indicate your acceptance of this License to do so, andall its terms and conditions for copying, distributing or modifyingthe Program or works based on it.

6. Each time you redistribute the Program (or any work based on theProgram), the recipient automatically receives a license from theoriginal licensor to copy, distribute or modify the Program subject tothese terms and conditions. You may not impose any furtherrestrictions on the recipients' exercise of the rights granted herein.You are not responsible for enforcing compliance by third parties tothis License.

7. If, as a consequence of a court judgment or allegation of patentinfringement or for any other reason (not limited to patent issues),conditions are imposed on you (whether by court order, agreement orotherwise) that contradict the conditions of this License, they do notexcuse you from the conditions of this License. If you cannotdistribute so as to satisfy simultaneously your obligations under thisLicense and any other pertinent obligations, then as a consequence youmay not distribute the Program at all. For example, if a patentlicense would not permit royalty-free redistribution of the Program byall those who receive copies directly or indirectly through you, thenthe only way you could satisfy both it and this License would be torefrain entirely from distribution of the Program.

If any portion of this section is held invalid or unenforceable underany particular circumstance, the balance of the section is intended toapply and the section as a whole is intended to apply in othercircumstances.

It is not the purpose of this section to induce you to infringe anypatents or other property right claims or to contest validity of anysuch claims; this section has the sole purpose of protecting theintegrity of the free software distribution system, which isimplemented by public license practices. Many people have madegenerous contributions to the wide range of software distributedthrough that system in reliance on consistent application of thatsystem; it is up to the author/donor to decide if he or she is willingto distribute software through any other system and a licensee cannotimpose that choice.

148Anexos


This section is intended to make thoroughly clear what is believed tobe a consequence of the rest of this License.

8. If the distribution and/or use of the Program is restricted incertain countries either by patents or by copyrighted interfaces, theoriginal copyright holder who places the Program under this Licensemay add an explicit geographical distribution limitation excludingthose countries, so that distribution is permitted only in or amongcountries not thus excluded. In such case, this License incorporatesthe limitation as if written in the body of this License.

9. The Free Software Foundation may publish revised and/or newversionsof the General Public License from time to time. Such new versions willbe similar in spirit to the present version, but may differ in detail toaddress new problems or concerns.

Each version is given a distinguishing version number. If the Programspecifies a version number of this License which applies to it and "anylater version", you have the option of following the terms andconditionseither of that version or of any later version published by the FreeSoftware Foundation. If the Program does not specify a version numberofthis License, you may choose any version ever published by the FreeSoftwareFoundation.

10. If you wish to incorporate parts of the Program into other freeprograms whose distribution conditions are different, write to theauthorto ask for permission. For software which is copyrighted by the FreeSoftware Foundation, write to the Free Software Foundation; we sometimesmake exceptions for this. Our decision will be guided by the two goalsof preserving the free status of all derivatives of our free softwareandof promoting the sharing and reuse of software generally.

NO WARRANTY

11. BECAUSE THE PROGRAM IS LICENSED FREE OF CHARGE, THERE IS NOWARRANTYFOR THE PROGRAM, TO THE EXTENT PERMITTED BY APPLICABLE LAW. EXCEPT WHENOTHERWISE STATED IN WRITING THE COPYRIGHT HOLDERS AND/OR OTHER PARTIESPROVIDE THE PROGRAM "AS IS" WITHOUT WARRANTY OF ANY KIND, EITHEREXPRESSEDOR IMPLIED, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OFMERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE. THE ENTIRE RISKASTO THE QUALITY AND PERFORMANCE OF THE PROGRAM IS WITH YOU. SHOULD THEPROGRAM PROVE DEFECTIVE, YOU ASSUME THE COST OF ALL NECESSARY SERVICING,REPAIR OR CORRECTION.

12. IN NO EVENT UNLESS REQUIRED BY APPLICABLE LAW OR AGREED TO INWRITINGWILL ANY COPYRIGHT HOLDER, OR ANY OTHER PARTY WHO MAY MODIFY AND/ORREDISTRIBUTE THE PROGRAM AS PERMITTED ABOVE, BE LIABLE TO YOU FORDAMAGES,INCLUDING ANY GENERAL, SPECIAL, INCIDENTAL OR CONSEQUENTIAL DAMAGESARISING



OUT OF THE USE OR INABILITY TO USE THE PROGRAM (INCLUDING BUT NOTLIMITEDTO LOSS OF DATA OR DATA BEING RENDERED INACCURATE OR LOSSES SUSTAINED BYYOU OR THIRD PARTIES OR A FAILURE OF THE PROGRAM TO OPERATE WITH ANYOTHERPROGRAMS), EVEN IF SUCH HOLDER OR OTHER PARTY HAS BEEN ADVISED OF THEPOSSIBILITY OF SUCH DAMAGES.

Indice

- B -Base de datos 13

- I -Indices 15

- R -Registro 13

- T -Tabla 13

Tipo de variable 14

Indice 150


Documents

AlcEst Programa de Gestión y Análisis Estadístico de Datos · monográficas de diferentes servicios (Nefrología, Diálisis, Hipertensión, Digestivo, UCI etc) ... Como es lógico