37
1 EDUCACIÓN PÚBLICA Y EDUCACIÓN CONCERTADA EN ESPAÑA: APORTACIONES DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE EDUCACIÓN PRIMARIA DE ARAGÓN María Jesús Mancebón Torrubia Domingo PérezXiménez de Embún José María Gómez Sancho (Universidad de Zaragoza) 1. Introducción La literatura dirigida a evaluar el impacto de intervenciones educativas diversas ha experimentado un crecimiento muy notable en las últimas décadas en el panorama investigador internacional (véanse los números más recientes de la revista Economics of Education Review, entre otras). La aparición de bases de datos de calidad como los informes PISA que elabora la OCDE cada tres años, los TIMMS y PIRLS que realiza la Asociación Internacional para la Evaluación de los Logros Educativos o las Evaluaciones de Diagnóstico que realizan las comunidades autónomas españolas desde 2009, junto con el desarrollo de sofisticados métodos de análisis, que permiten hacer frente a los principales problemas metodológicos que tradicionalmente han afectado a este tipo de investigaciones, juegan, sin duda, un papel decisivo en la explicación de este fenómeno. Entre las diferentes intervenciones educativas que han sido objeto de evaluación destaca el modelo de gestión –público/privadode las escuelas. En efecto, el debate sobre las ventajas relativas de la escuela privada frente a la pública, presente en la Economía de la Educación desde tiempos lejanos 1 , ha adquirido un nuevo protagonismo en los últimos años merced a las potencialidades que en el análisis de esta cuestión presentan las innovadoras técnicas de inferencia causal desarrolladas por económetras y estadísticos en los últimos treinta años. Estas técnicas, agrupadas bajo la rúbrica Propensity Score Analysis (Guo y Fraser, 2010), se han mostrado de gran utilidad a la hora de establecer relaciones de causaefecto en los estudios que, como la mayoría de los que se llevan a cabo en el ámbito educativo, se nutren de registros de hechos ocurridos de manera natural, es decir, sin ningún tipo de manipulación ni control por parte del investigador. En este contexto, el objetivo del trabajo que se presenta a continuación es evaluar el impacto que tiene la asistencia a una escuela concertada, frente a una pública, en los resultados que obtienen los estudiantes en pruebas de evaluación estandarizadas. En particular, nuestro estudio centra su atención en las competencias educativas que se valoran en la Evaluación Censal de Diagnóstico (ED, a partir de ahora), prueba de evaluación española establecida en la Ley Orgánica de Educación (LOE) de 2006 2 . El análisis de una cuestión de este tipo no puede ser más pertinente en un momento como el actual, a las puertas de una nueva reforma educativa. Y es que, aunque el debate 1 El origen de estas investigaciones se encuentra en el trabajo de Coleman, Hoffer y Kilgore (1982). 2 Ley Orgánica 2/2006, de 3 de mayo, de Educación.

EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

Embed Size (px)

Citation preview

Page 1: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

1  

EDUCACIÓN PÚBLICA Y EDUCACIÓN CONCERTADA EN ESPAÑA: APORTACIONES 

DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE 

EDUCACIÓN PRIMARIA DE ARAGÓN 

María Jesús Mancebón Torrubia Domingo Pérez‐Ximénez de Embún 

José María Gómez Sancho (Universidad de Zaragoza) 

  

1. Introducción 

La  literatura  dirigida  a  evaluar  el  impacto  de  intervenciones  educativas  diversas  ha 

experimentado  un  crecimiento  muy  notable  en  las  últimas  décadas  en  el  panorama 

investigador  internacional  (véanse  los  números  más  recientes  de  la  revista  Economics  of 

Education Review, entre otras). La aparición de bases de datos de calidad ‐como  los informes 

PISA  que  elabora  la  OCDE  cada  tres  años,  los  TIMMS  y  PIRLS  que  realiza  la  Asociación 

Internacional para la Evaluación de los Logros Educativos o las Evaluaciones de Diagnóstico que 

realizan  las  comunidades  autónomas  españolas  desde  2009‐,  junto  con  el  desarrollo  de 

sofisticados  métodos  de  análisis,  que  permiten  hacer  frente  a  los  principales  problemas 

metodológicos que  tradicionalmente han afectado a este  tipo de  investigaciones,  juegan, sin 

duda, un papel decisivo en la explicación de este fenómeno. 

Entre  las diferentes  intervenciones educativas que han  sido objeto de evaluación destaca el 

modelo de gestión –público/privado‐ de  las escuelas. En efecto, el debate sobre  las ventajas 

relativas de  la escuela privada  frente a  la pública, presente en  la Economía de  la Educación 

desde tiempos lejanos1, ha adquirido un nuevo protagonismo en los últimos años merced a las 

potencialidades  que  en  el  análisis  de  esta  cuestión  presentan  las  innovadoras  técnicas  de 

inferencia  causal  desarrolladas  por  económetras  y  estadísticos  en  los  últimos  treinta  años. 

Estas técnicas, agrupadas bajo la rúbrica Propensity Score Analysis (Guo y Fraser, 2010), se han 

mostrado de gran utilidad a  la hora de establecer relaciones de causa‐efecto en  los estudios 

que,  como  la mayoría  de  los  que  se  llevan  a  cabo  en  el  ámbito  educativo,  se  nutren  de 

registros de hechos ocurridos de manera natural, es decir, sin ningún tipo de manipulación ni 

control por parte del investigador. 

En este contexto, el objetivo del trabajo que se presenta a continuación es evaluar el impacto 

que tiene  la asistencia a una escuela concertada,  frente a una pública, en  los resultados que 

obtienen  los  estudiantes  en  pruebas  de  evaluación  estandarizadas.  En  particular,  nuestro 

estudio  centra  su  atención  en  las  competencias  educativas que  se  valoran  en  la  Evaluación 

Censal de Diagnóstico (ED, a partir de ahora), prueba de evaluación española establecida en la 

Ley Orgánica de Educación (LOE) de 20062.  

El análisis de una cuestión de este tipo no puede ser más pertinente en un momento como el 

actual,  a  las  puertas  de  una  nueva  reforma  educativa.  Y  es  que,  aunque  el  debate 

                                                            1 El origen de estas investigaciones se encuentra en el trabajo de Coleman, Hoffer y Kilgore (1982). 

2 Ley Orgánica 2/2006, de 3 de mayo, de Educación. 

Page 2: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

2  

público/privado  es  una  constante  histórica  en  nuestro  país,  la  cuestión  resurge  con 

vehemencia en momentos previos a las reformas educativas, dada la convivencia en España de 

dos modelos de gestión escolar (público y privado), que compiten por unos recursos públicos 

limitados.  A  pesar  de  que  los  defensores  de  cada  una  de  las  alternativas  en  pugna  suelen 

apelar a criterios de calidad, eficiencia o igualdad a la hora de respaldar la opción preferida, lo 

cierto es que los estudios técnicos realizados sobre esta cuestión en la literatura especializada 

arrojan  resultados  contradictorios,  lo que  impide extraer  conclusiones  sólidas  sobre  las que 

fundamentar la elección del modelo óptimo de producción educativa. 

La muestra  objeto  de  estudio  en  nuestro  trabajo  está  constituida  por  la  totalidad  de  los 

centros públicos y concertados de enseñanza primaria de la comunidad autónoma de Aragón. 

Los datos sobre los que se realizan las estimaciones proceden de la Evaluación de Diagnóstico 

en  Aragón  2010;  en  concreto,  de  los  relativos  a  los  alumnos  que  en  el  curso  2009/2010 

estaban matriculados en el cuarto curso de primaria3. Las estimaciones se realizan mediante la 

aplicación secuencial de dos metodologías: el propensity score matching (PSM) y  los modelos 

jerárquicos lineales (HLM). La primera técnica nos llevará a delimitar una muestra homogénea 

de estudiantes exenta del problema de endogeneidad que potencialmente afecta a la muestra 

original. La segunda metodología, por su parte, nos permitirá aquilatar con mayor precisión el 

efecto  de  nuestro  predictor  principal  (los  conciertos  escolares)  sobre  las  competencias 

evaluadas  en  la  ED.  Hasta  donde  conocemos,  ésta  es  la  primera  ocasión  en  que  ambas 

metodologías son combinadas para evaluar el impacto de una intervención educativa4. 

Aparte de  la  innovación metodológica, nuestro trabajo supone una novedad en el panorama 

investigador español donde la práctica totalidad de los análisis realizados sobre la influencia de 

la titularidad de los centros educativos se han centrado en la etapa de educación secundaria5. 

La  ausencia  de  estudios  cuantitativos  sobre  la  etapa  de  primaria  encuentra  su  principal 

justificación en la carencia crónica de información desagregada sobre este nivel educativo que 

ha  caracterizado  a  las  estadísticas  educativas  españolas.  Con  la  puesta  en  marcha  de  la 

Evaluación de Diagnóstico esta barrera, afortunadamente, se ha roto, ya que esta evaluación 

suministra  una  rica  información,  a  nivel  de  micro‐datos,  de  las  competencias  educativas 

alcanzadas por los estudiantes de cuarto curso de primaria y de las características de entorno 

familiar y escolar de estos últimos6. Ello abre  la puerta a  la realización de estudios sobre una 

etapa escolar que, dado que constituye el  inicio de  la trayectoria formativa de  los  individuos, 

ocupa un lugar muy destacado en los sistemas educativos de todos los países. Y es que, como 

señala el que fue Comisario Europeo de Educación entre 2004 y 2009, Ján Figel: “resulta a  la 

                                                            3 Agradecemos a  la Dirección General de Política Educativa  y Educación Permanente del Gobierno de Aragón  la cesión de estos datos. 

4 El reciente trabajo de Crespo y Santín (2013) realiza un análisis en el que, al igual que nosotros, se utiliza el PSM como método de homogeneización muestral en una primera etapa. En su caso, sin embargo, la segunda etapa, hace uso de una frontera de producción estocástica al objeto de evaluar la eficiencia de los estudiantes en ambos tipos de escuelas. Por otra parte, las estimaciones de este trabajo se refieren al nivel de educación secundaria , haciendo uso de los datos proceden de la evaluación PISA 2006. 

5  La excepción es el estudio de Doncel et al.  (2012), donde  se analiza, mediante una  regresión  convencional,  la influencia del tipo de escuela en los resultados medios de los colegios de primaria de Madrid, a partir de una prueba de evaluación propia de la Comunidad de Madrid. 

6 La Evaluación de Diagnóstico, como se explica más adelante, también se realiza a los estudiantes de segundo curso de educación secundaria obligatoria. 

Page 3: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

3  

vez  más  eficaz  y  más  equitativo  invertir  en  educación  en  etapas  tempranas.  Corregir  los 

fracasos más  tarde no sólo es poco equitativo sino comparativamente mucho menos eficaz” 

(Figel, 2010, página 3). La  investigación en  las prácticas e  intervenciones que pueden mejorar 

las  habilidades  de  los  estudiantes  en  una  etapa  educativa  tan  relevante  constituye,  así,  un 

requisito fundamental para diseñar políticas educativas provechosas. 

Tras  esta  introducción,  el  trabajo  se  estructura  en  cinco  apartados más.  En  el  siguiente,  se 

presenta una somera revisión de los estudios realizados sobre la influencia del tipo de escuela 

en  los  resultados educativos y de  las  conclusiones en ellos obtenidas. A  continuación, en el 

epígrafe  3,  se  describe  la  Evaluación  de  Diagnóstico.  El  epígrafe  4  expone  en  detalle  los 

fundamentos  metodológicos  de  las  técnicas  de  estimación  en  que  se  sustenta  nuestra 

aplicación empírica El epígrafe 5 presenta  los resultados obtenidos. El trabajo finaliza con un 

apartado de recapitulación y conclusiones.  

2.‐ Revisión de la literatura  

El punto de partida de las investigaciones involucradas en la cuantificación de la incidencia del 

tipo  de  escuela  (privada  o  pública)  sobre  el  rendimiento  educativo  suele  situarse  en  el 

controvertido trabajo que el sociólogo James Coleman realizó en 1982 junto a Thomas Hoffer y 

Sally Kilgore. En él se llevó a cabo una comparación multidimensional de las escuelas públicas y 

privadas norteamericanas  (católicas y no católicas) a partir de  los datos suministrados por el 

proyecto  High  School  and  Beyond.  El  análisis  abarcó  los  siguientes  aspectos:  tamaño, 

ubicación,  recursos,  funcionamiento,  composición  étnica  y  socioeconómica  y  logros 

educativos. De todas las cuestiones tratadas en el informe, la que tuvo una mayor repercusión 

mediática y académica fue la abordada en su último capítulo: la comparación de los resultados 

obtenidos  por  los  estudiantes  en  pruebas  estandarizadas  de  evaluación  de  competencias 

cognitivas  básicas  (lectura,  escritura  y  matemáticas).  Sus  conclusiones,  favorables  a  las 

escuelas privadas, dieron  lugar a  la aparición de una prolífica  línea de  investigación dirigida a 

superar  las  limitaciones metodológicas  atribuidas  al  trabajo  de  Coleman  y  a  contrastar  sus 

resultados en contextos educativos diversos.  

Las principales deficiencias  imputadas al citado estudio se centraron desde un principio en  la 

metodología  en  él  utilizada  para  discernir  el  efecto  de  las  escuelas  privadas  sobre  los 

resultados  cognitivos  de  los  estudiantes:  el  análisis  de  regresión  convencional  con  control 

estadístico de variables de entorno familiar7. Esta fue la estrategia analítica por la que optó el 

equipo  de  Coleman  para  hacer  frente  al  problema  del  sesgo  de  selección  a  que  se  veían 

sometidas sus estimaciones8. Se consideraba que la incorporación en la ecuación de regresión 

                                                            7  Para  un  estudio  detallado  de  la  controversia  creada  por  el  estudio  de  Coleman,  Hoffer  y  Kilgore  pueden consultarse el número 51(4) de la revista Harvard Educational Review o el número 55(2) de  la revista Sociology of Education. 

8 El propio informe reconoció explícitamente que su investigación se enfrentaba al problema del sesgo de selección, problema denominado endogeneidad en el ámbito econométrico. Y es que en la medida en que la asistencia a las escuelas privadas/públicas es fruto de una decisión  individual/familiar y que familias diferentes muestran distinto patrón de elección, la comparación de resultados entre los dos tipos de escuela mediante la aplicación del modelo econométrico  convencional  (mínimos  cuadrados  ordinarios)  puede  llevar  a  atribuir  a  la  escuela  efectos  que realmente corresponden a las características de las familias que han ejercido la elección. En estos casos, reconocen expresamente Coleman et al. (1982, págs. 122‐123), el método idóneo para dilucidar el efecto causal entre el tipo de escuela  y  los  logros académicos de  los alumnos pasaría por  la  comparación de  los  resultados que un mismo 

Page 4: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

4  

de  los  factores  que  diferenciaban  a  los  estudiantes  de  las  escuelas  públicas  y  privadas 

permitiría aislar el efecto que el tipo de escuela ejercía sobre el rendimiento de sus alumnos. Y 

es que, una vez controladas  las diferencias entre  los alumnos de  los dos tipos de escuela,  las 

diferencias  residuales,  se  consideraba,  sólo  podían  ser  atribuidas  a  la  escuela  (privada  o 

pública)  en  cuestión.  A  pesar  de  su  lógica,  este  planteamiento  fue  objeto  de  numerosas 

críticas, muchas  de  ellas  con  el  argumento  de  que  resulta  difícilmente  asumible  que  sea 

posible  incorporar a una regresión el espectro global de características que diferencian a  los 

alumnos. 

Avances metodológicos  posteriores  han  puesto  de manifiesto  que  la  técnica  de  regresión 

convencional,  por  muy  abundantes  que  sean  los  controles  que  incorpore,  proporciona 

estimaciones  sesgadas  del  coeficiente  del  predictor  principal  (tipo  de  escuela),  debido  a  la 

endogeneidad de éste. Y es que la elección de escuela no es algo exógeno sino que es fruto de 

una  decisión  individual/familiar  que  viene  determinada  por  diversas  características  de  los 

hogares ‐renta y riqueza, perfil sociocultural, etc.‐ (Burgess y Briggs, 2010, Gallego y Hernando, 

2010, Mancebón  y  Pérez‐Ximénez  de  Embún,  2010  ,  Escardibul  y Villarroya,  2009  o  Tamm, 

2008,  entre  otros  ),  muchas  de  las  cuales  constituyen,  a  su  vez,  determinantes  de  los 

resultados  educativos  de  los  estudiantes.  En  estos  casos,  la  estimación mediante mínimos 

cuadrados  ordinarios  es  inadecuada,  al  violarse  uno  de  los  supuestos  principales  de  este 

método: la independencia de los residuos del predictor.  

Partiendo  de  este  hecho,  en  las  últimas  décadas  han  surgido  un  número  importante  de 

trabajos  que  han  tratado  de  corregir  el  problema  de  endogeneidad  que  afecta  a  las 

estimaciones del  impacto del  tipo de escuela en  los  resultados educativos, haciendo uso de 

estrategias metodológicas diversas dirigidas expresamente a solventar esta dificultad analítica. 

Las  conclusiones  obtenidas  por  esta  literatura  son  mixtas.  Mientras  algunos  estudios 

confirman  los  resultados  obtenidos  por  Coleman,  Kilgore  y  Hoffer  (Lefebvre,  Merrigan  y  

Verstraete , 2011, Kim, 2011, Anand, Mizala, y Repetto, 2009), en otros la superioridad de los 

centros privados queda eliminada al  incluir controles diversos en el análisis (Chudgar y Quin, 

2012, Mancebón y Muñíz, 2008, Perelman y Santín, 2008, Hsieh y Urquiola, 2006,) o queda 

reducida a grupos concretos de estudiantes, definidos por  su  raza, etnia, perfil académico o 

socioeconómico  (Gronberg  y  Jansen,  2001),  o  a  determinadas  competencias  o  niveles 

educativos (Witte et al, 2007, Greene & Kang, 2004). En otros casos, se ha comprobado que los 

centros públicos ofrecen mejores resultados que los privados (Bifulco y  Ladd, 2006, Mancebón 

et al., 2012).  

En síntesis, la evidencia empírica revisada en el párrafo anterior, la cual constituye tan solo una 

pequeña  selección de  los  trabajos  sobre este  tema  realizados en  la  literatura especializada9, 

                                                                                                                                                                              estudiante obtendría en  los dos  contextos educativos objeto de análisis  (público  y privado).  La  imposibilidad de evaluar la situación de una misma persona en escenarios alternativos, llevó a los autores a sustituir el experimento ideal por una estrategia de corrección muy extendida en el momento de realización de su trabajo: la introducción de un elevado número de variables de contexto familiar cuyos valores diferían entre  los asistentes a cada tipo de escuela. 

9 De hecho,  el  análisis de  los  efectos de  la  titularidad  y  gestión de  las escuelas  constituye un  área plenamente 

consolidada  en  la  Economía  de  la  Educación.  Cualquier  manual  internacional  de  prestigio  sobre  esta  materia incorpora una  capítulo  sobre este  temática  (véase, a modo de ejemplo, Hanushek, Machin y Woessmann, 2011, Brewer y McEwan, 2010) 

Page 5: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

5  

pone  de manifiesto  que  el  tipo  de  influencia  que  ejerce  la  titularidad  y  gestión  del  centro 

educativo   sobre  los  resultados escolares constituye una cuestión abierta que  requiere de  la 

realización de análisis empíricos adicionales a  los realizados hasta  la fecha. En este contexto, 

nuestro  estudio  constituye  una  nueva  aportación  dirigida  a  arrojar  nuevas  luces  sobre  un 

debate no cerrado. Frente a  la mayoría de  los estudios revisados en el párrafo anterior, que 

han centrado su atención en la educación secundaria, nuestro estudio, como ya se ha indicado 

anteriormente, atiende a la primera etapa de la educación obligatoria en España: la enseñanza 

primaria. 

 

3. La evaluación de diagnóstico  

El origen de esta evaluación se encuentra en  la LOE. Esta norma considera  la evaluación del 

sistema  educativo  como  un  elemento  fundamental  para  la  mejora  de  la  educación  y  el 

aumento de la transparencia del sistema educativo.  

En  este  sentido,  establece  que  las  Evaluaciones  de  Diagnóstico  tratarán  de  evaluar  las 

competencias básicas adquiridas por los alumnos de cuarto curso de EP y de segundo curso de 

Educación  Secundaria  Obligatoria  (en  adelante,  ESO).  Con  ello  se  trata  de  valorar  en  qué 

medida  la escuela prepara para  la vida y forma a  los estudiantes para asumir su papel como 

ciudadanos  en  una  sociedad  moderna,  ya  que  dichas  competencias  se  relacionan  con 

contenidos  curriculares  que  suponen  conocimientos,  habilidades  y  actitudes  transferibles  y 

útiles para hacer frente a situaciones y problemas que se presentan en la vida real10.  

Las  competencias  básicas,  según  los  Reales Decretos  sobre  enseñanzas mínimas,  son  ocho: 

competencia  en  comunicación  lingüística;  competencia  matemática;  competencia  en  el 

conocimiento  y  la  interacción  con  el  mundo  físico;  tratamiento  de  la  información  y 

competencia  digital;  competencia  social  y  ciudadana;  competencia  cultural  y  artística; 

competencia para aprender a aprender; y autonomía e iniciativa personal11.  

La  LOE  prevé  dos  tipos  de  procesos  para  las  Evaluaciones  de Diagnóstico;  las  Evaluaciones 

Generales de Diagnóstico de carácter muestral, y  las Evaluaciones de Diagnóstico de carácter 

censal.  

En cuanto a las primeras, el artículo 144.1 de la LOE establece que el Instituto de Evaluación y 

los  organismos  correspondientes  de  las  Administraciones  educativas  colaborarán  en  la 

realización  de  Evaluaciones  Generales  de  Diagnóstico,  que  permitan  obtener  datos 

representativos,  tanto  del  alumnado  como  de  los  centros  de  las  Comunidades  Autónomas 

                                                            10  La  Comisión  Europea  (2004)  proporciona  una  definición  abierta  que  identifica  las  competencias  como  “una combinación de conocimientos, destrezas y actitudes que incluyen la disposición para aprender y el saber cómo”, y matiza que una competencia, clave, básica o esencial es crucial cuando ésta contribuye a diferentes aspectos de la vida (la realización y desarrollo personal a lo largo de la vida, la inclusión y la ciudadanía activa y la aptitud para el empleo).  

11 RD 1513/2006, de 7 de diciembre, por el que se establecen las enseñanzas mínimas de la Educación Primaria y RD 1631/2006, de 29 de diciembre, por el que se establecen las enseñanzas mínimas correspondientes a la Educación Secundaria Obligatoria.  

 

Page 6: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

6  

(CCAA),  como  del  conjunto  del  Estado.  Estas  evaluaciones  versarán  sobre  las  competencias 

básicas del currículo y las realizarán los alumnos de cuarto de EP y de segundo de ESO.  

En cuanto a las segundas, los artículos 21 y 29 de la LOE establecen que al finalizar el segundo 

ciclo de  la  EP  y  el  segundo  curso de  la  ESO  todos  los  centros  realizarán una  Evaluación de 

Diagnóstico  de  las  competencias  básicas  alcanzadas  por  sus  alumnos.  Esta  evaluación  será 

competencia de  las CCAA y  tendrá como marco de  referencia  las Evaluaciones Generales de 

Diagnóstico que se establecen en el artículo 144.1 de la Ley.  

La  aplicación  de  las  Evaluaciones  Generales  de  Diagnóstico,  es  decir,  de  las  de  carácter 

muestral, se  inició en el curso escolar 2008/2009 en EP, y en el curso 2009/2010 en ESO. En 

ambos casos sólo se evaluaron cuatro de  las competencias:  la competencia en comunicación 

lingüística,  la competencia básica matemática,  la competencia básica en el conocimiento y  la 

interacción  con  el mundo  físico,  y  la  competencia  básica  social  y  ciudadana.  En  los  años 

siguientes,  se  estableció  que  el  Consejo  Rector  fijaría  un  calendario  de  aplicaciones  de  las 

Evaluaciones  de  Diagnóstico  en  el  que  se  incorporarían  el  resto  de  las  competencias: 

tratamiento  de  la  información  y  competencia  digital,  competencia  cultural  y  artística, 

competencia para aprender a aprender, y competencia en autonomía e iniciativa personales.  

En cuanto a  las Evaluaciones de Diagnóstico de carácter censal, como ya se ha mencionado, 

son  competencia  de  las  CCAA.  En  Aragón,  la  LOE  junto  a  la  legislación  educativa  de  la 

Comunidad Autónoma, en las Órdenes de 9 de mayo de 2007 sobre los currículos de EP y ESO 

y en la Resolución de 6 de febrero de 2009 sobre la organización y realización de la Evaluación 

de Diagnóstico, establecen que  todo el alumnado de  segundo  curso de ESO  y  cuarto de EP 

debe realizar una Evaluación de Diagnóstico sobre el grado de adquisición de las competencias 

básicas.  

Por tanto, esta prueba se realiza a todos los individuos del conjunto de la población que cursan 

los  niveles  determinados,  aunque,  se  exceptúa  a  aquellos  que,  por  alguna  característica 

personal, no tienen la obligación de hacerla12.  

En 2009 se realizó  la primera prueba en Aragón, en  la que se evaluaron  las competencias en 

comunicación lingüística en castellano, la competencia matemática y la competencia aprender 

a aprender, de todos los alumnos, tanto de cuarto de EP, como de segundo de ESO. En 2010 se 

evaluó  la  competencia  en  conocimiento  científico  e  interacción  con  el  mundo  físico  y  la 

competencia en comunicación  lingüística  inglés, también de  los alumnos de ambos cursos. El 

ciclo  se  completó  con  la  edición  de  2011,  en  la  que  se  evaluaron  la  competencia  social  y 

ciudadana, la competencia cultural y artística y la competencia digital.  

Un  aspecto  muy  valioso  de  la  Evaluación  de  Diagnóstico  es  que  ésta  no  sólo  aporta 

información sobre el nivel de competencias de los alumnos en las materias que se analizan en 

cada edición,  sino que además  recoge  información  sobre  los contextos  socioeconómicos del 

                                                            12  Punto  primero,  apartado  2  de  la  Resolución  de  6  de  febrero  de  2009,  de  la  Dirección  General  de  Política Educativa: “La evaluación de diagnóstico se aplicará a todos los alumnos del 4º curso de la Educación primaria y del 2º curso de  la Educación secundaria obligatoria, con excepción de aquéllos que presenten necesidades educativas que  les  impidan  la  realización de  las pruebas y de  los que presenten desconocimiento de  la  lengua castellana y, además, lleven escolarizados en el sistema educativo español menos de un curso escolar completo”.  

Page 7: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

7  

alumnado y de los centros, así como otras variables del entorno educativo. Este aspecto de la 

evaluación resulta de gran interés a la hora de emplear esta base de datos en la realización de 

estudios  empíricos  sobre  los  resultados  educativos,  ya  que  de  sobra  está  demostrada  la 

influencia que este  tipo de  variables ejercen en  los  resultados académicos que  los alumnos 

alcanzan  (Cordero  et  al,  2013).  Es  por  ello  que,  junto  a  las  pruebas  que  evalúan  las 

competencias de los estudiantes, se aplican cuestionarios relativos a variables de contexto, de 

procesos y de recursos educativos, que además de estar destinados a ser contestados por el 

alumnado, están también dirigidos al profesorado, a  la dirección e,  incluso, a  las  familias. En 

este  sentido, además de  la prueba de evaluación,  los alumnos deben  contestar a otros dos 

cuestionarios, uno de dimensión sociocultural y otro de entorno escolar.  

El primero está  formado por doce preguntas dirigidas a  recopilar  información sobre el perfil 

profesional y educativo de los padres, las pertenencias en el hogar y su utilización por parte del 

alumno (libros de  lectura, habitación propia, mesa de estudio, ordenador,  internet, discos de 

música,  televisiones,  etc.),  la  habilidad  del  alumno  con  las  nuevas  tecnologías,  el  tiempo 

dedicado  al  estudio  y  a  otras  actividades  (tiempo  dedicado  a  ver  la  televisión,  a  jugar  con 

videojuegos, a jugar con el ordenador, a entretenerse en internet, a usar el Messenger o redes 

sociales,  a  leer  libros,  a  actividades  extraescolares  y  a  salir  a  la  calle),  su  autonomía  en  el 

estudio y el grado de implicación de los padres en el aprendizaje. 

El  cuestionario  de  entorno  escolar  está  formado,  por  su  parte,  por  tres  apartados 

denominados “yo”, “mi clase” y  “mi centro”. El primero pretende aproximar la percepción que 

el  alumno  tiene  sobre  sí mismo  como  estudiante  (atención  en  clase,  comprensión  lectora, 

expresión oral y escrita, habilidades en matemáticas e idiomas, relaciones con los compañeros, 

colaboración en los trabajos en grupo, limpieza y orden en sus materiales de trabajo, cuidado 

de  los materiales  e  instalaciones  del  centro,  cumplimiento  con  las  normas  y  respeto  a  los 

profesores).  El  objetivo  del  segundo  apartado  del  cuestionario  de  entorno  es  evaluar  la 

percepción  del  estudiante  sobre  el  ambiente  de  su  clase  (atención  de  sus  compañeros, 

ambiente tranquilo, trabajo en equipo, colaboración entre compañeros de clase, relación con 

el  profesor).  Finalmente,  las  cuestiones  del  apartado  “mi  centro”,  van  dirigidas  a  captar 

información sobre  la valoración del alumno sobre su escuela. Para ello se  le hacen preguntas 

acerca  de  las  actividades  culturales  o  deportivas  que  tienen  lugar  en  el  mismo,  de  su 

participación en ellas,  frente  a  realizarlas  fuera del  centro,  si  le  gusta el  centro,  si utiliza  la 

biblioteca, si cree que  las  instalaciones están bien cuidadas, y si, en caso de algún problema, 

habla con sus profesores.  

En  resumen,  la Evaluación de Diagnóstico, en  su versión  censal, es una prueba que  realizan 

anualmente  todos  los alumnos de cuarto curso de EP y de segundo de ESO, que además de 

ofrecer  información acerca de  los niveles alcanzados por  los alumnos en  las competencias de 

las que se  les examina, ofrece una rica  información acerca de su situación socioeconómica y 

del entorno escolar que  les rodea. Es por ello por  lo que esta prueba constituye una materia 

prima de incuestionable interés llevar a cabo los objetivos planteados en nuestra investigación. 

En nuestra aplicación empírica haremos uso, como ya se ha destacado, de la información que 

suministra esta Evaluación sobre los alumnos de cuarto curso de primaria. La tabla 1 recoge los 

Page 8: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

8  

descriptivos de  las variables extraídas de esta  fuente de datos agrupados por  tipo de centro 

(público/concertado). 

Tabla 1. Descriptivos y comparación de medias por tipo de centro 

Sig. Levene's Test for Equality of Variances 

Sig. T‐test for Equality of Means 

Media 

Codigo  Descripción variable  Total  Público Concertado

MF4_500  Rdo Medio Fisico 4ºEP  512.37  501.97  526.27  0.00  0.00 

ING4_500  Rdo Inglés 4ºEP  513.02  499.18  531.50  0.00  0.00 

JobMum1  Madre White Collar High Skilled  0.29  0.24  0.37  0.00  0.00 

JobMum2  Madre White Collar Low Skilled  0.41  0.42  0.39  0.00  0.03 

JobMum3  Madre Blue Collar High Skilled  0.04  0.04  0.03  0.00  0.00 

JobMum4  Madre Blue Collar Low Skilled  0.26  0.30  0.21  0.00  0.00 

JobDad1  Padre White Collar High Skilled  0.39  0.31  0.49  0.00  0.00 

JobDad2  Padre White Collar Low Skilled  0.25  0.26  0.23  0.00  0.01 

JobDad3  Padre Blue Collar High Skilled  0.30  0.35  0.23  0.00  0.00 

JobDad4  Padre Blue Collar Low Skilled  0.06  0.07  0.05  0.00  0.00 

YearsMum  Años estudio madre  11.45  10.78  12.34  0.00  0.00 

YearsDad  Años estudio padre  11.45  10.78  12.34  0.00  0.00 

ZonaGeo1  País nacimiento España  0.87  0.84  0.91  0.00  0.00 

ZonaGeo2  Zona nacimiento África  0.01  0.01  0.00  0.00  0.00 

ZonaGeo3  Zona nacimiento Asia  0.01  0.01  0.01  0.40  0.68 

ZonaGeo4  Zona nacimiento Europa  0.05  0.06  0.03  0.00  0.00 

ZonaGeo5  Zona nacimiento Latino América  0.05  0.06  0.04  0.00  0.00 

ZonaGeo6  Zona nacimiento Países Árabes  0.01  0.02  0.01  0.00  0.00 

More5years  Más de 5 años viviendo o nacido en España  0.94  0.93  0.95  0.00  0.00 

Genero  Género (mujer=1, hombre=0)  0.49  0.49  0.48  0.27  0.58 

Repetid  Repetidor (repetidor=1, no repetidor=0)  0.08  0.09  0.06  0.00  0.00 

NumBooks  Más de 100 libros en casa  0.54  0.50  0.60  0.00  0.00 

UsoBooks  Utilizar frecuentemente libros de lectura  0.72  0.70  0.75  0.00  0.00 

Habitacion  Habitación propia donde estudiar  0.95  0.94  0.96  0.00  0.00 

Internet  Tener internet en casa  0.86  0.84  0.88  0.00  0.00 

NumTVs  Número televisiones en casa  2.11  2.08  2.15  0.01  0.00 

NumPCs  Número ordenadores en casa  1.55  1.49  1.63  0.11  0.00 

NumTvPag  Número televisiones de pago en casa  0.44  0.43  0.46  0.00  0.07 

NumConso  Número videoconsolas en casa  1.73  1.66  1.82  0.16  0.00 

NumMP4  Número de reproductores MP4 en casa  1.01  0.93  1.11  0.00  0.00 

StudTim0  Menos de 2 horas de estudio diario  0.37  0.37  0.35  0.00  0.13 

StudTim1  Alrededor de 2 horas de estudio diario  0.16  0.15  0.17  0.00  0.05 

StudTim2  Más de 2 horas de estudio diario  0.48  0.48  0.48  1.00  1.00 

AutoEst  Necesita ayuda frecuentemente para tareas  0.22  0.22  0.22  0.28  0.59 

RevPad0  No me revisan ni tarea ni agenda  0.21  0.23  0.19  0.00  0.00 

RevPad1  Me revisan agenda pero no tarea  0.10  0.07  0.13  0.00  0.00 

RevPad2  Me revisan tarea pero no agenda  0.16  0.20  0.12  0.00  0.00 

RevPad3  Me revisan la tarea y la agenda  0.53  0.50  0.57  0.00  0.00 

RevProf  Prof. Particular me revisa tarea  0.09  0.08  0.09  0.15  0.47 

Actitud  Acabo las tareas para casa  0.93  0.92  0.94  0.00  0.01 

Aptitud  Hago bien las tareas para casa al corregirlas  0.85  0.84  0.87  0.00  0.00 

N     6724  3845  2879       

Fuente: Elaboración propia a partir de Evaluación de Diagnóstico 2010 (Gobierno de Aragón) 

 

La  tabla  1  pone  de manifiesto  que  los  alumnos  de  los  centros  concertados  alcanzaron  una 

mayor  puntuación  tanto  en  la  competencia  en  conocimiento  científico  e  interacción  con  el 

Page 9: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

9  

mundo  físico,  como  en  la  competencia  en  comunicación  lingüística  inglés13.  Las  diferencias 

brutas en  resultados,  favorables a  las escuelas concertadas,  son  incapaces por  sí mismas de 

ofrecer un diagnóstico sobre la calidad relativa de  ambos  tipos de centro escolar.  Y es que la 

comparación en resultados debe ser contrastada con la materia prima por excelencia de éstos: 

el perfil de  los alumnos. En este sentido,  la tabla 1 es muy elocuente. En  la práctica totalidad 

de las variables extraídas de los cuestionarios de la ED 2010, las diferencias son favorables a las 

escuelas concertadas: ocupación y estudios de  los padres, estatus de  inmigración, posesiones 

del hogar, implicación familiar en la revisión de las tareas escolares, grado de cumplimiento y 

éxito  en  la  resolución  del  trabajo  encargado  por  el  profesor  para  realizar  fuera  del  centro 

escolar.  Y  lo más  importante,  las  diferencias  encontradas  son,  con  contadas  excepciones, 

estadísticamente  significativas.  Esta  realidad  pone  en  evidencia  la  necesidad  de  aplicar  en 

nuestro estudio una estrategia de estimación que  tenga en cuenta  las diferencias existentes 

entre el alumnado de  las escuelas públicas y concertadas y permita  identificar el efecto neto 

atribuible al tipo de escuela sobre los resultados escolares. En la sección siguiente se explican 

en detalle alguno de los métodos existentes en la actualidad para hacer frente a este reto. 

 

4.‐ Cuestiones metodológicas  

Las  evaluaciones  de  impacto  que  utilizan,  como  es  habitual  en  el  terreno  educativo,  datos 

procedentes de registros administrativos deben hacer frente, como se ha dicho, a un problema 

metodológico  intrínseco: el conocido como sesgo de selección o endogeneidad del predictor 

principal.  Con  ello  se  hace  referencia  a  la  elevada  probabilidad  de  que  las  estimaciones 

obtenidas estén sesgadas, es decir, que no recojan el efecto real de la variable estudiada. Ello 

ocurrirá siempre que el predictor principal no sea exógeno, es decir, siempre que la asignación 

de los individuos a la intervención o tratamiento evaluado no sea aleatoria. Esta situación está 

muy  generalizada  en  el  terreno  educativo,  donde  la  asignación  de  los  participantes  a  los 

diversos tratamientos es típicamente endógena. Piénsese, a modo de ejemplo, en el caso que 

nos ocupa en este trabajo:  la evaluación del  impacto de  la asistencia a un centro concertado 

(potencial causa) sobre  las competencias educativas adquiridas por  los estudiantes (potencial 

efecto).  En  la  medida  en  que  causa  y  efecto  potenciales  se  ven  afectados  por  variables 

comunes  (el nivel socioeconómico  familiar, por ejemplo), una comparación de  los resultados 

de  los  alumnos  de  los  centros  públicos  y  concertados  que  no  tenga  en  cuenta  estas 

interrelaciones  conducirá  a  conclusiones  erróneas  sobre  el  efecto del  tipo de  escuela  en  el 

rendimiento escolar. Y es que  siempre que existan  indicios  razonables para  suponer que  los 

individuos que reciben  la  intervención o tratamiento evaluado difieren de  los no tratados en 

                                                            13 La media de cada competencia para el total de centros es 500 y  la desviación típica 100, dado que tal y como 

establece el Informe General de la Evaluación de Diagnóstico en Aragón 2010 “la valoración de cada competencia en  el  conjunto  de  Aragón  se  establece  en  el  nivel  de  la media  de  los  resultados  transformados  a  un  valor  de referencia  que  se  ha  fijado  en  500  con  una  desviación  típica  en  100”.  En  este  sentido,  el  planteamiento  de  la Evaluación de Diagnóstico española es similar al seguido en  las evaluaciones del Proyecto PISA de  la OCDE. En  la tabla 1  la media difiere de 500 debido a que se han eliminado de  la muestra  los centros privados sin financiación pública y aquéllos en los que no existe alternativa de elección público/privada.  

Page 10: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

10  

características que son  relevantes en  la obtención del  resultado observado,  la posibilidad de 

atribuir un efecto causal se ve seriamente limitada14. 

La búsqueda de estrategias de análisis que permitan hacer frente a esta problemática especial 

ha dado  lugar a  la aparición de  innovadoras propuestas metodológicas que disfrutan a día de 

hoy de gran aceptación en  la comunidad científica. La aportaciones proceden dos campos de 

investigación diferentes pero  íntimamente  interrelacionados: el econométrico y el estadístico 

(Guo y Fraser, 2010). El líder del primero es James Heckman cuyas aportaciones en este campo 

le  valieron  la  máxima  distinción  otorgada  a  los  méritos  científicos,  el  premio  nobel  en 

Economía.  En  el  ámbito  estadístico  las  aportaciones  se  nutren  del  trabajo  seminal  de 

Rosenbaum y Rubin de 1983. 

La tradición estadística, menos conocida para los estudiosos de la Economía Pública en España, 

toma como referencia de sus desarrollos  lo que se considera con generalidad el estándar de 

oro  para  la  atribución  de  efectos  causales:  el  experimento  con  asignación  aleatoria  de  los 

participantes al tratamiento evaluado. Sobre esta base se diseñan estrategias de análisis de los 

datos  que  tratan  de  emular,  mediante  ajustes  diversos,  las  condiciones  ideales  de  la 

investigación experimental controlada.  

La piedra angular de estas estrategias es el conocido como modelo contrafactual de causalidad 

o modelo de resultados potenciales desarrollado por Neyman (1923) y Rubin (1974 y 1978). La 

importancia de este modelo en los desarrollos metodológicos que van a ser objeto de atención 

en este trabajo nos lleva a dedicarle una atención especial. 

 

4.1.‐ El modelo contrafactual: núcleo principal de la inferencia causal 

Como hemos  señalado  anteriormente,  el  reto de mayor  envergadura  a que  se  enfrenta un 

investigador  que  trabaja  con datos procedentes de  registros de hechos ocurridos de  forma 

natural es desligar  la parte de un  resultado observado que es atribuible  inequívocamente a 

una  causa  potencial  de  otras  influencias  posibles.  Los  desarrollos  estadísticos  que  se  han 

elaborado sobre la base de lo que en esta literatura se denomina contrafactual han permitido 

alcanzar notables avances en la superación de este reto. 

Un contrafactual es una construcción teórica con  la que se alude a un resultado potencial, es 

decir, a lo que habría ocurrido en ausencia de la causa (Shadish et al., 2002, pág.506). Dicho de 

otra forma, el contrafactual especifica el resultado que un individuo habría obtenido en el caso 

de que hubiera estado sometido a la situación alternativa a la que ha experiementado. Para los 

individuos que han recibido un tratamiento (los tratados), el contrafactual es el resultado que 

estos mismos  individuos habrían obtenido en  caso de no haberlo  recibido  y en  condiciones 

                                                            14  Tres  son  los  requisitos  críticos  que  tradicionalmente  se  han  exigido  a  las  relaciones  de  causalidad:  a)  orden temporal  (la  variable  causa debe preceder  a  la  variable efecto); b)  correlación empírica entre  causa potencial  y efecto, y c) la más importante, la correlación no puede ser explicada por una tercera variable que sea causa de las dos (Murname y Willett, 2011, pág. 27). Aunque los dos primeros requisitos no plantean demasiadas dificultades de comprobación, el tercero ha sido causa de numerosos quebraderos de cabeza para los investigadores de las ciencias sociales. 

Page 11: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

11  

ambientales  idénticas.  De manera  simétrica  se  define  el  contrafactual  para  los  sujetos  no 

tratados (grupo de control).  

Desde  un  punto  de  vista  teórico,  el  contrafactual  convierte  en  trivial  el  problema  de  la 

inferencia causal. Y es que conceptualmente la mejor aproximación al efecto provocado por un 

tratamiento en un individuo no es otra que la diferencia entre los resultados obtenidos bajo el 

tratamiento (situación factual) y los que este mismo individuo habría obtenido ceteris paribus, 

en ausencia del tratamiento (situación contrafactual). El promedio de estas diferencias para la 

totalidad de los individuos de la muestra permitiría aproximar el efecto medio del tratamiento 

(lo  que  en  esta  literatura  es  comúnmente  conocido  por  la  siglas  ATE,  average  treatment 

effect). Finalmente, la aplicación de los contrastes estadísticos pertinentes permitiría valorar si 

el efecto atribuido al tratamiento es extrapolable a toda la población de la que ha sido extraída 

la muestra (Murname y Willett, 2011, pág. 34).  

El planteamiento,  impecable a nivel  teórico, se encuentra plagado de dificultades  la hora de 

ponerlo  en  práctica  en  un  contexto  real.  Y  es  que  un  contrafactual  es,  por  definición,  un 

resultado imaginario, imposible de observar y, por tanto, de cuantificar. Esta realidad da lugar 

a  lo  que  Holland  (1986)  denominó  el  problema  fundamental  de  la  inferencia  causal.  Su 

superación pasa por el diseño de estrategias que permitan aproximar de manera razonable el 

constructo hipotético denominado  contrafactual  (Shadish et al., 2002). Antes de explicar  las 

diferentes estrategias diseñadas a tal  fin, expondremos de manera  formalizada  las  ideas que 

acaban de ser esbozadas. Tomaremos como referencia de nuestra exposición las aportaciones 

sobre el tema desarrolladas por Morgan y Winship (2008), Guo y Fraser (2010) y Murname y 

Willett (2011). 

Supongamos que  se  trata de evaluar el  impacto de una  intervención W  (la asistencia a una 

escuela  concertada,  por  ejemplo)  sobre  un  resultado  Y  de  interés  (las  puntuaciones  de  los 

alumnos en unas pruebas estandarizadas). Por simplicidad supondremos que  la  intervención 

admite  dos  únicas  variantes: W=  1  (asistencia  a  escuela  concertada)  y W=  0  (asistencia  a 

colegio público).  Los  individuos para  los que W= 1  conforman  lo que  se denomina el grupo 

tratado (GT, a partir de ahora). Aquellos para los que W= 0 componen, por su parte, el grupo 

de control  (GC, a partir de ahora). A todo  individuo  i de  la población estudiada se  le pueden 

atribuir a priori dos resultados potenciales: el que obtendría en caso de recibir la intervención 

(Yi1) y el que obtendría en  caso de no  recibirla  (Yi

0). El  resultado  real  ( i) de  cada  individuo 

puede expresarse, por tanto, de la manera siguiente: 

i  = Yi1 si Wi = 1         (1) 

i = Yi0 si Wi = 0         (2) 

o expresado de una manera más compacta: 

i = Wi Yi1 + (1 –Wi) Yi

0        (3) 

La ecuación 3 permite poner de manifiesto que la cuantificación del impacto de la intervención 

evaluada (W) sobre el resultado obtenido (Y) precisa que se analice la relación que existe entre  y W, no sólo en el escenario W = 1 sino también en el escenario W=0. En concreto, el impacto 

de la intervención W sobre los resultados de cada individuo de la población viene dado por la 

Page 12: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

12  

diferencia  entre  Yi1  e  Yi

0.  Es  lo  que  en  esta  literatura  se  denomina  efecto  individual  del 

tratamiento  (ITE).El  promedio  de  estas  diferencias  permite  aproximar  el  efecto medio  del 

tratamiento (ATE) en la población. Es decir: 

ATE = E (Yi1 ‐ Yi

0) = E(Yi1) – E(Yi

0), i = 1,…, N  (4) 

donde el símbolo E denota al operador esperanza matemática y N el número de individuos de 

la población objeto de interés. 

De manera análoga  se definen otros  indicadores de  interés en  la evaluación del  impacto de 

una intervención. Nos referimos al efecto medio del tratamiento sobre los tratados (ATT) y al 

efecto medio  del  tratamiento  sobre  los  no  tratados  (ATU).  La  diferencia  de  su  cálculo  con 

respecto al ATE radica en  los  individuos que se computan en el cálculo del  indicador, sólo  los 

que han recibido la intervención en el cálculo del ATT y únicamente los que pertenecen al GC 

en el cómputo del ATU. Es decir: 

ATT = E (Yi1I W = 1) – E (Yi

0 I W = 1), i = 1,2,…N1        (5) 

ATU = E (Yi1I W = 0) – E (Yi

0 I W = 0), i = 1,2,…N2        (6) 

Donde N1 y N2 denotan el número de individuos pertenecientes al GT y al GC, respectivamente. 

La  imposibilidad de  conocer  los dos  valores Yi1 e Yi

0 hace  inviable el  cálculo empírico de  los 

indicadores que  se acaban de exponer. En efecto,  las únicas magnitudes disponibles para el 

evaluador una vez que la intervención ha sido aplicada son los resultados realmente obtenidos 

por cada individuo:   para los individuos de la muestra que han recibido el tratamiento (W = 

1)  e   para  los  individuos de  la muestra que  conforman  el  grupo de  control  (W  = 0).  Los 

valores  Yi1  correspondientes  al GC  (W= 0)  y  los  valores  Yi

0 para  el GT  (W  =  1),  es decir,  los 

contrafactuales, son, por definición, desconocidos. 

Llegados  a  este  punto  el  problema  a  superar  en  las  evaluaciones  empíricas  se  concreta  en 

encontrar  sustitutos  adecuados  a  los  contrafactuales  teóricos  que  permitan  cuantificar  el 

indicador de  interés  (Caliendo y Kopeinig, 2008). Las aportaciones de Rubin en  la superación 

de  este  problema  son,  sin  lugar  a  dudas,  decisivas  (véase Rubin,  1973,  1974  y  1990,  entre 

otros). 

En particular, este autor demostró que si la asignación de los individuos a la intervención que 

se trata de evaluar es aleatoria, el resultado medio del contrafactual correspondiente al GT  ‐

E(Yi0  I  W  =  1)‐  puede  ser  aproximado  mediante  el  valor  medio  de  los  resultados  reales 

obtenidos por el GC  ‐E  (   I W = 0)‐ el cual es perfectamente observable en  la muestra que 

representa a la población de interés.  

Si  este  es  el  caso,  el  efecto de una  intervención dada  sobre  el  resultado  alcanzado por  los 

individuos que conforman el GT puede aproximarse por  lo que se conoce como el estimador 

estándar del ATT cuya definición es la siguiente: 

1 0         (7) 

Page 13: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

13  

donde  los valores con circunflejo   e   representan, respectivamente,  los resultados reales 

obtenidos  por  los  individuos  del  GT  (W  =  1)  y  los  correspondientes  a  los  individuos  de  la 

muestra que conforman el GC (W = 0). De manera análoga se definen  los estimadores de  los 

indicadores ATE y ATU anteriormente explicados15. 

La relación entre el estimador estándar del ATT y el verdadero indicador ATT puede obtenerse 

de manera sencilla (Angrist y Pischke, 2008, pág. 12). En efecto, dado que, como hemos visto 

anteriormente,  los  resultados  reales de un  individuo  i pueden expresarse en  función de  los 

resultados potenciales: 

 = Wi Yi1 + (1 –Wi) Yi

0,                (8) 

la expresión que cuantifica el estimador del ATT puede desarrollarse de la manera siguiente: 

    (9) 

la cual sumando y restando un mismo término se convierte en: 

    (10) 

Y reordenando sus términos en:  

  (11) 

Es decir: 

          (12) 

El estimador estándar del ATT no es otra cosa, por tanto, que la diferencia entre el verdadero 

valor  del  ATT  y  un  término  que  refleja,  como  vemos,  la  diferencia  existente  entre  los 

resultados  potenciales  esperados  de  los  individuos  que  han  experimentado  la  intervención 

frente a los que no han pasado por ella. Este último término es el sesgo de selección (selection 

bias). Un  valor  positivo  de  este  sesgo  indica  que  a  priori  los  resultados  potenciales  de  los 

individuos  tratados  son en media  superiores a  los de  los  individuos del GC. En este  caso, el 

estimador  estándar  no  aproximará  correctamente  el  verdadero  efecto del  tratamiento 

(ATT), sino que ofrecerá una sobreestimación del impacto real provocado por la intervención. 

La causa del sesgo reside, por tanto, en la existencia de diferencias entre los individuos del GT 

y del GC en  características que  condicionan  los  resultados que potencialmente  cada uno de 

ellos  puede  obtener.  Si  éste  es  el  caso,  la  diferencia  entre  los  resultados  medios  brutos 

obtenidos  por  cada  uno  de  los  grupos  no  es,  por  tanto,  imputable  a  la  intervención  en 

cuestión. 

                                                            15 En  lo que sigue centraremos  la atención en el ATT, dado que, como explica Heckman (2005) es el que presenta mayor interés en la mayoría de las evaluaciones de impacto.  

 

Page 14: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

14  

En el caso de que  la asignación de  los  individuos a  la  intervención evaluada sea aleatoria, el 

valor de este sesgo será nulo. Ello se debe a que  la asignación aleatoria garantiza que, con  la 

excepción  de  la  intervención  objeto  de  interés,  todos  los  factores  individuales  (tanto  las 

características  observables  como  las  no  observables)  están  igualmente  distribuidos  en  la 

población.  Por  ello,  en  términos medios,  los  resultados  potenciales  de  los  GT  y  GC  en  la 

población son idénticos. Es lo que, en términos técnicos se denomina igualdad en expectación 

entre  los grupos  (equal  in expectation)16. Por esta razón, en  los experimentos con asignación 

aleatoria,  la  diferencia  entre  los  resultados medios  obtenidos  en  cada  uno  de  los  grupos 

(tratados  y  no  tratados)  constituye  una  estimación  correcta  del  verdadero  impacto  de  la 

intervención evaluada (Murname y Willett, 2011). Las potenciales explicaciones alternativas de 

las diferencias encontradas entre los resultados medios de ambos grupos quedan anuladas por 

la dinámica propia del proceso de asignación aleatoria. En estos casos, por tanto, el estimador 

  constituye  una  aproximación  correcta  al  efecto  medio  de  la  intervención  sobre  los 

individuos sometidos a ella (ATT). 

En  definitiva,  cuando  el  investigador  puede  llevar  a  cabo  un  experimento  con  asignación 

aleatoria  de  los  participantes  al  tratamiento  evaluado,  la  evaluación  del  impacto  de  dicho 

tratamiento  se  reduce  a  una  mera  comparación  de  resultados  medios.  Este  tipo  de 

experimentos  son,  sin embargo, muy difíciles de  llevar  a  cabo en  las  ciencias  sociales  y, en 

particular,  en  el  ámbito  educativo,  dados  los  elevados  costes  que  conllevan  así  como  los 

problemas éticos que pueden suscitar17.  

Las  indudables ventajas de  los experimentos en  la  inferencia causal  los han convertido en  la 

referencia  básica  de  las  estrategias  de  análisis  que  se  han  elaborado  para  obtener 

estimaciones no sesgadas de  impacto en  los estudios que trabajan con datos procedentes de 

registros  de  hechos  ocurridos  de  forma  natural.  Dichas  estrategias  tratan  de  emular  las 

condiciones ideales de un experimento con asignación aleatoria, es decir, tratan de garantizar 

que  los resultados potenciales medios antes de  la recepción de  la  intervención evaluada son 

los mismos para los individuos tratados y no tratados. Con ello se pretende reducir al mínimo 

las amenazas a la validez interna de las estimaciones18 (Campbell, 1957). 

De  todas  las propuestas existentes en  la  literatura para afrontar el sesgo de selección19 este 

trabajo opta por la técnica conocida como Propensity Score Matching (en adelante PSM). En el 

apartado  siguiente  se  exponen  con  detalle  la  lógica  y  el  método  de  trabajo  de  esta 

metodología. 

                                                            16 Es decir, la asignación aleatoria del tratamiento garantiza que:  E (Yi

0 I W = 1) = E (Yi0I W = 0) y  que E(Yi

1I W = 0)= E(Yi

1I W  =  1).  Dado  que  los  términos  de  la  derecha  de  ambas  identidades  son  observables,  el  problema  de estimación del impacto del tratamiento W queda resuelto. 

17  El número de  experimentos  controlados  con  asignación  aleatoria ha  experimentado un notable  interés  en  el 

sector educativo en la última década. Una muestra de ello es la Ley de Reforma de la Ciencia Educativa aprobada en 2002 por el Congreso de los Estados Unidos que obliga a realizar diseños experimentales y cuasiexperimentales para todo tipo de investigación educativa financiada por el Gobiernos Federal (Angrist y Pischke, 2008). 

18 Con  este  término,  ampliamente  conocido  como  confoundedness,  se hace  alusión  al  riesgo de que  la  relación observada entre el predictor de interés y el resultado esté motivada por otras variables y no sea, por tanto, causal. En Shadish et al. (2002, página 55) se presenta una relación de los motivos que pueden amenazar la validez interna de una investigación causal. 

19 Véase Guo y Fraser (2010). 

Page 15: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

15  

 

4.2.‐ Propensity Score Matching (PSM) 

Como se acaba de indicar, el desafío principal a que se enfrentan las evaluaciones del impacto 

de cualquier  intervención pública asignada de manera no aleatoria se concreta en aproximar 

un valor creíble del contrafactual para cada uno de  los  individuos que han sido objeto de  la 

intervención.  La  imposibilidad  material  de  disponer  del  valor  del  contrafactual  teórico 

convierte  la cuantificación del ATT en un problema de  falta de datos  (missing values). Desde 

esta perspectiva, el  reto metodológico a  superar  se  concreta en  imputar a  cada uno de  los 

individuos  que  han  recibido  la  intervención  (GT)  un  valor  que  refleje  adecuadamente  el 

resultado que habría obtenido en ausencia de la intervención. 

A  la  hora  de  poner  en  práctica  una  estrategia  adecuada  de  imputación  de  esos  valores 

perdidos  debe  tenerse  en  cuenta  que  la  única  información  disponible  en  la  base  de  datos 

sobre los resultados alcanzados en ausencia de intervención son los registros correspondientes 

a los individuos del GC. Partiendo de esta consideración, el problema a superar se reconduce a 

encontrar  un  procedimiento  que  permita  asignar  a  cada  individuo  del  GT  uno  o  varios 

individuos  del  GC  que  sean  similares  a  él  en  todas  las  características  relevantes  en  la 

determinación  del  resultado  evaluado20.  El  resultado  obtenido  por  el/los  individuo/s  de  la 

submuestra del GC así delimitada constituye una buena aproximación al contrafactual de cada 

uno  de  los  individuos  tratados,  ya  que  una  buena  implementación  de  esta  estrategia  de 

análisis  garantiza  que  los  resultados  potenciales  de  los  individuos  de  ambos  grupos  son 

idénticos, es decir, que  se  cumple  lo que  se  conoce en esta  literatura  como  la hipótesis de 

independencia  condicional21.  La  comparación de  los  resultados obtenidos por  los  individuos 

del GT  y  los pertenecientes  a  la  submuestra de  individuos  similares  a ellos en el GC puede 

considerarse,  por  ello,  que  constituye  una  buena  aproximación  al  impacto  del  predictor 

principal. A continuación, explicaremos como las técnicas de matching y, en particular, el PSM 

resultan  de  una  gran  utilidad  en  la  identificación  de  la  submuestra  de  individuos  del  GC 

similares a los pertenecientes al GT y, por tanto, en el cálculo del ATT. 

Las técnicas del matching constituyen uno de los tres procedimientos que se han propuesto en 

la literatura al objeto de aislar la contribución neta de una variable (una intervención pública, 

por ejemplo)22. Esta metodología fundamenta su cálculo del ATT en emparejamientos entre los 

individuos  del GT  y  los miembros  del GC  que  presentan  un  perfil  similar  en  todas  aquellas 

características observables   (X) que son simultáneamente predictores del resultado objeto de 

interés  (Y) y del predictor principal objeto de estudio  (W). En particular, con estos métodos 

                                                            20 Obviamente lo ideal sería encontrar individuos idénticos en todas las características observables e inobservables, una especie de clones, algo empíricamente  imposible. Como veremos,  la  técnica PSM permite alcanzar un grado importante de similitud en los aspectos observables entre los individuos del GT y del GC. En cuanto al problema de los inobservables, su resolución es más indirecta y pasa por la realización de análisis de sensibilidad ( veánse  Altonji et al., 2008 y Rosenbaum, 2002). 

21  Esta  hipótesis  señala  que,  una  vez  controladas  todas  las  características  observadas  relevantes,  los  individuos sometidos a  la  intervención tienen en promedio el mismo resultado potencial que  los pertenecientes al grupo de 

control,  es  decir  que:    , 1 , 0 ,  siendo  X  el  vector  de  variables  observables.  Esta 

hipótesis es también conocida con el nombre de selección en observables. 

22 Las otras técnicas son la regresión convencional y la estratificación (véase Guo y Fraser, 2011, capítulo 3). 

Page 16: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

16  

cada individuo del GT (W = 1) es emparejado con uno o n individuos del GC (W = 0), tomando 

como referencia del matching a las variables X. La media de las diferencias del valor real de Y 

entre los individuos del GT y la submuestra de miembros del GC que el proceso del matching le 

ha asignado constituye en este procedimiento la aproximación al ATT.  

Las  técnicas matching  fundamentan, por  tanto, el  cálculo del efecto de una  intervención en 

dos procesos: a) la selección de los miembros del GC equiparables en las características X a los 

individuos  del GT,  b)  y  la  utilización  de  los  valores  de  Y  de  esta  submuestra  del GC  como 

proxies del contrafactual de los sujetos que pertenecen al GT23. 

Dentro de estas técnicas de matching ocupa un lugar preferente el PSM cuyos fundamentos se 

encuentran en el trabajo seminal de Rosenbaum y Rubin  (1983). La principal ventaja de esta 

metodología reside en su capacidad para trabajar con un número de variables de control  (X) 

muy numeroso. Y es que la probabilidad de encontrar emparejamientos válidos entre el GT y el 

CG  es  inversamente proporcional  al número de  variables del  vector X.  Es  lo que  se  conoce 

como el problema de la dimensionalidad del matching. 

Rosenbaum  y  Rubin  (1983)  resolvieron  este  problema  proponiendo  una magnitud  única,  el 

propensity  score  (ps  a partir de  ahora),  sobre  la que basar  los emparejamientos necesarios 

para el cálculo del ATT. El ps no es sino un indicador sintético de la información contenida en 

las variables X de control que es calculado mediante un modelo de regresión logística o similar. 

Sin  embargo,  a  diferencia  de  otros  indicadores  sintéticos,  como  los  resultantes  del  análisis 

discriminante,  el  ps,  lejos  de  ser  un  constructo  estadístico  carente  de  contenido,  tiene  un 

significado muy claro. Y es que el ps no es sino la probabilidad condicional de participar en  la 

intervención  evaluada  que  tiene  cada  individuo  de  la  muestra,  dadas  sus  características 

observables X, es decir: 

ps = P(W = 1 l X)        (13) 

Este  significado  confiere  al ps un  valor  especial para de  abordar  la  corrección del  sesgo de 

selección.  En  efecto,  como  ha  sido  destacado  anteriormente,  la  identificación  de  un 

contrafactual empírico válido requiere que los individuos del GT y GC presenten un algo grado 

de  similitud  en  las  características  individuales  que  afectan  a  los  resultados.  Sólo  de  esta 

manera, puede garantizarse que  las diferencias de  resultados entre ambos grupos no están 

contaminadas por  las diferencias en  las características observables de  los miembros de cada 

grupo. O,  dicho  de  otra manera,  que  se  cumple  la  hipótesis  de  independencia  condicional 

anteriormente  aludida.  En  este  sentido,  el  cálculo  de  la  ps  permitirá  identificar  las  X  que 

determinan la participación en la intervención y que además influyen en la determinación del 

resultado de  interés  (Y), es decir,  las  variables que pueden  causar el  sesgo de  selección.  La 

comparación de los resultados obtenidos por los individuos del GT y GC que presentan valores 

similares del ps no estará afectada, por tanto, por este sesgo. 

La clave del funcionamiento del PSM reside, por tanto, en la realización de un buen matching, 

es decir en encontrar a individuos del GC con una ps altamente similar a la de los individuos del 

                                                            23 Es por ello que estas técnicas son en ocasiones consideradas como un método de remuestreo (véase Murname y Willett (2011). 

Page 17: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

17  

GT. Dicho en  términos  formales, el  reto de esta  técnica  reside en encontrar i  W = 1 un 

(unos) j  W = 0  tal que Pi(W = 1)  Pj(W = 0). Ello requiere que: P (W =1 l X) < 1 y P (W =1 l X) > 

0  X, ya que es justamente el cumplimiento de estas dos relaciones  lo que garantiza que en 

los dos grupos  (GT y GC) existen  individuos similares en  las características observables  (es  lo 

que se  conoce como hipótesis de soporte común). En efecto, si para alguna variable X el valor 

de la ps es la unidad (P(W=1 l X) = 1), ello indicaría que todos los individuos que tienen un valor 

idéntico en esa variable pertenecen al GT, es decir, que en la muestra de individuos del GC no 

se localiza ningún individuo con esa característica que pueda ser emparejado alguno del GT. En 

este  caso,  la  estimación  del  ATT  no  podrá  ser  llevada  a  cabo  con  éxito.  Análogo  es  el 

razonamiento si P(W=1 l X) = 024. 

Una vez seleccionada  la submuestra de  individuos comparables, el paso siguiente del PSM se 

concreta en calcular el estimador del ATT el cual queda definido como: 

                  (14) 

donde el subíndice match  indica que  las estimaciones se refieren a  la submuestra delimitada 

mediante el PSM. 

De esta manera se obtiene una estimación del efecto de la intervención W sobre los resultados 

de interés (Y) liberada del problema del sesgo de selección. En efecto, en la medida en que los 

sujetos que conforman la muestra matcheada son similares en todas las características (X) que 

influyen  simultáneamente  en  el  resultado  de  interés  (Y)  y  en  la  participación  en  la 

intervención, se elimina el riesgo de que  las diferencias entre  los resultados del GT y del GC 

sean debidas a diferencias sistemáticas en variables observables entre los dos grupos. 

 

4.3.‐ Modelos lineales jerárquicos (HLM) 

Como  se  acaba  de  indicar,  la  aplicación  del  PSM  permite  disponer  de  unas  estimaciones 

depuradas del ATT con respecto a las variables observables (X) que distinguen a los miembros 

del GT y el GC y son potencialmente relevantes en  la determinación del resultado de  interés 

(Y). 

Sin  embargo,  las  influencias  potenciales  sobre  los  resultados  educativos  abarcan, 

habitualmente, más variables de las que influyen de manera simultánea en la participación en 

una intervención educativa concreta, es decir, de aquéllas consideradas en la construcción del 

ps. Dada esta situación, el cálculo del efecto neto de una intervención, como W, en el contexto 

educativo  precisa  que  se  contraste  la  influencia  de  esos  otros  factores  (X’)  que  son 

potencialmente importantes en la determinación de Y. Para ello es fundamental llevar a cabo 

un análisis post matching. Tres  tipos de  influencias merecen atención:  características de  las 

escuelas en que se han formado los individuos, atributos de los estudiantes no incorporados al 

cómputo del propensity score y diferencias entre  los  individuos del GT y GC en variables no 

observables. 

                                                            24 Lockwood Reynolds (2012) apuntan que el cumplimiento de P (W =1 l X) > 0 sólo es necesario cuando el objeto de cálculo es el ATE  pero no cuando el objetivo de la investigación es, como en nuestro caso, el cómputo del ATT. 

Page 18: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

18  

El contraste de la relevancia de los dos primeros aspectos puede ser llevado a cabo mediante 

un modelo  de  regresión  sobre  la muestra matcheada.  En  efecto,  en  la medida  en  que  la 

submuestra  delimitada mediante  el  PSM  no  se  ve  afectada  por  el  problema  del  sesgo  de 

selección que afectaba a la muestra original, el análisis de regresión resulta ahora pertinente a 

la hora de identificar el efecto de la intervención W sobre los resultados25.  

De entre todos los modelos de regresión disponibles, los que mejor se adaptan a la estructura 

de  los  datos  suministrados  por  la  Evaluación  de  Diagnóstico  son  los  modelos  jerárquicos 

lineales o modelos multinivel  (HLM, a partir de ahora)26. Su principal ventaja en el contexto 

que  nos  ocupa  es  que  permiten  diferenciar  las  influencias  que  actúan  a  nivel  de  alumno 

(primer nivel de análisis) de las que actúan a nivel de escuela y clase (segundo y tercer nivel). 

Se trata, por tanto, de modelos especialmente adecuados para trabajar con datos anidados en 

varios niveles, como los suministrados por la práctica totalidad de bases de datos educativas. 

Estos modelos permiten analizar simultáneamente variables de diferentes niveles (individuos, 

clases y escuelas, por ejemplo) e identificar la proporción de la varianza total de un resultado 

que es atribuible a cada uno de los niveles especificados.  En términos analíticos la ecuación de 

nivel 1 viene dada por: 

∑ ~ 0,                      (15) 

donde   es el  resultado esperado del  individuo  i en  la clase  j de  la escuela k;   es una 

variable explicativa p de nivel 1 para el  individuo  i de  la clase  j de  la escuela k,   son  los 

coeficientes de nivel 1 (p=0,1,…,P) y   es el efecto aleatorio de nivel 1 para el que se asume 

que  sigue  una distribución  normal. A  nivel  2  (clases),  los  coeficientes    son  tratados  como 

variables a estimar, por lo que tenemos: 

∑                                                                        (16) 

donde   (q=0,1,…,Qp) son los coeficientes de nivel 2,   es un predictor de nivel 2 y   

es  un  efecto  aleatorio. Asumimos  que,  para  cada  unidad  j,  el  vector  ( , , … , )’  se 

distribuye  según una normal multivariante donde cada elemento  tiene una media de cero y 

una  matriz  de  covarianzas  Τ   con  una  dimensión  máxima  (P+1)x(P+1).  Cada  uno  de  los 

coeficientes de nivel 2,  , se convierte en las variables a explicar a nivel 3: 

∑                                                                          (17) 

donde   (s=0,1,…,Spq) son los coeficientes de nivel 3,   es un predictor de nivel 3 y   

es un efecto aleatorio de nivel 3. Asumimos que el vector de efectos aleatorios se distribuye 

                                                            25 Ello se debe a que una vez eliminado el sesgo de selección debido a observables, puede asumirse que los residuos de  la  regresión  son  independientes  del  tratamiento  evaluado.  Persiste  en  todo  caso,  la  amenaza  de  que  los individuos del GT y del GC difieran en características no observables. El análisis de esta cuestión va, en todo caso, más allá de  los  límites de esta  comunicación,  si bien pretende  llevarse a  cabo en un  trabajo posterior. Posibles correcciones de esta problemática pueden verse en Caliendo y Kopeinig (2008). 

26 Bryk and Raudenbusch (1988). Aplicaciones de esta metodología al contexto educativo pueden verse en Willms (2006), Somers et al (2004) y Mancebón et. al (2012), este último aplicado a datos españoles procedentes de PISA 2006. 

Page 19: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

19  

como una normal multivariante donde cada elemento tiene una media de cero y una matriz de 

covarianzas Τ  con una dimensión máxima:  

∑ 1 ∑ 1 .                                                                                          (18) 

 

5.‐ Resultados 

En esta sección se recogen los principales resultados obtenidos del análisis empírico realizado. 

En  primer  lugar,  se  comentan  las  estimaciones  obtenidas  de  la  aplicación  del  PSM.  A 

continuación, expondremos las principales aportaciones a estas estimaciones que nos ofrece la 

aplicación de los modelos lineales jerárquicos. 

 

5.1.‐ Resultados del PSM 

La estrategia de estimación del PSM se concreta, como se explicó en  la sección anterior, en 

encontrar  un  grupo  de  estudiantes  de  la  escuela  pública  que  sea  comparable  con  los 

estudiantes  que  asisten  a  una  escuela  concertada  en  todas  aquéllas  variables  que 

potencialmente  pueden  condicionar  la  elección  de  colegio  y  la  obtención  de  buenas 

puntuaciones en  las competencias evaluadas en  la Evaluación de  la Diagnóstico. Para ello, se 

debe  estimar,  en  primer  lugar,  la  ecuación  de  selección,  es  decir,  la  ecuación  que  permite 

predecir  el  propensity  score  (ps)  y,  a  continuación,  equilibrar  las  muestras  de  alumnos 

pertenecientes a los GT y GC en este indicador. La estimación de la ecuación de selección tiene 

una  importancia  decisiva,  ya  que  del  atino  en  su  especificación  depende  la  obtención  de 

estimaciones creíbles y no sesgadas del impacto de la intervención evaluada. Un punto crucial 

en  la especificación de esta ecuación es considerar como predictores todas aquellas variables 

que  simultáneamente  pueden  influir  en  la  elección  de  escuela  y  en  la  obtención  de  los 

resultados evaluados  (Caliendo y Kopeinig, 2008). La  literatura econométrica ofrece diversos 

métodos de estimación de  la probabilidad condicional de  recibir un  tratamiento  (en nuestro 

caso,  de  asistir  a  un  colegio  concertado):  regresión  logística,  modelos  probit  y  análisis 

discriminante  (Guo  y  Fraser,  2011,  pág.  135). Aunque  la mayoría  de  los  estudios  empíricos 

suelen hacer uso de modelos probit para estimar el ps, en nuestro trabajo hemos optado por 

utilizar un modelo de regresión logística. Para especificar el modelo, se ha optado por utilizar 

un GBM (boosted generalized regression), ya que su aplicación permite obviar el problema de 

especificación  de  la  forma  funcional  y  capturar  efectos  no  lineales  entre  los  predictores 

(McCaffrey, 2004). Por otra parte, el  funcionamiento del algoritmo  iterativo en que  se basa 

este  método  de  estimación  permite  alcanzar  estimaciones  del  ps  que  equilibran  las 

características observables de los grupos de individuos tratados (GT) y de control (GC)27, lo que 

tiene un especial valor cuando el GBM se utiliza en el contexto del PSM, dado que el fin último 

de éste es, como ya se ha explicado, equilibrar las muestras de ambos grupos de individuos en 

las variables observables que influyen en el resultado objeto de evaluación. En este sentido, el 

                                                            27 Ello se debe a que el ajuste que suministra es el que hace mínima  la diferencia estándar de  las medias de  los predictores (ASAM) entre los individuos del GT y GC. 

Page 20: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

20  

GBM constituye un método robusto de estimación de  la ecuación de selección (Chowa et at., 

2012). 

A la hora de interpretar los resultados que ofrece esta estimación debe tenerse en cuenta que 

los  modelos  GBM  no  suministran  coeficientes  equivalentes  a  los  de  una  regresión 

convencional (s). Sus parámetros reflejan la influencia de cada predictor sobre el ps, es decir, 

la contribución de cada variable a la explicación de la probabilidad condicionada de asistir a un 

colegio concertado28. 

Tabla 2. Results from GBM and estimation parameters 

Variable  Influence 

JobMum2  1.76

JobMum2  1.23

JobMum4  2.73

JobDad2  2.84

JobDad3  6.76

JobDad4  1.01

YearsMum  16.02

YearsDad  21.08

ZonaGeo1  0.98

ZonaGeo2  0.76

ZonaGeo3  2.08

ZonaGeo4  2.07

ZonaGeo5  0.57

NumBooks  1.91

Habitacion  5.99

NumTVs  6.57

NumPCs  4.51

NumTvPag  3.58

NumConso  9.36

NumMP4  8.20

Best num iterations  16453.00

Train R2  0.084

Test R2  0.045

% correct prediction  68.4%

Train fraction  0.5

Bag  0.5

Shrinkage factor  0.0005

Distribution  Logistic

Max num interactions  4

Max num iterations  20000

Seed  0

 

                                                            28 La especificación de este modelo tomó como referencia aquéllas variables de la base de datos que, a la luz de la 

evidencia  empírica  previa  sobre  los  determinantes  de  la  elección  de  centro  y  sobre  los  determinantes  de  los resultados escolares, podían afectar simultáneamente a la elección de escuela concertada y al rendimiento escolar. Por  tanto,  al  especificar  la  ecuación  de  selección  no  se  tomaron  en  consideración  ni  las  variables  que potencialmente pueden contribuir a explicar las diferencias en las competencias cognitivas evaluadas en la prueba de diagnóstico, pero que no influyen en la elección de centro (los hábitos de estudio, por ejemplo), ni aquéllas que pudiendo  ser determinantes de esa elección no  influyen en  las  citadas  competencias  (la distancia al  centro, por ejemplo). Este criterio es el recomendado unánimemente por toda la literatura especializada sobre el PSM. 

Page 21: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

21  

La  tabla  2  recoge  los  resultados de  la  estimación  de  la  ecuación de  selección, que permite 

predecir  un  valor  del  ps  para  cada  uno  de  los  individuos  de  la muestra,  lo  que  permitirá  

acometer  la  segunda  fase del PSM:  la búsqueda de  los  emparejamientos óptimos  entre  los 

individuos del GT y GC. Se observa que  las variables que acaparan mayor grado de  influencia 

en  la  probabilidad  de  asistir  a  centro  concertado  son  los  años  de  estudio  de  las madres  y  

padres  (16  y  21%,  respectivamente),  seguidos  por  las  variables  que  aproximan  el  grado  de 

posesiones  en  el hogar.  La  influencia  del  trabajo de  los padres  también  es  importante.  Las 

dummies que  aproximan  el  empleo de  la madre  suman un  5,7%  y  las del padre un  10,6%. 

Aunque  el  R2  obtenido  es  bajo,  en  estos  modelos  es  más  importante  el  porcentaje  de 

predicciones  correctas del modelo estimado, que en nuestro  caso alcanza prácticamente un 

70%,  lo que  se  considera en  la  literatura un grado de  fiabilidad bastante elevado.  La última 

parte de la tabla muestra varios parámetros utilizados en la estimación de los modelos gbm. En 

las  estimaciones  se  han  eliminado  aquellos  individuos  con  datos missing  en  las  variables, 

siguiendo un procedimiento case‐wise deletion. En una fase posterior del trabajo, se replicarán 

los  análisis  realizando  previamente  una  imputación  de  los  valores  faltantes  ya  que  éstos 

pueden  implicar un sesgo de  las estimaciones realizadas sin  imputar debido a que  los valores 

faltantes no estén distribuidos aleatoriamente. 

Las  figuras  1  y  2a  muestran  la  distribución  de  los  propensity  scores  estimados  para  los 

individuos de centros públicos y concertados. Se observa claramente, tanto en el boxplot como 

en el gráfico de  la distribución, que existe una amplia zona de soporte común. Es decir, que 

individuos del GT tienen  individuos del GC con  los que poder compararse por tener el mismo 

ps. 

Figura 1. Boxplot ps score 

 

 

 

 

 

 

Page 22: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

22  

Figura 2. Ps score kernels 

a. Full sample  b. Matched sample 

 

Una vez estimado el propensity score, se realiza el proceso de matching, que puede llevarse a 

cabo mediante diferentes algoritmos: greedy matching, optimal matching y fine balance (Guo 

y  Fraser,  2011).  En  nuestro  trabajo  hemos  optado  por  el  primero  de  ellos,  el  cual  puede 

aplicarse  mediante  diversas  variantes  (Smith  y  Tood,  2005).  Los  dos  algoritmos  más 

ampliamente utilizados en la literatura son el nearest neighbor matchig (vecino más próximo, a 

partir de ahora NNM), que admite a su vez diversas variantes, y los métodos basados en kernel 

(MK, a partir de ahora). El primero de ellos empareja cada individuo del GT con aquél/aquéllos 

del  GC  que  tenga/n  el  valor  del  ps más  próximo.  El  kernel matching  es  un  estimador  de 

matching no paramétrico que  construye para  cada  individuo del GT un  individuo  ficticio de 

comparación con una media ponderada de todas  las unidades del GC, utilizando  las mayores 

ponderaciones  para  las  unidades  con  ps más  parecido  al  del  que  se  compara.  En  nuestro 

trabajo se aplicaron  los dos algoritmos citados y varias de  las opciones de  las que admite el 

NNM (con y sin reemplazamiento, con caliper y sin caliper, 1 a 1, 1 a 2 y 1 a 3). El MK fue, a su 

vez,  aplicado  con  diferentes  bandwiths.  Con  ello  se  pretende  contrastar  la  sensibilidad  del 

matching a las diferentes propuestas de estimación. 

En esta comunicación optamos por el MK con tipo de kernel Epanechnikov con un bandwidth 

de 0.03, ya que da el emparejamiento que logra la mayor reducción en los sesgos. La muestra 

se  ve  reducida  únicamente  en  9  individuos  del  GC,  que  desaparecen  ya  que  no  son 

emparejados con ningún individuo del GT. Los restantes individuos del GC reciben un peso en 

función del número de veces que se utilizan para ser emparejados con individuos del GT. Este 

peso deberá ser utilizado en los análisis posteriores. La figura 2b muestra la distribución de los 

ps  en  la muestra  emparejada.  Se  observa  que  hay  un  solapamiento  casi  perfecto  entre  la 

distribución para  los centros públicos y concertados,  lo que nos da  idea de que se cumple el 

objetivo  para  el  cual  se  utiliza  el  PSM,  conseguir  dos  muestras  comparables.  La  figura  3 

muestra  por  bloques  el  emparejamiento  realizado  entre  estudiantes  de  centros  públicos  y 

concertados. 

La tabla 3 muestra  la comparación de  los resultados en  inglés y medio físico para  la muestra 

completa y  la emparejada  (ATT).  Los  resultados muestran un efecto positivo de  los  colegios 

concertados sobre los resultados alcanzados por los estudiantes en las pruebas de diagnóstico 

de  las competencias científicas y de  lengua extranjera‐inglés. En  todo caso, en  la medida en 

Page 23: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

23  

que  las  únicas  variables  tomadas  en  consideración  en  el  cálculo  del  estimador  ATT  que 

suministra  el  PSM  son  aquéllas  que  influyen  en  la  elección  de  centro,  una  estimación más 

precisa  del  efecto  precisa  de  la  incorporación  de  otros  predictores  que  pueden  influir  de 

manera  independiente  en  la  determinación  de  las  puntuaciones  alcanzadas  por  los 

estudiantes. Para ello, se llevó a cabo un análisis post matching cuyos resultados se exponen a 

continuación. 

Figura 3. Propensity score matching blocks 

 

Tabla 3. Two‐Group t‐Test 

Variable  Sample  Treated Controls Difference S.E.  T‐stat 

Medio físico Unmatched  526.27  501.97  24.30  2.43 9.99 

ATT  526.27  519.15  7.11  2.72 2.62 

Inglés Unmatched  531.50  499.18  32.32  2.40 13.49 

ATT  531.50  518.97  12.53  2.68 4.68 

 

La tabla 4 muestra las diferencias en medias en los ps y covariates para la muestra completa y 

la muestra emparejada, así como  la reducción en el sesgo conseguida en el emparejamiento. 

La figura 4 muestra gráficamente el sesgo pre y post matching para cada una de las variables. 

Tal como muestra la tabla 4, la muestra total no está balanceada para prácticamente ninguna 

variable  (excepto  ZonaGeo3)  ya  que  todas muestran  diferencias  significativas  entre  centros 

públicos y concertados. Si estas diferencias no son tenidas en cuenta en la inferencia causal del 

tipo de centro en  los determinantes del rendimiento académico,  los resultados pueden estar 

sesgados. Esta tabla también ilustra cómo de bueno es el emparejamiento en la reducción del 

sesgo entre grupos comparando las medias y observando el porcentaje de reducción del sesgo. 

Se observa que en  la muestra emparejada  las variables no muestran diferencias significativas 

entre centros públicos y concertados. El porcentaje de sesgo para cada variable se ha reducido 

en gran medida, estando ahora en casi todos los casos por debajo del 5%. La figura 4 muestra 

de una manera muy clara y gráfica  la reducción en estos sesgos. Los círculos representan  los 

sesgos  entre  centros  públicos  y  concertados  en  la  muestra  antes  del  emparejamiento, 

mientras que las cruces representan los sesgos en las variables entre centros para la muestra 

emparejada.  Se observa  claramente que  las  cruces  se distribuyen  cercanas a  cero, mientras 

que los círculos presentan valores bastante más elevados en bastantes de los casos.  

Page 24: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

24  

Tabla 4. Diferencias en medias por tipo centro de las variables en las muestras pre y post 

matching y reducción del sesgo. 

         Mean        %reduct    t‐test 

Variable     Treated Control %bias  |bias|  t  p>|t| 

Propensity score  Unmatched  0.47  0.40  60.8  24.87  0.00 

Matched  0.47  0.47  0.9  98.5  0.32  0.75 

JobMum1  Unmatched  0.37  0.24  29.7  12.15  0.00 

Matched  0.37  0.37  0.7  97.6  0.26  0.80 

JobMum2  Unmatched  0.39  0.42  ‐5.4  ‐2.20  0.03 

Matched  0.39  0.40  ‐2.0  62.5  ‐0.77  0.44 

JobMum3  Unmatched  0.03  0.04  ‐7.6  ‐3.06  0.00 

Matched  0.03  0.03  ‐1.7  77.5  ‐0.71  0.48 

JobMum4  Unmatched  0.21  0.30  ‐21.7  ‐8.74  0.00 

Matched  0.21  0.20  2.3  89.6  0.93  0.36 

JobDad1  Unmatched  0.49  0.31  36.7  14.98  0.00 

Matched  0.49  0.50  ‐1.2  96.8  ‐0.44  0.66 

JobDad2  Unmatched  0.23  0.26  ‐6.5  ‐2.61  0.01 

Matched  0.23  0.24  ‐2.0  68.8  ‐0.77  0.44 

JobDad3  Unmatched  0.23  0.35  ‐27.5  ‐11.07  0.00 

Matched  0.23  0.21  3.4  87.8  1.38  0.17 

JobDad4  Unmatched  0.05  0.07  ‐10.7  ‐4.29  0.00 

Matched  0.05  0.05  ‐0.3  97.2  ‐0.13  0.90 

YearsMum  Unmatched  12.34  10.78  33.9  13.66  0.00 

Matched  12.34  12.49  ‐3.2  90.7  ‐1.26  0.21 

YearsDad  Unmatched  12.34  10.78  33.5  13.53  0.00 

Matched  12.34  12.47  ‐2.9  91.4  ‐1.13  0.26 

ZonaGeo1  Unmatched  0.91  0.84  21.0  8.36  0.00 

Matched  0.91  0.91  0.9  95.8  0.38  0.70 

ZonaGeo2  Unmatched  0.00  0.01  ‐9.3  ‐3.65  0.00 

Matched  0.00  0.00  1.0  89.4  0.60  0.55 

ZonaGeo3  Unmatched  0.01  0.01  ‐1.0  ‐0.42  0.68 

Matched  0.01  0.00  2.1  ‐101.6  0.89  0.37 

ZonaGeo4  Unmatched  0.03  0.06  ‐12.8  ‐5.11  0.00 

Matched  0.03  0.04  ‐2.5  80.9  ‐1.06  0.29 

ZonaGeo5  Unmatched  0.04  0.06  ‐10.9  ‐4.36  0.00 

Matched  0.04  0.04  0.2  97.8  0.10  0.92 

ZonaGeo6  Unmatched  0.01  0.02  ‐8.1  ‐3.19  0.00 

Matched  0.01  0.01  ‐0.7  91.8  ‐0.30  0.76 

NumBooks  Unmatched  0.60  0.50  18.7  7.56  0.00 

Matched  0.60  0.61  ‐2.0  89.4  ‐0.76  0.45 

Habitacion  Unmatched  0.96  0.94  8.1  3.23  0.00 

Matched  0.96  0.96  ‐1.2  84.9  ‐0.51  0.61 

Internet  Unmatched  0.88  0.84  12.7  5.06  0.00 

Matched  0.88  0.89  ‐3.4  73.4  ‐1.40  0.16 

NumTVs  Unmatched  2.15  2.08  9.8  3.96  0.00 

Matched  2.15  2.15  0.8  92.1  0.30  0.77 

NumPCs  Unmatched  1.63  1.49  17.2  6.97  0.00 

Matched  1.63  1.66  ‐4.1  76.2  ‐1.56  0.12 

NumTvPag  Unmatched  0.46  0.43  4.5  1.82  0.07 

Matched  0.46  0.48  ‐3.4  24.1  ‐1.24  0.21 

NumConso  Unmatched  1.82  1.66  16.3  6.62  0.00 

Matched  1.82  1.84  ‐1.9  88.6  ‐0.71  0.48 

NumMP4  Unmatched  1.11  0.93  18.3  7.47  0.00 

   Matched     1.11  1.14     ‐3.0  83.4     ‐1.11  0.27 

Abs(bias)  Unmatched  17.7  617.20  0.00 

   Matched              1.9        31.47  0.09 

Page 25: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

25  

 

Figura 4. Sesgos entre centros públicos y concertados pre y post matching 

 

 

La figura 5 muestra la distribución de las variables utilizadas en el PSM por tipo de centro para 

la muestra completa (figuras de la izquierda) y la muestra emparejada (figuras de la derecha). 

En éstas últimas se observa claramente que la muestra emparejada contiene distribuciones de 

las  variables mucho más próximas, en muchos  casos prácticamente  idénticas, entre  los dos 

tipos de centros. 

Figure 5. Distribución de las variables en las muestras completa y emparejada  

Mother’s education (years) Full sample  Matched sample 

Father’s education (years) Full sample  Matched sample 

Page 26: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

26  

Mother’s Job Full sample  Matched sample 

Father’s Job Full sample  Matched sample 

Place of birth Full sample  Matched sample 

Number of books at home Full sample  Matched sample 

  

Page 27: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

27  

Own room to studyFull sample  Matched sample 

Number of Tv sets at home Full sample  Matched sample 

Number of PCs at home Full sample  Matched sample 

Number of Pay TVs at home Full sample  Matched sample 

   

Page 28: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

28  

Number of Game Consoles at homeFull sample  Matched sample 

Number of MP4s at home Full sample  Matched sample 

 

5.2.‐ Resultados del HLM 

La delimitación de las dos submuestras de individuos comparables del GT y GC que suministra 

el  PSM  permite  eliminar  de  la  muestra  el  sesgo  de  selección  causado  por  las  variables 

observables.  Sin embargo,  y en  la medida en que  las  competencias de  los alumnos pueden 

venir  explicadas  por  otras  variables  observables  no  tenidas  en  cuenta  en  la  estimación  del 

propensity  score,  una  estimación  más  depurada  del  impacto  de  la  asistencia  a  centro 

concertado  sobre  las  puntuaciones  obtenidas  por  los  estudiantes  en  la  ED  requiere  que  se 

realice un análisis post matching. En esta  sección  se explican  los  resultados obtenidos de  la 

aplicación  de modelo  de  regresión  lineal  jerárquico  a  los  datos  de  las  dos  submuestras  de 

individuos del GT y GC obtenidas mediante el PSM. 

Este tipo de modelos resultan muy pertinentes cuando los datos disponibles presentan, como 

en nuestro caso, una estructura  jerárquica, ya que, en estos casos, no se cumple el supuesto 

de  independencia  de  las  variables  entre  las  diferentes  jerarquías  a  las  que  pertenecen  los 

individuos. En nuestro estudio,  la  información que suministra  la Evaluación de Diagnóstico se 

refiere a estudiantes que están anidados en clases que, a su vez, están anidadas en escuelas29. 

Por ello, previsiblemente  las características y resultados de  los estudiantes que pertenecen a 

diferentes clases y escuelas serán distintas y  la correlación  intragrupos  también  (Hox, 1995). 

                                                            29 En nuestro caso se han estimado tanto el modelo a dos niveles (estudiantes‐escuelas) como el modelo a 3 niveles (estudiantes‐clases‐escuelas) con fines de comparación. Inicialmente podría considerarse como más adecuado el modelo a tres niveles ya que los peer effects quedarían mejor recogidos si disponemos de información a nivel de clase. Sin embargo, como se explica en el texto a para la competencia lingüística en inglés es más adecuado el modelo a 2 niveles. 

Page 29: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

29  

Esta  consideración,  junto  con  el  hecho  de  que  en  el  modelo  de  3  niveles  la  correlación 

intraclases (ICC)30 de las competencias científicas y lingüísticas en inglés arroja unos valores de 

12,3% y 4,0% para el nivel clase  (nivel 2) y de 18,9% y 32,9% para el nivel escuela  (nivel 3), 

respectivamente, nos  llevó  a  aplicar  inicialmente un modelo HLM en  tres niveles,  siendo el 

nivel 1, como es habitual, el estudiante31. Las tablas 5 y 6 muestran estas ICCs para los modelos 

de 2 niveles y 3 niveles, respectivamente. 

Además, HLM permite  la  identificación de  la proporción de  la varianza  total en el  resultado 

académico  que  es  atribuible  a  las  variables,  tanto  a  globalmente  como  por  niveles.  Los 

resultados muestran  que  en  las  competencias  científicas  el modelo  a  tres  niveles  funciona 

mejor que  el de dos  (el porcentaje de  explicación de  la  varianza por parte de  las  variables 

incorporadas  es mayor,  25,3%  frente  a  23,5%).  En  las  competencias  lingüísticas  en  lengua 

inglesa ocurre  lo contrario. Mientras el modelo a dos niveles explica un 32,5 % de  la varianza 

total  de  los  resultados,  el  modelo  a  tres  niveles  explica  un  31,5%).  Esta  diferencia  es 

consistente con el hecho, como se muestra en  la tabla 6, de que el porcentaje de  la varianza 

explicada por las variables a nivel de clase para inglés es negativo. Esto indica que al incluir las 

variables,  la varianza de  los  resultados a explicar ha aumentado  frente al modelo nulo en el 

cual  no  se  incluía  ninguna  variable.  Por  lo  tanto,  para  la  competencia  en  lengua  inglesa  el 

modelo HLM más adecuado será el de 2 niveles. 

Estos primeros resultados nos llevan a seleccionar un modelo HLM en tres niveles para explicar 

las  competencias en medio  físico  y un modelo a dos niveles para explicar  las  competencias 

lingüísticas en inglés. Los modelos fueron estimados imponiendo efectos fijos a los parámetros 

(con excepción del  término  independiente), al  rechazarse  la hipótesis nula de que existieran 

efectos  aleatorios  estadísticamente  significativos.  Por  ello  las  ecuaciones  (15)‐(17)  pueden 

expresarse ahora como32: 

∑                      (19) 

∑                    (20) 

0                                    (21) 

∑                     (22) 

00                               (23) 

 

 

                                                            30 La correlación intraclases es la proporción de la varianza total explicada por las diferencias entre clases (nivel 2) y entre escuelas (nivel 3). Si la ICC fuera cero el modelo HLM no sería necesario, ya que en este caso la varianza total en  los  resultados no quedaría  explicada por  las diferencias  existentes  entre  los  alumnos que  asisten  a distintas clases y/o escuelas.  

31 Bryk y Raudenbusch (1988) recomiendan el uso de este tipo de modelos con carácter general en el análisis de los efectos de las escuelas sobre los resultados educativos.  

32 En el caso del modelo a 2 niveles no se incluirían las ecuaciones (22) y (23) 

Page 30: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

30  

Tabla 5. Multilevel regression: random effects (2‐levels) 

   Medio físico     Inglés 

  Null model 

Complete model 

  Null model 

Complete model 

Schools  2661.88  2393.96  3373.56 2172.77 

Students  7470.67  5354.93  6466.98 4466.59 

Total  10132.55 7748.90  9840.55 6639.36 

ICC  26.3%  34.3% 

% of total variance explained by variables   

23.5%    

32.5% 

% of level 1 (students) variance explained by variables   

28.3%    

30.9% 

% of level 2 (schools) variance explained by variables 

   10.1%        35.6% 

 

Tabla 6. Multilevel regression: random effects (3‐levels) 

   Medio físico     Inglés 

  Null model 

Complete model 

  Null model 

Complete model 

Schools  1805.91 1639.54  3128.13 2061.81 

Classes  1169.27 949.38  379.75  439.40 

Students  6554.70 4528.35  5993.29 4010.39 

Total  9529.88 7117.27  9501.16 6511.61 

ICC(3)  18.9%  32.9% 

ICC(2)  12.3%  4.0% 

% of total variance explained by variables   

25.3%    

31.5% 

% of level 1 (students) variance explained by variables   

30.9%    

33.1% 

% of level 2 (classes) variance explained by variables   

18.8%    

‐15.7% 

% of level 3 (schools) variance explained by variables 

   9.2%        34.1% 

 

Las variables dependientes en la regresión son las puntuaciones alcanzadas por los estudiantes 

de primaria de Aragón en las pruebas de evaluación de las competencias objeto de análisis en 

la Evaluación de Diagnóstico de 2010: conocimiento científico e interacción con el mundo físico 

y  comunicación  lingüística  inglés.  Los  predictores  de  la  regresión  y  resultados  del  HLM  se 

detallan  en  la  tabla  7  agrupados  por  niveles.  La  parte  izquierda  de  la  tabla  presenta  los 

resultados del modelo de 2 niveles, tanto para medio físico como para inglés, si bien ya se ha 

comentado que este modelo  lo consideramos más adecuado para  la competencia en  lengua 

inglesa. La parte izquierda presenta los resultados para el modelo de 3 niveles, más adecuado 

para la estimación de los determinantes del resultado en medio físico. 

El  predictor más  relevante  para  nuestro  estudio  es  el  del  efecto  del  tipo  de  centro  en  las 

competencias  estudiadas.  Se observa  que  este  efecto  es positivo  y  significativo para medio 

físico, mientras que para  inglés no es estadísticamente  significativo. El  coeficiente estimado 

para tipo de centro en medio físico es de 22 puntos, lo que indica que un estudiante que tenga 

Page 31: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

31  

el  resto de  características  idénticas  tiene una puntuación en esa  competencia de 22 puntos 

superior en un centro concertado que en uno público.  

El tamaño de la localidad y la asistencia a un centro de la ciudad de Zaragoza tienen un efecto 

significativo  para  la  competencia  en  inglés.  El  efecto  neto  de  la  asistencia  a  un  centro 

localizado  en  la  ciudad  de  Zaragoza  es  +15,16  puntos  (Población  de  Zaragoza  x  _

).  Este  resultado  viene  explicado por  el mayor  esfuerzo  que  en  los  últimos 

años se ha realizado en programas de bilingüismo, que han estado centrados especialmente en 

la ciudad de Zaragoza. 

Se observa que no existen peer effects para los estudiantes de cuarto de primaria. Únicamente 

la  media  de  años  de  estudio  de  las  madres  a  nivel  de  centro  tiene  efectos  positivos  y 

significativos sobre la competencia de inglés. 

Las variables a nivel de estudiante muestran  resultados habituales en  la  literatura  sobre  los 

determinantes  del  rendimiento  educativo.  Las  niñas  obtienen  mejores  resultados  en  la 

competencia de  inglés, mientras que  los niños destacan en medio físico. La ocupación y nivel 

de estudios de los padres tienen el efecto esperado. A mayor nivel ocupacional y educativo (en 

este  último  caso  el  relevante  es  el  de  la madre), mejores  resultados  escolares  en  ambas 

competencias. En el caso de la variable que aproxima el efecto de la inmigración (residencia en 

España superior a 5 años) el efecto es el esperado en  las competencias científicas (positivo y 

significativo),  mientras  que  es  negativo  (aunque  no  significativo)  en  las  competencias  en 

lengua  inglesa. Ello podría ser  indicativo de  la mayor facilidad que pueden tener  los alumnos 

de procedencia extranjera para  adaptarse  a nuevos entornos  lingüísticos. Otra  variable que 

presenta  el  efecto  esperado  es  el  número  de  libros  existente  en  el  hogar:  los  hogares que 

manifiestan  disponer  de  más  de  100  libros  inciden  positivamente  en  la  adquisición  de 

competencias  educativas.  A  este  resultado  hay  que  sumar  un  efecto  positivo  y 

estadísticamente  significativo de  los  libros por parte del niño:  los  alumnos que manifiestan 

utilizar con frecuencia libros de lectura, muestran unos mejores resultados académicos. 

De los  diferentes ítems utilizados en la ED para aproximar la riqueza familiar sólo en número 

de televisiones en casa demuestra  influir de manera significativa en  los resultados (influencia 

negativa) 

El efecto mostrado por el tiempo de dedicación a las tareas escolares fuera del colegio influye 

negativamente en el rendimiento. Los niños que declaran dedicar más de dos horas diarias a 

estas  tareas muestran  peores  resultados  que  aquellos  que  dedican menos  de  2  horas.  Los 

“deberes” no parecen constituir una buena estrategia de estímulo de  las capacidades de  los 

niños  de  10  años. Otra  posible  interpretación  de  este  efecto  podría  ser  que  los  niños  que 

dedican  más  tiempo  al  trabajo  escolar  fuera  de  las  aulas,  sean  aquellos  que  tienen  más 

dificultades  en  el  aprendizaje.  Una  misma  interpretación  merecen  los  resultados  que 

presentan  las  variables  ayuda  en  el  estudio  y  revisión  de  las  tareas  por  parte  de  padres  o 

profesores particulares. 

La  actitud,  aproximada  por  la  variable  “realizo  las  tareas”, muestra  un  efecto  positivo  en 

ambas competencias, pero no significativo en inglés. En el caso de la aptitud, aproximada por 

Page 32: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

32  

la  variable  “tengo bien  los deberes  cuando  los  corregimos en  clase”, presenta    a  su  vez un 

efecto positivo en los resultados. 

Adicionalmente, la regresión incorpora información sobre tres factores extraídos de un análisis 

de factores principales aplicado a los datos del cuestionario de entorno escolar que completan 

los niños evaluados. El primer factor contiene información sobre la valoración que hace el niño 

de su centro escolar  (el centro tiene actividades culturales y deportivas, uso  la biblioteca del 

centro,  las  instalaciones  están  bien  cuidadas,  etc.).  El  factor  2  sintetiza  la  información  que 

ofrecen  variables  relacionadas  con  la  autopercepción  de  sus  capacidades  académicas 

(comprendo lo que leo, me expreso bien, redacto correctamente, se me dan bien los idiomas, 

etc.). El  factor 3,  finalmente refleja  las percepciones subjetivas del ambiente escolar  (hay un 

buen  ambiente  en  mi  clase,  mis  compañeros  se  ayudan  entre  sí,  me  llevo  bien  con  mis 

profesores,  los  profesores  nos  animan,  etc).  Los  resultados  varían  en  función  de  la 

competencia  evaluada.  Mientras  que  en  inglés  el  factor  1  presenta  un  efecto  positivo  y 

significativo, en medio físico el efecto es negativo pero no significativo. Los otros dos factores 

influyen de manera estadísticamente  significativa en ambas  competencias.  La autoconfianza 

(factor 2) de manera positiva, mientras que  la percepción del ambiente escolar  (factor 3)  lo 

hace de manera negativa. 

Tabla 7. Estimation of fixed effects with robust standard error in the HLM 

Modelos 2 niveles  Modelos 3 niveles 

School variables (Level 2)  Medio físico  Inglés  School variables (Level 3)  Medio físico  Inglés 

Intercept  474.33  ***  976.69  *** Intercept  517.63  ***  964.42  ***

(167.3)  (192.4) (172.9)  (192.1) 

SCHTYPE  19.29  **  7.57  SCHTYPE  22.68  ***  19.77  ***

(8.1)  (7.6)  (7.8)  (7.9) 

Prov. Teruel  4.95  11.97  Prov. Teruel  2.77  9.1 

(11.1)  (17.2)  (12.0)  (17.6) 

Prov. Zaragoza  ‐10.43  12.27  Prov. Zaragoza  ‐10.44  4.73 

(16.7)  (14.9)  (16.1)  (15.1) 

TAM_LOC  0.0  0.00  *** TAM_LOC  0.00  0.00  ***

(0.0)  (0.0)  (0.0)  (0.0) 

Zaragoza capital  21.62  ‐813.51 *** Zaragoza capital  ‐41.17  ‐851.53 ***

(279.4)  (315.8) (290.4)  (319.9) 

Class variables (Level 2) 

PCTGIRLS  ‐34.03  7.52  PCTGIRLS  ‐32.34  22.2 

(37.1)  (36.1)  (43.9)  (24.3) 

PCTREPET  ‐71.97  54.86  PCTREPET  6.8  32.78 

(52.9)  (74.3)  (53.9)  (43.8) 

PCTMAS5Y  25.15  51.11  PCTMAS5Y  ‐21.14  ‐32.33 

(52.3)  (43.2)  (45.3)  (46.4) 

PJOBMUM1  30.03  49.56  PJOBMUM1  10.62  64.53  ***

(49.3)  (49.2)  (23.6)  (21) 

PJOBMUM2  17.59  ‐30.19  PJOBMUM2  ‐4.01  36.81  * 

(43.2)  (37.6)  (25.8)  (21.9) 

PJOBMUM3  24.21  ‐86.35  PJOBMUM3  ‐85.6  2.84 

(99.5)  (90.0)  (64.4)  (50.5) 

MYEARMUM  0.10  8.43  **  MYEARMUM  1.19  2.34 

(3.8)  (3.9)  (3.2)  (2.3) 

Student variables (Level 1)  Student variables (Level 1)

GENERO  ‐11.88  ***  20.3  *** GENERO  ‐11.19  ***  20.45  ***

(2.5)  (2.4)  (2.4)  (2.4) 

Page 33: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

33  

REPETID  ‐29.61  ***  ‐39.73  *** REPETID  ‐28.72  ***  ‐39.88  ***

(6.0)  (6.1)  (6.2)  (5.8) 

JOBMUM1  11.11  ***  11.13  *** JOBMUM1  11.52  ***  11.22  ***

(4.4)  (3.9)  (4.3)  (3.8) 

JOBMUM2  1.01  0.88  JOBMUM2  1.15  ‐0.13 

(3.6)  (3.2)  (3.5)  (3.1) 

JOBMUM3  ‐2.33  2.05  JOBMUM3  0.2  0.73 

(7.7)  (9.0)  (7)  (8.3) 

JOBDAD1  ‐0.44  9.19  *  JOBDAD1  1.6  10.25  * 

(6.6)  (5.4)  (6.5)  (5.5) 

JOBDAD2  ‐3.6  1.71  JOBDAD2  ‐2.01  1.84 

(6.5)  (5.6)  (6.6)  (5.8) 

JOBDAD3  ‐0.96  3.4  JOBDAD3  1.24  3.54 

(6.2)  (5.1)  (6.2)  (5.1) 

YEARSMUM  1.54  ***  1.42  *** YEARSMUM  1.47  ***  1.33  ***

(0.3)  (0.3)  (0.3)  (0.3) 

MAS5YEAR  16.57  ***  ‐8.94  MAS5YEAR  18.74  ***  ‐8.31 

(6.7)  (6.1)  (6.6)  (6) 

NUMBOOKS  13.71  ***  7.22  **  NUMBOOKS  13.26  ***  7.58  ** 

(2.9)  (3.1)  (2.8)  (3.1) 

USOBOOKS  12.73  ***  13.75  *** USOBOOKS  13.76  ***  15.69  ***

(3.4)  (3.0)  (3.2)  (3) 

NUMTVS  ‐7.33  ***  ‐5.24  *** NUMTVS  ‐6.42  ***  ‐5.19  ***

(1.9)  (1.6)  (1.7)  (1.5) 

STUDTIM1  ‐14.51  ***  ‐3.54  STUDTIM1  ‐10.48  ***  ‐3.37 

(3.8)  (3.4)  (3.5)  (3.3) 

STUDTIM2  ‐14.73  ***  ‐11.88  *** STUDTIM2  ‐12.77  ***  ‐12.13  ***

(2.9)  (2.6)  (2.6)  (2.5) 

AUTOEST  ‐27.53  ***  ‐23.15  *** AUTOEST  ‐27.68  ***  ‐23.57  ***

(3.5)  (3.1)  (3.5)  (3.1) 

REVPAD1  ‐10.94  **  ‐2.87  REVPAD1  ‐11.38  **  ‐3.69 

(5.3)  (4.8)  (5.2)  (4.9) 

REVPAD2  ‐9.69  **  ‐0.59  REVPAD2  ‐10.11  **  ‐2.46 

(4.3)  (3.8)  (4.2)  (4) 

REVPAD3  ‐16.83  ***  ‐10.92  *** REVPAD3  ‐17.28  ***  ‐11  ***

(3.7)  (3.1)  (3.6)  (3.1) 

REVPROF  ‐18.03  ***  ‐18.3  *** REVPROF  ‐19.97  ***  ‐18.12  ***

(4.8)  (4.7)  (4.6)  (4.5) 

ACTITUD  13.99  *  9.87  ACTITUD  17.51  **  10.46  * 

(8.5)  (6.6)  (7.4)  (6.5) 

APTITUD  17.03  ***  11.79  *** APTITUD  17.49  ***  11.9  ***

(4.1)  (4.5)  (4.2)  (4.3) 

RELCEN  2.28  4.67  *** RELCEN  ‐0.12  4.04  ***

(1.9)  (1.0)  (1.4)  (1) 

AUTOCONF  18.99  ***  21.89  *** AUTOCONF  18.87  ***  22.03  ***

(1.8)  (1.4)  (1.5)  (1.5) 

PERCAMB  ‐5.83  ***  ‐4.09  *** PERCAMB  ‐8.27  ***  ‐4.37  ***

   (1.4)        (1.3)          (1.3)        (1.3)    

 

 

6.‐ Conclusiones 

El  análisis  realizado  en  este  trabajo  ha  puesto  de manifiesto  la  existencia  de  cierta 

ventaja  de  los  colegios  concertados  de  Aragón  frente  a  las  escuelas  públicas  en  la 

Page 34: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

34  

promoción de algunas competencias educativas; en particular   en  las que tienen que 

ver con el dominio de las destrezas para resolver problemas y cuestiones relacionadas 

con  el  Conocimiento  del  Medio.  Incluso  una  vez  tomadas  en  consideración  las 

diferencias en el entorno sociocultural de los estudiantes que asisten a ambos tipos de 

escuela  (diferencias  que  favorecen  a  las  escuelas  concertadas),  la  asistencia  a  una 

organización educativa  favorece  la obtención de mejores resultados en  la Evaluación 

de Diagnóstico  realizada en 2010 por  los estudiantes de  la comunidad autónoma de 

Aragón. 

En  el  caso  de  las  competencias  en  lengua  inglesa,  segunda materia  evaluada  en  la 

edición  de  2010  de  la  ED,  el  estudio  realizado  no  permite  establecer  relaciones  de 

causalidad entre el  tipo de escuela, pública o  concertada, y  las destrezas adquiridas 

por los estudiantes aragoneses. 

Estos resultados no hacen sino evidenciar  la dificultad de establecer un efecto causal 

claro  entre  el  modelo  de  gestión  escolar  y  los  logros  académicos.  En  efecto, 

comenzábamos nuestro trabajo poniendo de manifiesto la falta de consenso existente 

en  la  literatura  sobre  la  calidad  diferencial  de  los  centros  educativos  públicos  y 

concertados,  encontrándose  estudios  con  conclusiones  contradictorias.  Nuestro 

trabajo  supone  una  nueva  aportación  que  añade  un  nuevo  factor  al  estado  de 

confusión  general  que  rodea  a  esta  cuestión:  el  ámbito  competencial  objeto  de 

análisis.  En  ciertas  competencias  educativas  el modelo  de  gestión  de  las  escuelas 

concertadas presenta ventajas, mientras que en otras las aportaciones de este tipo de 

centros escolares son similares a las de los centros públicos. 

A pesar del esfuerzo realizado para obtener una estimación depurada del  impacto de 

los  colegios  concertados,  en nuestro  trabajo persisten  ciertas  limitaciones  a  las que 

trataremos de atender en extensiones  futuras del mismo. En particular, nos gustaría 

contrastar la sensibilidad de los resultados al tratamiento de los valores missings de la 

base de datos  y a  las  variables  inobservables que potencialmente pueden  ser  causa 

adicional del sesgo de selección. 

 

References:  

Altonji, J. G., Elder, T.E. y Taber, C. R. (2008): “Using selection on observed variables to assess bias  from  unobservables  when  evaluating  Swan‐Ganz  catheterization”,  American  Economic Review, 98 (2), pp. 345‐350. 

Anand, P., Mizala, A. y Repetto, A. (2009): “Using school scholarships to estimate the effect of private education on the academic achievement of  low‐income students  in Chile”, Economics of Education Review, 28, (3),pp. 370‐381. 

Angrist, J. D. y Pischke, J. S. (2008): Mostly Harmless Econometrics: An Empiricist's Companion. Priceton University Press. USA. 

Page 35: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

35  

Batlagi, D.H. (1999): Econometrics, 2nd edition, Springer: Berlin. 

Bifulco,  R.  y  Ladd,  H.F.  (2006):  “The  Impacts  of  Charter  Schools  on  Student  Achievement: Evidence from North Carolina”, Education Finance and Policy, 1( 1),pp. 50‐90. 

Brewer, D.J. y McEwan, P.J. (2010): Economics of Education. Elsevier. Academic Press. 

Bryk  A.S.  y  Raudenbusch  S.W.  (1988):  “Toward  a  More  Appropriate  Conceptualization  of Research  on  School  Effects:  A  Three‐Level  Hierarchical  Linear Model”,  American  Journal  of  Education, 97 ( 1), pp. 65‐108. 

Burgess,  S.  y  Briggs,  A.  (2010):  “School  assignment,  school  choice  and  social  mobility”. Economics of Education Review, 29, pp. 639–649. 

Calero, J. y Escardibul, J.O.  (2007): “Evaluación de servicios educativos: el rendimiento en  los centros  públicos  y  privados medido  en  PISA‐2003”.  Hacienda  Pública  Española.  Revista  de Economía, 183 (4), pp. 33‐66. 

Caliendo,  M.  y  Kopeinig,  S.  (2008):  “Some  Practical  Guidance  for  the  Implementation  of Propensity Score Matching”, Journal of Economic Surveys, 22(1), pp. 31‐72. 

Campbell,  D.  T.  (1957):  “Factors  relevant  to  the  validity  of  experiments  in  social  settings”, Psychological Bulletin, 54(4), pp. 297‐312. 

Chowa,  G.,   Masa,  R.  D., Wretman,  C.J.  y    Ansong,  D.  (2013):  “The  impact  of  household possessions  on  youth's  academic  achievement  in  the  Ghana  Youthsave  experiment:  A propensity score analysis”, Economics of Education Review, 33, pp. 69‐81 

Chudgar  y Quin  (2012):  “Relationship  between  private  schooling  and  achievement:  Results from rural and urban India”, Economics of Education Review, 31 (4), pp. 376‐390. 

Coleman, J., Hoffer, T., y Kilgore, S. (1982): Secondary school achievement. Public, catholic and private schools compared. New York: Basic Books, Inc. Publishers. 

Cordero, J.M., Crespo,E. y Pedraja, F. (2013): “Rendimiento educativo y determinantes según PISA:  Una  revisión  de  la  literatura  en  España”,  Revista  de  Educación,  362,  en  prensa. DOI:10.4438/1988‐592X‐RE‐2011‐362‐161. 

Crespo,  E.  y  Santín,  D.  (2013):  “Does  school  ownership  matter?  An  unbiased  efficiency comparison  for  regions of Spain”,  Journal of Productivity Analysis, DOI 10.1007/s11123‐013‐0338. 

Doncel, L.M., Sainz, J. y Sanz, I. (2012): “An estimation of the advantage of charter over public schools”, Kyklos, 65 (4), pp. 442‐463. 

Escardíbul, J.O., y Villarroya A. (2009): “The inequalities in school choice in Spain in accordance to PISA data”. Journal of Education Policy, 24, (6), pp. 673‐695. 

Figel, J. (2010): Informe Educación y Atención a  la Primera Infancia en Europa: un medio para reducir  las  desigualdades  sociales  y  culturales.  Agencia  Ejecutiva  en  el  ámbito  Educativo, Audiovisual y Cultural  (EACEA P9 Eurydice). Ed. Ministerio de Educación y Ciencia. Disponible también en http://www.eurydice.org. 

Page 36: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

36  

Gallego,  F.A.  y Hernando, A.  (2010):  “School Choice  in Chile:  Looking  at  the Demand  Side”, Documento de Trabajo número. 356,  Universidad Pontificia Católica de Chile  

Greene, K.V. y Kang, B.  (2004): “The effect of public and private competition on high school outputs in New York State”. Economics of Education Review, 23, pp. 497‐506. 

Gronberg, T.J. y Jansen, D.  (2001): Navigating newly chartered waters. An analysis of charter school performance. Austin, TX. Texas Public Policy Foundation. 

Guo, S. y Fraser, M.W. (2010): Propensity Score Analysis. Statistical Methods and Applications. SAGE publications. London. 

Hanushek, E. Machin, S. y Woessmann, L. (2011): Handbook of the Economics of Education (4). Elsevier. Amsterdam. 

Heckman, J. J. (2005): “The scientific model of causality”,Sociological Methodology, 35, pp. 1–97. 

Holland, P. (1986): “Statistics and causal inference (with discussion)”, Journal of the American Statistical Association, 81, pp. 945‐970. 

Hox, J. (1995):  Applied Multilevel Analysis. TT‐Publikaties. Amsterdam. 

Hsieh, C. T. y Urquiola, M.  (2006): “The effects of generalized school choice on achievement 

and  stratification: Evidence  from Chile's  voucher program”,  Journal of Public Economics, 90, 

(8–9), pp. 1477‐1503. 

Kim, Y.J.  (2011): “Catholic schools or school quality? The effects of Catholic schools on  labor market outcomes”, Economics of Education Review, 30 (3), pp. 546‐558. 

Lefebvre, P., Merrigan, P. y  Verstraete, M. (2011): “Public subsidies to private schools do make a difference for achievement in mathematics: Longitudinal evidence from Canada”, Economics of Education Review, 30 (1), pp. 79‐98. 

Mancebón, M.J. y Muñíz, M.A. (2008): “Public High Schools in Spain. Disentangling managerial and program efficiencies”, Journal of the Operational Research Society, 59, pp. 892‐ 901. 

Mancebón, M.J. y Pérez‐Ximénez de Embún (2011): “Equality of school choice: a study applied to the Spanish region of Aragon”, Education Economics, DOI: 10.1080/09645292.2010.545197. 

Mancebón, M.J., Calero,  J., Choi, A. y Pérez‐Ximénez de Embún, D.  (2012): “The Efficiency of Public and Publicly‐Subsidized High Schools in Spain. Evidence from PISA‐2006”, Journal of the Operational Research Society, 63, pp. 1516‐1533. 

Morgan,  S.  L.  y  Winship,  C.  (2008):  Counterfactuals  and  Causal  Inference:  Methods  and Principles for Social Research. Cambridge University Press. UK. 

Murname, R.J. y Willett, J.B. (2011): Methods matter. Oxford University Press. New York. 

Neyman,  J.S.  (1923):  “Statistical problems  in  agricultural  experiments”,  Journal  of  the Royal Statistical Society, Series B, 2, pp. 107‐180. 

Page 37: EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE ... modelo de gestión

37  

Perelman,  S.  y  Santin,  D.  (2008):  “Measuring  educational  efficiency  at  student  level  with parametric  stochastic  distance  functions:  an  application  to  Spanish  PISA  results”.  Education Economics, 19 (1), pp. 29‐49. 

Reynolds, C.L. (2012): “Where to attend? Estimating the effects of beginning college at a two‐year institution”, Economics of Education Review, 31 (4), pp. 345‐362. 

Rosenbaum, P. R. y Rubin, D.B. (1983): “The central role of propensity score  in observational studies for causal effects”, Biometrika, 70, pp. 41‐55. 

Rosenbaum, P. R. (2002): Observational Studies. Springer, New York. 

Rubin,  D.  B.  (1974):  “Estimating  causal  effects  of  treatments  in  randomized  and  non‐randomized studies”, Journal of Educational Psychology, 66, pp. 688‐701. 

Rubin, D. B. (1990): “Bayesian inference for causal effects : the role of randomization”, Journal of Statistical Planning and Inference, 25, pp. 279‐292. 

Rubin,  D.  B.  (1978):  “Formal models  of  statistical  inference  for  causal  effects  :  the  role  of randomization”, Annals of Statistics, 6, pp. 34‐58. 

Salinas,  J.  y  Santín,  D.  (2012):  “Selección  escolar  y  efectos  de  la  inmigración  sobre  los resultados académicos españoles en PISA 2006”, Revista de Educación. 358, pp. 382‐405. 

Shadish, W.  R.,  Cook,  T.D.  y    Campbell, D.  T.  (2002):  Experimental  and Quasi‐Experimental Designs for Generalized Causal Inference. Houghton Mifflin Company. Boston. 

Smith,  H.  L.  y  Tood,  P.  E.  (2005):  “Does  matching  overcome  LaLonde’s  critique  of  non‐experimental estimators?”, Journal of Econometrics, 125, pp. 305‐353. 

Somers M.A.  , McEwan P.J. y Willms  J.D.  (2004): “How Effective Are Private Schools  in Latin America?”,  Comparative Education Review, 48, (1), pp. 48‐69. 

Tamm, M. (2008): “Does money buy higher schooling?: Evidence from secondary school track choice in Germany”, Economics of Education Review, 27( 5), pp. 536‐545. 

Willms J.D. (2006): Learning divides: Ten policy questions about the performance and equity of schools and schooling systems. UIS Working Paper, número 5. UNESCO Institute for Statistics: Montreal. 

Witte, J.F., Weimer, D. Shober, A. y Schlomer, P. (2007): “The performance of charter schools in Wisconsin”, Journal of Policy Analysis and Management, 26, pp. 574‐575.