Upload
ngonhu
View
213
Download
0
Embed Size (px)
Citation preview
Title— Adaptive Questionnaires Improvement Process:
Implementation and Early Experiences with e-valUAM.
Abstract— Adaptive questionnaires allow identifying the
most appropriate question at a particular moment during an
evaluation process. There are several approaches to implement
adaptive questionnaires, but not many to ensure their quality.
This article shows a procedure to improve the adaptive
questionnaires quality by considering the relevance of each
question. So, a level is associated to each question, which allows
analysing the students' answers in order to identify how to
improve the evaluation process. The proposed method has been
implemented in e-valUAM that allows building adaptive
questionnaires and has enabled carrying out the first
experiments to validate the approach.
Index Terms— e-Learning, Adaptive Systems, Computer
aided instruction, Qualifications.
I. INTRODUCCIÓN
OS entornos de aprendizaje asistido por ordenador
(Computer-Aided Learning, CAL) tienen cada vez
mayor presencia en las instituciones educativas. En la
actualidad, es una práctica habitual el hecho de que
profesores y estudiantes utilicen procedimientos
informáticos como apoyo en sus procesos de
enseñanza/aprendizaje. En este sentido, los procesos de
evaluación o auto-evaluación pueden beneficiarse
especialmente de la utilización de estas prácticas. Por otra
parte, los entornos de aprendizaje completamente online,
como son las tendencias emergentes en los cursos masivos
Pablo Molins-Ruano pertenece al Dpto. de Ingeniería Informática.
Escuela Politécnica Superior, Universidad Autónoma de Madrid, 28049, Madrid (Spain). (e-mail: [email protected])
Francisco Borrego-Gallardo pertenece al Dpto. de Historia Antigua,
Historia Medieval y Paleografía y Diplomática, Facultad de Filosofía y Letras Universidad Autónoma de Madrid, 28049, Madrid (Spain). (e-mail:
Covadonga Sevilla pertenece al Dpto. de Historia Antigua, Historia Medieval y Paleografía y Diplomática, Facultad de Filosofía y Letras
Universidad Autónoma de Madrid, 28049, Madrid (Spain). (e-mail:
[email protected]) Francisco Jurado pertenece al Dpto. de Ingeniería Informática. Escuela
Politécnica Superior, Universidad Autónoma de Madrid, 28049, Madrid
(Spain). (e-mail: francisco.jurado @uam.es) Pilar Rodriguez pertenece al Dpto. de Ingeniería Informática. Escuela
Politécnica Superior, Universidad Autónoma de Madrid, 28049, Madrid
(Spain). (e-mail: pilar.rodriguez@ uam.es) Sacha Gómez-Moñivas pertenece al Dpto. de Ingeniería Informática.
Escuela Politécnica Superior, Universidad Autónoma de Madrid, 28049,
Madrid (Spain). (e-mail: [email protected]
abiertos online (Massive Open Online Courses, MOOC) [1],
han hecho indispensable el uso de entornos de técnicas y
metodologías procedentes del mundo de los entornos CAL.
En este contexto, aquellos sistemas que son capaces de
proporcionar algún tipo de retroalimentación a los
estudiantes parecen ser más efectivos que los que no lo
hacen [2]. Así, pueden encontrarse herramientas de
evaluación para algunos dominios de aprendizaje
específicos que son capaces de aconsejar a los estudiantes
[3][4][5][6]. Sin embargo, tratando de proporcionar
información y asesoramiento a los estudiantes para dominios
más generalizados, los test adaptativos (Computer Adaptive
Testing, CAT) parecen ofrecer ventajas que van más allá de
proporcionar una mera puntuación instantánea [7]. Los
entornos que hacen uso de test adaptativos tienen en cuenta
las características particulares de los alumnos con el fin de
ser capaces de adaptar las cuestiones que se les presentan en
función de sus respuestas anteriores, a menudo incluyendo
algún tipo de retroalimentación personalizada [8]. Pueden
encontrarse ejemplos de la aplicación de test adaptativos
para mejorar competencias lingüísticas [9], identificar
estilos de aprendizaje [10], medir competencias
ajedrecísticas [11] o capacidad matemática [12], mejorar
algunas características de la personalidad [13] o evaluar el
estado de salud de los participantes [14]. En el ámbito
educativo, desde hace décadas se han propuesto y utilizado
diferentes aproximaciones y sistemas basados en CAT, con
el fin de mejorar el proceso de aprendizaje [15][16][17][18].
En cualquier caso, a pesar de las ventajas que pueda
suponer el uso de cuestionarios adaptativos en entornos
educativos, es posible que los enunciados de las preguntas
que los componen no sean adecuados, bien porque hayan
sido mal clasificados en un tema, bien porque no hayan sido
claramente redactados, etc. Y este hecho puede conducir al
uso de cuestionarios de mala calidad que no sean realmente
útiles. Por tanto, contar con cuestionarios de calidad
constituye una de las bases del éxito del sistema adaptativo.
Esta situación conduce a afrontar una cuestión importante:
la necesidad de calibrar las preguntas de los cuestionarios
para que puedan ser utilizados adecuadamente. Por lo
general, un buen proceso de calibración implica que el
cuestionario debe ser realizado por una amplia muestra de
usuarios [12], sin embargo, debido a que dicha pre-
calibración no siempre es factible, suelen emplearse
modelos de estudiantes con el fin de perfeccionar la calidad
del proceso de evaluación [19][20][21][22].
Proceso de Mejora de Cuestionarios
Adaptativos: Implementación y Primeras
Experiencias con e-valUAM
Pablo Molins-Ruano, Francisco Borrego-Gallardo, Covadonga Sevilla
Francisco Jurado, Pilar Rodríguez, Sacha Gómez-Moñivas
L
VAEP-RITA Vol. 3, Núm. 3, Sep. 2015 141
ISSN 2255-5706 © IEEE-ES (Capítulo Español)
En este sentido, este trabajo presenta una metodología
para mejorar la calidad de los cuestionarios, y muestra cómo
dichos cuestionarios son empleados en un sistema
adaptativo concreto. Como se verá, la metodología divide
las preguntas de los test en categorías. Las categorías
pueden estar asociadas con el grado de abstracción o
complejidad con el que se formule la pregunta, la dificultad
de los conceptos que traten las cuestiones respecto a cierto
tema de la asignatura o con cualquier otro aspecto de las
preguntas que las relacione de alguna forma en niveles. La
metodología propuesta ha sido implementada en e-valUAM1
(disponible en http://sacha.ii.uam.es), una aplicación que
tiene como objetivo aumentar la calidad de los test mediante
la mejora de la objetividad, la solidez, la seguridad y la
relevancia de los contenidos. En esta aplicación, el modelo
numérico subyacente tiene en cuenta la relevancia de las
preguntas respecto a la materia en cuestión, y conserva toda
la información que pueda resultar relevante sobre el proceso
de aprendizaje de los estudiantes; información que
típicamente suele obtenerse a través de herramientas de
evaluación tradicionales, tales como las pruebas de
respuesta abierta.
En trabajos anteriores [23], se presentaron algunas ideas
que a continuación se exploran con más detalle. En la
Sección II, se describe el marco general utilizado para
construir y mejorar la calidad de las baterías de
cuestionarios tipo test en un entorno adaptativo y, en la
Sección III, el modelo utilizado en e-valUAM para la
generación adaptativa de cuestionarios. La implementación
de e-valUAM se presenta en la Sección IV y las primeras
experiencias realizadas en la Sección V. Finalmente, en la
Sección VI se presentan algunas conclusiones.
II. MARCO GENERAL PARA LA ELABORACIÓN Y MEJORA DE
LA CALIDAD DE LOS CUESTIONARIOS
Para poder elaborar cuestionarios tipo test que sean
calificadores en una materia concreta, es necesario
establecer un procedimiento realimentado que permita
refinar los mismos según algunos criterios preestablecidos.
En ese sentido, proponemos apoyarnos en una metodología
que considera que las cuestiones están asociadas a distintos
niveles, las cuales pueden gestionarse de manera adaptativa
1 Es necesario contactar con [email protected] para obtener usuario
y contraseña.
con independencia del sentido que se atribuya a la escala de
niveles.
El proceso general se refleja en la figura 1, y consta de
cuatro fases esenciales que comienzan por la creación de las
baterías de cuestiones iniciales. La realimentación se realiza
una vez completado el ciclo: creación-ejecución-evaluación-
reclasificación. El objetivo de cada una de las fases se indica
a continuación.
1) Creación y clasificación inicial de las preguntas: en
esta fase inicial, los profesores implicados en la materia han
de diseñar los enunciados correspondientes a las cuestiones
según la materia de la que se trate. Además, ha de
especificarse el número de niveles que se utilizará para
categorizar las preguntas (Nl), así como el nivel concreto
asignado inicialmente a cada una.
En este marco general, los profesores pueden elegir
clasificar las preguntas según su dificultad, atendiendo a la
relevancia de los conceptos subyacentes, o en función de
cualquier otro criterio posible asociado a niveles. La
existencia de niveles repercutirá, de una manera u otra, en la
forma en que se planteen las cuestiones a los estudiantes.
Evidentemente, la elaboración de las preguntas puede ser
labor de un conjunto de profesores, y no necesariamente de
una sola persona. Si son varios los profesores de la materia
que participan en esta fase, cada uno de ellos podría
establecer el nivel de las preguntas de forma independiente,
determinándose el valor final de los niveles por consenso.
2) Ejecución de los test: en esta fase se recogen las
respuestas de los estudiantes a las cuestiones planteadas. El
mecanismo por el que se elige una u otra pregunta es
trasparente al estudiante, y viene determinado por el sistema
adaptativo subyacente. Sea cual sea dicho sistema, el
estudiante no ha de conocer el nivel de las preguntas que se
le planteen.
3) Estudio estadístico: según los estudiantes van
realizando las pruebas, el sistema calculará todos los datos
estadísticos que pueda extraer de los resultados de las
mismas. En este sentido, se pueden tener en cuenta
cuestiones como el tiempo que tardan los alumnos en
responder cada pregunta, la relación de aciertos/fallos para
cada una de ellas, cómo se distribuyen las diferentes
respuestas dentro de una pregunta, etc. Con toda esa
información, el sistema genera informes que permitan
detectar las desviaciones en aquellas preguntas más
problemáticas, atendiendo al modelo de calidad que los
diseñadores de los cuestionarios hayan establecido. Así, por
ejemplo, si se pretende diseñar un cuestionario que deba
realizarse con un límite acotado de tiempo, se intentarán
identificar aquellas preguntas que precisen más tiempo del
estimado como razonable para el cuestionario, atendiendo
para ello al indicador tiempo de respuesta.
4) Revisión y reclasificación: en esta fase se toman
acciones de mejora sobre las preguntas problemáticas
detectadas en la fase anterior según el modelo de calidad
buscado. Estas acciones pueden ser no supervisadas, como
la reasignación de niveles a dichas cuestiones o su
eliminación de la base de datos de preguntas. También,
como se indica en la figura 1, las cuestiones que resulten
problemáticas pueden ser reenviadas a los profesores para
que valoren cuáles son las acciones más pertinentes que, por
ejemplo, pueden incluir la reescritura del enunciado si se
Fig. 1. Procedimiento general de creación y reclasificación de cuestiones.
142 VAEP-RITA Vol. 3, Núm. 3, Sep. 2015
ISSN 2255-5706 © IEEE-ES (Capítulo Español)
considera que pudiese conducir a equívoco. Durante esta
etapa, si el sistema se utiliza para evaluación, es posible que
las notas de los alumnos sufran modificaciones que recojan
la eliminación o modificación de ciertas preguntas.
III. GENERACIÓN ADAPTATIVA DE CUESTIONARIOS
Uno de los objetivos contemplados en el diseño de e-
valUAM era tener en cuenta un esquema de cuestiones
asociadas a niveles que permitiese calibrar adecuadamente
los conocimientos de los estudiantes.
Esta calibración puede realizarse desde diversos puntos de
vista. Quizá el más inmediato sea clasificar los niveles de las
preguntas por dificultad. Sin embargo, esta clasificación no
necesariamente ha de ser la más adecuada, pues la ventaja
que presenta eval-UAM es el orden en el que presenta los
ítems dependiendo de las respuestas anteriores. Así, ordenar
por nivel de dificultad no presenta en principio una ventaja
evidente. En ese sentido, puede resultar mucho más
interesante clasificar desde un punto de vista conceptual.
Las preguntas podrían clasificarse por grado de relevancia,
donde los profesores determinarían qué conocimientos son
más importantes dentro de la materia y, por tanto, deberían
estar situados en los primeros niveles. En este caso, eval-
UAM mostrará al alumno en primer lugar las preguntas de
primer nivel y por tanto las preguntas más relevantes
estimadas por el equipo docente. Únicamente cuando el
alumno tenga conocimiento suficiente al respecto, empezará
a enfrentarse al resto de preguntas. Otra posibilidad es
clasificar las preguntas por niveles en relación al tipo de
lenguaje utilizado, donde el lenguaje y los conceptos que se
preguntan van siendo más formales a medida que aumentan
los niveles de las preguntas. Este formato sería adecuado si
queremos distinguir el conocimiento formal y estricto de
una materia frente a un conocimiento más mundano.
En nuestro caso, los niveles de las preguntas están
asociados a la necesidad de conocer ciertos conceptos, no
así necesariamente a su dificultad. Para crear el modelo, se
propone utilizar como criterio de clasificación en niveles la
relevancia que tenga el concepto de cada pregunta dentro del
área de estudio [23]. De esta forma, el nivel inicial incluirá
los conceptos más relevantes y, según se va subiendo en los
niveles, las preguntas se irán centrando en nuevos conceptos
que solo son relevantes una vez se ha logrado una robusta
base de los conceptos de niveles previos. Así, se consigue
una adaptación que atiende a qué conocimiento ha
alcanzado el alumno, permitiéndole afianzar aquellos que
aún no domina e impidiéndole que acceda a conceptos que
le resultarían más complejos. Con esto se busca evitar
situaciones como que un alumno apruebe porque sabe
resolver los problemas planteados en el examen al aplicar un
procedimiento, pero que no haya asimilado los conceptos
que le permitirán aplicar ese procedimiento a nuevas
situaciones. En este modelo, el énfasis se centra en los
niveles más bajos.
Concretamente, en la implementación de e-valUAM,
todos los alumnos deben responder el mismo número de
preguntas (aunque responderán a preguntas de distintos
niveles según hayan sido sus respuestas). El modelo está
definido por dos parámetros básicos: Nl, el número de
niveles, y Nv, el número de preguntas que se le plantearán a
los estudiantes. Una vez definidos ambos parámetros, las
preguntas se distribuyen como se muestra en la figura 2
[24], de tal forma que los niveles de las preguntas se
incrementan de izquierda a derecha, de forma constante de
arriba a abajo. El cuestionario empieza con la pregunta que
está situada en la esquina superior izquierda. Cuando el
alumno da una respuesta equivocada, se toma el camino de
la flecha más clara, moviéndose un paso hacia abajo y
siendo su siguiente pregunta del mismo nivel. Si diera una
respuesta correcta, el alumno tomaría el camino de la flecha
oscura, un paso hacia abajo y hacia la columna de la
derecha. Dado que los niveles no cambian verticalmente, la
única manera de empezar a responder preguntas de niveles
superiores es acertar un número mínimo de respuestas
correctas (es decir, desplazarse a la derecha en el gráfico).
Por ejemplo, si el examen tiene como parámetros Nl=3 y
Nv=36, cada alumno deberá responder al menos 12
preguntas correctas en cada nivel para pasar al siguiente. En
la parte baja del gráfico aparecen las notas, que van de
menor a mayor de izquierda a derecha. En este modelo de
examen el número de notas distintas es Nv+1.
IV. IMPLEMENTACIÓN: E-VALUAM
e-valUAM se creó para probar el procedimiento general
referido en la Sección II para la mejora de la calidad de
cuestionarios, y utiliza el modelo de generación de
cuestionarios adaptativos mencionado en la sección anterior.
También se pretendía que el uso del sistema fuera sencillo e
inmediato tanto para profesores como para estudiantes.
En situaciones reales, todos los cursos se dividen en
materias (los conceptos más generales) en torno a las cuales
se organiza el contenido del curso. Así, e-valUAM empieza
su jerarquía con las materias. Una materia está compuesta
por un conjunto de niveles que se definen siguiendo el
modelo de la sección anterior. Cada nivel consta de un
conjunto de preguntas, y una de ellas de un conjunto de
respuestas posibles de las cuales una es la correcta. El
número de niveles queda a criterio del profesor, como
también el número de preguntas dentro de cada nivel, y el
número de respuestas por pregunta, aunque debe ser
uniforme dentro de la misma materia.
Fig. 2 Descripción gráfica del modelo de cuestionario adaptativo utilizado
en e-valUAM [23].
MOLINS RUANO et al.: PROCESO DE MEJORA DE CUESTIONARIOS ADAPTATIVOS: IMPLEMENTACIÓN... 143
ISSN 2255-5706 © IEEE-ES (Capítulo Español)
Una vez determinada la batería de preguntas asociadas a
una materia, es posible definir tantos cuestionarios como se
deseen. Estos cuestionarios pueden crearse con el fin de que
los alumnos los utilicen como herramientas de
autoevaluación o, también, para que los profesores los
utilicen como herramienta de evaluación, existiendo la
posibilidad de crear varios de cada tipo para una misma
materia. Para ello, en cada caso se deberán determinar tres
parámetros: a) el número de cuestiones que se planteará a
los estudiantes (Nv según el modelo utilizado), b) el tiempo
máximo de que dispondrá cada estudiante para completar el
cuestionario y c) la franja temporal en la que podrá
comenzar a realizarlo.
Cuando el alumno realice el cuestionario, el sistema
elegirá de forma dinámica qué preguntas va presentando a
cada estudiante en función del nivel de las preguntas, tal y
como se refería en la sección anterior. Por ejemplo, si una
materia tiene un repositorio de 1000 preguntas y un
cuestionario en concreto se define como un test de 50
preguntas, cada estudiante deberá responder a 50 preguntas
elegidas aleatoriamente entre las 1000 disponibles.
Actualmente, la aplicación de e-valUAM está dividida en
dos áreas independientes. La primera de ellas está orientada
a los estudiantes, y a través de ella pueden acceder a realizar
las pruebas de autoevaluación o de evaluación que los
profesores hayan definido previamente. Por su parte, los
profesores también pueden acceder a esta área para
comprobar en todo momento cómo están resultando los
cuestionarios propuestos. Además, existe un área reservada
para profesores, desde donde tienen acceso a los resultados
de las pruebas junto a los valores estadísticos que la
aplicación haya calculado hasta el momento.
En la figura 3 se puede ver la interfaz de e-valUAM
cuando el alumno está haciendo una prueba, ya sea de
autoevaluación o establecida por el profesor. En ambos
casos, accederán a la imagen de la figura 3 (a) en la que se
muestra un ejemplo de una pregunta de examen para
estudiantes de educación primaria. Además de imágenes y
texto, el sistema también permite acompañar las preguntas
con audio, con el objetivo, entre otros, de mejorar la
accesibilidad de la herramienta. Si el examen es de
autoevaluación, los alumnos podrán recibir feedback al
terminar el examen, tal y como se muestra en la imagen (b).
En la figura 3a se muestra cómo es el desarrollo del
examen, durante el cual el estudiante no recibe información
sobre su evolución respecto al modelo. Aun así, la
aplicación está evaluando las respuestas en cada paso,
decidiendo cuál será la siguiente pregunta siguiendo el
modelo explicado en la sección anterior.
En cuanto a la selección de preguntas, imaginemos un
estudiante que usa la aplicación por primera vez y tiene
poco conocimiento de la materia. Probablemente fallará
muchas preguntas, en cuyo caso la aplicación no le mostrará
preguntas del segundo nivel. Según el estudiante vaya
mejorando sus habilidades en el tema, el sistema le
enfrentará a preguntas del segundo nivel en ejecuciones
posteriores. De esa manera, el alumno podrá aprender de
una manera dinámica y, lo más importante, en el orden que
el profesor considera más adecuado. Por esto es importante
que el alumno no conozca los resultados hasta el final del
cuestionario. La forma en la que el estudiante visualiza el
resultado de su examen es la que muestra la figura 3b.
En el caso de procesos de autoevaluación, el feedback del
test podría ser inmediato para determinadas aplicaciones u
objetivos. Sin embargo, como se explica a continuación, la
propia naturaleza del proceso de evaluación desaconseja esta
práctica en el caso de ejecuciones orientadas a la evaluación
final de los alumnos.
Se ha configurado el sistema para que no presente los
resultados a los alumnos que terminan el cuestionario si éste
está propuesto por el profesor como sistema de calificación,
para que así los profesores puedan realizar la cuarta fase de
la metodología propuesta en la Sección II de forma
transparente al estudiante. Como se ha mencionado, durante
el proceso de evaluación, la aplicación va almacenando toda
la información relativa a las preguntas mostradas a los
estudiantes: sus respuestas, el tiempo que tardaron y el
momento en el que respondieron, además de la calificación
final obtenida. Toda esta información solo es accesible a
través del área privada del profesor, como se puede ver en la
Fig. 3 Interfaz de e-valUAM para estudiantes. (a) ejemplo de una pregunta para estudiantes de educación primaria; (b) feedback tras terminar el examen.
144 VAEP-RITA Vol. 3, Núm. 3, Sep. 2015
ISSN 2255-5706 © IEEE-ES (Capítulo Español)
figura 4. En la figura 4a se muestra la página principal de la
interfaz del profesor donde los profesores pueden elegir
entre todos los test que se han realizado, para poder obtener
los datos de cada uno de ellos. De cualquier cuestionario, ya
sea de evaluación o de autoevaluación, el profesor puede
revisar todas las veces que cualquier estudiante lo ha
intentado, y ver toda la información relativa a ese intento,
como se muestra en la figura 4b.
En este área privada, el profesor también puede acceder a
informes sobre los indicadores de calidad de las preguntas
atendiendo al modelo de calidad que emplee, y consultar
qué preguntas han sido más problemáticas para los alumnos.
En el caso de e-valUAM, la calidad de las preguntas se ha
medido en función del ratio de respuestas fallidas respecto a
respuestas totales (vease ejemplo en la figura 5), aunque
otros modelos son posibles. Con esa información el profesor
puede decidir qué hacer con ellas, si cambiarlas de nivel, si
reformularlas o directamente eliminarlas. Un trabajo que
para un examen tradicional sería costoso en tiempo y
recursos, ya que es un trabajo que tiene que hacer el
profesor manualmente, se convierte en una actividad
automatizada con una intervención menor y rápida por parte
del profesor, lo que logra mejorar de una forma sustancial la
calidad de las preguntas.
V. PRIMERAS EXPERIENCIAS
Buscando probar si e-valUAM era capaz de asistir
correctamente a los profesores aplicando la metodología de
mejora de la calidad propuesta, en concreto detectando las
preguntas que necesitan ser revisadas o reclasificadas, se
utilizó como herramienta de evaluación durante el curso
2013-2014 en el curso de “Historia Antigua I” del Grado en
Historia de la Universidad Autónoma de Madrid. La
profesora de la asignatura y otros dos compañeros
redactaron las preguntas. Cada uno de ellos asignaba un
nivel a cada pregunta (tanto a las suyas como a las de los
otros dos) de forma independiente. Si los niveles asignados
no coincidían, discutían juntos a qué nivel debía ser
asignado, estableciendo así un criterio común y uniforme.
15 estudiantes participaron en las pruebas, presentándose a 3
pruebas distintas a lo largo del curso, que se acompañaron
de otras tres pruebas de autoevaluación. Se les dejó libertad
para decidir si querían utilizar la aplicación como
autoevaluación o no. Seis de los alumnos accedieron menos
de tres veces para realizar una autoevaluación, mientras que
otros seis accedieron más de 15 veces cada uno para los
mismos fines. En total, la profesora y sus dos compañeros
crearon más de 372 preguntas que se respondieron 12.386
veces en total. El tiempo que los profesores necesitan para
desarrollar las preguntas con este sistema es un parámetro
muy importante y que hay que tener en cuenta a la hora de
valorar la utilidad de la aplicación. Sin embargo depende
críticamente de la materia de la que se trate. Por ejemplo, en
el caso de preguntas de las asignaturas elegidas para esta
experiencia, los profesores emplearon una gran cantidad de
tiempo en la búsqueda y diseño de mapas históricos. En
otras experiencias realizadas con asignaturas de cálculo
numérico, el tiempo se dedicó principalmente a la resolución
de los problemas y la búsqueda de respuestas erróneas que
fueran adecuadas (en el caso de problemas numéricos las
respuestas erróneas no deben ser automáticamente
descartables ni demasiado cercanas a la solución correcta).
Sin embargo, en todos los casos, con e-valUAM se
automatizó el tercer paso de la metodología propuesta,
haciendo menos costoso el proceso de análisis estadístico.
De todas las preguntas, cada una con tres respuestas
posibles, solo 10 preguntas tuvieron una tasa de fallo
superior al 66,66% (máximo aleatorio), lo que implica que
solo un 2,69% de las preguntas necesitaron revisión, además
de que el coste de detección fue mínimo.
Con esta herramienta se pudieron hacer análisis muy
interesantes de cara a la cuarta fase de la metodología
propuesta, pudiendo mejorar la batería de preguntas para
años posteriores. Un ejemplo de ello se muestra en la figura
5. En ella se pueden ver que los dos ítems que encabezan la
tabla tienen un ratio de fallo de 94,12% y 88,24% (ambos
sobre 17 respuestas) que es notablemente superior al 66,66%
que se espera de un patrón de respuestas aleatorio para 3
respuestas posibles. Es evidente que algo falla en esas dos
preguntas. En concreto, en la primera pregunta un 65% de
los alumnos eligieron una respuesta incorrecta, mientras que
solo un 29% eligió la otra respuesta incorrecta (mientras que
Fig. 4 Interfaz de e-valUAM para los profesores.
(a) (b)
MOLINS RUANO et al.: PROCESO DE MEJORA DE CUESTIONARIOS ADAPTATIVOS: IMPLEMENTACIÓN... 145
ISSN 2255-5706 © IEEE-ES (Capítulo Español)
un 6% acertó). Si los alumnos no conocieran la respuesta,
sería de esperar que los ratios se repartieran a partes iguales,
por lo que esta desviación hacia una de las respuestas indica
que, o bien la pregunta está mal planteada, o en alguna
fuente de las que disponen los alumnos el concepto está mal
presentado. La segunda pregunta es un ejemplo aún más
notable puesto que el 82% de las respuestas fueron hacia la
misma respuesta.
El análisis final de este tipo de preguntas, donde los
valores de fallo superan en un valor tan grande al valor
esperado de respuestas aleatorias, corresponde al equipo
docente. Además de los efectos previamente descritos,
puede darse la circunstancia de que la pregunta esté
correctamente planteada y no haya ningún error en las
fuentes de información. En las experiencias que se han
realizado hasta ahora, se han detectado al menos tres efectos
adicionales que pueden jugar un importante papel en las
respuestas de los alumnos ante una pregunta que no
conocen. El primero está relacionado con las respuestas
basadas en trucos psicométricos mal planteados, por
ejemplo, los alumnos pueden aplicar criterios como que la
respuesta más larga o la del medio suelen ser las correctas.
El segundo está relacionado con el efecto de similitud o
interferencia de otro tipo de datos. Así, un alumno podría
fácilmente confundir los valores de raíz cuadrada de 2 o 3 en
una respuesta. El tercero es especialmente dramático en
preguntas que requieren algún tipo de cálculo numérico, y
está relacionado con las respuestas que se dan al cometer un
error en algún paso del cálculo. Este tipo de errores podría
polarizar mucho las respuestas equivocadas en una
dirección, sin implicar necesariamente un problema en las
fuentes de información o en la redacción de las preguntas.
En cualquier de estos casos, el profesor debería corregir el
comportamiento o método de estudio de los alumnos, sin ser
necesario un cambio en las preguntas o una corrección en
las fuentes de información.
VI. CONCLUSIONES
En este artículo se ha propuesto una metodología para
crear test adaptativos formados por preguntas de alta
calidad. Para ello, se plantea un sistema basado en cuatro
etapas: creación y clasificación, ejecución de los
cuestionarios, evaluación de los resultados y, si procede,
reclasificación y revisión de las preguntas. También se ha
propuesto un modelo de cuestionario adaptativo basado en
niveles que ayuda a asegurar que el alumno adquiere los
conocimientos de la asignatura en el orden más adecuado.
Por último, se ha mostrado e-valUAM, una aplicación
web implementada a fin de validar la propuesta, que ha
permitido analizar la viabilidad de la metodología y el
modelo en un entorno real. El equipo docente de la
asignatura aplicó la metodología para crear 372 preguntas
distintas. Los alumnos realizaron los cuestionarios creados
siguiendo el modelo propuesto mediante e-valUAM. El
análisis de los resultados permitió identificar que solo un
2,69% de las preguntas necesitaron revisión. Así mismo, e-
valUAM sirvió para detectar aquello que había repercutido
en la calidad de dichas preguntas, ayudando a solucionarlos
para cursos siguientes.
Esperamos en un futuro continuar con las experiencias,
comprobando el impacto del sistema en el tiempo que
dedican los profesores en crear o revisar los cuestionarios,
así como desarrollar un formalismo para determinar el
número de preguntas mínimo en función del número de
niveles y de preguntas del test. El número de preguntas
dependerá así mismo del uso previsto del sistema, lo cual es
especialmente crítico en procesos de autoevaluación.
AGRADECIMIENTOS
Este trabajo ha sido financiado parcialmente por los
proyectos TIN2013-44586-R, TIN2011-29542-C02-02 y
S2013/ICE-2715. GMS agradece el apoyo del programa
“Ramón y Cajal”. Los autores también quieren manifestar su
agradecimiento a R. Valero por su contribución al desarrollo
de este trabajo, así como a los estudiantes que han
participado en esta experiencia durante el curso 2013-2014.
REFERENCIAS
[1] McAuley, A., Stewart, B., Cormier, D. & Siemens, G., In the Open:
The MOOC model for digital practice. SSHRC Application,
Knowledge Synthesis for the Digital Economy. 2010
[2] Kumar A., Using online tutors for learning - what do students think? Proceedings of Frontiers in Education Conference (FIE 2004). IEEE;
2004, pp. 524–28.
[3] Bravo C, van Joolingen WR, de Jong T., Using co-lab to build system
dynamics models: students' actions and on-line tutorial advice. Comput Educ., 2009, 53 (2), pp. 243–51.
[4] He Y, Hui SC, Quan TT., Automatic summary assessment for
intelligent tutoring systems. Comput Educ., 2009, 53, pp. 890–9.
[5] Jurado, F.; Redondo, M.; Ortega, M. eLearning standards and automatic assessment in a distributed Eclipse based environment for
learning Computer Programming, Computer Applications in
Engineering Education, 22 (4), 2014, pp. 774–787, DOI: 10.1002/cae.21569
[6] Castro-Schez, J.J.; Redondo, M.A.; Jurado, F., Experience applying
language processing techniques to develop educational software that
allow active learning methodologies by advising students. Journal of Network and Computer Applications Vol. 41(1), pp. 65-79, 2014,
DOI: 10.1016/j.jnca.2013.10.011
[7] Wainer, H., Dorans, N. J., Eignor, D., Flaugher, R., Green, B. F.,
Mislevy, R. J., Steinberg, L., and Thissen, D., Computer-Adaptive Testing: A Primer. Lawrence Erlbaum Associates, Mahwah, NJ,
USA, 2000.
[8] Economides, A.A., Personalized feedback in CAT. WSEAS
Transactions on Advances in Engineering Education, 2-3, 2005, pp. 174-181.
[9] Carol A. Chapelle, C. A. and Douglas, D., Assessing Language
Through Computer Technology. Cambridge University Press, 2006
Fig. 5 Interfaz de la sección con el ratio de fallo de las respuestas.
146 VAEP-RITA Vol. 3, Núm. 3, Sep. 2015
ISSN 2255-5706 © IEEE-ES (Capítulo Español)
[10] Ortigosa, A., Paredes, P. and Rodriguez, P., AH-questionnaire: An
adaptive hierarchical questionnaire for learning styles. Computers &
Education. 54, 4, 2010, pp. 999-1005.
[11] Van Der Maas, H. L. J., and Wagenmakers, E-J., A Psychometric Analysis of Chess Expertise. The American Journal of Psychology.
118, 2005, pp. 29-60
[12] Klinkenberg, S., Straatemeier, M., Van der Maas, H.L.J., Computer
adaptive practice of Maths ability using a new item response model for on the fly ability and difficulty estimation. Computers &
Education. 57, 2, 2011, pp. 1813-1824
[13] Stark, S., Chernyshenko, O. S., Drasgow, F. and White, L. A.,
Adaptive Testing With Multidimensional Pairwise Preference Items Improving the Efficiency of Personality and Other Noncognitive
Assessments. Organizational Research Methods. 15-3, 2012, pp. 463-
487.
[14] Revicki, D. A., & Cella, D. F., Health status assessment for the twenty-first century: item response theory, item banking and
computer adaptive testing. Quality of Life Research. 6, 6, 1997, pp.
595-600.
[15] Weiss, D. J., Improving measurement quality and efficiency with adaptive testing. Applied Psychological Measurement, 6, 1982, pp.
473-492
[16] Sands, W. A., Waters, B. K., and McBride, J. R., Computerized
Adaptive Testing: From Inquiry to Operation. American Psychological Association, Washington, DC., 1997
[17] Conejo, R., Guzmán, E., Millán, E., Trella, M., Pérez-De-La-Cruz, J.
L. and Ríos, A., SIETTE: A web-based tool for adaptive testing.
International Journal of Artificial Intelligence in Education, 14, 1, 2004, pp. 29-61.
[18] Lilley, M., Pyper, A., and Wernick, P., Attitudes to and Usage of
CAT in Assessment in Higher Education. Innovation in Teaching and
Learning in Information and Computer Sciences. 10, 3, (2011), pp.
28-37.
[19] Antal, M., and Koncz, S., Student modeling for a web-based self-
assessment system. Expert Systems with Applications, 38, 6, 2011, pp.
6492-6497.
[20] Virvou, M., & Troussas, C., Web-based student modeling for learning multiple languages. In Proceedings of the Conference on Information
Society, 2011, i-Society. IEEE, pp. 423-428
[21] Galvez, J., Guzman, E., Conejo, R., Millan, E., Student Knowledge
Diagnosis Using Item Response Theory and Constraint-Based Modeling. In Proceedings of the Conference on Artificial Intelligence
in Education - Building Learning Systems that care: From Knowledge
Representation to Affective Modelling. IOS Press., 2009, pp. 291-299
[22] Dorça, F. A., Lima, L. V., Fernandes, M. A., & Lopes, C. R., Automatic student modeling in adaptive educational systems through
probabilistic learning style combinations: a qualitative comparison
between two innovative stochastic approaches. Journal of the Brazilian Computer Society. 19, 1, 2013, pp. 43-58
[23] Molins-Ruano, P., Borrego-Gallardo, F., Sevilla, C., Jurado, F.,
Rodriguez, P., & Sacha, G. M. Construcción de cuestionarios de
calidad con e-valUAM. Informática Educativa (SIIE 2014), Acceso Masivo y Universal para un Aprendizaje a lo Largo de la Vida, XVI
Simposio Internacional de Logroño, La Rioja (2014) pp. 291-298
[24] González-Sacristán, C., Molins-Ruano, P., Díez, F., Rodriguez, P.,
Sacha, G. M. Computer-assisted assessment with item classification for programming skills. In Proceedings of the TEEM Conference.
(2013), pp. 111-117
Pablo Molins-Ruano obtuvo el Grado en Informática en 2015 por la
Universidad Autónoma de Madrid. Actualmente es investigador contratado
en el grupo GHIA del Departamento de Informática de la Escuela Politécnica Superior de la Universidad Autónoma de Madrid.
Francisco Borrego-Gallardo es Profesor Asociado en el Departamento de
Historia Antigua, Medieval, Paleografía y Diplomática de la Universidad
Autónoma de Madrid. Se licenció en Historia por la Universidad Autónoma de Madrid en 2002, en la especialidad de Historia Antigua y Arqueología.
Obtuvo el grado de Doctor en 2010 por la Universidad Autónoma de
Madrid.
Covadonga Sevilla es Profesora de Historia Antigua de la Universidad Autónoma de Madrid y codirectora del Centro Superior de Estudios de
Oriente Próximo y Egipto antiguos de la UAM. Especializada en
iconografía y prosopografía del I milenio a.e. en el Egipto antiguo. Directora del equipo español en la Misión eurosiria de Tell Beydar y
arqueóloga en la Misión de la UAM en Emiratos Árabes Unidos.
Francisco Jurado es Profesor Ayudante Doctor en la Escuela Politécnica
Superior de la Universidad de Autónoma de Madrid. Obtuvo el título de
Ingeniero Informático en 2005 y el grado de Doctor en Informática en 2010 por la Universidad de Castilla-La Mancha. Sus áreas de investigación
incluyen los Sistemas Tutores Inteligentes, Sistemas de eLearning
Heterogéneos Distribuidos, Estándares de eLearning y Entornos Colaborativos Asistidos por Computador.
Pilar Rodríguez se incorporó a IBM en 1985, doctorándose en 1990. Hasta
1989 trabajó como investigadora en el Centro Científico UAM-IBM y,
posteriormente, en el Instituto de Ingeniería del Conocimiento. Entre 1995 y 1996 realizó una estancia en la Universidad Técnica de Munich,
incorporándose a continuación al Dpto. de Ingeniería Informática de la
UAM. Desde entonces es profesora de dicho departamento. En la actualidad forma parte del grupo GHIA de la UAM. Sus principales áreas
de investigación se centran en los sistemas adaptativos, tanto individuales como colaborativos, especialmente en lo relativo a sistemas educativos, así
como en diferentes aspectos de la interacción persona-ordenador.
Gómez-Moñivas Sacha recibió la Licenciatura en Física de la Universidad
Autónoma de Madrid en 1999, la licenciatura en la psicología de la Universidad Nacional de Educación a Distancia en el año 2003 y el grado
de Doctor en Física por la Universidad Autónoma de Madrid en 2003.
Obtuvo una beca postdoctoral en el Lawrence Berkeley National Laboratory, Berkeley, CA, y el Nanoscience Technology Center, Orlando,
FL. Actualmente es investigador en el Departamento de Informática de la
Universidad Autónoma de Madrid. Sus intereses de investigación actuales incluyen neuronal artificial redes, modelos de sistemas sensoriales y
películas delgadas y su aplicación a dispositivos electrónicos.
MOLINS RUANO et al.: PROCESO DE MEJORA DE CUESTIONARIOS ADAPTATIVOS: IMPLEMENTACIÓN... 147
ISSN 2255-5706 © IEEE-ES (Capítulo Español)