VAEP-RITA Vol. 3, Núm. Sep. 2015 141rita.det.uvigo.es/VAEPRITA/201509/uploads/VAEP-RITA.2015.V3.N3.A3.pdfSin embargo, tratando de proporcionar associated to each question, which allows

Title— Adaptive Questionnaires Improvement Process:

Implementation and Early Experiences with e-valUAM.

Abstract— Adaptive questionnaires allow identifying the

most appropriate question at a particular moment during an

evaluation process. There are several approaches to implement

adaptive questionnaires, but not many to ensure their quality.

This article shows a procedure to improve the adaptive

questionnaires quality by considering the relevance of each

question. So, a level is associated to each question, which allows

analysing the students' answers in order to identify how to

improve the evaluation process. The proposed method has been

implemented in e-valUAM that allows building adaptive

questionnaires and has enabled carrying out the first

experiments to validate the approach.

Index Terms— e-Learning, Adaptive Systems, Computer

aided instruction, Qualifications.

I. INTRODUCCIÓN

OS entornos de aprendizaje asistido por ordenador

(Computer-Aided Learning, CAL) tienen cada vez

mayor presencia en las instituciones educativas. En la

actualidad, es una práctica habitual el hecho de que

profesores y estudiantes utilicen procedimientos

informáticos como apoyo en sus procesos de

enseñanza/aprendizaje. En este sentido, los procesos de

evaluación o auto-evaluación pueden beneficiarse

especialmente de la utilización de estas prácticas. Por otra

parte, los entornos de aprendizaje completamente online,

como son las tendencias emergentes en los cursos masivos

Pablo Molins-Ruano pertenece al Dpto. de Ingeniería Informática.

Escuela Politécnica Superior, Universidad Autónoma de Madrid, 28049, Madrid (Spain). (e-mail: [email protected])

Francisco Borrego-Gallardo pertenece al Dpto. de Historia Antigua,

Historia Medieval y Paleografía y Diplomática, Facultad de Filosofía y Letras Universidad Autónoma de Madrid, 28049, Madrid (Spain). (e-mail:

[email protected])

Covadonga Sevilla pertenece al Dpto. de Historia Antigua, Historia Medieval y Paleografía y Diplomática, Facultad de Filosofía y Letras

Universidad Autónoma de Madrid, 28049, Madrid (Spain). (e-mail:

[email protected]) Francisco Jurado pertenece al Dpto. de Ingeniería Informática. Escuela

Politécnica Superior, Universidad Autónoma de Madrid, 28049, Madrid

(Spain). (e-mail: francisco.jurado @uam.es) Pilar Rodriguez pertenece al Dpto. de Ingeniería Informática. Escuela

Politécnica Superior, Universidad Autónoma de Madrid, 28049, Madrid

(Spain). (e-mail: pilar.rodriguez@ uam.es) Sacha Gómez-Moñivas pertenece al Dpto. de Ingeniería Informática.

Escuela Politécnica Superior, Universidad Autónoma de Madrid, 28049,

Madrid (Spain). (e-mail: [email protected]

abiertos online (Massive Open Online Courses, MOOC) [1],

han hecho indispensable el uso de entornos de técnicas y

metodologías procedentes del mundo de los entornos CAL.

En este contexto, aquellos sistemas que son capaces de

proporcionar algún tipo de retroalimentación a los

estudiantes parecen ser más efectivos que los que no lo

hacen [2]. Así, pueden encontrarse herramientas de

evaluación para algunos dominios de aprendizaje

específicos que son capaces de aconsejar a los estudiantes

[3][4][5][6]. Sin embargo, tratando de proporcionar

información y asesoramiento a los estudiantes para dominios

más generalizados, los test adaptativos (Computer Adaptive

Testing, CAT) parecen ofrecer ventajas que van más allá de

proporcionar una mera puntuación instantánea [7]. Los

entornos que hacen uso de test adaptativos tienen en cuenta

las características particulares de los alumnos con el fin de

ser capaces de adaptar las cuestiones que se les presentan en

función de sus respuestas anteriores, a menudo incluyendo

algún tipo de retroalimentación personalizada [8]. Pueden

encontrarse ejemplos de la aplicación de test adaptativos

para mejorar competencias lingüísticas [9], identificar

estilos de aprendizaje [10], medir competencias

ajedrecísticas [11] o capacidad matemática [12], mejorar

algunas características de la personalidad [13] o evaluar el

estado de salud de los participantes [14]. En el ámbito

educativo, desde hace décadas se han propuesto y utilizado

diferentes aproximaciones y sistemas basados en CAT, con

el fin de mejorar el proceso de aprendizaje [15][16][17][18].

En cualquier caso, a pesar de las ventajas que pueda

suponer el uso de cuestionarios adaptativos en entornos

educativos, es posible que los enunciados de las preguntas

que los componen no sean adecuados, bien porque hayan

sido mal clasificados en un tema, bien porque no hayan sido

claramente redactados, etc. Y este hecho puede conducir al

uso de cuestionarios de mala calidad que no sean realmente

útiles. Por tanto, contar con cuestionarios de calidad

constituye una de las bases del éxito del sistema adaptativo.

Esta situación conduce a afrontar una cuestión importante:

la necesidad de calibrar las preguntas de los cuestionarios

para que puedan ser utilizados adecuadamente. Por lo

general, un buen proceso de calibración implica que el

cuestionario debe ser realizado por una amplia muestra de

usuarios [12], sin embargo, debido a que dicha pre-

calibración no siempre es factible, suelen emplearse

modelos de estudiantes con el fin de perfeccionar la calidad

del proceso de evaluación [19][20][21][22].

Proceso de Mejora de Cuestionarios

Adaptativos: Implementación y Primeras

Experiencias con e-valUAM

Pablo Molins-Ruano, Francisco Borrego-Gallardo, Covadonga Sevilla

Francisco Jurado, Pilar Rodríguez, Sacha Gómez-Moñivas

L

VAEP-RITA Vol. 3, Núm. 3, Sep. 2015 141

ISSN 2255-5706 © IEEE-ES (Capítulo Español)

En este sentido, este trabajo presenta una metodología

para mejorar la calidad de los cuestionarios, y muestra cómo

dichos cuestionarios son empleados en un sistema

adaptativo concreto. Como se verá, la metodología divide

las preguntas de los test en categorías. Las categorías

pueden estar asociadas con el grado de abstracción o

complejidad con el que se formule la pregunta, la dificultad

de los conceptos que traten las cuestiones respecto a cierto

tema de la asignatura o con cualquier otro aspecto de las

preguntas que las relacione de alguna forma en niveles. La

metodología propuesta ha sido implementada en e-valUAM1

(disponible en http://sacha.ii.uam.es), una aplicación que

tiene como objetivo aumentar la calidad de los test mediante

la mejora de la objetividad, la solidez, la seguridad y la

relevancia de los contenidos. En esta aplicación, el modelo

numérico subyacente tiene en cuenta la relevancia de las

preguntas respecto a la materia en cuestión, y conserva toda

la información que pueda resultar relevante sobre el proceso

de aprendizaje de los estudiantes; información que

típicamente suele obtenerse a través de herramientas de

evaluación tradicionales, tales como las pruebas de

respuesta abierta.

En trabajos anteriores [23], se presentaron algunas ideas

que a continuación se exploran con más detalle. En la

Sección II, se describe el marco general utilizado para

construir y mejorar la calidad de las baterías de

cuestionarios tipo test en un entorno adaptativo y, en la

Sección III, el modelo utilizado en e-valUAM para la

generación adaptativa de cuestionarios. La implementación

de e-valUAM se presenta en la Sección IV y las primeras

experiencias realizadas en la Sección V. Finalmente, en la

Sección VI se presentan algunas conclusiones.

II. MARCO GENERAL PARA LA ELABORACIÓN Y MEJORA DE

LA CALIDAD DE LOS CUESTIONARIOS

Para poder elaborar cuestionarios tipo test que sean

calificadores en una materia concreta, es necesario

establecer un procedimiento realimentado que permita

refinar los mismos según algunos criterios preestablecidos.

En ese sentido, proponemos apoyarnos en una metodología

que considera que las cuestiones están asociadas a distintos

niveles, las cuales pueden gestionarse de manera adaptativa

1 Es necesario contactar con [email protected] para obtener usuario

y contraseña.

con independencia del sentido que se atribuya a la escala de

niveles.

El proceso general se refleja en la figura 1, y consta de

cuatro fases esenciales que comienzan por la creación de las

baterías de cuestiones iniciales. La realimentación se realiza

una vez completado el ciclo: creación-ejecución-evaluación-

reclasificación. El objetivo de cada una de las fases se indica

a continuación.

1) Creación y clasificación inicial de las preguntas: en

esta fase inicial, los profesores implicados en la materia han

de diseñar los enunciados correspondientes a las cuestiones

según la materia de la que se trate. Además, ha de

especificarse el número de niveles que se utilizará para

categorizar las preguntas (Nl), así como el nivel concreto

asignado inicialmente a cada una.

En este marco general, los profesores pueden elegir

clasificar las preguntas según su dificultad, atendiendo a la

relevancia de los conceptos subyacentes, o en función de

cualquier otro criterio posible asociado a niveles. La

existencia de niveles repercutirá, de una manera u otra, en la

forma en que se planteen las cuestiones a los estudiantes.

Evidentemente, la elaboración de las preguntas puede ser

labor de un conjunto de profesores, y no necesariamente de

una sola persona. Si son varios los profesores de la materia

que participan en esta fase, cada uno de ellos podría

establecer el nivel de las preguntas de forma independiente,

determinándose el valor final de los niveles por consenso.

2) Ejecución de los test: en esta fase se recogen las

respuestas de los estudiantes a las cuestiones planteadas. El

mecanismo por el que se elige una u otra pregunta es

trasparente al estudiante, y viene determinado por el sistema

adaptativo subyacente. Sea cual sea dicho sistema, el

estudiante no ha de conocer el nivel de las preguntas que se

le planteen.

3) Estudio estadístico: según los estudiantes van

realizando las pruebas, el sistema calculará todos los datos

estadísticos que pueda extraer de los resultados de las

mismas. En este sentido, se pueden tener en cuenta

cuestiones como el tiempo que tardan los alumnos en

responder cada pregunta, la relación de aciertos/fallos para

cada una de ellas, cómo se distribuyen las diferentes

respuestas dentro de una pregunta, etc. Con toda esa

información, el sistema genera informes que permitan

detectar las desviaciones en aquellas preguntas más

problemáticas, atendiendo al modelo de calidad que los

diseñadores de los cuestionarios hayan establecido. Así, por

ejemplo, si se pretende diseñar un cuestionario que deba

realizarse con un límite acotado de tiempo, se intentarán

identificar aquellas preguntas que precisen más tiempo del

estimado como razonable para el cuestionario, atendiendo

para ello al indicador tiempo de respuesta.

4) Revisión y reclasificación: en esta fase se toman

acciones de mejora sobre las preguntas problemáticas

detectadas en la fase anterior según el modelo de calidad

buscado. Estas acciones pueden ser no supervisadas, como

la reasignación de niveles a dichas cuestiones o su

eliminación de la base de datos de preguntas. También,

como se indica en la figura 1, las cuestiones que resulten

problemáticas pueden ser reenviadas a los profesores para

que valoren cuáles son las acciones más pertinentes que, por

ejemplo, pueden incluir la reescritura del enunciado si se

Fig. 1. Procedimiento general de creación y reclasificación de cuestiones.

142 VAEP-RITA Vol. 3, Núm. 3, Sep. 2015


considera que pudiese conducir a equívoco. Durante esta

etapa, si el sistema se utiliza para evaluación, es posible que

las notas de los alumnos sufran modificaciones que recojan

la eliminación o modificación de ciertas preguntas.

III. GENERACIÓN ADAPTATIVA DE CUESTIONARIOS

Uno de los objetivos contemplados en el diseño de e-

valUAM era tener en cuenta un esquema de cuestiones

asociadas a niveles que permitiese calibrar adecuadamente

los conocimientos de los estudiantes.

Esta calibración puede realizarse desde diversos puntos de

vista. Quizá el más inmediato sea clasificar los niveles de las

preguntas por dificultad. Sin embargo, esta clasificación no

necesariamente ha de ser la más adecuada, pues la ventaja

que presenta eval-UAM es el orden en el que presenta los

ítems dependiendo de las respuestas anteriores. Así, ordenar

por nivel de dificultad no presenta en principio una ventaja

evidente. En ese sentido, puede resultar mucho más

interesante clasificar desde un punto de vista conceptual.

Las preguntas podrían clasificarse por grado de relevancia,

donde los profesores determinarían qué conocimientos son

más importantes dentro de la materia y, por tanto, deberían

estar situados en los primeros niveles. En este caso, eval-

UAM mostrará al alumno en primer lugar las preguntas de

primer nivel y por tanto las preguntas más relevantes

estimadas por el equipo docente. Únicamente cuando el

alumno tenga conocimiento suficiente al respecto, empezará

a enfrentarse al resto de preguntas. Otra posibilidad es

clasificar las preguntas por niveles en relación al tipo de

lenguaje utilizado, donde el lenguaje y los conceptos que se

preguntan van siendo más formales a medida que aumentan

los niveles de las preguntas. Este formato sería adecuado si

queremos distinguir el conocimiento formal y estricto de

una materia frente a un conocimiento más mundano.

En nuestro caso, los niveles de las preguntas están

asociados a la necesidad de conocer ciertos conceptos, no

así necesariamente a su dificultad. Para crear el modelo, se

propone utilizar como criterio de clasificación en niveles la

relevancia que tenga el concepto de cada pregunta dentro del

área de estudio [23]. De esta forma, el nivel inicial incluirá

los conceptos más relevantes y, según se va subiendo en los

niveles, las preguntas se irán centrando en nuevos conceptos

que solo son relevantes una vez se ha logrado una robusta

base de los conceptos de niveles previos. Así, se consigue

una adaptación que atiende a qué conocimiento ha

alcanzado el alumno, permitiéndole afianzar aquellos que

aún no domina e impidiéndole que acceda a conceptos que

le resultarían más complejos. Con esto se busca evitar

situaciones como que un alumno apruebe porque sabe

resolver los problemas planteados en el examen al aplicar un

procedimiento, pero que no haya asimilado los conceptos

que le permitirán aplicar ese procedimiento a nuevas

situaciones. En este modelo, el énfasis se centra en los

niveles más bajos.

Concretamente, en la implementación de e-valUAM,

todos los alumnos deben responder el mismo número de

preguntas (aunque responderán a preguntas de distintos

niveles según hayan sido sus respuestas). El modelo está

definido por dos parámetros básicos: Nl, el número de

niveles, y Nv, el número de preguntas que se le plantearán a

los estudiantes. Una vez definidos ambos parámetros, las

preguntas se distribuyen como se muestra en la figura 2

[24], de tal forma que los niveles de las preguntas se

incrementan de izquierda a derecha, de forma constante de

arriba a abajo. El cuestionario empieza con la pregunta que

está situada en la esquina superior izquierda. Cuando el

alumno da una respuesta equivocada, se toma el camino de

la flecha más clara, moviéndose un paso hacia abajo y

siendo su siguiente pregunta del mismo nivel. Si diera una

respuesta correcta, el alumno tomaría el camino de la flecha

oscura, un paso hacia abajo y hacia la columna de la

derecha. Dado que los niveles no cambian verticalmente, la

única manera de empezar a responder preguntas de niveles

superiores es acertar un número mínimo de respuestas

correctas (es decir, desplazarse a la derecha en el gráfico).

Por ejemplo, si el examen tiene como parámetros Nl=3 y

Nv=36, cada alumno deberá responder al menos 12

preguntas correctas en cada nivel para pasar al siguiente. En

la parte baja del gráfico aparecen las notas, que van de

menor a mayor de izquierda a derecha. En este modelo de

examen el número de notas distintas es Nv+1.

IV. IMPLEMENTACIÓN: E-VALUAM

e-valUAM se creó para probar el procedimiento general

referido en la Sección II para la mejora de la calidad de

cuestionarios, y utiliza el modelo de generación de

cuestionarios adaptativos mencionado en la sección anterior.

También se pretendía que el uso del sistema fuera sencillo e

inmediato tanto para profesores como para estudiantes.

En situaciones reales, todos los cursos se dividen en

materias (los conceptos más generales) en torno a las cuales

se organiza el contenido del curso. Así, e-valUAM empieza

su jerarquía con las materias. Una materia está compuesta

por un conjunto de niveles que se definen siguiendo el

modelo de la sección anterior. Cada nivel consta de un

conjunto de preguntas, y una de ellas de un conjunto de

respuestas posibles de las cuales una es la correcta. El

número de niveles queda a criterio del profesor, como

también el número de preguntas dentro de cada nivel, y el

número de respuestas por pregunta, aunque debe ser

uniforme dentro de la misma materia.

Fig. 2 Descripción gráfica del modelo de cuestionario adaptativo utilizado

en e-valUAM [23].

MOLINS RUANO et al.: PROCESO DE MEJORA DE CUESTIONARIOS ADAPTATIVOS: IMPLEMENTACIÓN... 143


Una vez determinada la batería de preguntas asociadas a

una materia, es posible definir tantos cuestionarios como se

deseen. Estos cuestionarios pueden crearse con el fin de que

los alumnos los utilicen como herramientas de

autoevaluación o, también, para que los profesores los

utilicen como herramienta de evaluación, existiendo la

posibilidad de crear varios de cada tipo para una misma

materia. Para ello, en cada caso se deberán determinar tres

parámetros: a) el número de cuestiones que se planteará a

los estudiantes (Nv según el modelo utilizado), b) el tiempo

máximo de que dispondrá cada estudiante para completar el

cuestionario y c) la franja temporal en la que podrá

comenzar a realizarlo.

Cuando el alumno realice el cuestionario, el sistema

elegirá de forma dinámica qué preguntas va presentando a

cada estudiante en función del nivel de las preguntas, tal y

como se refería en la sección anterior. Por ejemplo, si una

materia tiene un repositorio de 1000 preguntas y un

cuestionario en concreto se define como un test de 50

preguntas, cada estudiante deberá responder a 50 preguntas

elegidas aleatoriamente entre las 1000 disponibles.

Actualmente, la aplicación de e-valUAM está dividida en

dos áreas independientes. La primera de ellas está orientada

a los estudiantes, y a través de ella pueden acceder a realizar

las pruebas de autoevaluación o de evaluación que los

profesores hayan definido previamente. Por su parte, los

profesores también pueden acceder a esta área para

comprobar en todo momento cómo están resultando los

cuestionarios propuestos. Además, existe un área reservada

para profesores, desde donde tienen acceso a los resultados

de las pruebas junto a los valores estadísticos que la

aplicación haya calculado hasta el momento.

En la figura 3 se puede ver la interfaz de e-valUAM

cuando el alumno está haciendo una prueba, ya sea de

autoevaluación o establecida por el profesor. En ambos

casos, accederán a la imagen de la figura 3 (a) en la que se

muestra un ejemplo de una pregunta de examen para

estudiantes de educación primaria. Además de imágenes y

texto, el sistema también permite acompañar las preguntas

con audio, con el objetivo, entre otros, de mejorar la

accesibilidad de la herramienta. Si el examen es de

autoevaluación, los alumnos podrán recibir feedback al

terminar el examen, tal y como se muestra en la imagen (b).

En la figura 3a se muestra cómo es el desarrollo del

examen, durante el cual el estudiante no recibe información

sobre su evolución respecto al modelo. Aun así, la

aplicación está evaluando las respuestas en cada paso,

decidiendo cuál será la siguiente pregunta siguiendo el

modelo explicado en la sección anterior.

En cuanto a la selección de preguntas, imaginemos un

estudiante que usa la aplicación por primera vez y tiene

poco conocimiento de la materia. Probablemente fallará

muchas preguntas, en cuyo caso la aplicación no le mostrará

preguntas del segundo nivel. Según el estudiante vaya

mejorando sus habilidades en el tema, el sistema le

enfrentará a preguntas del segundo nivel en ejecuciones

posteriores. De esa manera, el alumno podrá aprender de

una manera dinámica y, lo más importante, en el orden que

el profesor considera más adecuado. Por esto es importante

que el alumno no conozca los resultados hasta el final del

cuestionario. La forma en la que el estudiante visualiza el

resultado de su examen es la que muestra la figura 3b.

En el caso de procesos de autoevaluación, el feedback del

test podría ser inmediato para determinadas aplicaciones u

objetivos. Sin embargo, como se explica a continuación, la

propia naturaleza del proceso de evaluación desaconseja esta

práctica en el caso de ejecuciones orientadas a la evaluación

final de los alumnos.

Se ha configurado el sistema para que no presente los

resultados a los alumnos que terminan el cuestionario si éste

está propuesto por el profesor como sistema de calificación,

para que así los profesores puedan realizar la cuarta fase de

la metodología propuesta en la Sección II de forma

transparente al estudiante. Como se ha mencionado, durante

el proceso de evaluación, la aplicación va almacenando toda

la información relativa a las preguntas mostradas a los

estudiantes: sus respuestas, el tiempo que tardaron y el

momento en el que respondieron, además de la calificación

final obtenida. Toda esta información solo es accesible a

través del área privada del profesor, como se puede ver en la

Fig. 3 Interfaz de e-valUAM para estudiantes. (a) ejemplo de una pregunta para estudiantes de educación primaria; (b) feedback tras terminar el examen.



figura 4. En la figura 4a se muestra la página principal de la

interfaz del profesor donde los profesores pueden elegir

entre todos los test que se han realizado, para poder obtener

los datos de cada uno de ellos. De cualquier cuestionario, ya

sea de evaluación o de autoevaluación, el profesor puede

revisar todas las veces que cualquier estudiante lo ha

intentado, y ver toda la información relativa a ese intento,

como se muestra en la figura 4b.

En este área privada, el profesor también puede acceder a

informes sobre los indicadores de calidad de las preguntas

atendiendo al modelo de calidad que emplee, y consultar

qué preguntas han sido más problemáticas para los alumnos.

En el caso de e-valUAM, la calidad de las preguntas se ha

medido en función del ratio de respuestas fallidas respecto a

respuestas totales (vease ejemplo en la figura 5), aunque

otros modelos son posibles. Con esa información el profesor

puede decidir qué hacer con ellas, si cambiarlas de nivel, si

reformularlas o directamente eliminarlas. Un trabajo que

para un examen tradicional sería costoso en tiempo y

recursos, ya que es un trabajo que tiene que hacer el

profesor manualmente, se convierte en una actividad

automatizada con una intervención menor y rápida por parte

del profesor, lo que logra mejorar de una forma sustancial la

calidad de las preguntas.

V. PRIMERAS EXPERIENCIAS

Buscando probar si e-valUAM era capaz de asistir

correctamente a los profesores aplicando la metodología de

mejora de la calidad propuesta, en concreto detectando las

preguntas que necesitan ser revisadas o reclasificadas, se

utilizó como herramienta de evaluación durante el curso

2013-2014 en el curso de “Historia Antigua I” del Grado en

Historia de la Universidad Autónoma de Madrid. La

profesora de la asignatura y otros dos compañeros

redactaron las preguntas. Cada uno de ellos asignaba un

nivel a cada pregunta (tanto a las suyas como a las de los

otros dos) de forma independiente. Si los niveles asignados

no coincidían, discutían juntos a qué nivel debía ser

asignado, estableciendo así un criterio común y uniforme.

15 estudiantes participaron en las pruebas, presentándose a 3

pruebas distintas a lo largo del curso, que se acompañaron

de otras tres pruebas de autoevaluación. Se les dejó libertad

para decidir si querían utilizar la aplicación como

autoevaluación o no. Seis de los alumnos accedieron menos

de tres veces para realizar una autoevaluación, mientras que

otros seis accedieron más de 15 veces cada uno para los

mismos fines. En total, la profesora y sus dos compañeros

crearon más de 372 preguntas que se respondieron 12.386

veces en total. El tiempo que los profesores necesitan para

desarrollar las preguntas con este sistema es un parámetro

muy importante y que hay que tener en cuenta a la hora de

valorar la utilidad de la aplicación. Sin embargo depende

críticamente de la materia de la que se trate. Por ejemplo, en

el caso de preguntas de las asignaturas elegidas para esta

experiencia, los profesores emplearon una gran cantidad de

tiempo en la búsqueda y diseño de mapas históricos. En

otras experiencias realizadas con asignaturas de cálculo

numérico, el tiempo se dedicó principalmente a la resolución

de los problemas y la búsqueda de respuestas erróneas que

fueran adecuadas (en el caso de problemas numéricos las

respuestas erróneas no deben ser automáticamente

descartables ni demasiado cercanas a la solución correcta).

Sin embargo, en todos los casos, con e-valUAM se

automatizó el tercer paso de la metodología propuesta,

haciendo menos costoso el proceso de análisis estadístico.

De todas las preguntas, cada una con tres respuestas

posibles, solo 10 preguntas tuvieron una tasa de fallo

superior al 66,66% (máximo aleatorio), lo que implica que

solo un 2,69% de las preguntas necesitaron revisión, además

de que el coste de detección fue mínimo.

Con esta herramienta se pudieron hacer análisis muy

interesantes de cara a la cuarta fase de la metodología

propuesta, pudiendo mejorar la batería de preguntas para

años posteriores. Un ejemplo de ello se muestra en la figura

5. En ella se pueden ver que los dos ítems que encabezan la

tabla tienen un ratio de fallo de 94,12% y 88,24% (ambos

sobre 17 respuestas) que es notablemente superior al 66,66%

que se espera de un patrón de respuestas aleatorio para 3

respuestas posibles. Es evidente que algo falla en esas dos

preguntas. En concreto, en la primera pregunta un 65% de

los alumnos eligieron una respuesta incorrecta, mientras que

solo un 29% eligió la otra respuesta incorrecta (mientras que

Fig. 4 Interfaz de e-valUAM para los profesores.

(a) (b)



un 6% acertó). Si los alumnos no conocieran la respuesta,

sería de esperar que los ratios se repartieran a partes iguales,

por lo que esta desviación hacia una de las respuestas indica

que, o bien la pregunta está mal planteada, o en alguna

fuente de las que disponen los alumnos el concepto está mal

presentado. La segunda pregunta es un ejemplo aún más

notable puesto que el 82% de las respuestas fueron hacia la

misma respuesta.

El análisis final de este tipo de preguntas, donde los

valores de fallo superan en un valor tan grande al valor

esperado de respuestas aleatorias, corresponde al equipo

docente. Además de los efectos previamente descritos,

puede darse la circunstancia de que la pregunta esté

correctamente planteada y no haya ningún error en las

fuentes de información. En las experiencias que se han

realizado hasta ahora, se han detectado al menos tres efectos

adicionales que pueden jugar un importante papel en las

respuestas de los alumnos ante una pregunta que no

conocen. El primero está relacionado con las respuestas

basadas en trucos psicométricos mal planteados, por

ejemplo, los alumnos pueden aplicar criterios como que la

respuesta más larga o la del medio suelen ser las correctas.

El segundo está relacionado con el efecto de similitud o

interferencia de otro tipo de datos. Así, un alumno podría

fácilmente confundir los valores de raíz cuadrada de 2 o 3 en

una respuesta. El tercero es especialmente dramático en

preguntas que requieren algún tipo de cálculo numérico, y

está relacionado con las respuestas que se dan al cometer un

error en algún paso del cálculo. Este tipo de errores podría

polarizar mucho las respuestas equivocadas en una

dirección, sin implicar necesariamente un problema en las

fuentes de información o en la redacción de las preguntas.

En cualquier de estos casos, el profesor debería corregir el

comportamiento o método de estudio de los alumnos, sin ser

necesario un cambio en las preguntas o una corrección en

las fuentes de información.

VI. CONCLUSIONES

En este artículo se ha propuesto una metodología para

crear test adaptativos formados por preguntas de alta

calidad. Para ello, se plantea un sistema basado en cuatro

etapas: creación y clasificación, ejecución de los

cuestionarios, evaluación de los resultados y, si procede,

reclasificación y revisión de las preguntas. También se ha

propuesto un modelo de cuestionario adaptativo basado en

niveles que ayuda a asegurar que el alumno adquiere los

conocimientos de la asignatura en el orden más adecuado.

Por último, se ha mostrado e-valUAM, una aplicación

web implementada a fin de validar la propuesta, que ha

permitido analizar la viabilidad de la metodología y el

modelo en un entorno real. El equipo docente de la

asignatura aplicó la metodología para crear 372 preguntas

distintas. Los alumnos realizaron los cuestionarios creados

siguiendo el modelo propuesto mediante e-valUAM. El

análisis de los resultados permitió identificar que solo un

2,69% de las preguntas necesitaron revisión. Así mismo, e-

valUAM sirvió para detectar aquello que había repercutido

en la calidad de dichas preguntas, ayudando a solucionarlos

para cursos siguientes.

Esperamos en un futuro continuar con las experiencias,

comprobando el impacto del sistema en el tiempo que

dedican los profesores en crear o revisar los cuestionarios,

así como desarrollar un formalismo para determinar el

número de preguntas mínimo en función del número de

niveles y de preguntas del test. El número de preguntas

dependerá así mismo del uso previsto del sistema, lo cual es

especialmente crítico en procesos de autoevaluación.

AGRADECIMIENTOS

Este trabajo ha sido financiado parcialmente por los

proyectos TIN2013-44586-R, TIN2011-29542-C02-02 y

S2013/ICE-2715. GMS agradece el apoyo del programa

“Ramón y Cajal”. Los autores también quieren manifestar su

agradecimiento a R. Valero por su contribución al desarrollo

de este trabajo, así como a los estudiantes que han

participado en esta experiencia durante el curso 2013-2014.

REFERENCIAS

[1] McAuley, A., Stewart, B., Cormier, D. & Siemens, G., In the Open:

The MOOC model for digital practice. SSHRC Application,

Knowledge Synthesis for the Digital Economy. 2010

[2] Kumar A., Using online tutors for learning - what do students think? Proceedings of Frontiers in Education Conference (FIE 2004). IEEE;

2004, pp. 524–28.

[3] Bravo C, van Joolingen WR, de Jong T., Using co-lab to build system

dynamics models: students' actions and on-line tutorial advice. Comput Educ., 2009, 53 (2), pp. 243–51.

[4] He Y, Hui SC, Quan TT., Automatic summary assessment for

intelligent tutoring systems. Comput Educ., 2009, 53, pp. 890–9.

[5] Jurado, F.; Redondo, M.; Ortega, M. eLearning standards and automatic assessment in a distributed Eclipse based environment for

learning Computer Programming, Computer Applications in

Engineering Education, 22 (4), 2014, pp. 774–787, DOI: 10.1002/cae.21569

[6] Castro-Schez, J.J.; Redondo, M.A.; Jurado, F., Experience applying

language processing techniques to develop educational software that

allow active learning methodologies by advising students. Journal of Network and Computer Applications Vol. 41(1), pp. 65-79, 2014,

DOI: 10.1016/j.jnca.2013.10.011

[7] Wainer, H., Dorans, N. J., Eignor, D., Flaugher, R., Green, B. F.,

Mislevy, R. J., Steinberg, L., and Thissen, D., Computer-Adaptive Testing: A Primer. Lawrence Erlbaum Associates, Mahwah, NJ,

USA, 2000.

[8] Economides, A.A., Personalized feedback in CAT. WSEAS

Transactions on Advances in Engineering Education, 2-3, 2005, pp. 174-181.

[9] Carol A. Chapelle, C. A. and Douglas, D., Assessing Language

Through Computer Technology. Cambridge University Press, 2006

Fig. 5 Interfaz de la sección con el ratio de fallo de las respuestas.



[10] Ortigosa, A., Paredes, P. and Rodriguez, P., AH-questionnaire: An

adaptive hierarchical questionnaire for learning styles. Computers &

Education. 54, 4, 2010, pp. 999-1005.

[11] Van Der Maas, H. L. J., and Wagenmakers, E-J., A Psychometric Analysis of Chess Expertise. The American Journal of Psychology.

118, 2005, pp. 29-60

[12] Klinkenberg, S., Straatemeier, M., Van der Maas, H.L.J., Computer

adaptive practice of Maths ability using a new item response model for on the fly ability and difficulty estimation. Computers &

Education. 57, 2, 2011, pp. 1813-1824

[13] Stark, S., Chernyshenko, O. S., Drasgow, F. and White, L. A.,

Adaptive Testing With Multidimensional Pairwise Preference Items Improving the Efficiency of Personality and Other Noncognitive

Assessments. Organizational Research Methods. 15-3, 2012, pp. 463-

487.

[14] Revicki, D. A., & Cella, D. F., Health status assessment for the twenty-first century: item response theory, item banking and

computer adaptive testing. Quality of Life Research. 6, 6, 1997, pp.

595-600.

[15] Weiss, D. J., Improving measurement quality and efficiency with adaptive testing. Applied Psychological Measurement, 6, 1982, pp.

473-492

[16] Sands, W. A., Waters, B. K., and McBride, J. R., Computerized

Adaptive Testing: From Inquiry to Operation. American Psychological Association, Washington, DC., 1997

[17] Conejo, R., Guzmán, E., Millán, E., Trella, M., Pérez-De-La-Cruz, J.

L. and Ríos, A., SIETTE: A web-based tool for adaptive testing.

International Journal of Artificial Intelligence in Education, 14, 1, 2004, pp. 29-61.

[18] Lilley, M., Pyper, A., and Wernick, P., Attitudes to and Usage of

CAT in Assessment in Higher Education. Innovation in Teaching and

Learning in Information and Computer Sciences. 10, 3, (2011), pp.

28-37.

[19] Antal, M., and Koncz, S., Student modeling for a web-based self-

assessment system. Expert Systems with Applications, 38, 6, 2011, pp.

6492-6497.

[20] Virvou, M., & Troussas, C., Web-based student modeling for learning multiple languages. In Proceedings of the Conference on Information

Society, 2011, i-Society. IEEE, pp. 423-428

[21] Galvez, J., Guzman, E., Conejo, R., Millan, E., Student Knowledge

Diagnosis Using Item Response Theory and Constraint-Based Modeling. In Proceedings of the Conference on Artificial Intelligence

in Education - Building Learning Systems that care: From Knowledge

Representation to Affective Modelling. IOS Press., 2009, pp. 291-299

[22] Dorça, F. A., Lima, L. V., Fernandes, M. A., & Lopes, C. R., Automatic student modeling in adaptive educational systems through

probabilistic learning style combinations: a qualitative comparison

between two innovative stochastic approaches. Journal of the Brazilian Computer Society. 19, 1, 2013, pp. 43-58

[23] Molins-Ruano, P., Borrego-Gallardo, F., Sevilla, C., Jurado, F.,

Rodriguez, P., & Sacha, G. M. Construcción de cuestionarios de

calidad con e-valUAM. Informática Educativa (SIIE 2014), Acceso Masivo y Universal para un Aprendizaje a lo Largo de la Vida, XVI

Simposio Internacional de Logroño, La Rioja (2014) pp. 291-298

[24] González-Sacristán, C., Molins-Ruano, P., Díez, F., Rodriguez, P.,

Sacha, G. M. Computer-assisted assessment with item classification for programming skills. In Proceedings of the TEEM Conference.

(2013), pp. 111-117

Pablo Molins-Ruano obtuvo el Grado en Informática en 2015 por la

Universidad Autónoma de Madrid. Actualmente es investigador contratado

en el grupo GHIA del Departamento de Informática de la Escuela Politécnica Superior de la Universidad Autónoma de Madrid.

Francisco Borrego-Gallardo es Profesor Asociado en el Departamento de

Historia Antigua, Medieval, Paleografía y Diplomática de la Universidad

Autónoma de Madrid. Se licenció en Historia por la Universidad Autónoma de Madrid en 2002, en la especialidad de Historia Antigua y Arqueología.

Obtuvo el grado de Doctor en 2010 por la Universidad Autónoma de

Madrid.

Covadonga Sevilla es Profesora de Historia Antigua de la Universidad Autónoma de Madrid y codirectora del Centro Superior de Estudios de

Oriente Próximo y Egipto antiguos de la UAM. Especializada en

iconografía y prosopografía del I milenio a.e. en el Egipto antiguo. Directora del equipo español en la Misión eurosiria de Tell Beydar y

arqueóloga en la Misión de la UAM en Emiratos Árabes Unidos.

Francisco Jurado es Profesor Ayudante Doctor en la Escuela Politécnica

Superior de la Universidad de Autónoma de Madrid. Obtuvo el título de

Ingeniero Informático en 2005 y el grado de Doctor en Informática en 2010 por la Universidad de Castilla-La Mancha. Sus áreas de investigación

incluyen los Sistemas Tutores Inteligentes, Sistemas de eLearning

Heterogéneos Distribuidos, Estándares de eLearning y Entornos Colaborativos Asistidos por Computador.

Pilar Rodríguez se incorporó a IBM en 1985, doctorándose en 1990. Hasta

1989 trabajó como investigadora en el Centro Científico UAM-IBM y,

posteriormente, en el Instituto de Ingeniería del Conocimiento. Entre 1995 y 1996 realizó una estancia en la Universidad Técnica de Munich,

incorporándose a continuación al Dpto. de Ingeniería Informática de la

UAM. Desde entonces es profesora de dicho departamento. En la actualidad forma parte del grupo GHIA de la UAM. Sus principales áreas

de investigación se centran en los sistemas adaptativos, tanto individuales como colaborativos, especialmente en lo relativo a sistemas educativos, así

como en diferentes aspectos de la interacción persona-ordenador.

Gómez-Moñivas Sacha recibió la Licenciatura en Física de la Universidad

Autónoma de Madrid en 1999, la licenciatura en la psicología de la Universidad Nacional de Educación a Distancia en el año 2003 y el grado

de Doctor en Física por la Universidad Autónoma de Madrid en 2003.

Obtuvo una beca postdoctoral en el Lawrence Berkeley National Laboratory, Berkeley, CA, y el Nanoscience Technology Center, Orlando,

FL. Actualmente es investigador en el Departamento de Informática de la

Universidad Autónoma de Madrid. Sus intereses de investigación actuales incluyen neuronal artificial redes, modelos de sistemas sensoriales y

películas delgadas y su aplicación a dispositivos electrónicos.



Documents

VAEP-RITA Vol. 3, Núm. Sep. 2015 141rita.det.uvigo.es/VAEPRITA/201509/uploads/VAEP-RITA.2015.V3.N3.A3.pdfSin embargo, tratando de proporcionar associated to each question, which allows