Validez del Generador Automático de Ítems del Examen de Competencias Básicas (Excoba)

Autores/as

  • María Fabiana Ferreyra Métrica Educativa
  • Eduardo Backhoff-Escudero Instituto Nacional para la Evaluación de la Educación (INEE)

DOI:

https://doi.org/10.7203/relieve.22.1.8048

Palabras clave:

Generación Automática de Ítems, tests educativos, validez de constructo, estructura factorial, análisis de ítems

Resumen

La Generación Automática de Items (GAI)  es el proceso con el cual se diseñan y elaboran reactivos de una prueba, así como versiones completas de exámenes conceptual y estadísticamente equivalentes. Los Generadores Automáticos de Ítems se desarrollan con el apoyo de sistemas informáticos, que los hacen sumamente eficientes. Con esta idea se creó el generador automático de reactivos GenerEx del Examen de Competencias Básicas (Excoba). Este trabajo tuvo el propósito de describir una propuesta para analizar la estructura interna y equivalencia psicométrica de los exámenes generados con el GenerEx, así como describir el tipo de resultados que se obtienen para lograr este propósito. La propuesta se fundamenta en la forma de seleccionar las muestras de reactivos, partiendo del principio de que los ítems y exámenes obtenidos deben ser equivalentes psicométricamente. El estudio se basa en tres tipos de análisis con marcos conceptuales diferentes y complementarios: la Teoría Clásica de los Test, la Teoría de Respuestas al Ítem y el Análisis Factorial Confirmatorio. Los resultados indican que el GenerEx produce exámenes psicométricamente similares, aunque con ciertos problemas en algunas áreas temáticas. La metodología permitió obtener una buena descripción del funcionamiento psicométrico del GenerEx y de la validez interna de dos versiones generadas al azar. Los análisis se pueden complementar con un estudio cualitativo de las deficiencias detectadas.

Biografía del autor/a

María Fabiana Ferreyra, Métrica Educativa

Investigadora asociada en Métrica Educativa A.C. Ensenada, Baja California (México). Es Profesora de Matemáticas de Instituto Nacional Superior del Profesorado Joaquín V. González, Buenos Aires (Argentina). Es la autora de contacto para este artículo. Maestra en Ciencias Educativas y doctora en Ciencias Educativas, ambos títulos obtenidos en el del Instituto de Investigación y Desarrollo Educativo de la Universidad de Baja California, México. Su campo de interés es el desarrollo y validación de pruebas de aprendizaje a gran escala, y la enseñanza de las matemáticas. Su dirección postal es: Métrica Educativa, Alvarado 921, Zona Centro. Ensenada, Baja California, C.P. 22800 (México).

Eduardo Backhoff-Escudero, Instituto Nacional para la Evaluación de la Educación (INEE)

Licenciado en psicología por la Universidad Nacional Autónoma de México, Maestro en Educación por la Universidad de Washington y Doctor en Educación por la Universidad Autónoma de Aguascalientes. Consejero de la Junta de Gobierno del Instituto Nacional para la Evaluación de la Educación. Ciudad de México, México. Su campo de interés es el desarrollo y validación de pruebas de aprendizaje de gran escala y la evaluación asistida por computadora. Ha sido Director de Pruebas y Medición del Instituto Nacional para la Evaluación de la Educación (INEE) de México. Actualmente se desempeña como Consejero de la Junta de Gobierno del INEE

Citas

Backhoff, E. & Tirado, F. (1992). Desarrollo del Examen de Habilidades y Conocimientos Básicos. Revista de la Educación Superior, 21 (3), 95-118. Retrieved from http://www.metrica.edu.mx/fileadmin/user_upload/pdf/1992_Desarrollo_del_EXHCOBA.pdf

Backhoff, E., Ibarra, M. y Rosas, M. (1995). Sistema Computarizado de Exámenes (SICODEX). Revista Mexicana de Psicología, 12 (1), 55-62.

Bejar, I. I. (1993). A generative approach to psychological and educational measurement. En N. Frederikson, R. J. Mislevy & I. I. Bejar (Eds.). Test theory for a new generation of tests (pp. 323-359). Mahwah, NJ: Erlbaum.

Bejar, I. I. (2002). Generative testing: From conception to implementation. In S.H. Irvine & P.C. Kyllonen (Eds.), Item generation for test development (pp. 199-217). Mahwah, NY: Erlbaum.

Bentler, P. M. (2006). EQS 6 Structural Equations Program Manual. Encino, CA: Multivariate Software, Inc.

Embretson, S. E. (1999). Generating items during testing: psychometric issues and models. Psychometrika, 64 (4) 407-433. doi: http://dx.doi.org/10.1007/BF02294564

Ferreyra M. F. (2014). Metodología para analizar la estructura interna de un generador automático de reactivos (Tesis de doctorado no publicada). Universidad Autónoma de Baja California, Ensenada, Mexico.

Geerlings, H., Glass, C. A. W. & van der Linden, W. J. (2011). Modeling rule-based item generation. Psychometrika, 76 (2), 337-359. doi: http://dx.doi.org/10.1007/s11336-011-9204-x

Gierl, M. J. & Haladyna, T. M. (2012). Automatic item generation: an introduction. In M. J. Gierl & T. M. Haladyna (Eds.), Automatic item generation: Theory and practice (pp. 3-12). New York: Routledge.

Gierl, M. J. & Lai, H. (April, 2011). The Role of Item Models in Automatic Item Generation. Paper Presented at the Annual Meeting of the National Council on Measurement in Education. New Orleans, LA.

Gierl, M. J. & Lai, H. (2012). Using weak and theory to create item models for Automatic Item Generation: some practical guidelines with examples. In M. J. Gierl & T. M. Haladyna (Eds.). Automatic Item Generation: Theory and Practice. New York: Routledge.

Gierl, M. J., Zhou, J. & Alves, C. (2008). Developing a Taxonomy of Item Model Types to Promote Assessment Engineering. The Journal of Technology, Learning, and Assessment, (7) 2.

Glas, C. A. W. & van der Linden, W. J. (2003). Computarized adaptive Testing with item cloning. Applied Psychological Measurement, 27, 247-261. doi: http://dx.doi.org/10.1177/0146621603254291

Haladyna, T. M. (2012). Automatic item generation: A historical perspective. In M. J. Gierl & T. M. Haladyna (Eds.), Automatic item generation: Theory and practice (pp. 13-25). Nueva York: Routledge.

Haladyna, T. M. & Shindoll, R. R. (1989). Shells: A method for writing effective multiple-choice test items. Evaluation and the Health Professions, 12, 97-104. doi: http://dx.doi.org/10.1177/016327878901200106

Hively, W., Patterson, H. L. & Page, S. H. (1968). A “universe-defined” system for arithmetic achievement tests. Journal of Educational Measurement, 5, 275-290. doi: http://dx.doi.org/10.1111/j.1745-3984.1968.tb00639.x

Holling, H., Bertling, J. P. & Zeuch, N. (2009). Automatic item Generation for probability word problems. Studies in Educational Evaluation, 35, 71-76. doi: http://dx.doi.org/10.1016/j.stueduc.2009.10.004

Hombo, C. & Dresher, A. (2001). A simulation study of the impact of automatic item generation under NAEP-like data conditions. Paper presented at the annual meeting of the National Council on Measurement in Education, Seatle, Wa, EE. UU.

Linacre, J.M. (2010). Winsteps® (Version 3.70.0.2) [Computer Software]. Beaverton, Oregon: Winsteps.com

Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47 (2), 149-174. doi: http://dx.doi.org/10.1007/BF02296272

Pérez-Morán, J. C. (2014). Análisis del aspecto sustantivo de la validez de constructo de una prueba de habilidades cuantitativas (Tesis de doctorado no publicada). Universidad Autónoma de Baja California, Ensenada, Mexico.

Rasch, G. (1961). On General Laws and the Meaning of Measurement in Psychology. Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability, Volume 4: Contributions to Biology and Problems of Medicine, 321-333. University of California Press: Berkeley, CA. Retrieved from http://projecteuclid.org/euclid.bsmsp/1200512895

Sinharay, S. & Johnson, M. (2012). Statistical modeling of Automatic Item Generation. In M. J Gierl & T. M. Haladyna (Eds.). Automatic Item Generation: Theory and Practice. N. Y., New York: Routledge.

SPSS Inc. (2008). SPSS Statistics for Windows, Version 17.0. Chicago: SPSS Inc.

Publicado

2016-02-16

Número

Sección

Artículos