2° Congreso Internacional de Transformación Educativa

Validez de contenido por jueces expertos a través de una herramienta virtual

Liliana Aidé Galicia Alarcón, Sergio Juárez Cerillo y Jorge Arturo Balderrama Trápaga

U. Veracruzana

Resumen

Se presenta el proceso de validación de contenido de un cuestionario web evaluado a través de una herramienta virtual. Los jueces expertos participantes evaluaron cuatro categorías: coherencia, relevancia, claridad y suficiencia; el instrumento que siguió el proceso de validación es un cuestionario web enfocado a determinar con qué competencias en el uso de Tecnologías de la Información y la Comunicación (TIC) cuentan estudiantes y docentes de Educación Superior de instituciones en México y España. El cuestionario web consta de 39 ítems organizados en tres dimensiones: 1) acceso a dispositivos y conectividad, 2) experiencia en software y hardware básico y 3) actitudes hacia el uso de TIC. La elección de los jueces se hizo a través de criterios que incluían su formación académica, su experiencia laboral en el uso de TIC en la educación y su país de origen (México o España). Participaron tres docentes de la Universidad Veracruzana (UV), una de la Universidad Nacional Autónoma de México (UNAM) y tres de la Universidad de Murcia (UM). Los resultados del análisis estadístico que arrojaron coeficientes de correlación intra-clase de 0.222 para coherencia, 0.217 para relevancia y 0.0476 para claridad. En suficiencia se obtuvo un coeficiente correlación intra-clase negativo. El análisis de validez de contenido ha sido valioso porque ha dirigido hacia la revisión y mejora del cuestionario web.

Palabras clave: validez de contenido, jueces expertos, acuerdo entre-evaluadores, correlación intra-clase

Introducción

Las Tecnologías de la Información y la Comunicación (TIC) se han incorporado en diversas áreas de actuación de las personas. En particular las TIC se han convertido en un recurso de apoyo para el desarrollo de actividades laborales y educativas en ambientes virtuales. Es así que actualmente los estudiantes y docentes requieren contar con competencias en el uso de las TIC.

La implementación de recursos en la educación ha crecido paulatinamente y se ha concretado a través de las reformas educativas realizadas en la última década. Estas reformas proponen modificaciones curriculares centradas en el desarrollo de competencias para así atender los criterios de calidad y pertinencia establecidos por la Secretaría de Educación Pública.

El término competencias es polisémico y su significado depende del ámbito de uso, sin embargo, en educación se reconoce su carácter integrador, Bernal y Teixidó (2012) indican que para ser competente “se precisa emplear de forma conjunta y coordinada por un lado conocimientos o saberes teóricos conceptuales, por otro, procedimientos o saberes aplicativos, sin olvidar aquellas actitudes o disposiciones motivacionales, que permiten llevar a cabo una tarea” (p. 32). Esta acepción implica un reto para el diseño de programas curriculares y las prácticas educativas porque se requiere formar a los estudiantes en una serie de saberes con amplia connotación social y con utilidad práctica enfocada a las necesidades de la vida cotidiana.

Es importante que antes de la implementación de programas que requieran competencias en el uso de TIC se realice un proceso de evaluación diagnóstica en el que se reconozca qué tan preparados están los participantes para hacer uso de recursos tecnológicos o virtuales, y en caso de ser necesario desarrollar acciones para incrementar sus competencias, de manera que el uso de la tecnología no sea un impedimento para abordar contenidos, sino un apoyo, una contribución que facilite el aprendizaje. En este sentido Edel (2010) opina que el uso de la tecnología en educación “exige dimensionar sus propósitos deliberados así como sus alcances y posibles contribuciones” (p. 8). De esta manera los usuarios estarían mejor preparados para comprender el uso de la tecnología como recurso didáctico que favorece el aprendizaje en ambientes virtuales.

Las técnicas para obtener información acerca de las competencias en el uso de TIC pueden ser variadas, pero identificar la adecuada, así como el instrumento para recuperar esa información resulta complejo, en gran medida porque no sería pertinente generalizar los instrumentos existentes en otras experiencias aunque sean similares, debido a que las competencias requeridas en cada caso dependerán del Entorno Virtual de Aprendizaje (EVA) a utilizar, éstas también pueden variar de acuerdo al contexto en el que se pondrán en práctica. En todo caso, los instrumentos pueden ser adaptados, lo que también implica un proceso de validación para poder utilizarlos.

En este sentido, el diseño de los instrumentos para evaluar competencias requiere de un proceso cuidadoso, en el que se valide el instrumento que se planea utilizar, para hacer fidedigna y objetiva la información que se esté buscando.

En la revisión de la literatura acerca de la validez de contenido por jueces expertos se encontraron algunas investigaciones, tal es el caso de Pimienta (2014), describe la elaboración y validación de un instrumento para la medición del desempeño docente, que para dar validez de contenido a los ítems consultó a una serie de expertos quienes revisaron su coherencia, para analizar los resultados se aplicó el índice de Kappa de Cohen. En el estudio realizado por Carrión, Soler y Aymerich (2014), se analizó la validez de contenido de un cuestionario de evaluación del aprendizaje basado en problemas y en el procedimiento participaron siete expertos que aportaron sus opiniones sobre la relevancia de cada ítem. El método de juicio de expertos es utilizado recurrentemente en el ámbito de la psicología, especialmente en la construcción de inventarios de conducta o test, tal es el caso de Barcelata, Gómez y Durán (2006) quienes dieron a conocer la construcción, confiabilidad, validez de contenido y discriminante del inventario autodescriptivo del adolescente, la validez de contenido del instrumento la realizaron a través de los coeficientes de concordancia Kappa y participaron 31 jueces.

De conformidad con lo expuesto, en este trabajo se muestran los resultados de la validación de un cuestionario web, que forma parte de la primera fase de investigación de un proyecto doctoral realizado en la Facultad de Pedagogía de la Universidad Veracruzana, el proyecto lleva por título “Redes Educativas Virtuales México – España (REV ME) entre docentes en formación en el área de educación especial”, en el que participan cinco instituciones de educación superior, tres de México y dos de España.

El cuestionario web se formuló con el objetivo de recopilar información para determinar con qué competencias en el uso de TIC cuentan estudiantes y docentes de las instituciones participantes, y con ello obtener referentes que permitieran establecer los criterios tecnológicos con los que debe contar la REV ME. En los siguientes apartados se detalla el procedimiento que se siguió para la construcción y validación de este instrumento.

Los resultados que se describen en este estudio se obtuvieron a partir de la opinión de los jueces para cada uno de los 39 ítems que conforman el cuestionario web. La opinión considera cuatro categorías: coherencia, relevancia, claridad y suficiencia. La validación se hizo con correlaciones intra-clase, Field (2005), para cada categoría en un diseño cruzado completo. Como criterio de validez se determinó usar similitud en los valores absolutos de las puntuaciones que dieron los jueces. El análisis se hizo con el paquete irr del software R. Con propósitos de reproducibilidad de resultados, se ha incluido un apéndice con los datos, el código R usado y los resultados arrojados.

Revisión teórica sobre la validez de contenido por juicio de expertos

El concepto de validez es de suma importancia en la realización de investigaciones, no solamente para las de corte experimental, sino para aquellas que pretenden formar parte del campo científico y contar con mayor precisión en los resultados. La validez de un instrumento se refiere a que éste realmente sea útil para lo que fue diseñado, por ello se recomienda que las pruebas, los test e instrumentos de investigación se validen, principalmente la validez de constructo y la validez de contenido, las cuales para Martínez (2014) “se erigen como las más importantes a la hora de comprobar la validez de un instrumento de medida” (p. 228).

En ese mismo sentido Tristán (2007), al describir la validez de contenido indica que se “refiere a que los aspectos que se miden en la prueba se relacionen directamente con una materia, tema, unidad, carrera, desempeño, competencia profesional” (p. 7). De esta manera hay una relación directa con los objetivos que persiga el instrumento, se evita caer en contenidos no relevantes o poco coherentes con los objetivos.

Una de las formas más usuales de realizar un proceso para validar instrumentos es a través de la participación de juicio de expertos o también denominado comité de expertos, que para Urrutia, Barrios, Gutiérrez y Mayorga (2014) “es una metodología que permite determinar la validez del instrumento por medio de un panel de jueces expertos para cada una de las áreas curriculares a considerar en el instrumento de evaluación” (p. 549). Se acude a los expertos para solicitar su apoyo en la revisión o diseño del instrumento, de ellos pueden surgir algunas recomendaciones o sugerencias para mejorar. En el mismo sentido, Escobar y Cuervo (2008) lo definen como “una opinión informada de personas con trayectoria en el tema, que son reconocidas por otros como expertos cualificados en éste, y que pueden dar información, evidencia, juicios y valoraciones” (p.29). La opinión informada se refiere a que el punto de vista que brindan en la evaluación del instrumento se fundamenta en su formación teórica o en su experiencia sobre el constructo que se plantea en el instrumento.

En el mismo sentido, Cabero y Llorente (2013), comentan que el juicio de expertos se lleva a cabo al “solicitar a una serie de personas la demanda de un juicio hacia un objeto, un instrumento, un material de enseñanza, o su opinión respecto a un aspecto concreto” (p. 14). Por ello al elegir esta metodología es importante conocer la trayectoria de quienes formarán parte del comité de jueces, su opinión acerca del instrumento que revisarán es determinante en el resultado final del diseño del instrumento y por ende, también en el resultado de la aplicación.

Escobar y Pérez (2008) señalan que el juicio de expertos debe seguir un procedimiento adecuado, porque:

Es una práctica generalizada que requiere interpretar y aplicar sus resultados de manera acertada, eficiente y con toda la rigurosidad metodológica y estadística, para permitir que la evaluación basada en la información obtenida de la prueba pueda ser utilizada con los propósitos para la cual fue diseñada (p. 27).

Como parte importante del proceso de juicio de expertos está la propia selección y planeación del nivel de participación de quiénes fungirán como tales, la decisión en cuanto al número de expertos, características relevantes sobre su formación y trayectoria, su función en el diseño o revisión de un instrumento, asimismo la forma en la que trabajarán, ya sea por separado o reunidos.

La validez que se realiza a través de jueces expertos es un procedimiento interesante con muchas variantes que dependerán del tipo y objetivo del instrumento, así como del contexto en el que se aplicará, entre otros factores que el investigador considere relevantes.

El cuestionario web

La etapa de construcción del instrumento se caracterizó por la definición de las dimensiones que reflejaran las competencias en el uso de TIC por estudiantes y docentes de educación superior. Como el cuestionario pretendía medir competencias, se construyeron reactivos que abordaran de manera integrada conocimientos, habilidades y actitudes para el uso de TIC. En especial, para la dimensión de actitud hacia el uso de TIC tomaron como base los ítems utilizados en un cuestionario de una investigación sobre la adopción de las TIC en docentes de nivel primaria, realizada por Torres, Armenta, Valdés y García (2013).

El cuestionario web quedó compuesto por 39 ítems organizados en tres dimensiones, en la Tabla 1 se presenta los nombres de las dimensiones, su definición.

Tabla 1.

Definición de las dimensiones del cuestionario

Dimensiones	Acceso a dispositivos y conectividad	Experiencia en hardware y software	Actitudes hacia el uso de TIC
Definición	Contar con por lo menos un dispositivo que permita realizar conexiones a Internet, transmitir y recibir datos y archivos.	Conocimientos técnicos o instrumentales para el uso de dispositivos, aparatos periféricos, aplicaciones y entornos digitales con finalidades educativas.	Son opiniones y formas de actuar que se manifiestan antes, durante o después del uso de TIC y se reflejan en un menor o mayos uso de éstas.

Fuente: Elaboración propia

Para la recolección de datos se optó por un cuestionario web para ser distribuido a través de un link a los diferentes participantes de las cinco instituciones de educación superior participantes, se consideró la forma más pertinente, debido a que las instituciones son geográficamente distantes, las de México se localizan en los estados de Nuevo León, Veracruz y Chiapas, las de España están en las provincias de Murcia y Oviedo.

La herramienta virtual y el procedimiento seguido por los jueces expertos

Como lo señalan Pedrosa, Suárez y García (2014), el método de validación por juicio de expertos puede desarrollarse de dos formas, una en la que los expertos son los que proponen los ítems y otra en la que ellos los evalúan a partir de una serie de categorías. También se menciona la importancia de elegir adecuadamente a los jueces, tomando en cuenta su experiencia respecto al constructo a abordar.

Para la validación del cuestionario web se contó con la participación de siete expertos, tres en España y cuatro en México. A continuación se describe su formación y experiencia:

Juez experto uno: Doctora en pedagogía que actualmente desempeña el cargo de Vicedecana de practicum de pedagogía y educación en la Facultad de Educación de la Universidad de Murcia. Con experiencia en docencia universitaria en el ámbito de la discapacidad, sus líneas de investigación se relacionan con educación especial, TIC e innovación.
Juez experto dos: Licenciada en Psicopedagogía con diplomado en estadios avanzados en atención a la diversidad quien se desempeña como docente en la Facultad de Educación de la Universidad de Murcia. Es especialista en métodos de investigación, educación especial y TIC.
Juez experto tres: Doctora en filosofía y ciencias de la educación, actualmente se desempeña como Vicedecana de posgrado en la Facultad de Educación. Tiene experiencia en métodos de investigación y metodología por proyectos.
Juez experto cuatro: Doctor en sociedades multiculturales y estudios interculturales que actualmente se desempeña como docente investigador en la Universidad Veracruzana y productor radiofónico, es experto en docencia universitaria. Su línea de investigación es en gestión y calidad de programas educativos.
Juez experto cinco: Doctor en tecnología de la información quien se desempeña como docente de tiempo completo en la Universidad Veracruzana, es experto en sistemas computacionales y su línea de investigación se vincula con redes de conocimiento y aprendizaje.
Juez experto seis: Doctor en sistemas y ambientes educativos, funge como coordinador de investigación en la Universidad Veracruzana y como docente de posgrado. Su experiencia es en TIC en educación y ambientes multimodales de aprendizaje, su línea de instigación es en redes de conocimiento y aprendizaje.
Juez experto siete: Doctora en Educación quien se desempeña como docente en la Facultad de psicología de la Universidad Autónoma de México (UNAM).

La herramienta virtual que los jueces expertos utilizaron para aportar su opinión sobre los ítems que conforman el cuestionario web, contiene cuatro categorías: coherencia, relevancia, claridad y suficiencia. Las categorías son las propuestas por Escobar y Cuervo (2008). Véase la Tabla 2.

Tabla 2.

Categorías de la herramienta virtual, calificación e indicadores

Categoría	Calificación	Indicador
Suficiencia Los ítems que pertenecen a una misma dimensión bastan para obtener la medición de ésta.	No cumple con el criterio Bajo nivel Moderado nivel Alto nivel	Los ítems no son suficientes para medir la dimensión. Los ítems miden algún aspecto de la dimensión pero no corresponden con la dimensión total. Se deben incrementar algunos ítems para poder evaluar la dimensión completamente. Los ítems no son suficientes.
Claridad El ítem se comprende fácilmente, es decir, su sintáctica y semántica son adecuadas.	No cumple con el criterio Bajo nivel Moderado nivel Alto nivel	El ítem no es claro El ítem requiere bastantes modificaciones o una modificación muy grande en el uso de las palabras de acuerdo con su significado o por la ordenación de las mismas. Se requiere una modificación muy específica de algunos de los términos del ítem El ítem es claro, tiene semántica y sintaxis adecuada.
Coherencia El ítem tiene relación lógica con la dimensión o indicador que está midiendo.	No cumple con el criterio Bajo nivel Moderado nivel Alto nivel	El ítem no tiene relación lógica con la dimensión. El ítem tiene una relación tangencial con la dimensión. El ítem tiene una relación moderada con la dimensión que está midiendo. El ítem se encuentra completamente relacionado con la dimensión que está midiendo.
Relevancia El ítem es esencial o importante, es decir debe ser incluido.	No cumple con el criterio Bajo nivel Moderado nivel Alto nivel	El ítem puede ser eliminado sin que se vea afectada la medición de la dimensión. El ítem tiene alguna relevancia, pero otro ítem puede estar incluyendo lo que mide éste. El ítem es relativamente importante. El ítem es muy relevante y debe ser incluido.

Fuente: Escobar y Cuervo (2008 p. 37).

Cabero y Llorente (2013) exponen una serie de formas de poner en acción el juicio de expertos:

Agregación individual de los expertos, que consiste en obtener la información de manera individual de cada uno de ellos, sin que éstos se encuentren en contacto.
Método Delphi, en el cual se recoge la opinión de los expertos de forma individual y anónima, devolviéndoles la propuesta de conjunto para su revisión y acuerdo, una leve dispersión llevará a afirmar que se ha llegado a un acuerdo.
Técnica grupal nominal, los expertos aportan la información de manera individual, y después de forma grupal presencial se llega a un acuerdo.
Método de consenso, donde de forma grupal y conjuntamente, los expertos seleccionados llegan a conseguir un acuerdo. (Cabero y Llorente, 2013, p. 17).

En el caso de este estudio se siguió un método parecido al de agregación individual, con la variante de haberlo realizado en forma virtual, el procedimiento siguió seis pasos 1) la invitación a participar vía correo electrónico, 2) el envío del link con el cuestionario web y del link con la herramienta “plantilla para evaluar la validez de contenido”, 3) el registro de la calificación de los jueces a cada ítem respecto a las categorías: relevancia, coherencia y claridad, así como la evaluación del indicador suficiencia para cada una de las tres dimensiones y el apartado de observaciones, 4) la recepción de las respuestas a través de una base de datos en MySQL y 5) el análisis estadístico y revisión de los ítems con bajo puntaje y 6) la mejora de los ítems que recibieron observaciones específicas por parte de alguno de los jueces.

La herramienta virtual utilizada por los jueces expertos constaba de dos pantallas principales, una plantilla para el registro de los datos del evaluador y otra con el contenido del cuestionario web y la escala para registrar la calificación. El formulario se realizó en la plataforma de programación para WEB PHP, enlazado a una base de datos realizada en MySQL.

El sistema se alojó en un sitio gratuito con un dominio que requería el uso de subredes. El nombre de la subred fue validez. El nombre seleccionado como dominio fue total.net, quedando el protocolo para ingreso como http://validez.totalh.net

En la Figura 1 se muestra la primera pantalla de la herramienta virtual utilizada por los jueces expertos. En ella se da una explicación acerca del cuestionario web que van a evaluar, el proyecto de investigación al que corresponde, el objetivo del cuestionario, las instrucciones de llenado y un formulario para recabar datos del juez experto.

Figura 1. Primera pantalla de la herramienta virtual.

En la Figura 2 se presenta la pantalla en la que los jueces registran su calificación en una escala tipo Likert de cuatro puntos para cada ítem respeto a las categorías: coherencia, relevancia y claridad. Para facilitar la evaluación de cada ítem éstos aparecían en un tooltip al deslizar el puntero sobre la fila. Del lado derecho de la pantalla se desplegaban las indicaciones y la descripción de las dimensiones a evaluar.

Figura 2. Segunda pantalla de la herramienta virtual.

El indicador de suficiencia no se evaluó por ítem, sino por dimensión, este apartado aparecía al final de la pantalla, junto con un espacio abierto para las observaciones. Véase Figura 3.

Figura 3. Sección de la pantalla para evaluar la suficiencia de los ítems por dimensión.

Una vez terminada la evaluación por parte de los jueces expertos la información se guardó en una base de datos en el manejador MySQL, a partir del cual se realizó la exportación a Excel para poder realizar los cálculos estadísticos.

Resultados

La plantilla utilizada por los jueces expertos en la herramienta virtual permitió recuperar la evaluación de cada ítem con una calificación que iba del 1 al 4, considerando que el 1 se otorgaba para los ítems que no cumplían el criterio de la categoría, en cambio el número 4 se seleccionaba en caso de considerar al ítem de alto nivel. Con estos datos de pudieron ingresar los valores al programa R para su análisis, la calificación se presenta en el Apéndice A. junto con el código y la salida R.

Una vez corridos los datos en el programa, se obtuvieron los valores de los coeficientes de correlación intra-clase, que resultaron 0.222, 0.217 y 0.0476 para coherencia, relevancia y claridad, respectivamente. Estos valores indican un acuerdo pobre entre los jueces, es decir, no coincidieron en las calificaciones de todos los ítems. En cuanto a la categoría de suficiencia se obtuvo un coeficiente de correlación intra-clase negativo, lo que indica que el verdadero valor de éste coeficiente es muy cercano a cero como resultado de discrepancias en las opiniones de los jueces.

Una inspección a los diagramas de caja en la Figura 4 pone en evidencia el desacuerdo entre los jueces para evaluar los ítems del cuestionario web en cuanto a coherencia, relevancia y claridad; y suficiencia en cuanto a las tres dimensiones especificadas en la Tabla 1. Los resultados indican que los jueces tuvieron un débil acuerdo. Esto sugiere que o bien los jueces requieren de entrenamiento previo en las categorías que se consideran o bien que las propiedades del cuestionario web se deben revisar, ya sea la escala Likert de 4 puntos usada o bien la dificultad para observar el contenido de las tres dimensiones del cuestionario web.

Figura 4. Opiniones de los siete jueces para las categorías (co=coherencia, re=relevancia, cl=claridad, su=suficiencia).

Como se puede observar en las gráficas, hubo varias discrepancias entre los jueces al evaluar los ítems, pero aunque tuvieron desacuerdos en las calificaciones, éstas tampoco reflejaron que los ítems no cumplieran con el criterio. De hecho los promedios en las calificaciones por categoría en cada dimensión fueron las que se muestran en la Tabla 3.

Tabla 3.

Promedio de calificación por dimensión y categoría.

	Coherencia	Relevancia	Claridad	Suficiencia
Acceso a dispositivos y conectividad	3.8%	3.6%	3.6%	4%
Experiencia en hardware y software	3.9%	3.7%	3.7%	3.7%
Actitudes hacia el uso de TIC	3.7%	3.6%	3.6%	3.8%

Fuente: Elaboración propia

Claridad y relevancia obtuvieron los promedios más bajos, lo que permitió buscar aquellos ítems con calificación baja, reformularlos para hacerlos más claros o quitar aquellos poco relevantes.

Las recomendaciones vertidas en el apartado de observaciones fueron claras porque se señalaron específicamente los ítems a corregir, por ejemplo, el juez 1 tuvo observaciones para mejorar la claridad específicamente en cuatro ítems y sugirió cambios en algunas expresiones para evitar confusiones al utilizar el instrumento en contextos culturales diferentes. El juez 3 recomendó alternar preguntas positivas con negativas, mientras que el juez 5 comentó que era mejor no redactar en negativo, por lo que dio calificaciones bajas a los que no se redactaron en positivo.

Discusión y conclusiones

El proceso que se siguió para promover la participación de los jueces resultó eficiente, se optimizaron tiempos y se resolvió el problema de la distancia, además la organización de la evaluación en una base de datos MySQL facilitó que se pudieran exportar a hojas de cálculo y al programa R para el análisis estadístico.

A partir del proceso de análisis estadístico se realizó una búsqueda más minuciosa para identificar en cuáles dimensiones e ítems hubo mayores discrepancias entre los jueces y cuáles recibieron bajas calificaciones. Con esta actividad se modificaron los ítems que lo requirieron para poder hacer válido en contenido el cuestionario web y poderlo utilizar tanto con docentes como con estudiantes de educación superior.

Las mayores diferencias entre los jueces al evaluar las los ítems se dieron en la categoría de claridad, lo cual resulta comprensible debido a algunas diferencias semánticas o sintácticas en el idioma español utilizado en México y en España, es decir, algunas palabras con un significado diferente o de uso menos común, incluso en el orden de las palabras para dar estructura al ítem. Un ejemplo de cómo se resolvió en el caso de sustantivos fue poniendo ambos, como móvil o celular, laptop o portátil, computadora u ordenador, etc.

Una vez que se mejoren las diferentes dimensiones se podrá someter a un proceso de piloteo para corroborar que sea comprensible y que recupera la información necesaria acerca de la accesibilidad a dispositivos y las posibilidades de acceso a Internet, habilidades y conocimientos relativos al uso de software y hardware, así como las actitudes que manifiestan hacia el uso de TIC para el aprendizaje.

Referencias

Barcelata, B. E.; Gómez, E; Durán, C. (2006). Construcción, confiabilidad, validez de contenido y discriminante del inventario autodescriptivo del adolescente. Acta Colombiana de Psicología, noviembre, 5-18.

Bernal, J.L., y Teixidó, J. (2012). Las competencias docentes en la formación del profesorado. Madrid: Síntesis editorial.

Cabero, J. y Llorente, M. C. (2013). La aplicación del juicio de experto como técnica de evaluación de las tecnologías de la información (TIC). En Eduweb. Revista de Tecnología de Información y Comunicación en Educación , 7 (2) pp.11-22. Disponible en http://tecnologiaedu.us.es/tecnoedu/images/stories/jca107.pdf

Carrion, C., Soler, M., y Aymerich, M. (2015). Análisis de la Validez de Contenido de un Cuestionario de Evaluación del Aprendizaje Basado en Problemas: Un Enfoque Cualitativo. Formación universitaria, 8(1), 13-22. Recuperado de http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-50062015000100003&lng=es&tlng=es. 10.4067/S0718-50062015000100003

Corral, Y. (09 de Febrero de 2009). Validez y confiabilidad de los instrumentos de investigación para la recolección de datos. Revista ciencias de la educación, 19(33), 228-247.

Edel Navarro, R. (03 de Enero de 2010). Entornos Virtuales de Aprendizaje. La contribución de "lo virtual" en la educación. Revista Mexicana de Investigación Educativa, 15(44), 7-15.

Escobar, J. y Cuervo, A. (2008) Validez de contenido y juicio de expertos: una aproximación a su utilización. Avances en Medición, 6, 27-36.

Field, A. P. (2005), Intraclass Correlation, en Encyclopedia of Statistics in Behavioral Science, Chichester: John Wiley & Sons, pp. 948-954

Martínez Mediano, C. (2014). Técnicas e instrumentos de recogida y análisis de datos. Madrid, España: Universidad Nacional de educación a distancia.

Pedrosa, I., Suárez-Álvarez y García-Cueto, E. (2013). Evidencias sobre la Validez de Contenido: Avances Teóricos y Métodos para su Estimación. Acción Psicológica, 10(2).

Pimienta, J. H. (2014). Elaboración y validación de un instrumento para la medición del desempeño docente basado en competencias. REDU: Revista de Docencia Universitaria, Número monográfico dedicado a Equidad y Calidad en la Docencia Universitaria: Perspectivas Internacionales, 12 (2), 231-250.

Torres, C. A., Armenta, J., Valdés, A., García, R. (2013). Adopción de las TIC en docentes de nivel primaria. México: Pearson.

Tristán L.A. (2008). Modificación al modelo de Lawshe para el dictamen cuantitativo de la validez de contenido de un instrumento objetivo. Avances en Medición. 6 (1), 27-36.

Urrutia, M., Barrios, S., Gutiérrez, M., & Mayorga, C. (2014). Métodos óptimos para determinar validez de contenido. Revista Cubana de Eucación Médica Superior, 3(28), 547-558.

Apéndice A. Datos, Código y Salida R

Item co1 re1 cl1 co2 re2 cl2 co3 re3 cl3 co4 re4 cl4 co5 re5 cl5 co6 re6 cl6 co7 re7 cl7

1 4 4 4 4 3 4 4 2 4 4 4 4 4 4 4 3 3 3 4 4 4

2 4 4 4 4 4 3 4 4 4 4 4 4 4 4 3 3 3 3 4 4 4

3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 3 3 3 4 4 4

4 4 4 4 4 4 4 4 2 3 4 4 4 4 4 2 3 3 3 4 4 4

5 4 4 4 4 4 4 4 4 3 4 4 4 4 4 2 3 3 3 4 3 3

6 4 4 4 4 4 4 4 4 4 4 4 4 4 4 2 4 3 4 4 3 4

7 4 4 4 4 4 3 4 4 4 4 4 4 4 4 3 3 4 4 4 3 4

8 4 4 4 4 4 4 4 4 3 4 4 4 3 3 1 4 4 4 4 3 4

9 4 4 4 4 4 4 4 3 4 4 4 4 4 4 4 3 3 3 3 2 3

10 4 4 4 4 4 4 4 3 4 4 4 4 4 4 2 4 4 4 4 4 4

11 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4

12 4 4 4 4 4 4 4 4 4 4 4 4 4 4 3 3 3 3 4 4 4

13 4 4 4 4 4 3 4 2 4 4 4 4 4 4 3 4 4 4 4 4 4

14 4 4 4 4 4 4 4 2 4 4 4 4 4 4 2 3 3 4 4 4 4

15 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 3 3 4 4 4

16 4 4 4 4 4 4 4 4 4 4 4 4 4 4 2 4 4 4 4 4 4

17 4 4 4 4 4 4 3 4 4 4 4 4 4 4 2 3 3 3 4 4 4

18 4 4 4 4 4 4 4 4 2 4 4 3 4 4 2 4 4 4 4 4 4

19 4 4 4 4 4 4 3 4 4 4 4 4 4 4 2 3 3 3 3 4 4

20 4 4 4 4 4 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4

21 4 4 4 3 2 4 4 3 4 4 4 4 3 2 2 4 4 4 3 3 4

22 4 4 4 3 4 2 4 4 4 4 4 4 4 4 4 3 3 4 4 4 4

23 4 4 4 3 1 4 3 3 4 4 4 4 2 2 1 4 4 4 3 3 4

24 4 4 4 4 4 3 3 4 4 4 4 4 2 2 1 4 4 4 4 3 4

25 4 4 4 4 3 4 4 3 4 4 4 4 4 4 4 4 4 4 3 3 4

26 4 4 4 3 3 4 4 3 4 4 4 3 3 3 2 3 4 4 3 3 4

27 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 3 4 4 4 4

28 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4

29 4 4 4 4 4 4 4 4 4 4 4 4 3 2 2 3 3 4 4 4 4

30 4 4 4 4 3 4 4 4 4 4 4 4 3 2 2 4 4 4 4 3 4

31 4 4 4 4 4 4 4 4 3 4 4 4 3 3 1 3 3 3 4 4 4

32 4 4 4 4 4 4 4 4 4 4 4 3 2 1 1 4 4 4 4 3 4

33 4 4 4 4 3 4 4 3 4 4 4 2 3 3 2 2 3 3 4 4 4

34 4 4 4 4 4 4 4 4 4 4 4 2 2 2 1 4 4 3 4 4 4

35 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 3 3 3 4 4 4

36 4 4 4 4 3 4 4 4 4 4 4 2 3 3 3 4 4 4 4 4 4

37 4 4 4 4 4 4 4 3 4 4 4 4 3 3 3 4 4 4 4 4 4

38 4 4 4 4 4 4 4 4 3 4 4 4 4 4 4 4 4 4 4 4 4

39 4 4 4 4 4 4 4 4 3 4 4 4 2 2 1 4 4 4 4 4 4

Dimension su1 su2 su3 su4 su5 su6 su7

1 4 4 4 4 4 4 4

2 4 4 4 4 4 3 3

3 4 4 3 4 4 4 4

library(irr)

datos <- read.table("cuestionarioweb.txt",header=TRUE)

attach(datos)

# Coherencia

co <- data.frame(co1,co2,co3,co4,co5,co6,co7)

COicc <- icc(co,model="twoway",type="agreement",unit="average")

# Relevancia

re <- data.frame(re1,re2,re3,re4,re5,re6,re7)

REicc <- icc(re,model="twoway",type="agreement",unit="average")

# Claridad

cl <- data.frame(cl1,cl2,cl3,cl4,cl5,cl6,cl7)

CLicc <- icc(cl,model="twoway",type="agreement",unit="average")

# Suficiencia

su <- read.table("suficiencia.txt",header=TRUE)

SUicc <- icc(su,model="twoway",type="agreement",unit="average")

# Imprime resultados

COicc

REicc

CLicc

SUicc

> COicc

Average Score Intraclass Correlation

Model: twoway

Type : agreement

Subjects = 39

Raters = 7

ICC(A,7) = 0.222

F-Test, H0: r0 = 0 ; H1: r0 > 0

F(38,142) = 1.35 , p = 0.105

95%-Confidence Interval for ICC Population Values:

-0.145 < ICC < 0.521

> REicc

Average Score Intraclass Correlation

Model: twoway

Type : agreement

Subjects = 39

Raters = 7

ICC(A,7) = 0.217

F-Test, H0: r0 = 0 ; H1: r0 > 0

F(38,190) = 1.32 , p = 0.118

95%-Confidence Interval for ICC Population Values:

-0.169 < ICC < 0.524

> CLicc

Average Score Intraclass Correlation

Model: twoway

Type : agreement

Subjects = 39

Raters = 7

ICC(A,7) = 0.0476

F-Test, H0: r0 = 0 ; H1: r0 > 0

F(38,138) = 1.08 , p = 0.358

95%-Confidence Interval for ICC Population Values:

-0.239 < ICC < 0.343

> SUicc

Average Score Intraclass Correlation

Model: twoway

Type : agreement

Subjects = 3

Raters = 7

ICC(A,7) = -6.56e-16

F-Test, H0: r0 = 0 ; H1: r0 > 0

F(2,12) = 1 , p = 0.397

95%-Confidence Interval for ICC Population Values:

-9.442 < ICC < 0.977

Introducción · Programa Académico · Libros · Comité Organizador · Convocan · Instituciones Participantes · El Consejo de Transformación Educativa

Validez de contenido por jueces expertos a través de una herramienta virtual

Liliana Aidé Galicia Alarcón, Sergio Juárez Cerillo y Jorge Arturo Balderrama Trápaga

U. Veracruzana

Para obtener información de contacto de los autores, favor de escribir a info@transformacion-educativa.com.