29 Justicia para los ositos de goma rojos y verdes: La prueba de hipótesis.
Diapositiva 0
Hola y bienvenidos a este nuevo episodio. Hoy hablamos de hipótesis y de cómo probarlas. Y esto se puede hacer de forma fácil y convincente con ositos de goma.
Empecemos.
Diapositiva 1
Estadísticas descriptivas y evaluativas: ¿de qué se trata? Veamos un ejemplo, la prueba PISA. PISA - el Programa para la Evaluación Internacional de Alumnos - examina cada tres años el rendimiento escolar de los jóvenes de 15 años en muchos países del mundo. Está dirigida por la OCDE, la Organización para la Cooperación y el Desarrollo Económico, que actualmente cuenta con 38 Estados miembros.
En 2018, más de 5000 jóvenes seleccionados al azar en Alemania participaron en el estudio. Como resultado, obtuvieron en promedio 500 puntos de rendimiento en matemáticas (SD = 95), mientras que el promedio de la OCDE fue ligeramente inferior, con sólo 489 puntos (SD = 91). Entonces, ¿los resultados en matemáticas de los jóvenes alemanes son mejores que los de sus compañeros del promedio de los países de la OCDE? Y esta diferencia aparentemente pequeña de once puntos, ¿es realmente significativa en algún sentido?
La estadística se ocupa de este tipo de cuestiones y ha desarrollado procedimientos útiles para responderlas.
Diapositiva 2
El objetivo es comprobar el grado de certeza con el que una determinada afirmación (hipótesis) puede derivarse de los datos observados.
Por ejemplo, las afirmaciones
pueden ser revisados en base a los resultados de la prueba PISA 2018.
Hay que subrayar que es difícil llegar a una conclusión clara de "verdadero" o "falso". Se trata más bien de saber si se puede hacer una afirmación con un grado de probabilidad suficiente. La mayoría de las cosas en la vida cotidiana requieren decisiones que están asociadas a un cierto grado de incertidumbre. Esto es precisamente lo que estamos tratando hoy.
Diapositiva 3
En el caso de la prueba PISA, por cierto, se pueden leer las respuestas a las preguntas en varias publicaciones. Volveremos a hablar de ello al final de este episodio.
Pero, por supuesto, también queremos entender cómo se producen las valoraciones de los expertos. ¿En qué medida son comprensibles y fiables? En PISA, de cierta manera se encuestan las competencias de los jóvenes y, en última instancia, se evalúa este experimento aleatorio.
De eso se trata:
Se realiza un experimento aleatorio varias veces. Observamos los resultados y queremos sacar conclusiones sobre la distribución de probabilidad en la que se basa el experimento aleatorio.
¿Cómo es posible? Y, lo que es muy importante, ¿a qué errores se arriesga uno?
Diapositiva 4
Para entender el enfoque principal, los amplios datos de una encuesta de rendimiento internacional son bastante menos adecuados.
Comencemos, pues, con un simple y ficticio experimento de Bernoulli.
El personaje principal es Pepa. Le encantan los ositos de goma amarillos, pero cree que son mucho más raras en las bolsas que cualquier otro color. Abre una bolsa con 30 ositos de goma y encuentra cuatro ositos de goma amarillos.
"Demasiado pocos", dice. "Hay seis colores, cuatro son menos de un sexto de 30". Pepa ve confirmadas sus sospechas.
“Qué tonteria,” opina Marta. “Hay que facturar al menos cinco bolsitas. Sólo si entre todos hay menos de 20 ositos de goma amarillos se puede estar razonablemente seguro de que la mezcla es generalmente injusta.”
¿Son convincentes los argumentos?
Diapositiva 5
Recuerda, esto es de nuevo sobre la distribución binomial. Aquí está la fórmula conocida una vez más.
Para un proyecto de Bernoulli de n intentos y probabilidad de éxito p, la probabilidad de obtener exactamente k éxitos es (con 0 ≤ k ≤ n):
Veamos primero la situación desde el punto de vista de Pepa. A continuación, nos fijamos en el hecho de que hay como máximo cuatro ositos de goma en una bolsa de 30, es decir, P(X<5).
Aquí se pueden ver las componentes para k = 0, 1, 2, 3 y 4 y la probabilidad p = 1/6 ≈ 0,16 y, por tanto, 1-p = 5/6 ≈ 0,84. Recuerda: es p = 1/6 porque hay ositos de goma de seis colores.
La última columna muestra los diferentes resultados, cuya suma es de aproximadamente 0,463.
Por lo tanto, hay una probabilidad de alrededor del 46% de que haya cuatro o menos ositos de goma amarillos en una bolsa de 30.
Esta es una probabilidad relativamente alta de casi 1/2. Obviamente, Pepa debería empezar a pensar si su afirmación es tan sostenible. La probabilidad de que haya menos de cinco ositos de goma de su color favorito en una bolsa y, por tanto, la probabilidad de un error por su parte es demasiado alta.
Diapositiva 6
En mi opinión, tiene sentido calcular "a mano" de vez en cuando para entender mejor las correlaciones.
Pero, por supuesto, también podríamos haberlo calculado, por ejemplo, mediante un programa de estadística o las aplicaciones correspondientes en Internet. De este modo - y se puede ver en la parte inferior derecha - llegamos al mismo resultado: no es otra cosa que 0,463. Dejaremos aquí de lado los muchos decimales que hay después.
Diapositiva 7
Tomemos ahora el punto de vista de Marta, que quiere probar 5 • 30 = 150 ositos de goma y ha fijado como límite 5 • 4 = 20 piezas. Esto es, por supuesto, arbitrario. Pero Marta cree que un número inferior a 20 es lo suficientemente pequeño como para mostrar que hay menos osos de goma amarillos que otros.
Los componentes son, por tanto, a k entre 0 y 19 y n = 150. Por supuesto, p y 1-p permanecen inalterados en 0,16 y 0,84 respectivamente.
Esta vez utilizamos la calculadora de Internet y obtenemos P(X ≤ 19) redondeada = 0,1579.
Este valor es significativamente menor que 0,463, pero sigue siendo bastante grande. Debería haber relativamente pocos ositos de goma amarillos en aproximadamente una sexta parte de los paquetes de cinco bolsas.
¿Hay base suficiente para reclamar al fabricante?
Evidentemente, se trata de una cuestión de opinión. Sin embargo, las estadísticas han acordado no aceptar este valor. Simplemente, sigue siendo una coincidencia demasiado grande. El límite se establece en el 0,05 o el 0,01 y se habla del nivel del 5% o del 1%.
En términos generales: Es poco probable que una carta de queja de Pepa basada en sus datos o en la propuesta de Marta tenga éxito. Una probabilidad de error de 1/6 o incluso 1/2 se considera inaceptable.
Diapositiva 8
Y una cosa más: si realmente sólo quiere aceptar un error en el 1% de los casos, entonces sólo funciona con 13 y menos. Haga las cuentas usted mismo con una aplicación adecuada.
Diapositiva 9
Veamos otro ejemplo, pero quedémonos en el mundo de los ositos de goma. Esta vez se trata de otra propiedad, concretamente su peso.
La mayoría de los ositos de goma proceden de una fábrica y se producen a máquina. En el caso de una variedad muy fina, 20 ositos de goma entran en una bolsa de 50 g, por lo que cada uno pesa unos 2,5 g. Por regla general, no debe desviarse más de 0,2 g hacia arriba o hacia abajo, como máximo se tolera un 3% y la fiabilidad de la máquina se comprueba en consecuencia.
Supongamos que la prueba se hace a mano y se toma una muestra aleatoria de 100 ositos de goma. Se considera que la máquina necesita mantenimiento si al menos cuatro ositos de goma presentan un peso inferior a 2,3 g o superior a 2,7 g, respectivamente. ¿Es un límite razonable?
Diapositiva 10
Esta es la situación:
Estamos ante un proyecto de Bernoulli, porque sólo hay dos posibilidades. Un osito de goma está dentro de la norma de peso establecida o no.
Se extrae una muestra aleatoria de 100 ositos de goma.
Ahora suponemos que hay al menos cuatro ositos de goma en la muestra que están fuera de la norma
¿Necesita la máquina ser revisada? ¿O podría seguir funcionando correctamente?
¿Cómo se puede comprobar esto?
Diapositiva 11
Y está claro: siempre debe decidirse con un cierto grado de incertidumbre. La cuestión es saber cuán grande es el riesgo de aceptar los altos costos de mantenimiento sin una razón.
¿Cuál es la probabilidad de encontrar más de tres ositos de goma con el peso incorrecto entre los 100 ositos de goma seleccionados al azar?
“Incorrecto" significa que el peso se desvía demasiado hacia arriba o hacia abajo de la norma establecida.
Buscamos P ( X ≥ 4 ) para 100 ensayos y una tolerancia del 3%.
Usamos la calculadora y encontramos que la probabilidad que buscamos es de aproximadamente un 35%.
Esto es alto y parece bastante arriesgado parar la máquina y llevarla al servicio técnico por este error.
Diapositiva 12
Preguntado en otra manera:
¿Cuántos ositos de goma desviados hay que tolerar para que el riesgo de que la máquina se detenga innecesariamente no supere el 5%?
El cálculo muestra que entonces pueden producirse hasta seis ositos de goma con el peso incorrecto.
O, si saca 1000 ositos de goma de inmediato, 40 es en realidad un buen límite para tomar una decisión equivocada sólo el 5% de las veces. Pruébelo usted mismo.
Diapositiva 13
Ya habíamos trabajado una vez con ositos de goma. ¿Se acuerda?
En aquel momento, se afirmaba que había muchos menos ositos de goma rojos y verdes que amarillos, blancos y naranjas.
Contamos: Hay 47 de 102 rojos o verdes y 55 de 102 amarillos, blancos o naranjas. Hasta ahora, pensábamos que emocionalmente era lo mismo. Ahora podemos comprobarlo de forma estadística y fiable.
Diapositiva 14
Por lo tanto, la hipótesis H0 es: Hay el mismo número de ositos de goma en los colores rojo y verde que en los colores blanco, amarillo y naranja.
Para probar la hipótesis utilizamos P(X < 48).
Diapositiva 15
Y de nuevo hacemos las cuentas. Se puede ver en el lado izquierdo que llegamos a una probabilidad de algo menos de un cuarto de que, de 102 ositos de goma, menos de 48 sean rojos o verdes. Esto significa que la hipótesis no se cumple.
Pero juguemos de nuevo con los números. En el lado derecho, vemos el cálculo con k ≤ 42 y sólo con este número bajamos el riesgo por debajo del 5% de que la hipótesis se rechace erróneamente.
Diapositiva 16
También puede hacer el cálculo para cada color por separado. Entonces el proyecto de Bernoulli es simplemente un color particular contra todos los demás. A la derecha de la tabla se pueden ver las probabilidades correspondientes; en ninguno de los casos se puede suponer que la distribución sea injusta.
Diapositiva 17
Así que de eso se trataba:
El objetivo es hacer una afirmación fundamentada (validada estadísticamente) sobre la aceptación o el rechazo de una hipótesis en relación con la población.
La hipótesis (estado inicial) también se denomina hipótesis nula y suele escribirse H0.
La hipótesis alternativa - simplemente la afirmación contraria a la hipótesis nula - suele escribirse H1.
Diapositiva 18
¿Recuerda las dos preguntas del principio en relación con la prueba PISA?
Preguntamos si las siguientes afirmaciones podían ser justificadas.
Número 1: "El rendimiento en matemáticas de los jóvenes en Alemania es mejor que el de sus compañeros de promedio en los países de la OCDE".
Número 2: "En Alemania hay pocos alumnos de alto rendimiento y muchos de bajo rendimiento en comparación con los países de la OCDE".
Diapositiva 19
Estas son respuestas obtenidas con la ayuda de los datos de PISA 2018.
En una comparación de los países de la OCDE, el rendimiento de Alemania de 500 puntos es significativamente superior a la media de la OCDE de 489 puntos.
El primer grupo de la OCDE está formado por Japón (527), Corea (526), Estonia (523) y Países Bajos (519).
En Alemania, el 21,1% de los jóvenes de quince años muestra un nivel de competencia de nivel 1 o inferior. Esta cifra no es significativamente inferior a la media de la OCDE, que es del 24,0%.
En Alemania, el 13,3 % de los jóvenes de quince años muestra un nivel de competencia en el nivel 5 o 6, lo que es significativamente superior a la media de la OCDE, que es del 10,9 %.
Y aquí también influye, por supuesto, el tamaño de la muestra.
Diapositiva 20
Eso fue todo por hoy. Me alegro de que estuviera allí. Hasta la próxima.