If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Prueba ji cuadrada de Pearson (bondad del ajuste)

Aplicamos la prueba de ji cuadrada a la hipótesis de que la distrubución del dueño es correcta. Creado por Sal Khan.

¿Quieres unirte a la conversación?

Sin publicaciones aún.
¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

estoy pensando en comprar un restaurante así que voy y le pregunto al dueño actual cuál es la distribución del número de clientes que obtienes cada día y me dice eso ya lo he calculado mostrándome esta distribución básicamente lo que se tiene es 10% de clientes el lunes 10% martes 15% miércoles y así sucesivamente cierran los domingos así que esto es 100 por ciento de los clientes de una semana si los sumas de edad 100% yo obviamente dure un poco así es que decido ver que también que también se ajusta esta distribución a datos realmente observados decido observar el número de clientes que asisten en la semana y esto es lo que obtengo de datos observados así que para resolver si quiero aceptar o rechazar la hipótesis que él está planteando aquí voy a hacer una pequeña prueba de hipótesis establezco entonces una hipótesis nula que la distribución del dueño la distribución del dueño esta que tenemos aquí la distribución del dueño es correcta y la hipótesis alternativa que la distribución del dueño no es correcta que estos datos que tenemos aquí no son los adecuados no debe confiar en ellos y por lo tanto voy a tener que rechazar la distribución del dueño y quiero hacer esto con un nivel de significancia del 5% un nivel de significancia del 5% otra manera de pensar en esto es que voy a calcular un estadístico basado en los datos que tenemos aquí va a ser un estadístico y cuadrada o más bien el estadístico que va a calcular va a seguir aproximadamente una distribución de gi cuadrada y dado que sigue una distribución de g cuadrada con cierto número de grados de libertad y eso lo vamos a calcular y lo que quiero ver es si la probabilidad de obtener un resultado como éste o un resultado más extremo que éste tiene una probabilidad menor al 5% es decir si la probabilidad tener un resultado como éste o más extremo que éste es menor al 5% voy a tener que rechazar la hipótesis o lo que es lo mismo rechazar la distribución del dueño si por el contrario no ocurre eso si yo digo hay la probabilidad de obtener un resultado como esto o un resultado que sea más extremo que esto sea un valor mayor al nivel de significancia que establecimos no la voy a rechazar no tengo razón para asumir que me está engañando hagamos eso para calcular el estadístico he cuadrada vamos a suponer que la distribución del dueño es la correcta vamos a suponer que la distribución del dueño es correcta así que asumiendo que la distribución del dueño era correcta cuáles serían los valores observados esperados aquí tenemos los valores esperados en porcentaje cuáles serían los valores que esperaríamos observar déjame escribirlo aquí esperados agregamos el renglón de esperados así que esperamos que el 10% en total de los clientes venían el lunes 10% en total de los clientes venían el martes 15 por ciento el miércoles para calcular cuáles son de hecho esos números necesitamos calcular cuál es el total del número de clientes sumemos entonces estos números saquemos la calculadora tenemos que son 30 + 14 + 34 más 45 + 57 + 20 es lo cual nos da un total de 200 clientes que viene a una restaurante en esa semana déjame escribir este valor tenemos un total voy a ponerlo en esta columna total ignore este valor de aquí total de 200 clientes entonces cuál es el valor esperado para el lunes el lunes tenemos un 10% de 200 esperamos 20 clientes martes 10% de 200 también esperamos 20 clientes miércoles 15% de 200 esperamos 30 clientes jueves 20% de 200 son 40 clientes los que esperamos viernes 30% de 200 esperamos 60 clientes finalmente sábado 15% de 200 esperamos 30 clientes así si esta distribución es correcta estos son los números que esperaríamos ahora para calcular el estadístico y cuadrada esencialmente lo que hace es dejar mostrarte lo por acá voy a usar una equis mayúscula al cuadrado algunas gentes usan la letra g la letra griega he al cuadro para usar la x mayúscula al cuadrado déjame escribirlo así esto va a ser estadístico de estadístico de y cuadrada estadístico eje cuadrada y lo voy a escribir con la x en vez de la he porque va a ser una aproximación a la distribución de g cuadrada no podemos asumir que es exacta estamos más bien tratando con una aproximación a la distribución y es un cálculo inmediato para cada uno de los días tomamos el valor observado menos el esperado aquí tenemos entonces para el lunes que sería 30 menos 20 y estoy usando para esto el código los colores tenemos esta diferencia elevada al cuadrado entre el valor esperado básicamente lo que tenemos es el cuadrado ya lo que sería como el error entre el observado y lo esperado la diferencia del valor observado y el valor esperado y esto normalizado aquí por el valor esperado y queremos tomar la suma de todos estos lo voy a hacer en amarillo así más 14 menos 20 14 menos 20 al cuadrado sobre el valor esperado que es 20 más 34 menos 30 al cuadrado 34 menos 30 al cuadrado sobre 30 más lo voy a poner acá abajo más 45 menos 40 al cuadrado sobre 40 más 57 menos 60 al cuadrado 57 menos 60 al cuadrado sobre 60 y finalmente más 20 más 20 menos 30 al cuadrado sobre 30 simplemente tome el cuadrado del observado menos el esperado lo dirigente el valor esperado tome la suma de estos valores y eso nos dio el estadístico y cuadrada calculemos entonces cuánto nos va a dar este valor esto va a ser igual a lo va a hacer por acá abajo para que no me quede sin espacio luego hacen otro color lo hacen naranja esto va a ser igual a 30 menos 20 al cuadrado ser 10 al cuadrado que es 100 dividido entre 20 esto es igual a 5 más quizás no puedo hacer todos tus valores mentalmente entonces dejar ponerlo de esta manera sería 100 entre 10 al quad 2 100 entre 20 más aquí tenemos 14 menos 20 menos 6 al cuadrado aquí tendríamos 36 sobre 20 más 34 menos 34 al cuadrado 16 sobre 30 más 45 menos 45 al cuadrado 25 entre 40 más 57 menos 60 es igual a menos 3 al cuadrado es 9 entre 60 más 20 menos 30 es menos 10 al cuadrado es 100 más 100 sobre 30 y esto es igual a de sacar la calculadora nuevamente que tenemos aquí tenemos qué 100 entre 20 más 36 entre 20 más 16 entre 30 más 25 entre 40 más 9 entre 60 más 100 entre 30 y esto es igual a 11.44 esto es igual a 11.44 déjame apuntarlo por acá 11.44 nuestro estadístico de cuadra de 11.44 que aquí lo pongo con x mayúscula al cuadrado en algunas ocasiones se pone la letra griega y cuadrada pero aquí tenemos una distribución aproximada así cuadrada en fin habiendo dicho esto vamos a calcular si suponemos que hay aproximadamente una distribución y cuadrada cuál es la probabilidad de obtener un resultado tanto o más extremo que este otra manera de decirlo es existe un valor más extremo que el valor crítico de ji cuadrada para el cual hay una probabilidad del 5% de obtenerse hagamos eso busquemos nuestro valor crítico de ji cuadrada y si este valor es más extremo que s rechazaremos la hipótesis nula encontremos entonces el valor crítico de ji cuadrada tenemos una alfa del 5% y una de las cosas que tenemos que calcular también es el número grados de libertad aquí obtuvimos la suma para uno dos tres cuatro cinco o seis valores por lo que es tentador decir que el número de libertad en 6 darse cuenta que si tenemos toda esta información por aquí puedes calcular esta última pieza de información por lo cual tenemos 5 grados de libertad cuando tienes n valores de datos como aquí que estás comparando observado contra esperado tus grados de libertad van a ser n menos 1 pues puedes calcular el enésimo dato basado en la información que se tiene y en el menos un datos así es que nuestro caso el 9 grados de libertad son 5 n 1 entonces nuestro nivel de significancia es 5 % nuestros grados de libertad grados de libertad también son igual a 5 y lo ubicamos en la tabla de distribución de he cuadrada aquí tenemos 5 grados de libertad tenemos por acá el nivel de significancia de punto 0 55 % y el valor crítico resulta entonces 11.07 veamos esta gráfica por acá aquí tenemos la instrucción y cuadrada con 5 grados de libertad aquí tenemos en color magenta dicha distribución tenemos un nivel de punto 0 5 que es 11.07 si seguimos aquí la línea magenta si la continuamos por acá para ubicar el valor deseado el valor crítico aquí tenemos 8 10 está más o menos por aquí aquí tenemos 12 y 11 puntos 0 7 estaría aproximadamente por aquí y lo que esto dice entonces es que la probabilidad de obtener un valor al menos tan extremo como 11.07 este 5% 5% comparemos con nuestro resultado tenemos que no es valor crítico de sí cuadrada el valor crítico de ji cuadrado es igual a déjame checar en la tabla de nuevo es 11.07 entonces tenemos un valor crítico de ji cuadrada de 11.07 y el resultado que obtuvimos de nuestro estadístico de 11.44 es aún menos probable que eso la probabilidad es menor que el nivel de significancia por lo cual vamos a rechazar deja de ponerlo de esta manera el valor de 11.44 11.44 11.44 es más extremo que el valor crítico de 11.07 por lo cual es muy improbable que esta distribución sea verdadera tenemos que rechazar lo que él nos está diciendo tenemos que rechazar esta distribución pues hemos encontrado que no hay un buen ajuste basado en este nivel de significancia