Prueba T de Welch

Descripción Teórica

La prueba t de Welch es una prueba estadística que se utiliza para comparar la media de dos grupos en situaciones donde los tamaños de muestra y/o las varianzas no son iguales. Es una variante de la prueba t de Student que se utiliza cuando las asunciones de la prueba t de Student no se cumplen. La prueba t de Welch es especialmente útil cuando las muestras tienen tamaños diferentes y varianzas diferentes. El supuesto de normalidad se mantiene tanto para la prueba t de Student como para la t de Welch.

El primer paso para realizar la prueba t de Welch es establecer una hipótesis nula y una hipótesis alternativa. Si no se tiene conocimiento previo sobre el signo de la diferencia entre dos medias poblacionales, se debe realizar un contraste de hipótesis bilateral. Esto significa que si restas la media del primer grupo menos la del segundo y no sabes al 100% si el número será positivo o negativo tendrás que hacer el contraste de hipótesis bilateral. Para este tipo de contraste la hipótesis nula establece que las medias de los dos grupos son iguales, mientras que la hipótesis alternativa establece que las medias son diferentes.

\begin{cases}H_0: \bar{x}_1 = \bar{x}_2 \\H_1: \bar{x}_1 \neq \bar{x}_2\end{cases}

Cálculo de la prueba t de Welch

El cálculo de la prueba t de Welch se basa en el cálculo de un estadístico t, que se define como:

t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

donde:

  • \bar{x}_1 y \bar{x}_2 son las medias de las dos muestras.
  • s_1^2 y s_2^2son las varianzas de las dos muestras.
  • n_1 y n_2son los tamaños de las dos muestras.

La fórmula para el cálculo de t es similar a la fórmula de la prueba t de Student, pero en lugar de utilizar la varianza combinada de los dos grupos, utiliza una estimación de la varianza combinada ponderada por los tamaños de muestra de los dos grupos.

La distribución de t bajo la hipótesis nula sigue una distribución t de Welch, que tiene grados de libertad calculados como:

df = \frac{\left(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}\right)^2}{\frac{\left(\frac{s_1^2}{n_1}\right)^2}{n_1 - 1} + \frac{\left(\frac{s_2^2}{n_2}\right)^2}{n_2 - 1}}

donde df es el número de grados de libertad de la distribución t de Welch.

Interpretación de los resultados

El valor de t se compara con la distribución t de Student para determinar si la diferencia entre las medias de los dos grupos es estadísticamente significativa. Si el valor de t es mayor que el valor crítico de la distribución t de Student para un nivel de significación dado, entonces se rechaza la hipótesis nula y se concluye que hay una diferencia significativa entre las medias de los dos grupos.

A continuación, realizaremos un ejemplo práctico para comprender a fondo la prueba T de Welch. En la documentación adicional podrás encontrar todo el material necesario para la realización del ejemplo: tablas de distribución, la base datos, ejercicio resuelto en excel…

Ejemplo Práctico

Tenemos una base de datos de un banco español que cuenta con 17.304 observaciones. Las variables de las que disponemos son:

  • ID → Identificador cliente
  • CARTERA → Identifica la cartera a la que pertenece el cliente. Toma valores A (Clientes España) y B (Clientes Extranjeros)
  • DEFAULT → Identifica si el cliente ha impagado. Toma valor 1 si el cliente ha impagado y valor 0 si no ha impagado

Supongamos que un directivo del banco desea introducir la variable CARTERA en un nuevo análisis. Con ese análisis se pretende reportar información de DEFAULT diferenciando entre los clientes españoles (A) y extranjeros (B).

¿Es necesario hacer esta diferenciación?

¿Tiene sentido el análisis que propone el directivo del banco?

Para comprobar si tiene sentido analizar la información de Default teniendo en cuenta la cartera a la que pertenece el cliente, necesitamos saber si existen diferencias significativas entre los clientes españoles y los extranjeros.

Dado que el tamaño de muestra y la varianza de los grupos no son iguales se procederá a realizar la prueba t de Welch.

Para ello, lo primero que se debe hacer es establecer la hipótesis que se desea contrastar. Al no tener conocimiento previo sobre el comportamiento de los clientes en cada una de las carteras, no podemos presuponer qué cartera contará con más clientes en situación de impago. Al no saber si la media de la cartera A será mayor o menor que la media de la cartera B (no tenemos ni idea si los clientes españoles impagan más o menos que los clientes extranjeros) se debe realizar un contraste de hipótesis bilateral. Para el contraste de hipótesis bilateral la hipótesis nula establece que las medias de los dos grupos son iguales, mientras que la hipótesis alternativa establece que las medias son diferentes.

\begin{cases}H_0: \bar{x}_1 = \bar{x}_2 \\H_1: \bar{x}_1 \neq \bar{x}_2\end{cases}

Una vez establecida la hipótesis calcularemos el tamaño de muestra, la media y la varianza de cada uno de los grupos:

n_1 = 10.158
n_2 = 7.146
\bar{x}_1 = 9,84446
\bar{x}_2 = 5,59754
s_1^2 = 9,84446 \times 10^{-5}
s_2^2 = 5,59754 \times 10^{-4}

El siguiente paso será calcular el estadístico t:

t = \frac{0.0000984446 - 0.000559754}{\sqrt{\frac{0.0000984446}{10158} + \frac{0.0005595197}{146}}} = -1.555165562

Este estadístico t se tiene que comparar con el valor crítico de t que se obtiene de la tabla de distribución t de Student. Para saber el valor crítico de t es necesario conocer los grados de libertad (df) y el nivel de significación (α), así que procederemos a calcular los grados de libertad:

df = \frac{\left( \frac{0.0000984446}{10.158} + \frac{0.0005595197}{146} \right)^2}{\frac{\left(\frac{0.0000984446}{10.158}\right)^2}{10.158 - 1} + \frac{\left(\frac{0.0005595197}{146}\right)^2}{146 - 1}} = 8926.99

En el caso de no utilizar un software estadístico, se redondea el número de grados de libertad al entero más cercano.

Por último, se debe establecer un nivel de significación α. En este ejemplo se establece:

\alpha = 0,05

El nivel de significación indica que existe un riesgo del 5% de concluir que existe diferencia entre las medias cuando en realidad no hay diferencias; o lo que es lo mismo, hay un 5% de probabilidades de rechazar incorrectamente la hipótesis nula.

Ahora que ya contamos con los grados de libertad y el nivel de significación, encontraremos el valor crítico de t en la tabla de distribución t de Student que corresponda a un contraste bilateral. El valor crítico de t para este ejemplo es:

T_{\text{Crit}} = 1,96

A continuación, se muestran dos métodos para comparar el estadístico t con el valor crítico de t y así aceptar o rechazar la hipótesis nula:

1. Comparar el valor absoluto del estadístico t con el valor crítico de t:

|t| = |-1.555165562| = 1.555165562
T_{\text{Crit}} = 1.96
t < T_{\text{Crit}}

Dado que el valor absoluto del estadístico t es menor que el valor crítico de t, se acepta la hipótesis nula y se concluye que no hay diferencia significativa entre las medias de las dos carteras.

2. Comparar el estadístico t con los valores críticos de t:

t = -1.555165562
T_{\text{CritIzq}} = -1.96
T_{\text{CritDch}} = 1.96
T_{\text{CritIzq}} < t < T_{\text{CritDch}}

Dado que el valor del estadístico t se encuentra comprendido entre el límite inferior y el límite superior (área de aceptación) se acepta la hipótesis nula y se concluye que no hay diferencia significativa entre las medias de las dos carteras.

Otra forma de aceptar o rechazar la hipótesis nula es a partir del p-valor.

El p-valor es una probabilidad que varía entre 0 y 1. Si el p-valor obtenido es menor que el nivel de significancia, se considera que el resultado es estadísticamente significativo y, por lo tanto, se rechaza la hipótesis nula.

Para calcular el p-valor del estadístico t en Excel se puede utilizar la siguiente función:

\text{=DISTR.T}(t, df, 2)

donde:

  • t → Valor del estadístico t en valor absoluto
  • df → Grados de libertad
  • 2 → Indica que se desea obtener el resultado de dos colas (contraste bilateral).

El p-valor del estadístico t = 1,555165 con grados de libertad df = 8926,99 para una prueba bilateral es:

p\text{-valor} = 0,119942097

¿Con qué valor tenemos que compararlo?

Recordar que estamos realizando un contraste bilateral y hemos establecido un nivel de significación de 0,05.

Comparamos el p-valor con el nivel de significación:

\alpha = 0,05
p\text{-valor} > \alpha

Dado que el p-valor es mayor que el nivel de significación se concluye que no tenemos evidencias suficientes para rechazar la hipótesis nula, lo que quiere decir que no podemos afirmar que los clientes de España (Cartera A) se comporten de manera distinta a los clientes extranjeros (Cartera B).

Conclusión

La prueba t de Welch es una herramienta útil para comparar la media de dos grupos cuando los tamaños de muestra y/o las varianzas de los grupos no son iguales. La prueba t de Welch se utiliza comúnmente en la investigación científica y puede proporcionar información valiosa sobre la diferencia entre los grupos. Sin embargo, es importante tener en cuenta que la prueba t de Welch asume que las dos poblaciones tienen distribuciones normales y que las muestras son independientes y aleatorias.

Contestando a la pregunta:

¿Es necesario hacer una diferenciación entre los clientes de España (Cartera A) y los clientes del extranjeros (Cartera B) a la hora de reportar información de impago (Default)?

La respuesta es NO.

Porque hemos concluido que no existen evidencias suficientes que permitan rechazar la hipótesis nula, por lo que no existen diferencias significativas entre los clientes de España (Cartera A) y los clientes del extranjeros (Cartera B), aunque si te lo ha mandado tu jefe es mejor que lo hagas y luego le muestres este análisis explicándole de que no es necesario diferenciarlas. 😉

En la sección Programación SAS encontrarás códigos completos de distintas pruebas estadísticas, incluyendo la solución de este mismo problema pero resuelto en el lenguaje de programación SAS (puedes visitar el contenido en Implementación en SAS de la T de Welch).

Documentación Adicional

Por aquí os dejamos la tabla de distribución t de Student para un contraste bilateral, también para un contraste unilateral y un Excel con los datos y cálculos del ejemplo:

Tabla de contenidos
Compartir artículo

2 comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Información básica sobre protección de datos Ver más

  • Responsable: Jorge Carballo Álvarez.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento:  No se ceden o comunican datos a terceros para prestar este servicio. El Titular ha contratado los servicios de alojamiento web a Dreamhost que actúa como encargado de tratamiento.
  • Derechos: Acceder, rectificar y suprimir los datos.

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Contiene enlaces a sitios web de terceros con políticas de privacidad ajenas que podrás aceptar o no cuando accedas a ellos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos.
Privacidad