Implementación en SAS de la T de Welch

Introducción

En el ágil universo financiero, donde la precisión y la fiabilidad son claves para la evaluación de riesgos, la T de Welch es un recurso estadístico de valor incalculable. Esta variante de la prueba t, ajustada para muestras con varianzas desiguales, se destaca por su versatilidad y precisión en comparaciones de medias. Nuestra sección de Estadística se ha enriquecido con un análisis detallado de esta técnica, donde desgranamos sus principios teóricos y resolvemos un ejercicio práctico tanto a mano como en Excel (descubre más en nuestra sección dedicada a la T de Welch).

El foco de esta sección se centra en la implementación de la T de Welch a través del lenguaje de programación SAS, una competencia esencial para los profesionales del dato en el ámbito bancario y financiero. Si bien hay diversas plataformas para programar en SAS, Altair SLCTM se perfila como una opción destacada, y te ofrecemos un completo tutorial para su instalación gratuita en tu equipo, que encontrarás aquí. Aseguramos compatibilidad de los códigos con cualquier entorno capaz de compilar SAS.

Nos adentraremos en la práctica con ejemplos concretos, aplicando la T de Welch en escenarios reales, utilizando Altair SLC como herramienta de cálculo. Desde la formulación de hipótesis hasta la interpretación de resultados, te mostraremos paso a paso cómo sacar el máximo partido a esta prueba estadística con el lenguaje de programación SAS. Prepárate para una sesión enriquecedora que elevará tus habilidades analíticas al siguiente nivel.

Ejercicio Práctico 1: Análisis de Diferencias entre Carteras de Clientes de un Banco

Contexto del Análisis

Un banco español nos ha proporcionado un conjunto de datos con 17.304 registros, ofreciéndonos una instantánea detallada de su cartera de clientes. Este conjunto de datos incluye información crucial sobre sus clientes, representada por las siguientes variables:

  • ID: Un número único asignado a cada cliente para su identificación.
  • CARTERA: Esta variable clasifica a los clientes en dos grupos distintos: A (Clientes de España) y B (Clientes Extranjeros), revelando la diversidad de su base de clientes.
  • DEFAULT: Esta variable es un indicador clave del comportamiento de pago del cliente, con un valor de 1 representando un incumplimiento de pago (default) y un valor de 0 indicando que el cliente está al corriente en sus pagos.

La entidad nos proporciona el archivo Excel en formato .xlsx:

Desafío Propuesto por la Dirección

La dirección del banco busca profundizar en el análisis de su cartera de clientes, sugiriendo una revisión detallada de la tasa de incumplimiento (DEFAULT) con un enfoque particular en la distinción entre clientes nacionales (A) y extranjeros (B). Este enfoque estratégico plantea preguntas fundamentales:

  • ¿Es justificable realizar una distinción entre clientes españoles y extranjeros en el análisis de incumplimientos?
  • ¿El análisis propuesto ofrece insights valiosos para la toma de decisiones estratégicas en el banco?

Objetivo del Ejercicio en SAS

Para abordar estas preguntas y evaluar la validez del análisis propuesto, recurrimos a la prueba T de Welch. Esta prueba es especialmente adecuada para nuestro análisis debido a la disparidad en el tamaño de muestra y varianza entre los grupos de clientes nacionales y extranjeros. Nuestro objetivo es determinar si existen diferencias estadísticamente significativas en las tasas de incumplimiento entre los dos grupos, lo cual podría influir significativamente en las estrategias futuras del banco.

Implementación en SAS de la T de Welch

Este ejercicio práctico guiará a los usuarios a través del proceso de implementación de la prueba T de Welch en SAS, aprovechando sus poderosas capacidades analíticas para manejar datos complejos y proporcionar insights claros y precisos. Al final de este análisis, seremos capaces de ofrecer una respuesta informada a las preguntas planteadas por la dirección del banco, apoyando la toma de decisiones con evidencia estadística robusta.

¡Comencemos!

Si todavía no te has descargado el conjunto de datos haz clic aquí.

Lo primero que haremos será cargar el conjunto de datos que nos ha facilitado la entidad:

/*Prueba T de Welch*/
/*Lectura del archivo BBDD_T_WELCH_Ejercicio_1_SASdesdeCero.xlsx*/
PROC IMPORT OUT=BBDD_CARTERAS
    DATAFILE = "C:\Users\user\Desktop\BBDD_T_WELCH_Ejercicio_1_SASdesdeCero.xlsx"
    DBMS = XLSX;
    GETNAMES = YES;
RUN;
SAS
👇🏻¿Dudas con alguna parte del código?

Este código SAS es una instrucción para importar datos desde un archivo Excel a SAS, utilizando el procedimiento PROC IMPORT. Este procedimiento es una herramienta poderosa para leer datos de archivos externos y convertirlos en conjuntos de datos de SAS que se podrán manipular y analizar dentro del entorno. Veamos cada parte del código para entender su funcionamiento:

  1. PROC IMPORT OUT=BBDD_CARTERAS
    • PROC IMPORT indica el inicio del procedimiento de importación de datos.
    • OUT=BBDD_CARTERAS especifica el nombre del conjunto de datos de SAS que se creará a partir del archivo Excel importado. En este caso, el conjunto de datos se llamará BBDD_CARTERAS.
  2. DATAFILE = «C:\Users\user\Desktop\BBDD_T_WELCH_Ejercicio_1_SASdesdeCero.xlsx»
    • DATAFILE señala la ruta y el nombre del archivo Excel que se desea importar. Aquí, el archivo especificado se encuentra en una ruta que incluye varias carpetas hasta el escritorio.
  3. DBMS = XLSX;
    • DBMS indica el tipo de sistema de gestión de base de datos del archivo que se va a importar. En este caso, XLSX especifica que el archivo es un Excel en formato de Microsoft Office 2007 o posterior.
  4. GETNAMES = YES;
    • GETNAMES = YES indica que la primera fila del archivo Excel contiene los nombres de las variables. SAS utilizará esta primera fila para los nombres de las variables en el conjunto de datos de SAS.
  5. RUN;
    • Finaliza la instrucción de PROC IMPORT y ejecuta el procedimiento.

Este procedimiento de importación es especialmente útil para los usuarios del lenguaje SAS que necesitan trabajar con datos almacenados en archivos Excel, permitiéndoles cargar fácilmente estos datos en Altair SLC o en SAS para su análisis y manipulación. La especificación de GETNAMES = YES es particularmente importante porque asegura que la estructura de los datos en SAS refleje la estructura original del archivo Excel, facilitando el trabajo con los datos importados.

Tras ejecutar el código anterior podremos visualizar el conjunto de datos desde el software que estemos utilizando. Así es como se vería desde Altair Analytics Workbench:

Vista desde Altair Analytics Workbench

Una vez que hemos importado con éxito el conjunto de datos, es hora de profundizar en el análisis estadístico. Para esto, utilizaremos el procedimiento TTEST, que es una herramienta poderosa para realizar pruebas de hipótesis sobre las medias de dos grupos. En nuestro caso, deseamos comparar la tasa de incumplimiento (DEFAULT) entre clientes españoles (A) y extranjeros (B), para determinar si existen diferencias significativas.

A continuación, presentamos el código que aplicaremos para llevar a cabo la prueba T de Welch, diseñada para situaciones en las que las dos muestras tienen varianzas desiguales y/o tamaños de muestra diferentes:

/*Realizamos la prueba T de Welch*/
PROC TTEST DATA=BBDD_CARTERAS ALPHA=0.05;
	CLASS CARTERA;
	VAR DEFAULT;
RUN;
SAS
👇🏻¿Dudas con alguna parte del código?

El código SAS proporcionado ejecuta una prueba T de Welch sobre el conjunto de datos BBDD_CARTERAS. La prueba T de Welch es una versión de la prueba T que se utiliza para comparar las medias de dos grupos independientes, especialmente cuando no se puede asumir que las varianzas de los grupos son iguales. Esta prueba es útil en análisis estadísticos para evaluar si existen diferencias significativas entre los grupos. Veamos en detalle cada parte del código:

  1. PROC TTEST DATA=BBDD_CARTERAS ALPHA=0.05;
    • PROC TTEST inicia el procedimiento de la prueba T en SAS.
    • DATA=BBDD_CARTERAS especifica el conjunto de datos sobre el cual realizar la prueba, en este caso, BBDD_CARTERAS.
    • ALPHA=0.05 establece el nivel de significancia para la prueba. Un valor alfa de 0.05 indica que el umbral para rechazar la hipótesis nula (de que las medias de los dos grupos son iguales) es del 5%. Esto es, si el p-valor obtenido en la prueba es menor a 0.05, se considera que hay diferencias estadísticamente significativas entre las medias de los grupos.
  2. CLASS CARTERA;
    • CLASS CARTERA; indica la variable de clasificación o grupo, CARTERA en este caso. La variable CARTERA debería dividir el conjunto de datos en dos o más grupos, entre los cuales se compararán las medias de la variable de interés.
  3. VAR DEFAULT;
    • VAR DEFAULT; especifica la variable de interés para la prueba T, que en este caso es DEFAULT. Esta es la variable cuyas medias se compararán entre los diferentes grupos definidos por CARTERA.
  4. RUN;
    • Ejecuta el procedimiento PROC TTEST.

Este procedimiento es ampliamente utilizado en análisis financieros, investigaciones de mercado, estudios médicos, y en cualquier otro campo donde se requiere comparar las medias de una variable cuantitativa entre dos grupos que pueden tener varianzas diferentes. La prueba T de Welch es una herramienta estadística robusta para este propósito, ya que no requiere la suposición de igualdad de varianzas.

Al ejecutar este código, SAS realiza la prueba T de Welch, comparando las tasas de incumplimiento entre los dos grupos de clientes. La salida del PROC TTEST nos proporciona una serie de estadísticas valiosas, incluyendo:

  • La media y la desviación estándar para cada grupo (A y B).
  • Los límites de confianza para la diferencia de medias.
  • El valor de T, los grados de libertad asociados y el p-valor para la prueba.
  • La prueba F para igualdad de varianzas.

La salida visual que hemos obtenido muestra claramente los resultados de la prueba T de Welch:

Procedimiento PROC TTEST

Aquí, podemos observar que la diferencia entre las medias de los grupos A y B se muestra en la línea «Diff (1-2)» bajo el encabezado de «Mean» . El p\text{-valor} asociado con la prueba T de Welch nos permite concluir si hay una diferencia estadísticamente significativa entre los dos grupos. Un p\text{-valor} < 0,05 generalmente indica que las diferencias observadas son estadísticamente significativas, mientras que un valor por encima de este umbral sugiere que no hay suficiente evidencia para afirmar que existe una diferencia real en la población de la que se extrajo la muestra.

La última tabla titulada «Equality of Variances» realiza una prueba F para determinar si las varianzas son iguales entre las dos muestras. Para esta prueba F la hipótesis nula establece que las varianzas de las dos carteras son iguales, mientras que la hipótesis alternativa establece que las varianzas son diferentes.

\begin{cases}H_0: σ_1^2 = σ_2^2 \\H_1: σ_1^2 \neq σ_2^2\end{cases}

Dado que p\text{-valor} < 0,0001 rechazamos la hipótesis nula. Esto significa que las dos varianzas muestrales no son iguales.

El procedimiento PROC TTEST informa sobre la comparación de medias tanto para muestras con varianzas iguales (Pooled Method) como para varianzas desiguales (Satterthwaite Method). Por lo tanto, debemos consultar la fila «Satterthwaite» en la tabla «T-Tests» para determinar el t\text{-valor} y el p\text{-valor}:

t\text{-valor} = -1,56
p\text{-valor} = 0,1199

Recuerda que la prueba T de Welch utiliza las siguientes hipótesis nula y alternativa:

\begin{cases}H_0: \bar{x}_1 = \bar{x}_2 \\H_1: \bar{x}_1 \neq \bar{x}_2\end{cases}

En nuestro caso, al observar el p\text{-valor} de la prueba Pr>|t|, podemos determinar si la hipótesis del ejecutivo del banco sobre la diferenciación entre clientes españoles y extranjeros está estadísticamente justificada.

Dado que el p\text{-valor}(0,1199) es mayor que 0,05 no tenemos evidencias suficientes que nos permitan rechazar la hipótesis nula.

Con los resultados obtenidos de la prueba T de Welch en la mano, ahora estamos en posición de responder a las preguntas planteadas inicialmente por el ejecutivo del banco.

¿Es justificable realizar una distinción entre clientes españoles y extranjeros en el análisis de incumplimientos?

La prueba T de Welch ha demostrado que el p\text{-valor} obtenido supera el umbral estándar de 0,05 para la significación estadística. Esto indica que no hay diferencias significativas en la tasa de incumplimiento entre los clientes españoles (Cartera A) y los clientes extranjeros (Cartera B). En términos estadísticos, la hipótesis nula —que sostiene que no hay diferencia entre las medias de los dos grupos— no puede ser rechazada.

Por lo tanto, desde una perspectiva puramente estadística, no se justifica realizar una distinción entre los clientes españoles y extranjeros en cuanto a su tasa de incumplimiento. Los datos no respaldan la existencia de una diferencia significativa que requiera un análisis separado para las dos carteras en relación con la variable DEFAULT.

¿El análisis propuesto ofrece insights valiosos para la toma de decisiones estratégicas en el banco?

Aunque la prueba estadística no ha revelado diferencias significativas, esto no implica automáticamente que el análisis propuesto no sea de valor. La ausencia de diferencias estadísticas en las tasas de incumplimiento no excluye la posibilidad de que existan otros factores cualitativos o estratégicos que puedan hacer valiosa la distinción entre clientes nacionales y extranjeros. Puede haber consideraciones operativas, de mercado o de servicio al cliente que sugieran mantener o incluso enfatizar esta diferenciación.

Por ejemplo, la experiencia del cliente, las preferencias de productos, la sensibilidad a los tipos de cambio o las normativas legales específicas de cada región pueden requerir estrategias diferenciadas para los clientes españoles frente a los extranjeros, independientemente de las tasas de incumplimiento.

En conclusión, no todas las pruebas arrojan los resultados contundentes que uno podría esperar; en el mundo real de los datos y las decisiones bancarias, a menudo nos encontramos con que la realidad es más compleja que lo que nuestras hipótesis predicen. El hecho de que el análisis no haya mostrado diferencias significativas es en sí mismo un dato valioso. Nos recuerda que, aunque una estrategia parezca prometedora en teoría, es la práctica la que tiene la última palabra.

Por lo tanto, el banco debe tomar estos hallazgos como un punto de partida para explorar otras áreas y enfoques que puedan revelar oportunidades ocultas y mejorar la gestión de sus relaciones con los clientes.

Tabla de contenidos
Compartir artículo

3 comentarios

  1. Enhorabuena, te seguiré a partir de ahora después de buscar en castellano es lo mejor que he podido encontrar, quisiera hacerte unas consultas por privado para que me solventes un problema que tengo en la consultora para la que estoy trabajando y que no me consiguen convencer sobre el procedimiento que seguimos, pues creo que no es el correcto. Gracias por anticipado

  2. Excelente explicación francamente muy instructiva y lo mejor que he encontrado de SAS en castellano, sigue así. Da gusto encontrar un recurso tan bien explicado e instructivo. Gracias y enhorabuena

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Información básica sobre protección de datos Ver más

  • Responsable: Jorge Carballo Álvarez.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento:  No se ceden o comunican datos a terceros para prestar este servicio. El Titular ha contratado los servicios de alojamiento web a Dreamhost que actúa como encargado de tratamiento.
  • Derechos: Acceder, rectificar y suprimir los datos.

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Contiene enlaces a sitios web de terceros con políticas de privacidad ajenas que podrás aceptar o no cuando accedas a ellos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos.
Privacidad