class: center, middle, inverse, title-slide .title[ # Randomization ] .subtitle[ ## Introducción a AB-Test ] .date[ ### Daniel Miles-Touya GADE-Uvigo 2024-12-03 ] --- ## Causalidad: introducción >Objetivo >> Introducir el concepto de efecto causal de un tratamiento en térmimos generales. >>> Un efecto causal es lo que buscamos determinar en un A/B test: los tratados son los individuos expuestos al tratamiento. -- >> Aplicar estos conceptos al caso particular de un A/B test. >>> ¿Un anuncio online modifa el click through rate? -- > En el desarrollo de este tema utilizaremos ejemplos generales para visualizar el concepto de causalidad. --- ## Causalidad: introducción Supongamos que queremos resolver una pregunta sencilla: <span class = "pregunta" >Do hospitals make people healthier?</span> <span class = "pregunta" >¿Los hospitales curan?</span> -- Para ello analizamos la población de Vigo que va al servicio de Urgencia del Alvaro Cunqueiro. <br> Algunos pacientes son admitidos y hospitalizados mientras que otros son retornados a sus hogares. <br> <br> -- La Encuesta Nacional de Salud pregunta a un individuo por hogar elegido aleatoriamente: <br> <div style= "color:tomato"> Durante los últimos 12 meses:<span class = "pregunta" > ¿usted ha estado hospitalizado alguna vez?</span> <br> </div> También pregunta por su estado de salud: <br> <span style= "color:tomato">¿Cómo diría que es su estado de salud? Responde de 1 muy malo a 5 muy bueno.</span> --- ## Causalidad: introducción Restulados de la encuesta `$$\begin{array}{lccc} Grupo & Observaciones&Media\, Estado\, Salud& Std. Error \\ \hline Hospitalizado& 7,774&3.21& 0.014 \\ No \, Hospitalizado & 90,094 &3.94& 0.003 \end{array}$$` Según estos datos:<br> <p class="pregunta">¿Los hospitales hacen a los individuos más saludables, i.e., los curan?</p> -- De nuestra memoria de herramientas estadísticas, un contraste directo sería **comparar las medias de los hospitalizados y no hospitalizados** para evaluar la pregunta anterior. La diferencia de medias entre Hospitalizado y No Hospitalizado es -0.72 con un t-estadistico de 58.9. Si seguimos la receta `\(|T|>2\)`, este estadístico sugiere que los hospitales empeoran la salud de la gente. --- ## Causalidad: introducción **Conclusión** Una simple comparación de medias sugiere que ir al hospital empeora la situación de las personas: los que han estado ingresados en un hospital en los últimos 12 meses están menos sanos que los que no ingresaron en el hospital. -- Pero esta respuesta **no parece razonable:** la conclusión se sustenta en la comparación de <span style ="color:green">individuos distintos</span>: > los individuos que han sido hospitalizados son <span style="color:tomato">**sistemáticamente distintos** </span>a los individuos que no han sido hospitalizados a lo largo del año. >> Pueden tener distinta salud de origen y por eso uno vá al hostipal y otro no >> Puede ser que al hospital solo admitan a los más graves -- <br> <br> <span style="color:brown">**Reformular la pregunta**</span> para evaluar el impacto de una medida (e.g., hospitalización): <br> ¿Cuál sería el estado de salud de aquella persona <span style="color:green">**que fué al hospital**</span> **si no hubiera ido?** -- <span style="color:brown">**Análisis Contrafactual:**</span> ¿que hubiera pasado -con el estado de salud del individuo- si la intervención no se hubiera dado? --- ## Causalidad: Resultados potenciales <span style="color:brown">**Objetivo:**</span> Evaluar el impacto causal de implementar una medida: un **tratamiento**. -- <span style="color:green">**Modelización:**</span> **Resultado de interés** - `\(Y\)`: Resultado que estamos interesados en estudiar (por ejemplo, salud; click through rate). - `\(Y_i\)`: Valor observado del resultado de interés para el individuo `\(i\)`. -- <br> **Resultados potenciales** - Un tratamiento `\(T\)` induce dos **resultados potenciales** para el mismo individuo `\(i\)`: <br> <br> - El resultado **sin tratamiento** `\(Y_{0i}= Y_{i}(0)\)` (e.g., no ir al hospital; no expuesto a un anuncio ) -- <br> <br> - El resultado **con tratamiento** `\(Y_{1i}=Y_{i}(1)\)` (e.g., ir al hospital; expuesto a un anuncio). --- ## Causalidad: Resultados potenciales - **Alejandra tiene la pierna rota**: - `\(Y_{a}(0)\)`: Si no va al hospital, su pierna no sana correctamente. - `\(Y_{a}(1)\)`: Si va al hospital, su pierna sana completamente. - **Enrigue no tiene huesos rotos. Su salud está bien**: - `\(Y_e(0)\)`: Si no va al hospital, su salud sigue estando bien. - `\(Y_e(1)\)`: Si va al hospital, su salud sigue estando bien. -- >**Cada individuo** se enfrenta a dos resultados potenciales según si es tratado o no. >>Estamos asumiento un tratamiento binario. --- ## Causalidad: impacto del tratamiento **Definicion de causalidad** A partir de los resultados potenciales, el **impacto causal** para el individuo `\(i\)` es: `$$\Delta_i = Y_i(1) - Y_i(0)$$` -- .pull-left[ <img src = "causal1.png"> ] .pull-right[ Determinar la causalidad implica comparar el individuo contra sí mismo en cada una de las situaciones. >Lisa contra Lisa >>¿Cuál es el impacto de leer el manual de econometría en las notas de Lisa frente a si no lo hubiera leido? ] -- >El impacto causal implica **comparar** resultados para un individuo, i.e., podría ser el ratio `\(\delta_i = Y_i(1) / Y_i(0)\)`. >Es una variable aleatoria que depende de la distribución conjunta de los resultados potenciales y el tratamiento: `$$f(Y(1),Y(0), T)= f(Y(1),Y(0) |T)g(T)$$` --- ## Causalidad: impacto del tratamiento **¿Qué se observa para poder _identificar_ `\(\delta_i\)`?** -- <span style="color:brown">**Problema fundamental de la causalidad**</span>: Nunca se observan ambos resultados potenciales para el mismo individuo. -- Lo observado para el individuo `\(i\)` viene dado por: <br> `$$Y_i = \begin{cases} Y_i(1) & \text{si } T_i = 1 \\ Y_i(0) & \text{si } T_i = 0 \end{cases}$$` <br> Para el individuo `\(i\)` observamos `\(Y_i = Y_i(1)\)` si ha sido tratado o `\(Y_i = Y_i(0)\)` si no ha sido tratado. -- **Problema** Para calcular el impacto casusal, `\(\Delta_i =Y_i(1) - Y_i(0)\)`, solo se observa: > `\(Y_i(1)\)` si ha sido tratado pero no `\(Y_i(0)\)` > `\(Y_i(0)\)` si ha no sido tratado pero no `\(Y_i(1)\)` >> No podemos calcular (identficar) `\(\Delta_i\)` -el impacto causal para el individuo `\(i\)`- con los datos que observamos sin hacer supuestos. -- **Conclusión** <span style="color:brown">Problema: no observamos la **contrafactual**</span>: qué resultado se hubiera observado si no hubiera sido tratado. --- ## Causalidad: contrafactual **Identificar** un impacto causal implica **encontrar la respuesta a una pregunta contrafactual:** >El objetivo es comparar lo que se observa con su contrafactual. -- <br> >¿La subvención al alquiler para jóvenes se traslada al precio del alquiler? <br> <br> >>Contrafactual: ¿Qué hubiera pasado con el precio del alquiler en ausencia de la subvención? <br> -- <br> >¿La satisfaccion laboral aumenta ante la reducción de la semana laboral de 5 a 4 días? <br> <br> >>Contrafactual: ¿Qué hubiera pasado con el satisfacción laboral en ausencia de esta intervención?</span> -- <br> >¿La publicidad aumentan las ventas? <br> <br> >>Contrafactual: ¿Cómo hubieran sido las ventas en ausencia de publicidad? --- ## Causalidad: contrafactual <span style="color:brown">Problema: **¿Cómo encontrar la contrafactual?**</span> <br> -- >¿No podemos ver el mismo piso, simultaneamente, con y sin subvención ? >>Para determinar el impacto de la subvención en el precio del alquiler necesitamos comparar con lo que hubiera pasado sin la subvención, el resto todo igual. >>Cómo **medimos** el precio del alquiler en el contrafactual, i.e., para ese piso pero sin subvención. -- >¿No podemos ver al mismo individuo expuesto a un anuncio y no expuesto a un anuncio? >>Para determinar el impacto del anuncio en el comportamiento del individuo necesitamos comparar con lo que hubiera pasado sin anuncio, el resto todo igual.. >>Cómo **medimos** el click through rate en el contrafactual, i.e., para ese individuo expuesto al anuncion si no hubiera sido expuesto. --- ## Causalidad: ceteris paribus El análisis causal se apoya en la idea del **ceteris paribus**: en el análisis causal todo queda constante, excepto la intervención. <span style="color:green">Por ello es necesario encontrar el contrafactual:</span> se compara a la misma persona/al mismo piso habiendo ido y no habiendo ido al hospital/habiendo recibido subvención o no habiendola recibido -ceteris paribus-. -- .pull-left[ Cómo encontrar un individuo parecido a Lisa, que no haya leido el manual de econometría, pero que en todo lo demás sean _iguales_ (iguales en características observables e inobservables), para poder comparar los resultados de leer el manual (Lisa) y de no leerlo (Kirk). ] .pull-right[ <img src = "causal2.png"> ] -- <br> <br> Observar que es análogo a la interpretación de un parámetro en una _regresión_: para analizar el impacto de las subvenciones en `\(R&D\)` en los procesos de innovación de una empresa, e.g., `\(\beta_1\)` en `$$Patentes = \beta_0 + \beta_1 D_{\textit{Recibió Subvención}} + X'\gamma + U$$` i.e., `\(\Delta Patentes = \beta_1 \Delta D_{\textit{Recibió Subvención}}\)`, donde hay que garantizarse que todo lo demás permanece constante cuando modificamos la subvención si queremos **identificar el impacto**. --- ## Causalidad Dado que no es posible analizar el impacto a nivel individual, `\(\Delta_i = Y_i(1) - Y_i(0)\)`, el objetivo es identificar medidas/parámetros agregadas: > <span style="color:brown">ATE: Average treatment effect</span> >> `\(ATE = \mathbb{E}(\Delta_i) = \mathbb{E}(Y_i(1)) - \mathbb{E}(Y_i(0))\)` >> Impacto del tratamiento en una persona aleatoriamente elegida de la población. -- <br> <br> <br> > <span style="color:brown">ATT: Average treatment effect on the treated</span> >> `\(ATT = \mathbb{E}(\Delta_i| T_i = 1) = \mathbb{E}(Y_i(1)|T_i = 1) - \mathbb{E}(Y_i(0)|T_i = 1)\)` >> Impacto del tratamiento sobre personas que han sido tratadas. --- ## Causalidad **Pregunta**: ¿puedo obtener estas medias de lo que observo? -- >¿Qué obervo? La media del resultado de los individuos que han participado vs la media del resultado si no participaron `$$\underbrace{\mathbb{E}(Y_i | T_i = 1) - \mathbb{E}(Y_i | T_i = 0)}_{\text{Diferencia de medias observada}} = \mathbb{E}(Y_i(1) | T_i = 1) - \mathbb{E}(Y_i(0) | T_i = 0) \qquad\qquad\qquad (1)$$` >Por ejemplo: observo el nivel medio de compras de aquellos individuos que han visto el anuncio, por un lado, y el nivel medio de compras de aquellos que no han visto el anuncio. -- <span style="color:tomato">**Pero esto no es lo que estoy buscando**</span> Lo que busco es: `\(ATT = \mathbb{E}(\Delta_i| T_i = 1) = \mathbb{E}(Y_i(1)|T_i = 1) - \mathbb{E}(Y_i(0)|\underbrace{T_i = 1}_{\text{Condiciono en tratado}})\)` -- Observar que, si sumo y resto `\(\mathbb{E}(Y_i(0) | T_i = 1)\)` en **(1)** `$$\mathbb{E}(Y_i | T_i = 1) - \mathbb{E}(Y_i | T_i = 0) = \mathbb{E}(Y_i(1) | T_i = 1) - \mathbb{E}(Y_i(0) | T_i = 0) =$$` `$$\qquad \qquad \underbrace{\mathbb{E}(Y_i(1) | T_i = 1) - \mathbb{E}(Y_i(0) | T_i = 1)}_{\text{Efecto promedio del tratamiento en los tratados (ATT)}} + \underbrace{\mathbb{E}(Y_i(0) | T_i = 1) - \mathbb{E}(Y_i(0) | T_i = 0)}_{\text{Sesgo de selección}}$$` --- ## Causalidad **Conclusión:** si hago una simple diferencia de medias de los datos observacionales obtengo un estimador sesgado del impacto de tratamiento: `$$\underbrace{\mathbb{E}(Y_i | T_i = 1) - \mathbb{E}(Y_i | T_i = 0)}_{\text{Diferencia de medias observada}} =$$` `$$\qquad \qquad \underbrace{\mathbb{E}(Y_i(1) | T_i = 1) - \mathbb{E}(Y_i(0) | T_i = 1)}_{\text{Efecto promedio del tratamiento en los tratados (ATT)}} + \underbrace{\mathbb{E}(Y_i(0) | T_i = 1) - \mathbb{E}(Y_i(0) | T_i = 0)}_{\text{Sesgo de selección}}$$` -- El sesgo lo define el **sesgo de selección** >El resultado potencial esperado de los que fueron al hospital si no hubieran ido `\(\mathbb{E}(Y_i(0) | T_i = 1)\)` (la contrafactual de los que fueron) es distinto del resultado potencial de los que no fueron al hostpital, i.e., `\(\mathbb{E}(Y_i(0) | T_i = 0)\)` >>Hay una diferencia sistemática en el estado de salud de origen, i.e. `\(Y_i(0)\)`, de los que fueron o no fueron al hostpital, que es la que define el sesgo de selección. >>No son comparables --- ## Causalidad: sesgo de selección >Puedo comparar simplemente las medias de los que son tratados y de los que no son tratados para medir el impacto .pull-left[ <img src="causal3.png"> ] .pull-right[ ¿Es correcto este titular? ¿Puedo simplemente comparar el salario de los que se quedaron con los que se fueron y sacar esa conclusión? ] -- **Contrafactual** ¿Qué salario tendrían en Galicia aquellos que tomaron la decisión de irse (tratamiento)? --- ## Causalidad: sesgo de selección Lo que calcula el periódico es: $$\frac{\mathbb{E}(Y_i | T_i = 1) - \mathbb{E}(Y_i | T_i = 0)}{\mathbb{E}(Y_i | T_i = 0)} = \frac{\mathbb{E}(Y_i(1) | T_i = 1) - \mathbb{E}(Y_i(0) | T_i = 0)}{\mathbb{E}(Y_i(0) | T_i = 0)} = 12\% $$ -- Pero lo que debería calcular es en base a la **contrafactual**: ¿los que se fueron, cuanto habrían ganado en galicia? $$ \delta = \frac{\mathbb{E}(Y_i(1) | T_i = 1) - \mathbb{E}(Y_i(0) | T_i = 1)}{\mathbb{E}(Y_i(0) | T_i = 1)}$$ -- ¿Qué está midiendo el peródico? (sumo y resto arriba y abajo la contrafactual `\(\mathbb{E}(Y_i(0) | T_i = 1))\)` $$\frac{\mathbb{E}(Y_i(1) | T_i = 1) - \mathbb{E}(Y_i(0) | T_i = 0)}{\mathbb{E}(Y_i(0) | T_i = 0)} = 12\% = $$ `$$\frac{\mathbb{E}(Y_i(1) | T_i = 1)- \mathbb{E}(Y_i(0) | T_i = 1) }{\mathbb{E}(Y_i(0) | T_i = 1) - (\mathbb{E}(Y_i(0) | T_i = 1) - \mathbb{E}(Y_i(0) | T_i = 0))} + \frac{ \mathbb{E}(Y_i(0) | T_i = 1) - \mathbb{E}(Y_i(0) | T_i = 0)}{\mathbb{E}(Y_i(0) | T_i = 1) - (\mathbb{E}(Y_i(0) | T_i = 1) - \mathbb{E}(Y_i(0) | T_i = 0))}$$` --- ## Causalidad: sesgo de selección Una de los motivos que dan lugar a la existencia del sesgo de selección es que los individuos toman decisiones para maximizar su utilidad, beneficio, etc... Y estas decisiones diferencian a los individuos: los que deciden irse de Galicia no son iguales a los que deciden quedarse. Se rompe la comparabilidad. -- Existencia o no del sesgo de selección: **choice** vs **chance** Una de las maneras de romper el sesgo de selección es **aleatorizar**:<span style="color:brown">**asignar aleatoriamente a los individuos al tratamiento o al control**</span> En otras palabras: quitarle poder de decisión (choice) a los individuos en cuanto a la elección del tratamiento (chance) -- Cuando aleatorizo a los individuos a que reciban el tratamiento o el control: $$\mathbb{E}(Y_i(1) | T_i = 1) = \mathbb{E}(Y_i(1) | T_i = 0) = \mathbb{E}(Y_i(1)) = \mathbb{E}(Y_i| T_i = 1) $$ $$\mathbb{E}(Y_i(0) | T_i = 1) = \mathbb{E}(Y_i(0) | T_i = 0) = \mathbb{E}(Y_i(0)) = \mathbb{E}(Y_i| T_i = 0) $$ Por lo tanto, el sesgo de selección es se anula, i.e., `$$\underbrace{\mathbb{E}(Y_i(0) | T_i = 1) - \mathbb{E}(Y_i(0) | T_i = 0)}_{\text{Sesgo de selección}}=0$$`