class: center, middle, inverse, title-slide .title[ # LECTURE 1: Overview A/B Tests ] .subtitle[ ## Econometría ADE ] .author[ ###
2024/25 ] --- # Overview of AB/Tests <div id="header-footer"> <p class="slide-footer">Daniel Miles Touya-Uvigo-GADE:24/25</p> </div> --- #### Todos estos términos hacen referencia EXPERIMENTOS <ul> <li style="color:tomato"> Digital experiment.</li> -- <li style="color:tomato"> Online controlled experiment.</li> -- <li style="color:tomato"> A/B Tests o A/B/n Test.</li> -- <li style="color:tomato"> App's:</li> -- <li style="color:tomato;margin-left: 10%" > <a href="https://www.microsoft.com/en-us/research/articles/it-takes-a-flywheel-to-fly-kickstarting-and-keeping-the-a-b-testing-momentum/" target = "_blank">Flywheel (Microsoft)</a> </li> <li style="color:tomato; margin-left: 10%"> <a href="https://firebase.google.com/products/ab-testing?hl=es-419" target = "_blank">Firebase (Firefox)</a></li> <br/> -- <li style="color:orange" > Field experiment (Experimentación de campo)</li> -- <li style="color:orange" > Randomized experiments (experimentos aleatorizados)</li> -- <li style="color:orange" > Randomized controlled trials (experimentos aleatorizados controlados)</li> </ul> --- #### ¿Qué es un experimento? > Es una procedimiento utilizado para validar un hipótesis >> Características fundamentales: >>> El diseño lo realiza el investigador/analista >>> La asignación al tratamiento está sujeto al control del investigador/analista. >>> El resultado surge de comparar tratamiento y control. >>>> Este procedimiento le permite asegurarse de que los individuos comparados (para validar una hipótesis) son comparables. >> En un análisis observacional, el investigador/analista no controla la asignación al tratamiento y, por ende, no puede asegurarse que los individuos en distintos tratamientos sean comparables. --- #### Correlación no es causalidad .pull-left[<img src="ab_fig10.png" alt="Italian Trulli">] -- .pull-right[<img src="ab_fig11.png" alt="Italian Trulli">] -- <br> En el video que se adjunta se profundiza en la idea sobre correlación y causalidad: <a href= "https://www.youtube.com/watch?v=rKLo_mD152Y" target = "_blank">The importance of experimentation: Juan Lavista Ferres</a> --- #### ¿Qué es A/B testing? > Es la realización de experimentos controlados en línea -- <img src="ab_fig1.jpeg" alt="Italian Trulli"> <br/> --- class: inverse #### ¿Qué es A/B testing? > Randomly split traffic between two (or more) conditions. -- >> A (Control, typically existing system) >> B (Treatment) -- > Collect metrics of interests >> Compare metrics between A and B -- >>> Debe realizar pruebas estadísticas para confirmar que las diferencias en la muestra no se deben al azar. > Es una alternativa para intentar <strong style="color:orange">causalidad</strong>: como un cambio de un factor afecta realmente a un KPI. --- class: inverse #### ¿Qué es A/B testing? > El A/B testing es un procedimiento expermiental para obtener información que nos permita tomar una decisión sobre una idea implementable. -- > En estadística muchas veces las ideas/creencias se expresan en contrastes de hipótesis `$$H_0: \mu = \mu_0$$` <p style ="text-align: center"><i>versus</i></p> `$$H_A: \mu \ne \mu_0$$` --- ### Bing: uno de los primeros tests En 2012 un trabajador en el buscador Bing (Microsoft) sugirió cambiar cómo se presentan al usuario las <span style="color:tomato">ad headlines</span>(titulares de los anuncios). >Desarrollarla no requeriría mucho esfuerzo -apenas unos días del tiempo de un ingeniero-, pero era una de los cientos de ideas propuestas, y los responsables del programa la consideraron de baja prioridad. >Así que languideció durante más de seis meses, hasta que un ingeniero, que vio que el coste de escribir el código sería pequeño, puso en marcha un sencillo experimento controlado en línea -una prueba A/B- para evaluar su impacto. >En cuestión de horas, la nueva variación del titular generó unos ingresos anormalmente altos, lo que provocó una alerta de «demasiado bueno para ser verdad». >> El beneficio de Bing incrementó un 12% --- ### Bing: uno de los primeros tests <img src="ab_fig2.png" alt="Italian Trulli"> --- ### Resultados inesperados <a href="https://theconversation.com/the-rise-of-ozempic-how-surprise-discoveries-and-lizard-venom-led-to-a-new-class-of-weight-loss-drugs-219721" target = "_blank">Ver un descubrimiento no esperado</a> -- > Es habitual que un cambio tenga consecuencias inesperadas >> Only one third or the ideas tested by Microsoft improved the metrics they were designed to improved. >> Por ejemplo, Bing tiene un bloque de búsqueda relacionado con productos periféricos. >> Un pequeño cambio en el bloque (por ejemplo, poner los términos en negrita) >>> Cambia la tasa de clics hacia el bloque (efecto buscado) >>> ¿Cambiará la distribución de las consultas? >>> ¿Monetizarán algunas consultas mejor/peor que otras? (por lo que los ingresos se verán afectados) --- ### Google: 41 distintos azules <img src="ab_fig3.png" alt="Italian Trulli"> > Randomly assign users into 41 groups and stay for 2 weeks. > Compare the clickthrough rate across the groups --- ### Microsoft MSN Real State site > Obtetivo: analizar diferentes formas de diseñar el <span style="color:Skyblue">Find a Home</span> widget. <img src="ab_fig8.png" alt="Italian Trulli"> --- ### Microsoft MSN Real State site >En este experimento controlado los users eran randomly allocated to different variants in a persistent manner during the duration of the experiment. >> Overall evaluation criteria (OEC): average revenue per user -- > The change increased revenues by `\(10\%\)` > Return on investment (ROI) increased significantly. --- ### No solo visual: backend changes >Time deploying a landing page >Which search outputs must run first (e.g., cuando se pregunta "Mahjong", deberíamos poner primero Wikipedia.) --- ### Porqué es bueno experimentar <a href="https://www.ted.com/talks/steven_levitt_surprising_stats_about_child_carseats?autoplay=true&geo=es&lng=es&muted=false&referrer=playlist-statistically_speaking&subtitle=es" target = "_blank">Percepciones versus datos</a> --- ### Porqué es bueno experimentar - Los estudios observacionales no controlan por todo lo que no es observable. -- > Cuanto más baja es una persona, más tiempo vivirá. >> ¿la estatura de las personas es causa de la esperanza de vida? -- > Las mujeres suelen ser más bajas y viven más. > El sexo está correlacionado con la estatura y la esperanza de vida. >> La estatura se correlaciona con la esperanza de vida. <br> -- <span style = "color:tomato">Pero correlación no es causalidad</span> <br> <span style="color:brown">Problema: es difícil experimentar aquí.</span> --- ### Porqué es bueno experimentar <div id="header-footer"> <p class="slide-footer">Daniel Miles Touya-Uvigo-GADE:24/25</p> </div> ¿Cómo saber si la introducción del Red packet incrementó los ingresos de Wechat? WeChat red envelope (or WeChat red packet) is a mobile application developed by the Chinese technology company Tencent. The concept, also offered by its market competitors Alibaba and Baidu, is based on the Chinese tradition of hongbao (red envelope, or red packet), where money is given to family and friends as a gift. <img src = "ab_fig4.png"> --- ### Porqué es bueno experimentar ¿Cómo saber si la introducción del red pocket incrementó los ingresos de Wechat? > Evaluación ANTEs del cambio y DESPUES del cambio Se compara el número de Usuarios Activos Diarios (DAU) antes y después del cambio Métrica: número total de personas que abren e interactúan con una aplicación móvil, un producto web o una función en un día determinado. Evaluación: Dierencia = #DAU (Después Red Pocket) - #DAU (Antes Red Pocket) --- ### Porqué es bueno experimentar ¿Cómo sabemos que el cambio en la métrica se debió exclusivamente a la introducción del Red Pocket? -- Puede ser que los que se engage more after the Red Pockets are the most active, that would have engaged in this metric even in the absence of the Red Pockets. <img src = "ab_fig5.png"> La <span style="color:green">propensión</span> a ser activo en Wechat no se observa. --- ### Porqué es bueno experimentar > Si asignamos aleatoriamente a los usuarios a condiciones dierentes, se tratará de un experimento aleatorio en lugar de un estudio observacional. >> La asignación aleatoria permite controlar (en media) por los inobservables. >> Si existen diferencia estadísticamente significativas entre los comportamientos de los dos grupos (divididos aleatoriamente y con otras garantías), se podría hablar de causalidad del impacto del cambio en el comportamiento. --- ### Porqué es bueno experimentar <img src = "ab_fig6.png"> --- ### A pensar >Queremos optimizar los clicks de usuario en las películar recomendadas por Amazon controlando la oferta presentada mediante un parámetro `\(\alpha\)`. <img src = "ab_fig7.png"> --- ### A pensar > Queremos optimizar los clicks de usuario en las películar recomendadas por Amazon Pregunta: ¿qué aleatorizamos: usuarios (users) o páginas (pages)? -- > <span style="color:green">Users:</span> randomization occurs when a new users opens the page >>Distintos usuarios verán distintas páginas dependiendo del valor del parámetro `\(\alpha\)` >>> Controlo el user por el cookie. -- > <span style="color:green">Pages:</span> randomization occurs when a new page is initiated >>Un mismo usuario se enfrentara a recomendaciones distintas cada vez que habrá una página dependiendo del valor del parámetro `\(\alpha\)` --- ### A pensar >¿Qué medimos para evaluar el impacto? >¿Cómo sabemos que el impacto es significativo? --- class: inverse ### Algunos conceptos claves que les sonaran en A/B Testing ><span style="color:orange">Overall evaluation criteria (OEC)</span>: medida cuantitativa a evaluar. >> También llamada: variable respuesta; variable dependiente, key performance indicator (KPI) ><span style="color:orange">Experimental unit</span>: la entidad asignada aleatoriamente al control o al tratamiento. >> Las unidades se asumen independientes y las métricas se calculan para estas unidades. --- class: inverse ### Algunos conceptos claves que les sonaran en A/B Testing ><span style="color:orange">Null hypothesis</span>: `\(H_o\)`. >> Es la hipótesis sobre las diferencias en OEC que se intenta contrastar a partir de los cambios introducidos por el experimento. ><span style="color:orange">Intervalos de confianza</span>: la probababilidad de que el verdadero valor del parámetro este en un intervalo. >> Otra forma de verlo: la probabilidad de no rechazar `\(H_o\)` cuando es cierta. ><span style="color:orange">Potencia</span>: la probababilidad de rechazar la hipótesis nula cuando es falsa. >>La potencia mide la abilidad del contraste de detectar diferencias cuando realmente existen. --- class: inverse ### Algunos conceptos claves que les sonaran en A/B Testing ><span style="color:orange">Standard Deviation</span>: medida de variabilidad >><span style="color:orange">Standard error</span>de un estadístico: es la desviación estandar de la distribución muesrtal de un estadístico. --- class: inverse ### Algunos conceptos claves que les sonaran en A/B Testing ><span style="color:orange">Error Tipo I</span>: rechazar la hipótesis nula cuando esta hipótesis es cierta. >>Se fija el nivel del contraste para garantizarse un "size" de este tipo de error. ><span style="color:orange">Error Tipo II</span>: No rechazar la hipótesis nula cuando esta hipótesis es no es cierta. <img src = "ab_fig9.png" style="width:500px;height:600px;"> --- ### Por qué necesitamos la estadística/econometría? ### Tareas comunes -- - Identificar relaciones entre variables, e.g., relación entre el gasto de publicidad y las ventas <br/> -- - Estimar parámetros que surgen de la teoría, e.g., elasticidad de la demanda con respecto al precio <br/> -- - Contrastar hipótesis: e.g., disminuir el `\(1\%\)` el precio del billete de tren aumenta la demanda en un `\(0.7\%\)` <br/> -- - Predecir, e.g, cual va a ser la inflación el mes que viene. <br/> --- ### Cómo aprendemos cuando observamos el mundo 1) Identificación de patrones - Anecdotas - Correlaciones - Análisis visual - Análisis exploratorio -- 2) Formación de hipótesis - Teoría y conceptos - Cuales son los mecanismos ("because", "controls", "adapted to") -- 3) Error en las predicciones - Si las hipótesis son ciertas, que deberíamos ver. - Está bien medido el objeto de estudio - Medimos asociaciones, correlaciones o realmente, causalidad. -- 4) Colección de información - Experimentos/Muestras de poblaciones/Datos de internet/Videos/... --- class: inverse, middle, center # causal inference --- # causal inference #### En general, queremos saber si `$$x \rightarrow y$$` `\(x\)` implica `\(y\)`: si cambia `\(x\)`, esto produce/genera un cambio en `\(y\)` -- - ¿Si mantento el precio pero diprecio ($x$) cae la demanda ($y$); y por cuanto? -- - La causalidad es muy difícil de ver: si el precio de los otros productos subio todavía más, seguramente mi demanda no caerá aunque haya aumentado el precio. -- - En los últimos años se ha recurrido a la experimentación para analizar causalidad (alternativa, análisis estructural) -- + Well-designed experiments ensure that "treatment assignment is independent of the potential outcomes" (Gelman et al. 2021) --- class: inverse, middle, center # Método tradicional: Población y muestras --- # Poblacion versus muestra #### **Hipótesis**: Aumentar el precio baja la demanda <img src = "ab_fig10.jpg"> -- ### ¿Cómo determinamos si esta hipótesis es cierta? - ¿El incremento del precio de los alimentos afectó la demanda de otros bienes? --- #### Población <img src="02_intro_to_ab_test_files/figure-html/pop-1.png" width="648" style="display: block; margin: auto;" /> #### Nota: 1) Este es un análisis **poblacional**,i.e., _teórico_. 2) Aquí se observa el desplazamiento de la distribución del gasto en otros productos como consecuencia del incremeto del precio de los alimentos. --- class:inverse # Población vs muestra #### Muestra - Un subconjunto finito de la población de interés: e.g., hogares - Con la muestra se trata de hacer inferencias sobre la población - Las muestras deberían satisfacer ciertas propiedades: + Aleatorias + Representativas + De un tamaño adecuado --- #### Muestra <img src="02_intro_to_ab_test_files/figure-html/samp1-1.png" width="648" style="display: block; margin: auto;" /> --- #### Muestra <img src="02_intro_to_ab_test_files/figure-html/samp_lab-1.png" width="648" style="display: block; margin: auto;" /> -- #### Nota: 1) Estos gráficos se hacen con los datos de la **muestra** --- ### Estimadores #### De localización - Media muestral `$$\large \bar{y} = \frac{\sum_{i=1}^n y_i}{n}$$` <br/> -- - Mediana <br/> -- - Moda --- ### Estimadores #### Dispersión - Varianza muestral `$$\large s^2 = \frac{\sum_{i=1}^n (y_i - \bar{y})^2}{n-1}$$` <br/> -- - Desviación estandard de la muestra `$$\large s = \sqrt{s^2}$$` <br/> -- - Rango de valores --- ### Error muestral Si obtenemos otra muestra, vamos a estimar otra media y otro estandard error: las muestras son probabilisticas y cada muestra aparece con una probabilidad distinta. <img src="02_intro_to_ab_test_files/figure-html/samp1_again-1.png" width="648" style="display: block; margin: auto;" /> <img src="02_intro_to_ab_test_files/figure-html/samp2-1.png" width="648" style="display: block; margin: auto;" /> --- ### Repasar los siguientes conceptos > Variable aleatoria: discreta o contínua > Espacio muestral y distribución de probabilidades > Eventos condicionadas e independientes <div id="header-footer"> <p class="slide-footer">Daniel Miles Touya-Uvigo-GADE:24/25</p> </div>