Diseñar un A/B test

Objetivo: determinar como afecta cambiar el landing page en el CTR

Determinar el tamaño de la muestra

Elementos Clave

  1. Nivel de Confianza (α)

    • Define la probabilidad de cometer un error Tipo I (rechazar la hipótesis nula cuando es verdadera).
    • Un nivel de confianza típico es 95%, lo que implica un nivel de significancia α = 0.05.
    • En otras palabras, hay un 5% de probabilidad de detectar una diferencia por puro azar.
  2. Poder Estadístico (1 - β)

    • Define la probabilidad de detectar una diferencia real entre las versiones cuando existe.
    • El poder estadístico más comúnmente usado es 80% (β = 0.2).
    • Es decir, existe un 20% de probabilidad de cometer un error Tipo II (no detectar una diferencia cuando sí existe).
  3. Tamaño del Efecto (Diferencia Mínima Detectable)

    • Representa la diferencia mínima que quieres detectar entre el grupo control y el grupo variante.
    • Puede ser expresado como:
      • Un valor absoluto, por ejemplo, un aumento del 2% en la tasa de conversión.
      • Un tamaño de efecto estandarizado como el d de Cohen.
    • Cuanto menor sea el tamaño del efecto que quieras detectar, mayor será el tamaño de muestra necesario.
  4. Tasa de Conversión Base (p1)

    • Es la tasa de éxito esperada en el grupo de control (versión A).
    • Por ejemplo, si históricamente el 10% de los usuarios convierten, ( p_0 = 0.10 ).
  5. Proporción Esperada en la Variante (p2)

    • Es la tasa esperada en la versión de tratamiento (versión B) después del cambio.
    • Por ejemplo, si esperas un aumento del 2% en la tasa de conversión, ( p_1 = 0.12 ).
  6. Varianza de los Datos

    • La varianza depende de las tasas de conversión en ambas versiones:
      $$\sigma^2 = p(1 - p), \quad \text{donde } p = \text{tasa esperada}$$
    • Cuanta más variabilidad haya en los datos, mayor será el tamaño de muestra requerido.

Fórmula Simplificada para el Tamaño de Muestra en Proporciones

La fórmula para estimar el tamaño de muestra por grupo en un A/B test es:

$$n = \frac{2 \cdot \left( Z_{\alpha/2} + Z_{\beta} \right)^2 \cdot \hat{p} \cdot (1 - \hat{p})}{\Delta^2}$$

Donde:

Effect size: Tamaño del efecto

Discusión sobre medidas para calcular el tamaño del efecto

1. Diferencia de Riesgo (Risk Difference - RD)

2. Riesgo Relativo (Relative Risk - RR)

3. Razón de Momios (Odds Ratio - OR)

4. h de Cohen

5. d de Cohen

Método A/B Testing Aplicación Uso Común
Diferencia de Riesgo (RD) Comparar el cambio absoluto en tasas de conversión. Tasa de conversión
Riesgo Relativo (RR) Comparar el aumento/reducción proporcional del éxito. Análisis porcentual
Razón de Momios (OR) Comparar probabilidades relativas entre grupos. Datos binarios
h de Cohen Comparar proporciones pequeñas o cercanas a 0/1. Psicología, A/B CTR
d de Cohen Estandarizar diferencias entre proporciones. Comparación general

Nota: Qué significa estabilizar la varianza en el h-Cohen

Para demostrar que el $h$ de Cohen estabiliza la varianza, necesitamos analizar cómo esta transformación afecta la varianza de las proporciones.

Varianza en proporciones sin transformación

Dada una proporción $p$ (e.g., click through rate), la varianza de una proporción binaria en una muestra de tamaño $n$ se define como:

$$\text{Var}(p) = \frac{p(1-p)}{n}$$

Transformación de arcoseno del h de Cohen

La transformación de arcoseno aplicada a una proporción $p$ es:

$$\theta = \arcsin(\sqrt{p})$$

La ventaja de esta transformación es que estabiliza la varianza de las proporciones, especialmente cuando $p$ está cerca de 0 o 1.

Demostración Analítica: Estabilización de la Varianza

  1. Varianza de la transformación de arcoseno:

Podemos usar el método delta para derivar la varianza de $\theta = \arcsin(\sqrt{p})$:

$$\text{Var}(\theta) \approx \left( \frac{d\theta}{dp} \right)^2 \cdot \text{Var}(p)$$

La derivada de $\arcsin(\sqrt{p})$ respecto a $p$ es:

$$\frac{d}{dp} \arcsin(\sqrt{p}) = \frac{1}{2 \sqrt{p(1-p)}}$$

Por lo tanto, sustituyendo los términos:

$$\text{Var}(\theta) \approx \left( \frac{1}{2\sqrt{p(1-p)}} \right)^2 \cdot \frac{p(1-p)}{n} \approx \frac{1}{4n}$$

Observar:

  1. La varianza transformada no depende de $p$, lo que significa que ahora es constante y solo depende del tamaño de la muestra $n$.

  2. Esto contrasta con la varianza original $\frac{p(1-p)}{n}$, que depende de $p$ y se comporta de manera desigual cuando $p$ se acerca a 0 o 1.

Demostración en la obtención del calculo de la muestra

  1. Varianza original de las proporciones (Diferencia de Riesgo - RD).
  2. Varianza estabilizada (Transformación de arcoseno - ( h ) de Cohen).

1. Cálculo del Tamaño de Muestra con Varianza Original (RD)

La fórmula para el tamaño de muestra $n$ para detectar una diferencia de riesgo $\Delta = p_1 - p_0$ es:

$$n = \frac{(Z_{\alpha/2} + Z_{\beta})^2 \cdot (p_1(1 - p_1) + p_0(1 - p_0))}{\Delta^2}$$

Donde:

2. Cálculo del Tamaño de Muestra con Varianza Estabilizada (h de Cohen)

Con la transformación de arcoseno, la varianza estabilizada se aproxima a:

$$\text{Var}(\theta) \approx \frac{1}{4n}$$

La fórmula del tamaño de muestra usando el h de Cohen es:

$$n = \frac{(Z_{\alpha/2} + Z_{\beta})^2}{h^2 / 4}$$

Donde:

  1. Tamaño de muestra con la Diferencia de Riesgo (RD):
    La muestra requerida será mayor debido a la dependencia directa de la varianza $p(1-p)$, que es más alta cuando las proporciones están en valores intermedios.

  2. Tamaño de muestra con $h$ de Cohen:
    La muestra será menor porque la transformación de arcoseno estabiliza la varianza, eliminando la dependencia no lineal de $p$.

Explicación

  1. La varianza original depende de $p$, lo que causa una mayor dispersión en los datos cuando las proporciones son pequeñas o moderadas. Esto eleva el tamaño de muestra necesario para detectar diferencias.

  2. La transformación de arcoseno estabiliza la varianza, lo que facilita la comparación entre proporciones, especialmente cuando estas son cercanas a 0 o 1.

  3. Al utilizar h de Cohen, se logra un cálculo más eficiente del tamaño de muestra, ya que la varianza constante permite detectar diferencias pequeñas con menos observaciones.