El sesgo del efecto total en A/B tests: ejemplo de que la suma de variables aleatorias (meida muestral) no siempre es sesgado
Una empresa corre \(N\) experimentos controlados y observamos el efecto incremental \(X_i\), para \(i=1,...,N\).
El objetivo es el impacto agregado de los experimentos.
Por ejemplo: estamos interesados en el average revenue per user entonces \(X_i\) es la diferencia entre el average revenue per user entre el grupo tratamiento y el grupo control en el experimento \(i\).
Supongamos que tenemos \(X_1,...X_N\) variables aleatorias que representan los posibles resultados de realizar \(N\) experimentos y donde se sabe que cada variable aleatoria sigue una distribución \(\nu_i\) con media \(E_i\) y varianza \(\sigma^2_i\).
El efecto verdadero es \(R_i\) y lo queremos estimar mediante \(X_i\), un estimador insesgado.
Cada vez que realizamos un experimento, nos quedamos con aquellos que son significativos:
Supongamos que tenemos un nivel \(\alpha_i\) para cada experimento y asumimos que \(\sigma_i\) es conocida.
Elegimos aquellos experimentos que \(\frac{X_i}{\sigma_1} > b_i\)
\(b_i\) es el punto crítico definido por la distribución \(\nu_i\) para un nivel \(\alpha_i\)
Por tanto, el conjunto de experimentos significativos se puede definir como
\[ A = \{i | \frac{X_i}{\sigma_1} > b_i\} \] El efecto total verdadero de los experimentos en \(A\) es \[ T_A = \sum_{i \in A} R_i \] El resultado estimado de los experimentos significativos es \[ S_A = \sum_{i \in A} X_i \]
Problema: \(S_A\) es un estimador sesgado de \(T_A\)
1.- El conjunt \(A\) es aleatorio. Por tanto, definimos
\[ E(T_A) = E\left[\sum_{i \in A} R_i \right] = E \left[\sum_{i \in N} I(i \in A) \times R_i \right] = \sum_{i \in N} E\left[I(i \in A) \times R_i \right] \] 2.- El sesgo está dado por: \[ E(S_A- T_A) = E\left[\sum_{i \in A} (X_i - R_i) \right]= \sum_{i \in N} E\left[I(i \in A) \times (X_i - R_i) \right]\\ = \sum_{i \in N} E\left[I(\frac{X_i}{\sigma_1} > b_i) \times (X_i - R_i) \right] >0 \] debido a que estoy truncando una distribución por la cola de abajo.