import numpy as np
import pandas as pd
import scipy.stats as stats
import statsmodels.stats.api as sms
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
from math import ceil
%matplotlib inline


import statsmodels.stats.api as sms

# Parámetros
p_0 = 0.10  # Tasa de conversión del grupo control
p_1 = 0.12  # Tasa de conversión esperada en el grupo tratamiento
alpha = 0.05  # Nivel de significancia
power = 0.8  # Poder estadístico

# Calcular tamaño del efecto: h-Cohen
effect_size = sms.proportion_effectsize(p_0, p_1)

# Calcular tamaño de muestra
sample_size = sms.NormalIndPower().solve_power(effect_size, power=power, alpha=alpha)
print(f"Tamaño de muestra requerido por grupo bajo el h-Cohen: {int(sample_size)}")

#D-Risk

DR = p_1 - p_0
effect_size = DR
# Calcular tamaño de muestra
sample_size = sms.NormalIndPower().solve_power(effect_size, power=power, alpha=alpha)
print(f"Tamaño de muestra requerido por grupo bajo el DR: {int(sample_size)}")

required_n = sample_size

Tamaño de muestra requerido por grupo bajo el h-Cohen: 3834
Tamaño de muestra requerido por grupo bajo el DR: 39244


# Realización del experimento: obtención de los datos
df = pd.read_csv('ab_data.csv')



control_sample = df[df['group'] == 'control'].sample(n=int(required_n), random_state=22)
treatment_sample = df[df['group'] == 'treatment'].sample(n=int(required_n), random_state=22)

ab_test = pd.concat([control_sample, treatment_sample], axis=0)
ab_test.reset_index(drop=True, inplace=True)

ab_test.head()


# Ejemplo de Como se asigna aleatoriamente un experimeto

# Sample data
data = ab_test.copy()

# Random assignment
np.random.seed(42)
data['grupo_experim'] = np.random.choice(['A', 'B'], size=len(data), p=[0.5, 0.5])
data.head()


data["grupo_experim"].value_counts()

B    39280
A    39208
Name: grupo_experim, dtype: int64


# Que datos tenemos del experimento
ab_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 78488 entries, 0 to 78487
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   user_id       78488 non-null  int64 
 1   timestamp     78488 non-null  object
 2   group         78488 non-null  object
 3   landing_page  78488 non-null  object
 4   converted     78488 non-null  int64 
dtypes: int64(2), object(3)
memory usage: 3.0+ MB


# Vemos si hay usuarios que repiten
session_counts = ab_test['user_id'].value_counts(ascending=False)
multi_users = session_counts[session_counts > 1].count()
print(f'Hay {multi_users} usuarios que aparecen varias veces en el dataset')

Hay 272 usuarios que aparecen varias veces en el dataset


# Los eliminamos 
users_to_drop = session_counts[session_counts > 1].index

ab_test = ab_test[~ab_test['user_id'].isin(users_to_drop)]
print(f'El dataset tiene ahora {ab_test.shape[0]} observaciones')

El dataset tiene ahora 77944 observaciones


# El control: ¿sólo vio la página vieja?

pd.crosstab(ab_test['group'], ab_test['landing_page'])


# elimino los usarios que han visto los dos 
# Filtro lógico para datos correctos:
ab_test_clean = ab_test[((ab_test['group'] == 'control') & (ab_test['landing_page'] == 'old_page')) |
                        ((ab_test['group'] == 'treatment') & (ab_test['landing_page'] == 'new_page'))]

# Mostrar la tabla de contingencia limpia
pd.crosstab(ab_test_clean['group'], ab_test_clean['landing_page'])


ab_test = ab_test_clean.copy()
ab_test.head()


# Analisis de resultados

conversion_rates = ab_test.groupby('group')['converted']

std_p = lambda x: np.std(x, ddof=0)              # Std. deviation of the proportion
se_p = lambda x: stats.sem(x, ddof=0)            # Std. error of the proportion (std / sqrt(n))

conversion_rates = conversion_rates.agg([np.mean, std_p, se_p])
conversion_rates.columns = ['conversion_rate', 'std_deviation', 'std_error']


conversion_rates.style.format('{:.3f}')


plt.figure(figsize=(8,6))

sns.barplot(x=ab_test['group'], y=ab_test['converted'])

plt.ylim(0, 0.17)
plt.title('Conversion rate por grupo', pad=20)
plt.xlabel('Grup0', labelpad=15)
plt.ylabel('Converted (proportion)', labelpad=15);
plt.show()


# Testear la hipótesis

from statsmodels.stats.proportion import proportions_ztest, proportion_confint
control_results = ab_test[ab_test['group'] == 'control']['converted']
treatment_results = ab_test[ab_test['group'] == 'treatment']['converted']

n_con = control_results.count()
n_treat = treatment_results.count()
successes = [control_results.sum(), treatment_results.sum()]
nobs = [n_con, n_treat]

z_stat, pval = proportions_ztest(successes, nobs=nobs)
(lower_con, lower_treat), (upper_con, upper_treat) = proportion_confint(successes, nobs=nobs, alpha=0.05)

print(f'z statistic: {z_stat:.2f}')
print(f'p-value: {pval:.3f}')
print(f'ci 95% for control group: [{lower_con:.3f}, {upper_con:.3f}]')
print(f'ci 95% for treatment group: [{lower_treat:.3f}, {upper_treat:.3f}]')

z statistic: 1.80
p-value: 0.073
ci 95% for control group: [0.119, 0.125]
ci 95% for treatment group: [0.115, 0.121]

Método	A/B Testing Aplicación	Uso Común
Diferencia de Riesgo (RD)	Comparar el cambio absoluto en tasas de conversión.	Tasa de conversión
Riesgo Relativo (RR)	Comparar el aumento/reducción proporcional del éxito.	Análisis porcentual
Razón de Momios (OR)	Comparar probabilidades relativas entre grupos.	Datos binarios
h de Cohen	Comparar proporciones pequeñas o cercanas a 0/1.	Psicología, A/B CTR
d de Cohen	Estandarizar diferencias entre proporciones.	Comparación general

Diseñar un A/B test

Determinar el tamaño de la muestra

Elementos Clave¶

Fórmula Simplificada para el Tamaño de Muestra en Proporciones¶

Effect size: Tamaño del efecto

1. Diferencia de Riesgo (Risk Difference - RD)¶

2. Riesgo Relativo (Relative Risk - RR)¶

3. Razón de Momios (Odds Ratio - OR)¶

4. h de Cohen¶

5. d de Cohen¶

Nota: Qué significa estabilizar la varianza en el h-Cohen

	user_id	timestamp	group	landing_page
0	644179	2017-01-16 04:15:36.663685	control	old_page
1	729672	2017-01-20 19:04:10.409185	control	old_page
2	866186	2017-01-09 02:56:47.675707	control	old_page
3	884303	2017-01-18 04:49:04.225284	control	old_page
4	882576	2017-01-15 13:36:49.854723	control	old_page

landing_page	new_page	old_page
group
control	388	38587
treatment	38571	398

	conversion_rate	std_deviation	std_error
group
control	0.122	0.327	0.002
treatment	0.118	0.323	0.002