class: center, middle, inverse, title-slide .title[ # LECTURE 2: Los datos y sus problemas ] .subtitle[ ## Econometría ADE ] .author[ ###
2024/25 ] --- ### Overview AB/Tests <div id="header-footer"> <p class="slide-footer">Daniel Miles Touya-Uvigo-GADE:24/25</p> </div> En la clase anterior comentamos que uno de los procedimientos de análisis de datos qué más se aplican en e.commerce o diseño de páginas web son los A/B Tests. >1.- Preguntas o dudas de la clase anterior. -- >2.- Hoy: Datos: una pequeña introducción del input fundamental --- ### Opinión basada en datos <a href="https://www.newtral.es/fact-check-denuncias-violencia-genero-cgpj-vox-toscano/20210312/"> Violencia de Género</a> -- <a href="https://www.idealista.com/sala-de-prensa/informes-precio-vivienda/">Precio de la vivienda</a> --- #### Decisiones basadas en datos: proceso <table> <tr style="color:#72A0C1"> <th>1.- Pregunta que nos interesa responder con datos</th> </tr> <tr style="color:#72A0C1"> <th>2.- Obtener los datos</th> </tr> <tr style="color:#72A0C1"> <th>3.- Tidy data/arreglar los datos</th> </tr> <tr style="color:#72A0C1"> <th>4.- Explorar/describir/entender los datos</th> </tr> <tr style="color:#72A0C1"> <th>5.- Modelar los datos</th> </tr> <tr style="color:#72A0C1"> <th>6.- Extraer/visualizar resultados</th> </tr> </table> -- Los pasos 1 y 2 se intercambian muchas veces: <a href="https://nyti.ms/3DNh85u" target ="_blank">Ver caso Target</a> <a href="https://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?pagewanted=1&_r=1&hp">Artículo: Nytimes Magazine</a> --- ### Decisiones basadas en datos: análisis exploratorio Hubway era el programa de bicicletas públicas del área metropolitana de Boston, con más de 1.600 bicicletas en más de 160 estaciones repartidas por toda la zona. Hubway era propiedad de cuatro municipios de la zona. En 2016, Hubway operaba 185 estaciones y 1750 bicicletas, con 5 millones de viajes desde su lanzamiento en 2011. **Los datos**: En abril de 2017: Hubway liberó 5 años de datos de viaje. **La pregunta**: ¿Qué nos dicen los datos sobre el programa de bicicletas públicas? Antes de poder afinar la pregunta, ¡tenemos que ver los datos! --- #### Decisiones basadas en datos: análisis exploratorio ``` python import pandas as pd import os datos_pwd = os.getcwd() hubways_stations_file = os.path.join(datos_pwd, 'hubway_stations.csv') hubways_trips_file = os.path.join(datos_pwd, 'hubway_trips.csv') stations = pd.read_csv(hubways_stations_file, index_col=0, low_memory=False) trips = pd.read_csv(hubways_trips_file, index_col=0, low_memory=False) stations.info() ``` ``` ## <class 'pandas.core.frame.DataFrame'> ## Int64Index: 142 entries, 3 to 145 ## Data columns (total 6 columns): ## # Column Non-Null Count Dtype ## --- ------ -------------- ----- ## 0 terminal 142 non-null object ## 1 station 142 non-null object ## 2 municipal 142 non-null object ## 3 lat 142 non-null float64 ## 4 lng 142 non-null float64 ## 5 status 142 non-null object ## dtypes: float64(2), object(4) ## memory usage: 7.8+ KB ``` --- #### Decisiones basadas en datos: descripción ``` python trips.describe().round(0) ``` ``` ## hubway_id duration strt_statn end_statn birth_date ## count 210239.0 210239.0 210239.0 210239.0 210239.0 ## mean 321402.0 779.0 37.0 37.0 1976.0 ## std 173060.0 13490.0 19.0 19.0 11.0 ## min 8.0 0.0 3.0 3.0 1932.0 ## 25% 174103.0 346.0 22.0 22.0 1969.0 ## 50% 319856.0 532.0 38.0 38.0 1979.0 ## 75% 469290.0 828.0 50.0 50.0 1985.0 ## max 620312.0 5351083.0 98.0 98.0 1995.0 ``` --- #### Decisiones basadas en datos: descripción ``` python import seaborn as sns import matplotlib.pyplot as plt sns.set(style="ticks") sns.pairplot(stations); ``` <img src="03_Data_1_files/figure-html/unnamed-chunk-3-1.png" width="50%" height="50%" style="display: block; margin: auto;" /> --- #### Decisiones basadas en datos: descripción ``` python import numpy as np # Histograma por género gender_counts = np.unique(trips['gender'].values, return_counts=True) fig, ax = plt.subplots(1,1, figsize=(10, 6)) ax.bar(range(2), width=0.5, height = gender_counts[1],color=['#e4a199', 'green'], alpha=0.5 ) ax.set_xticks([0, 1]) ax.set_xticklabels(gender_counts[0]) ax.set_title('Usuarios por género'); ``` <img src="03_Data_1_files/figure-html/unnamed-chunk-4-3.png" width="50%" height="50%" style="display: block; margin: auto;" /> --- #### Decisiones basadas en datos: descripción ``` ## (1.0, 90.0) ``` <img src="03_Data_1_files/figure-html/unnamed-chunk-7-5.png" width="100%" height="100%" style="display: block; margin: auto;" /> --- #### Decisiones basadas en datos: descripción ``` ## (-1.0, 24.0) ``` <img src="03_Data_1_files/figure-html/unnamed-chunk-8-7.png" width="100%" height="100%" style="display: block; margin: auto;" /> --- #### Decisiones basadas en datos: modelado <img src="03_Data_1_files/figure-html/unnamed-chunk-10-9.png" width="100%" height="100%" style="display: block; margin: auto;" /> --- #### Decisiones basadas en datos >Cuando se van a tomar decisiones utilizando herramientas cuyos inputs son los datos, es fundamental que los datos sean los adecuados para el fin que buscamos. ><span style="color:tomato">Ejemplo: ¿cómo medir el impacto de un cambio en la cuota de mercado de mi web?</span> -- ><span style="color:green">La cuota de mercado se define como una proporción:</span> $$ Share = \frac{\text{Users de mi web}}{\text{Total web users}} $$ -- ><span style="color:orange">Pero sólo observo `\(\text{User de mi web}\)` en mi empresa.</span> >>¿De donde obtengo el `\(\text{Total web users}\)`? >>> ¿Como sé que ese dato es fiable? --- #### Datos ¿qué son los datos? Información sobre algo concreto que permite su conocimiento exacto o sirve para deducir las consecuencias derivadas de un hecho. Hace referencia a cualquier tipo de información que pueda ser utilizada como base para razonamientos, argumentaciones, decisiones, cálculos, etc.. <ul> <li style="color:orange"> Quantitativa</li> <li style="color:tomato;margin-left: 10%"> Información <b>objetiva</b>: estadísticas de turismo.</li> <li style="color:tomato;margin-left: 10%"> Información <b>transformada</b>: estimaciones, i.e., se apoyan en supuestos, e.g., distancia entre casas de apuesta e institutos.</li> -- <li style="color:orange"> Textual.</li> <li style="color:tomato;margin-left: 10%"> Información obtenida de textos: e.g., modelos de lenguage.</li> -- <li style="color:orange"> Imágenes.</li> <li style="color:tomato;margin-left: 10%"> Información obtenida de imagenes: e.g., distancia entre casas de apuesta e institutos.</li> </ul> --- #### Datos >¿Qué es un dato cuantitativo? >>Una medida es la asignación de números a una variable. >>> constructo/variable: ¿qué nos interesa realmente? >>> Medida/dato: representación numérica. --- #### Datos: cuestión > En microeconomía veiamos que los individuos maximizan el consumo. > Pregunta: >>¿es posible medir el consumo de ropa? >>> El Instituto Nacional de Estadística qué reporta: ¿consumo o gasto? >> ¿es lo mismo el consumo de ropa que el gasto en ropa? --- #### Datos: cuestión > Estamos interesados en medir si el producto que vendemos pierde poder de compra: >> En otras palabras, si la tasa de crecimiento del precio de mi producto es menor que la inflación de los precios en la economía. >>> ¿Cómo se mide (o de donde se obtiene) la tasa de inflación? -- >>> El Indice de Precios que reporta el INE: ¿qué es? una estadística (cómo se construye) o una estimación (qué estima y como se construye el estimador) <span style="color:tomato">Entender bien de cómo se define el dato en cuestión</span> --- #### Datos <table> <tr> <th>Constructo</th> <th>Medida</th> </tr> <tr> <td>Valoración Película</td> <td>1-5 estrellas</td> </tr> <tr> <td>Ideología Política</td> <td>Valores de 1 a 10: 1-Extrema Izquierda/10 Extrema Derecha</td> </tr> <tr> <td>Gasto en electricidad</td> <td>Útima factura pagada antes de la entrevista</td> </tr> <tr> <td>Tiempo de trabajo doméstico</td> <td>Diario de actividades</td> </tr> <tr> <td>Brecha salarial</td> <td>Diferencia media salarios en base a una encuesta</td> </tr> </table> --- ### Datos: distintos tipos de datos quantitativos Los **datos cuantitativos** son aquellos que se pueden medir numéricamente y se clasifican en dos tipos principales: **datos cuantitativos discretos** y **datos cuantitativos continuos**. **Datos Cuantitativos Discretos** Son datos numéricos que solo pueden tomar valores enteros específicos, es decir, valores contables. No admiten fracciones ni decimales. - **Ejemplos:** - Número de estudiantes en una clase (1, 2, 3…) - Cantidad de autos en un estacionamiento - Veces que un dado muestra un número (1, 2, 3, 4, 5, 6) -- **Datos Cuantitativos Continuos** Son datos que pueden tomar cualquier valor dentro de un rango, incluidos decimales. Estos datos se miden y no solo se cuentan. - **Ejemplos:** - Peso de una persona (70.5 kg, 71.8 kg…) - Estatura (1.75 m, 1.80 m…) - Tiempo que tarda en completarse una tarea (1.5 horas, 2.3 horas…) **Diferencias clave**: - **Discretos**: Toman un valor con probabilidad positiva. - **Continuos**: La probabilidad de un valor específico es cero. --- ### Datos: structurados y No Estructurados Los **datos estructurados** y **datos no estructurados** son dos categorías clave en el manejo de información, y se diferencian principalmente en la forma en que están organizados y almacenados. ##### Datos Estructurados Están organizados de manera clara y predefinida: lo que facilita su almacenamiento, búsqueda y análisis en bases de datos relacionales. ###### Características de los datos estructurados: - Están organizados en tablas o matrices. - Tienen una estructura bien definida (campos y tipos de datos). - Pueden ser almacenados en bases de datos relacionales (SQL). - Son fáciles de analizar y procesar mediante algoritmos. --- ###### Ejemplos de datos estructurados: - Una hoja de cálculo de Excel con una lista de clientes, que incluye columnas como: `ID`, `Nombre`, `Edad`, `Ciudad`: | ID | Nombre | Edad | Ciudad | | --- | -------- | ---- | ---------- | | 1 | Juan | 25 | Madrid | | 2 | Ana | 30 | Barcelona | | 3 | Carlos | 35 | Sevilla | - Registros de transacciones en una base de datos relacional con campos como `ID transacción`, `Fecha`, `Monto`, `Tipo de transacción`. --- ##### Datos No Estructurados Nno tienen un formato predefinido ni una estructura específica: textos, imágenes, videos, documentos de audio, etc. Generalmente requieren de tecnologías especializadas (como bases de datos NoSQL o herramientas de procesamiento de lenguaje natural) para su análisis. ###### Características de los datos no estructurados: - No tienen una estructura rígida. - Pueden estar en formatos muy variados (texto libre, imágenes, audio, video). - Son más difíciles de almacenar y procesar en bases de datos tradicionales. - Requieren técnicas avanzadas de análisis (machine learning, NLP, etc.) para extraer información útil. ###### Ejemplos de datos no estructurados: - **Correos electrónicos:** Contienen texto libre y pueden incluir adjuntos, como documentos o imágenes. - **Publicaciones en redes sociales:** Comentarios, fotos y videos compartidos en plataformas como Twitter, Instagram o Facebook. - **Imágenes y videos:** Fotografías o grabaciones de seguridad que no pueden almacenarse ni procesarse en una base de datos relacional de manera directa. --- ###### Comparación: | Característica | Datos Estructurados | Datos No Estructurados | |-------------------------------|------------------------------------------------|---------------------------------------------------| | **Formato** | Bien definido (tablas, columnas) | Sin formato predefinido (texto libre, multimedia) | | **Almacenamiento** | Bases de datos relacionales (SQL) | Bases de datos NoSQL, almacenamiento en archivos | | **Facilidad de análisis** | Fácil de analizar con herramientas comunes | Requiere técnicas avanzadas | | **Ejemplos** | Registros de ventas, hojas de cálculo | Correos electrónicos, publicaciones en redes | -- Web scrapping: no estructurado e.g., Real time pricing. --- #### Datos: distinta apreciación de lo que significa la escala >Los individuos no tienen la misma apreciación o valoración de un constructo. > Valoraciones en mercados en línea de distintos países >>En EE.UU., todo lo que no sean 5 estrellas significa **terrible**. >>> En otros países, 3 o 4 estrellas es la norma. >Heterogeneidad dentro de un país/cultura: algunas personas califican todo con 5 y siempre dan propina, otros nunca lo hacen > ¿Qué significan los términos políticos? >> Hakeem Jefferson, «El curioso caso de los conservadores negros: Construct Validity and the 7-point Liberal-Conservative Scale» --- ### Datos: distinta apreciación de lo que significa la escala **AirBnB** - ¿Tenéis el mismo umbral de distintivos/«alta calidad» en todos los países? - La gente viaja de un país a otro, ¿cómo estandarizas sus valoraciones? - ¿Cómo se comunican las valoraciones a personas de diferentes culturas? - Inflation rating: ¿tiene alguna credibilidad el rating? **Estás tratando de predecir la inclinación política** - Cuando alguien dice que está «a favor de la protección del medio ambiente», ¿significa que está a favor de subir los impuestos sobre el combustible? - ¿Se hace algo diferente para los negros que dicen ser conservadores frente a los blancos que lo hacen? - Usted recoge informes sobre problemas en una ciudad (311). ¿Qué significa cuando alguien denuncia un bache «inaceptable» para que lo arreglen? -- ##### Idea: nada es lo que parece <span style="color:green">Escalas de Felicidad</span> ##### Diseño de mecanismos de incentivos: cómo lograr que los agentes expresen realmente sus preferencias (i.e, elaborar una encuesta no es sencillo.) --- #### Data: Posible solución A la hora de recopilar datos, puede optar por texto libre para mayor flexibilidad - No limita a las personas a categorías predeterminadas. - Permite añadir más detalles para captar el «constructo». -- Esto dificulta el análisis de los datos; no resuelve completamente el problema. - La mayoría de los métodos de aprendizaje automático utilizan datos numéricos o categóricos. - Incluso la mayoría de las técnicas modernas de NLP convierten palabras en números ("embeddings") - No resuelve el problema de las personas que utilizan las mismas palabras para cosas distintas: este es un problema fundamental del análisis cuantitativo de datos --- #### Ejemplo: Dificultad para medir lo que queremos <span style="color:orange">Queremos analizar el nivel de satisfación de un consumidor a través de una <b>encuesta</b></span>. > Está usted satisfecho con el servicio telefónico: SI NO >> A partir de aquí, nos interesa saber la proporción de personas satisfechas. -- - Cada individuo `\(i\)` tiene una opinión `\(Y_i \in \left\{0,1\right\}\)` -- - Queremos medir `\(E[Y_j] = \mu\)`: la fracción de personas satisfechas (Bernoulli) -- - Asumamos que también preguntamos alguna característica, `\(X_j\)`, e.g., edad. --- #### Ejemplo: Dificultad para medir lo que queremos **Método ingénuo** - Obtenemos `\(i=1,...,N\)` valoraciones y calculamos `$$\overline{Y}_N = \frac{1}{N}\sum_{i=1}^NY_i$$` -- - Por la Ley de los grandes números (LLN; Estadística) `$$\overline{Y}_N = \frac{1}{N} \sum_{i=1}^NY_i \rightarrow^P \mu$$` --- #### Data: Posible problema: La gente no da su opinión verdadera/no responde/no ha sido seleccionada Por ejemplo: dice que está satisfecho según el género de la persona que le hace la encuesta Por ejemplo: A quien vota: Partido A (0) Partido B (1): no dice realmente a quien vota. La gente realmente contesta: `\(\widetilde{Y}_i\)` por tanto `$$\hat{Y}_N = \frac{1}{N}\sum_{i=1}^N \widetilde{Y}_i$$` -- Por ejemplo, por que - La encuesta está en Instagram y cualquiera puede responder. - La encuesta se reparte por correo y consta de 10 hojas: solo responden aquellos cuyo coste de oportunidad de responder es muy bajo. - La encuesta es a teléfonos fijos: nadie menor que 50 tiene teléfonos fijos. - La encuesta es a teléfonos móviles: la mayoría no responde a números desconocidos. -- <span style="color:tomato">La gente que responde la encuesta es **diferente** a la gente que no responde.</span> -- <span style="color:tomato">La gente que responde la encuesta es no es una muestra aleatoria de la población.</span> --- ##### Data: Posible problema: Los datos no representan la poblacion <img src="03_Data_1_files/figure-html/unnamed-chunk-11-11.png" width="100%" height="80%" style="display: block; margin: auto;" /> --- ##### Data: Posible problema: Los datos no representan la poblacion <span style="color:tomato">Impacto en la media muestral: es un estimador sesgado de la media poblacional.</span> -- <img src="03_Data_1_files/figure-html/unnamed-chunk-12-13.png" width="100%" height="80%" style="display: block; margin: auto;" /> --- #### Matemática - Definamos `\(A_i = 1\)` si el individuo `\(i\)` responde y `\(A_i = 0\)` si no responde. - Los datos que observamos entonces son: `\((A_i,Y_i), \, i=1,...,N\)` - Por tanto, solo podemos estimar la media para los que han respondido: $$ Y_{*} = \frac{1}{\#(A_i=1)} \sum_{i \in \{i:A_i=1\}} Y_i $$ <span style="color:tomato">Aunque la muestra aumente `\(Y_{*}\)` nunca va a acercarse a la media muestral.</span> -- <span style="color:orange">Excepto que los individuos que no responden sean aleatorios: e.g., la no respuesta no esté correlacionada con ninguna característica del individuo.</span> --- ##### Data: Posible problema: Los datos no representan la poblacion <span style="color:orange">Excepto que los individuos que no responden sean aleatorios: e.g., la no respuesta no esté correlacionada con ninguna característica del individuo.</span> <img src="03_Data_1_files/figure-html/unnamed-chunk-13-15.png" width="100%" height="80%" style="display: block; margin: auto;" /> --- ##### Muestreo Poblacional: representatividad poblacional - **Definición:** El muestreo poblacional es el proceso de seleccionar un subconjunto de individuos de una población para hacer inferencias sobre toda la población. - **Ejemplo:** Si se quiere saber la opinión de los habitantes de una ciudad sobre un tema, no se encuesta a todos, sino a una muestra representativa. --- #### Importancia del muestreo - **Reducción de costos y tiempo:** Es más eficiente en términos de recursos que estudiar toda la población. - **Facilita el análisis:** Trabajar con muestras reduce la cantidad de datos a manejar, lo que simplifica el análisis estadístico. - **Representatividad:** Permite obtener resultados que puedan generalizarse a la población. #### Conceptos básicos - **Población:** Conjunto total de elementos o individuos que comparten una o más características. - **Muestra:** Subconjunto de la población. - **Parámetro vs. Estadístico:** Un parámetro describe una característica de la población, mientras que un estadístico describe una característica de la muestra. - **Sesgo:** Error que ocurre cuando la muestra no representa adecuadamente a la población. --- #### Tipos de muestreo ##### A. Muestreo probabilístico (aleatorio): 1. **Muestreo aleatorio simple:** Cada individuo tiene la misma probabilidad de ser seleccionado. 2. **Muestreo sistemático:** Se selecciona cada "n-ésimo" individuo de una lista o marco muestral. 3. **Muestreo estratificado:** La población se divide en subgrupos (estratos) y se toma una muestra aleatoria de cada uno. 4. **Muestreo por conglomerados:** La población se divide en grupos (conglomerados) y se selecciona aleatoriamente algunos de ellos para estudiar a sus individuos. ##### B. Muestreo no probabilístico (no aleatorio): 1. **Muestreo por conveniencia:** Se elige una muestra accesible o fácil de obtener. 2. **Muestreo intencional o por juicio:** Se selecciona deliberadamente a individuos que se cree que son representativos. 3. **Muestreo por cuotas:** Se elige una muestra que cumpla ciertas cuotas predeterminadas de características. --- #### Errores en la elección de muestras: Sesgos de selección en el muestreo Cuando se realiza una muestra, es crucial evitar sesgos que puedan afectar la representatividad y la validez de los resultados. Los **sesgos de selección** ocurren cuando la muestra no es representativa de la población de interés, lo que distorsiona las inferencias que se hacen a partir de los datos recolectados. -- #### Sesgo de muestreo o sesgo de selección por conveniencia - **Descripción:** Ocurre cuando los individuos seleccionados para la muestra se eligen de manera no aleatoria, por ejemplo, seleccionando a las personas que son más fáciles de acceder o que están más disponibles. - **Ejemplo:** Realizar una encuesta de satisfacción a los clientes de un restaurante solo en horarios de poca afluencia puede no representar la opinión de la mayoría de los clientes que acuden en horarios más concurridos. --- #### Sesgo de no respuesta - **Descripción:** Este sesgo se presenta cuando las personas que no responden a la encuesta difieren de manera significativa de aquellas que sí lo hacen, lo que puede alterar los resultados. - **Ejemplo:** En una encuesta telefónica, si solo contestan personas mayores que suelen estar en casa durante el día, los resultados no reflejarán las opiniones de la población trabajadora más joven. --- #### Sesgo de autoselección - **Descripción:** Se produce cuando los individuos se seleccionan a sí mismos para participar en un estudio o encuesta. Las personas que eligen participar suelen tener características particulares que no son representativas de la población en general. - **Ejemplo:** En una encuesta en línea donde los participantes se inscriben voluntariamente, las personas con un interés específico en el tema pueden estar más inclinadas a responder, lo que sesgará los resultados hacia ese grupo. --- #### Sesgo de cobertura insuficiente (sesgo de marco muestral) - **Descripción:** Se produce cuando el marco muestral (la lista de la cual se selecciona la muestra) no incluye a todos los miembros de la población o está desactualizado, lo que excluye a ciertos grupos. - **Ejemplo:** Si se realiza una encuesta sobre el uso de tecnología entre adultos utilizando solo direcciones de correo electrónico, se excluirá a aquellos adultos que no tienen acceso a internet. --- #### Sesgo de exclusión - **Descripción:** Se presenta cuando ciertos grupos de la población son excluidos de manera deliberada o inadvertida durante el proceso de selección. - **Ejemplo:** En un estudio sobre hábitos de ejercicio, si se excluyen personas con discapacidad o movilidad reducida, los resultados estarán sesgados hacia individuos con mejores condiciones físicas. --- #### Sesgo de voluntariado - **Descripción:** Similar al sesgo de autoselección, ocurre cuando las personas que voluntariamente se ofrecen para participar en un estudio tienen características particulares que no representan a la población general. - **Ejemplo:** Los estudios de productos o servicios donde los voluntarios participan tienden a atraer a individuos con una fuerte opinión, positiva o negativa. --- ## Sesgo por mala estratificación - **Descripción:** En un **muestreo estratificado**, el sesgo puede ocurrir si los estratos no están bien definidos o si algunos estratos no son representados adecuadamente. - **Ejemplo:** En un estudio de opinión política, si se estratifica la población por edad pero se selecciona más gente joven de lo que representan en la población, los resultados estarán sesgados. --- ## Sesgo de supervivencia - **Descripción:** Ocurre cuando se seleccionan solo aquellos individuos que "sobreviven" a un proceso o condición específica, lo que distorsiona la muestra porque no incluye a los que no lo hicieron. - **Ejemplo:** En estudios médicos, evaluar solo a los pacientes que completaron un tratamiento sin incluir a aquellos que abandonaron o no lo completaron puede sesgar los resultados hacia una mayor eficacia del tratamiento. --- ## Sesgo de duración o longitud - **Descripción:** Se produce cuando en estudios longitudinales se da más peso a los individuos que permanecen en el estudio durante un período más largo. - **Ejemplo:** En un estudio que monitorea la carrera de empleados a largo plazo, los resultados pueden sesgarse hacia aquellos que han estado más tiempo en la empresa, ignorando a los que abandonaron el trabajo rápidamente. --- #### Problemas de Muestreo en un A/B Test En un **A/B test**, el objetivo es comparar dos versiones (A y B) de un producto, página web o variable de interés, para identificar cuál tiene un mejor desempeño. Es posible cometer errores de muestreo que podrían invalidar o sesgar los resultados. -- ###### Sesgo de selección - **Descripción:** Ocurre cuando los participantes no se asignan de manera aleatoria a los grupos A y B, lo que puede generar que los grupos no sean comparables. - **Ejemplo:** Asignar el grupo A a usuarios que visitan el sitio en la mañana y el grupo B a usuarios que visitan en la tarde puede generar diferencias por la hora del día y no por las variantes del test. --- ###### Muestras no representativas - **Descripción:** Sucede cuando la muestra seleccionada para el A/B test no refleja de manera adecuada la **población** a la que se quiere aplicar el cambio. - **Ejemplo:** Si el A/B test solo incluye usuarios nuevos y se excluyen los recurrentes, los resultados pueden no ser aplicables a la totalidad de los usuarios. -- ###### Sesgo de no respuesta - **Descripción:** Ocurre cuando solo un subconjunto de los usuarios asignados a un grupo interactúa o responde. Esto introduce sesgo si las personas que no interactúan tienen características diferentes. - **Ejemplo:** Si solo un pequeño porcentaje de los usuarios en el grupo B responde, los resultados pueden no representar a todo el grupo. --- ###### Desviación por tamaño insuficiente de la muestra - **Descripción:** Si el tamaño de la muestra es muy pequeño Las diferencias observadas pueden ser por azar. - **Ejemplo:** Probar las variantes con pocos usuarios podría dar diferencias no concluyentes y no ser una base sólida para la toma de decisiones. -- ###### Diferencias temporales o sesgo de estacionalidad - **Descripción:** Las diferencias en el comportamiento de los usuarios en diferentes momentos pueden afectar los resultados si no se controla el tiempo del test. - **Ejemplo:** Realizar un A/B test durante la temporada navideña podría dar resultados diferentes a los de otra época, y las diferencias podrían deberse a la estacionalidad y no a las variantes. --- ###### Sesgo por efecto de aprendizaje o contaminación - **Descripción:** Sucede cuando los usuarios se exponen a ambas variantes (A y B), lo que puede influir en su comportamiento. - **Ejemplo:** Si un usuario ve la versión A y luego la B, su comportamiento en B podría estar influenciado por la primera experiencia. -- ###### Sesgo por mezcla de cohortes - **Descripción:** Ocurre cuando los usuarios no permanecen en los mismos grupos durante todo el test, lo que genera mezcla en los resultados. - **Ejemplo:** Si un usuario inicialmente asignado al grupo A luego es reasignado al grupo B, los resultados se distorsionarán. --- ###### Sesgo de autoselección - **Descripción:** Se produce cuando los usuarios eligen participar o se les permite elegir la versión que prefieren. - **Ejemplo:** Si los usuarios eligen entre ver la nueva versión o la original, los resultados estarán sesgados porque aquellos que eligen la nueva versión pueden tener una predisposición favorable. -- ###### Efecto placebo - **Descripción:** Ocurre cuando los usuarios modifican su comportamiento porque saben que están siendo observados en un experimento. - **Ejemplo:** Si los usuarios saben que están participando en un A/B test, podrían cambiar su comportamiento, lo que afecta la validez de los resultados. ---