import pandas as pd
import numpy as np

pd.set_option('max_columns', None)


df = pd.read_csv(r'F:\curso_python_uruguay\datos\complete.csv')


df = df[['awardYear', 'category', 'prizeAmount', 'prizeAmountAdjusted', 'name', 'gender', 'birth_continent']]
print(df.shape)
df.head(2)


grouped = df.groupby('category')


grouped.groups


print(grouped)


dir(grouped)


# Cuantos grupos hay
grouped.ngroups


# Podemos visualizar lo que tenemos
for name, entries in grouped:
    print(f'Primeros dos premios por categorías: "{name}" ')
    print(30*'-')
    print(entries.head(2), '\n\n')


grouped.indices


pd.options.display.float_format = '{:.2f}'.format


grouped["prizeAmount"].mean()


grouped["prizeAmount"].agg(lambda x: x.mean())


def media(x):
    return x.mean()

grouped["prizeAmount"].agg(media)


df["premio_estandarizado_cat"] = grouped["prizeAmount"].transform(lambda x: (x - x.mean()) / x.std())


df.columns


df.head(2)


def media(x):
    return (x - x.mean())/x.std()

df["premio_estandarizado_cat"] = grouped["prizeAmount"].transform(media)


grouped['gender'].transform(lambda x: x.fillna(0))


grouped['gender'].transform(lambda x: x.fillna(x.mode()[0]))


def miss_fill(x):
    m = x.mode()[0]
    return x.fillna(m)


grouped['gender'].transform(miss_fill)


grouped['prizeAmountAdjusted'].filter(lambda x: len(x) < 100)

Groupby: una pequeña introducción¶