🐼Biblioteca Pandas - Parte 2

Na primeira parte deste capítulo, abordamos os fundamentos do Pandas, incluindo as principais estruturas de dados, operações básicas, manipulação e análise. Nesta segunda parte, vamos explorar recursos mais avançados, visualização de dados, e práticas recomendadas ao trabalhar com Pandas.
10. Operações Avançadas com DataFrames
10.1. Merge e Join de DataFrames
Muitas vezes, você precisará combinar dados de diferentes DataFrames. O Pandas fornece métodos poderosos para isso, como merge()
e join()
.
Exemplo de Merge:
pythonCopiar código# Criando dois DataFrames
df1 = pd.DataFrame({
'ID': [1, 2, 3],
'Nome': ['Alice', 'Bob', 'Charlie']
})
df2 = pd.DataFrame({
'ID': [1, 2, 4],
'Idade': [25, 30, 40]
})
# Realizando o merge
merged_df = pd.merge(df1, df2, on='ID', how='inner') # inner join
print(merged_df)
10.2. Concatenando DataFrames
Para combinar DataFrames verticalmente ou horizontalmente, use o método concat()
:
pythonCopiar código# Concatenando DataFrames verticalmente
df_concat = pd.concat([df1, df2], ignore_index=True)
print(df_concat)
11. Manipulação Avançada de Dados
11.1. Pivot Tables
As tabelas dinâmicas são uma ferramenta poderosa para resumir dados. Use pivot_table()
para criar uma tabela dinâmica a partir de um DataFrame.
pythonCopiar código# Criando uma tabela dinâmica
tabela_dinamica = df.pivot_table(values='Idade', index='Cidade', aggfunc='mean')
print(tabela_dinamica)
11.2. Melt
O método melt()
é usado para transformar um DataFrame em um formato mais longo, o que pode ser útil para visualização.
pythonCopiar código# DataFrame exemplo
df_melt = pd.DataFrame({
'Ano': [2020, 2021],
'Vendas': [1000, 1500],
'Despesas': [500, 700]
})
# Transformando para um formato longo
df_long = pd.melt(df_melt, id_vars=['Ano'], var_name='Categoria', value_name='Valor')
print(df_long)
12. Visualização de Dados com Pandas
O Pandas tem integração com bibliotecas de visualização, como Matplotlib e Seaborn, facilitando a visualização de dados diretamente de DataFrames.
12.1. Gráficos Básicos
Você pode criar gráficos simples usando o método plot()
do Pandas:
pythonCopiar códigoimport matplotlib.pyplot as plt
# Gráfico de barras
df['Idade'].plot(kind='bar')
plt.title('Idade das Pessoas')
plt.xlabel('Nome')
plt.ylabel('Idade')
plt.show()
12.2. Histogramas
Os histogramas são úteis para visualizar a distribuição de dados:
pythonCopiar códigodf['Idade'].plot(kind='hist', bins=5, alpha=0.7)
plt.title('Distribuição da Idade')
plt.xlabel('Idade')
plt.show()
12.3. Gráficos de Dispersão
Gráficos de dispersão ajudam a visualizar a relação entre duas variáveis:
pythonCopiar código# Gráfico de dispersão
df.plot.scatter(x='Idade', y='Salário')
plt.title('Idade vs Salário')
plt.xlabel('Idade')
plt.ylabel('Salário')
plt.show()
13. Trabalhando com Dados Faltantes
Dados faltantes são comuns em conjuntos de dados. O Pandas fornece várias funções para lidar com esses dados.
13.1. Identificando Dados Faltantes
Você pode verificar a presença de dados faltantes com isnull()
e sum()
:
pythonCopiar código# Identificando dados faltantes
faltantes = df.isnull().sum()
print(faltantes)
13.2. Removendo ou Preenchendo Dados Faltantes
Remova linhas ou preencha dados faltantes conforme necessário:
pythonCopiar código# Preencher dados faltantes com a média da coluna
df['Idade'].fillna(df['Idade'].mean(), inplace=True)
# Remover linhas com dados faltantes
df.dropna(inplace=True)
14. Práticas Recomendadas
Ao trabalhar com Pandas, considere as seguintes práticas recomendadas:
Documentação: Consulte a documentação oficial do Pandas frequentemente. É uma fonte rica de informações e exemplos.
Nomes de Variáveis Descritivos: Use nomes de variáveis que sejam descritivos e claros. Isso ajuda a manter seu código legível e fácil de entender.
Evite Modificações In-Place: Sempre que possível, evite modificar DataFrames diretamente. Em vez disso, trabalhe com cópias dos dados para evitar efeitos colaterais inesperados.
Exploração Inicial dos Dados: Realize uma exploração inicial dos dados usando
head()
,info()
edescribe()
para entender a estrutura e as características dos dados.Tratamento de Dados Faltantes: Planeje como você irá lidar com dados faltantes desde o início da sua análise. Isso pode afetar significativamente os resultados.
15. Conclusão
O Pandas é uma ferramenta extremamente útil e poderosa para análise de dados em Python. Com suas funções avançadas, você pode manipular, analisar e visualizar dados de maneira eficaz. Ao dominar o Pandas, você estará bem equipado para enfrentar uma variedade de desafios em ciência de dados e análise.
Explore, experimente e pratique as funcionalidades do Pandas, e não hesite em consultar a documentação para aprofundar ainda mais seu conhecimento. A prática constante é a chave para se tornar proficiente nesta poderosa biblioteca.
Atualizado