Pular para o conteúdo

Explorando o Pandas no Python: Um Guia Prático

O Pandas é uma das bibliotecas mais populares para análise de dados em Python. Ele permite manipular e analisar grandes volumes de dados de forma eficiente. Neste artigo, vamos explorar alguns comandos essenciais do Pandas com exemplos práticos.

Criando um DataFrame

Um DataFrame é uma estrutura de dados tabular similar a uma planilha do Excel. Vamos criar um DataFrame contendo informações de nome, idade e cidade:

import pandas as pd

# Criando um DataFrame com nome, idade e cidade
df = pd.DataFrame(
    {
        "name": ["Airton", "Maira", "João", "Santos"],
        "idade": [32, 40, 50, 80],
        "cidade": ["New York", "São Paulo", "João Pessoa", "Rio de Janeiro"],
    }
)

Verificando os Tipos de Dados

Podemos verificar os tipos de dados de cada coluna do DataFrame usando dtypes:

print(df.dtypes)

Saída:

name    object
idade   int64
cidade  object
dtype:  object

Exibindo o DataFrame

Podemos visualizar o DataFrame de forma completa usando:

print(df)

Saída:

    name   idade    cidade
0  Airton    32    New York
1   Maira    40    São Paulo
2   João     50    João Pessoa
3  Santos    80    Rio de Janeiro

Trabalhando com Colunas (Series)

Cada coluna do DataFrame é chamada de Series. Podemos acessar os dados de uma coluna específica da seguinte maneira:

Filtrar por Nome

Para filtrar os dados onde o nome seja “Airton”:

print(df[df["name"] == "Airton"])

Saída:

     name  idade    cidade
0  Airton     32  New York

Selecionando Colunas Específicas

Selecionar apenas a coluna name:

print(df["name"])

Saída:

0    Airton
1     Maira
2     João
3   Santos
Name: name, dtype: object

Selecionar apenas a coluna idade:

print(df["idade"])

Saída:

0    32
1    40
2    50
3    80
Name: idade, dtype: int64

Selecionar apenas a coluna cidade:

print(df["cidade"])

Saída:

0         New York
1       São Paulo
2    João Pessoa
3  Rio de Janeiro
Name: cidade, dtype: object

Obtendo Estatísticas dos Dados

Podemos obter algumas estatísticas básicas sobre os dados numéricos usando describe():

df.describe()

Saída:

            idade
count   4.000000
mean   50.500000
std    20.045779
min    32.000000
25%    38.000000
50%    45.000000
75%    57.500000
max    80.000000

Obtendo o Valor Mínimo e Máximo

Obter a maior idade:

print(df["idade"].max())

Saída:

80

Obter a menor idade:

print(df["idade"].min())

Saída:

32

Filtrando Dados

Podemos filtrar os dados para mostrar apenas as pessoas com idade maior que 35 anos:

print(df[df["idade"] > 35])

Saída:

    name  idade        cidade
1  Maira     40    São Paulo
2   João     50  João Pessoa
3  Santos     80  Rio de Janeiro

Conclusão

O Pandas oferece uma maneira fácil e eficiente de manipular e analisar dados em Python. Neste artigo, cobrimos alguns dos principais comandos para criar, acessar e filtrar dados em um DataFrame. Com esses conceitos básicos, você já pode começar a explorar e analisar seus próprios conjuntos de dados de forma eficiente!

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *