Pular para o conteúdo principal
DSSBR 2026 está chegando — o maior summit de dados e IA do Sul do Brasil. Garanta sua vaga Saber mais
← Todos os eventos Grupo de Estudos

02-Grupo de Estudos Online: Pipeline de Dados - Extracao de dados de PDF com IA Generativa

02-Grupo de Estudos Online: Pipeline de Dados - Extracao de dados de PDF com IA Generativa

Pipeline PDF → CSV com IA

Como automatizamos a leitura e organização de currículos em PDF usando Python e Inteligência Artificial

Repositório GitHub: Repositório Github

Para ter acesso as gravações, se registre em: Grupo de Estudos

Rodrigo Granado Bittencourt | Alessandro Binhara

Março de 2026

Apresentação Filtro de Dados de Rodrigo

Introdução

Imagine receber dezenas de currículos em PDF e precisar organizar todas as informações — nome, e-mail, empresa, cargo — numa planilha. Fazer isso manualmente é demorado, cansativo e fácil de errar.

Foi exatamente esse problema que motivou a criação deste sistema. A Pipeline PDF → CSV é uma ferramenta que faz todo esse trabalho de forma automática: ela lê os PDFs, extrai as informações importantes e entrega tudo organizado num arquivo que pode ser aberto no Excel ou importado direto para análise.

Neste artigo você vai entender o que o sistema faz, como instalar, como usar e o que fazer se algo der errado — tudo explicado de forma simples, sem precisar ser programador para acompanhar.

1. O que o sistema faz?

Em resumo: o sistema pega arquivos de currículo em PDF, lê o conteúdo de cada um e organiza as informações numa planilha (arquivo CSV).

Pense assim: é como contratar alguém para abrir cada currículo, copiar os dados importantes e preenchê-los numa tabela — só que de forma automática, em segundos, e sem erros de digitação.

O que entra e o que sai

O sistema recebe PDFs de currículos (especialmente os exportados do LinkedIn) e devolve um arquivo CSV com uma linha por pessoa, contendo os seguintes campos:

Como o sistema classifica o nível de cada pessoa?

O sistema classifica automaticamente cada profissional numa escala de 1 a 5, com base no cargo identificado no currículo:

  • Nível 1 — Entrada: Estagiário, Trainee, Assistente, Jovem Aprendiz
  • Nível 2 — Operacional: Analista, Técnico, Desenvolvedor Júnior
  • Nível 3 — Especialista: Sênior, Pleno, Consultor, Especialista
  • Nível 4 — Liderança: Gerente, Coordenador, Head, Supervisor, Lead
  • Nível 5 — Executivo: CEO, CTO, Diretor, VP, Fundador, Sócio

2. Como funciona por dentro?

Você não precisa entender os detalhes técnicos para usar o sistema, mas saber o que acontece nos bastidores ajuda a entender por que ele funciona tão bem. O processo acontece em três etapas:

Etapa 1 — Leitura dos PDFs

O sistema abre cada arquivo PDF, extrai todo o texto e salva numa versão .txt. É como copiar e colar o conteúdo do PDF num bloco de notas. Arquivos com sucesso vão para a pasta de concluídos; PDFs com problema vão para a quarentena, onde podem ser revisados manualmente.

Etapa 2 — Processamento em lote

Em vez de processar um currículo por vez, o sistema processa todos os PDFs de uma pasta de uma única vez. Basta colocar os arquivos na pasta correta e executar um único comando — o sistema faz o resto automaticamente.

Etapa 3 — Organização com Inteligência Artificial

Esta é a parte mais inteligente. O sistema usa duas estratégias para identificar os dados:

  • Estratégia rápida (gratuita): se o currículo já tiver os dados organizados de forma clara (como “Nome: João Silva”), a extração é feita diretamente, sem custo adicional.
  • Estratégia com IA (via OpenAI): se o currículo for um texto corrido sem formato definido, o sistema aciona a Inteligência Artificial da OpenAI, que lê o texto e identifica as informações automaticamente — assim como um humano faria. O sistema também usa um cache: se um currículo já foi processado antes, ele não precisa ser processado novamente, economizando tempo e custo de API.

3. Instalação e configuração

Siga os passos abaixo na ordem. Todo o processo leva cerca de 5 minutos.

Passo 1 — Baixe o projeto

Abra o terminal e execute:

Passo 2 — Crie as pastas necessárias

Windows (PowerShell):

Linux / Mac:

Passo 3 — Configure sua chave da OpenAI

Para que a IA funcione, você precisa de uma chave de acesso da OpenAI. Pense nela como uma senha que autoriza o uso do serviço.

  • Acesse: https://platform.openai.com/api-keys
  • Crie uma conta ou faça login e clique em “Create new secret key”
  • Crie um arquivo chamado .env na pasta raiz do projeto
  • Escreva dentro do arquivo: OPENAI_API_KEY=cole_sua_chave_aqui

Passo 4 — Instale as dependências

Ou manualmente:

4. Como usar o sistema

Com tudo instalado, o uso do dia a dia é simples: coloque os PDFs na pasta certa e execute os comandos na ordem.

1. Adicione os PDFs

Copie os currículos para a pasta data/raw_pdfs/:

2. Processe os PDFs em lote

O terminal vai mostrar o progresso em tempo real, indicando quais arquivos foram processados com sucesso e quais tiveram problema.

Se quiser processar um PDF específico em vez de todos de uma vez:

3. Gere o CSV final

Ao terminar, você verá no terminal:

O arquivo CSV estará em data/output/curriculos.csv, pronto para abrir no Excel ou importar para o GAIO.

5. Visualizando os dados no GAIO

Depois que o CSV é gerado, ele pode ser importado para o ClickHouse e visualizado no GAIO — a ferramenta de análise usada pela equipe da Azuris Company. O GAIO permite criar gráficos e painéis sem precisar escrever código do zero.

Como conectar os dados

  • Acesse o GAIO e vá até Data Sources.
  • Selecione a conexão com o banco ClickHouse onde os dados foram importados.
  • Na seção Tables, localize a tabela de participantes.

Como explorar os dados

  • SQL Editor: para fazer perguntas específicas sobre os dados, como “quantas pessoas trabalham em empresas de tecnologia?”.
  • Chart Builder: para criar gráficos visualmente, sem código. Escolha a dimensão (ex: Empresa) e a métrica (ex: contagem) e o gráfico é gerado automaticamente.
  • Dashboard: para reunir vários gráficos numa tela só, com filtros interativos.

Exemplos de análises

  • Gráfico de barras: quantos participantes por empresa
  • Gráfico de pizza: distribuição de cargos (analista, gerente, diretor…)
  • Tabela filtrada: listar apenas profissionais de nível 4 e 5
  • Ranking: as 10 empresas com mais representantes

6. Problemas comuns e como resolver

Erro: “OPENAI_API_KEY inválida” ou “Unauthorized”

  • Verifique se o arquivo .env existe na pasta raiz do projeto
  • Abra o arquivo e confirme que a chave começa com sk-
  • Certifique-se de que não há espaços antes ou depois da chave
  • Se necessário, gere uma nova chave em: https://platform.openai.com/api-keys

Erro: “Nenhum TXT encontrado”

  • Verifique se você executou o batch_processor.py antes do main.py
  • Confirme que a pasta data/txt/ existe e contém arquivos .txt
  • Se a pasta não existir, crie-a e reexecute o batch_processor.py

Erro: “ModuleNotFoundError”

Alguma dependência não está instalada. Execute:

PDF processado, mas sem dados no CSV

  • Abra o arquivo .txt em data/txt/ e veja se o texto foi extraído corretamente
  • Se o texto estiver vazio, o PDF pode ser uma imagem escaneada — o sistema não consegue extrair texto de imagens
  • PDFs exportados diretamente do LinkedIn funcionam melhor

CSV vazio ou com menos registros do que esperado

  • Verifique a pasta data/quarantine/ — PDFs com problema ficam lá
  • Abra os logs em data/logs/ para ver o que aconteceu com cada arquivo
  • Confirme que todos os PDFs estavam em data/raw_pdfs/ antes de executar

Como ver os logs de processamento

7. Dicas e configurações extras

Economizar créditos da OpenAI

Se quiser usar apenas a classificação local (sem acionar a IA para texto livre), abra o main.py e altere:

Reprocessar tudo do zero

Se quiser que o sistema ignore o cache e reprocesse todos os arquivos:

Verificar status após execução

Conclusão

A Pipeline PDF → CSV transforma um processo que levaria horas manuais em algo que acontece em minutos, com padronização e rastreabilidade completa. Cada currículo processado fica registrado, os erros são isolados para revisão e o resultado final está pronto para análise imediata no GAIO.

Pronto para impulsionar sua jornada
em Big Data e IA?

Junte-se à comunidade do GU BigData & IA. Conheça pessoas, descubra oportunidades e cresça cercado de quem move o mercado.

Tenho Interesse