A arte da engenharia de dados: Como a Dati construiu um Data Lake Serverless na AWS para revolucionar a captação de recursos da Escola Bolshoi

O cliente

Fundada no ano 2000 em Joinville (SC), a Escola Bolshoi é a única filial do tradicional Teatro Bolshoi da Rússia no mundo. Muito além do ensino de excelência em dança com metodologia internacional reconhecida, a instituição atua como um poderoso motor de transformação social. A Escola oferece a seus alunos acesso gratuito à educação, alimentação, assistência médica, fisioterapia e apoio psicológico.

Os números refletem a magnitude de sua operação e impacto: atualmente, a instituição atende cerca de 260 alunos oriundos de 25 estados brasileiros. Com um índice de empregabilidade de 73%, os talentos formados pelo Bolshoi atuam profissionalmente em 29 países, distribuídos pelos 5 continentes, democratizando o acesso à cultura e elevando o nome do Brasil no cenário artístico global.

O cenário

Para manter sua excelência e gratuidade, o Bolshoi atua fortemente na captação de recursos por meio de incentivos fiscais, especificamente a Lei Rouanet. No entanto, o cenário atual de captação de recursos no Brasil tornou-se altamente competitivo e estritamente orientado por dados.

As empresas patrocinadoras passaram a buscar projetos que estejam profundamente alinhados às suas diretrizes de impacto social, ESG (Environmental, Social, and Governance) e investimento social privado. Diante dessa mudança de comportamento do mercado, tornou-se essencial para as organizações proponentes atuar de forma mais assertiva, ágil e qualificada. A oportunidade era clara: transformar a inteligência de dados no principal diferencial competitivo para identificar, qualificar e engajar potenciais incentivadores culturais.

O desafio

Apesar do prestígio da instituição, o processo de prospecção de novos patrocinadores esbarrava em gargalos operacionais severos. A equipe de captação dependia de pesquisas manuais, lentas e descentralizadas, cruzando informações de diferentes bases públicas e fontes de informação.

As principais dores do negócio incluíam:

  • Dificuldade em identificar empresas com perfil exato de incentivadoras;
  • Falta de dados consolidados sobre o histórico de doações do mercado;
  • Ausência de critérios objetivos para a priorização de prospects;
  • Informações de contato frequentemente desatualizadas ou inexistentes.

O tempo excessivo gasto para compilar, organizar e validar informações reduzia drasticamente a janela disponível para ações estratégicas e relacionamento institucional.

“Um dos principais desafios enfrentados pela Escola Bolshoi era a busca por empresas com potencial de investimento em uma única plataforma. Antes disso, a pesquisa precisava ser realizada em diferentes bases, tornando o processo mais lento e descentralizado. Na área de captação de recursos, agilidade é fundamental, e dedicar muitas horas ao levantamento manual de dados reduz o tempo disponível para ações estratégicas.” — Escola Bolshoi.

Para resolver esse desafio, a estratégia definida em conjunto com a Dati foi a criação de um pipeline de dados automatizado e inteligente, capaz de extrair, enriquecer e ranquear potenciais incentivadores, gerando inteligência comercial acionável.

A solução

A Dati projetou e implementou uma arquitetura 100% Serverless baseada nas melhores práticas do ecossistema AWS, provisionada integralmente via AWS CDK (TypeScript) na região us-west-2. A solução foi estruturada em um Data Lake de três camadas (Bronze, Silver e Gold) no Amazon S3, orquestrada por 7 máquinas de estado no AWS Step Functions e agendada mensalmente via Amazon EventBridge.

O fluxo técnico foi dividido em frentes de alta complexidade:

  1. Pipeline de Extração (API Salic): Através de funções AWS Lambda e filas Amazon SQS FIFO, o sistema realiza a extração paginada de projetos culturais da API Salic (Ministério da Cultura) a partir de 2020. Para contornar o rate limiting agressivo da API governamental, a Dati implementou um processamento em lotes de 50 PRONACs, com delays de 2 segundos entre requisições e um mecanismo de retry com backoff exponencial (7 tentativas) para garantir resiliência contra erros 429 e 503. Os dados brutos (projetos, doações e incentivadores) são armazenados em JSON na camada Bronze.
  2. Pipeline de Consolidação: Um Map State no Step Functions, com concorrência de 20 execuções paralelas, processa os lotes. A consolidação é acionada automaticamente por um Amazon CloudWatch Alarm (que monitora quando a fila SQS esvazia), unindo os JSONs intermediários em arquivos CSV particionados por data na camada Silver.
  3. Pipeline de Enriquecimento (Receita Federal): Focado em empresas de Lucro Real, o pipeline extrai CNPJs e consulta a API ReceitaWS para obter dados cadastrais (porte, capital social, contatos). Devido aos limites da API, o processamento ocorre sequencialmente via SQS FIFO (batchSize 1), levando cerca de 8 dias para conclusão, com os dados finais consolidados na camada Silver.
  4. Motor de Scoring e Inteligência Comercial: Uma função Lambda dedicada (com 3GB de RAM e timeout de 15 minutos) cruza os dados e gera um score de priorização exclusivo para Pessoas Jurídicas (excluindo CPFs). O algoritmo avalia 4 dimensões:
  • Recência (até 40 pts): Prioriza doadores recentes.
  • Valor (até 30 pts): Escala baseada no volume financeiro (ex: ≥5M = 30 pts).
  • Alinhamento Cultural (até 20 pts): Foco em artes cênicas, dança e teatro.
  • Disponibilidade de Contato (até 10 pts): Valida a existência de e-mail e telefone.
  1. Camada Gold e Analytics (AWS Glue, Athena e QuickSight): Para a transformação final, um Job ETL Spark no AWS Glue 5.0 (Python 3), rodando em 5 workers G.1X da classe FLEX (otimização de custos), desnormaliza as tabelas em uma visão unificada (gold_salic) com 52 colunas. O resultado é salvo em formato Parquet na camada Gold e registrado no Glue Data Catalog.

A exploração dos dados ocorre via Amazon Athena (engine v3), que atua como data source para o Amazon QuickSight. A Dati desenvolveu o “Dashboard Captação”, importando o dataset via SPICE (~465MB). O painel conta com campos calculados para tratamento de contatos nulos e geolocalização hierárquica (Estado → Município), permitindo drill-down em mapas interativos e acompanhamento de ingestão de leads no CRM (Bitrix).

Os resultados

A implementação do Data Lake Serverless pela Dati transformou radicalmente a rotina de captação de recursos da Escola Bolshoi. O que antes era um trabalho manual e fragmentado, agora é um fluxo automatizado, seguro e altamente governado.

Os principais ganhos relatados incluem:

  • Ganho de Eficiência e Otimização de Tempo: Redução drástica do tempo dedicado à busca, cruzamento e organização manual de dados. A equipe agora concentra seus esforços no relacionamento institucional e em ações estratégicas.
  • Assertividade na Prospecção: Com o motor de scoring multidimensional, a Escola consegue identificar e priorizar empresas de Lucro Real com real potencial de investimento e alinhamento cultural, mapeando parceiros que anteriormente passavam despercebidos.
  • Governança e Visão Geográfica: A centralização dos dados no QuickSight permitiu uma visão ampla e estratégica por região de interesse, facilitando o acompanhamento de oportunidades em diferentes estados e municípios.
  • Escalabilidade e Preparação para o Futuro: A nova arquitetura em nuvem criou um ambiente robusto e escalável, preparando a base de dados da instituição para a futura adoção de tecnologias avançadas, como Inteligência Artificial e Machine Learning para automação de processos e identificação de padrões.

A parceria técnica e consultiva foi um diferencial para o sucesso do projeto:

“O atendimento prestado pela Dati foi excelente durante todo o processo. A equipe acompanhou de perto o desenvolvimento da solução, compreendendo as necessidades da Escola e contribuindo com sugestões e direcionamentos importantes para a construção da plataforma, sempre com disponibilidade e agilidade no suporte.” — Diretora Administrativa, Célia Campos.

Com a engenharia de dados da Dati e o poder da AWS, a Escola Bolshoi não apenas modernizou sua infraestrutura tecnológica, mas garantiu a sustentabilidade e a escalabilidade necessárias para continuar transformando vidas através da arte pelos próximos anos.