Ir para o conteúdo

Blog

Acumuladores no PySpark: O que são e como usá-los?

Imagine que você está cozinhando um prato incrível, mas precisa contar quantas vezes adicionou tempero. Agora, multiplique isso por milhares de nós trabalhando juntos! 🍲🔥

No mundo do PySpark, os acumuladores fazem exatamente isso: ajudam a contar e somar valores sem causar caos no cluster!

Documentação como Código (DaC)

Documentation as Code (DaC) é uma abordagem que trata a documentação de software como parte integrante do desenvolvimento de código, utilizando as mesmas práticas e ferramentas aplicadas ao código-fonte. Em vez de manter a documentação separada em sistemas distintos, ela é escrita em formatos de texto, como Markdown, reStructuredText ou LaTeX, e armazenada em repositórios versionados. Essa prática permite que a documentação evolua junto com o software, garantindo que as informações estejam sempre atualizadas e alinhadas com as mudanças de implementação.

📢 Broadcast: O Wi-Fi da Engenharia de Dados!

Fala, pessoal! Hoje vou falar sobre variável de transmissão (Broadcast), mas antes... bora filosofar um pouco sobre o que faz um Engenheiro de Dados?

🤔 Já parou para pensar? Qual é uma das grandes missões desse ser místico que habita planilhas, bancos de dados e clusters Spark?

Solid

SOLID

A Importância do SOLID no Desenvolvimento de Software: Construindo Códigos Sustentáveis e Escaláveis

No mundo do desenvolvimento de software, a qualidade do código é um dos pilares fundamentais para o sucesso de qualquer projeto. À medida que os sistemas se tornam mais complexos e as demandas por novas funcionalidades aumentam, a necessidade de escrever código que seja fácil de manter, escalar e entender se torna cada vez mais crítica. É aqui que os princípios SOLID entram em cena, oferecendo diretrizes valiosas para desenvolvedores que desejam criar soluções robustas e sustentáveis.

O que é unpersist() em PySpark?

O método unpersist() é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de unpersist() não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.

Como criei meu site

Resolvi escrever este post depois de ver o que acabei aprendendo durante o processo de criação do meu site. Não que eu tenha virado um dev, ou devops ou um webmaster (denunciei a idade), nesse caminho, que começou ali em outubro de 2024.

Utilização de Diário em 2025

Continuando com o assunto estudos, organização, anotações e etc... Resolvi escrever sobre como tenho organizado a minha vida, meu dia a dia, tanto pessoal quanto profissional.

Em um super resumo, eu diria que a adoção de um diário e utilização de uma agenda (seja ela qual for) é o que tem me salvado bastante.