É muita ousadia em um subtítulo só.

Então, vamos dividir em partes essa missão.

Este vai ser o primeiro post de uma série voltada para a infraestrutura de ciência de dados.

A ideia é apresentar as principais ferramentas de um pipeline moderno para análise de dados e como as instalar e configurar.

Começando do zero

Nos cursos online, tutoriais, datacamps e afins, é comum desenvolvermos análises de dados em nossos próprios computadores.

Infelizmente, seja ao lidar com grandes volumes de dados, na implementação de modelos, ou na criação de um API, o desenvolvimento e disponibilização dos produtos criados não serão realizados em máquinas locais.

Quando se fala de infraestrutura (infra, pros íntimos), falamos de todo ferramental disponibilizado para o cientista de dados trabalhar.

Isso inclui um servidor (físico ou na cloud), softwares para processamento e armazenamento dos dados, ferramentas para modelagem e visualização, segurança, versionamento e backup.

Como não sou da computação, sei que muitos conceitos e procedimentos que serão apresentados não são habituais para quem não é da área.

Por esta razão, vou elencar, ao longo do texto, referências auxiliares ao “porquê” e ao “porque” de fazermos o que vamos apresentar.

Levantando uma máquina