Sobre o curso

A maioria das empresas armazena dados em diversos formatos seja em bases de dados ou arquivos de texto. E é aí que surge a necessidade de um profissional com perfil diferente: o Engenheiro de Dados. Geralmente, o dado não está preparado para o uso imediato do Cientista de Dados. É que a massa de dados seja otimizada para que o Cientista consiga fazer o melhor uso possível deste ativo tão valioso que dirige as tomadas de decisão das principais empresas no mundo.

O mercado de Big Data entendeu que era importante deixar com que o Cientista de Dados foque apenas no que fazer com os dados e que é necessário um profissional com foco em como acessá-los. O Engenheiro de Dados deve ser capaz de criar pipelines que transformem a massa de dados em formatos analisáveis pelo Cientista de Dados. O pipeline é um processo composto pelas operações de ingestão, processamento, armazenamento e acesso de dados. O Engenheiro de Dados tem perfil generalista e é focado no pipeline e em bases de dados.

O profissional que deseja ser Engenheiro de Dados deve começar aprendendo sobre como arquitetar sistemas distribuídos e armazéns de dados, criar pipelines confiáveis, combinar diversas fontes de dados, colaborar com a equipe de Ciência de Dados. A comunicação entre o Engenheiro de Dados e o Cientista de Dados é vital para o sucesso da empresa que deseja trabalhar com Big Data. Este curso é sua porta de entrada para o mundo do Engenheiro de Dados e apresentará uma visão geral e essencial das principais ferramentas que ele deve dominar. Nosso curso é focado em ferramentas abertas uma vez que Open Source é a principal razão pela evolução do Big Data. Além disso, este curso mostra como é a integração e comunicação entre as áreas de Ciência e Engenharia de Dados.

O curso tem como objetivo apresentar as principais ferramentas Open Source do mundo de Engenharia de Dados com exemplos e práticas reais do mercado focando principalmente em Hadoop e nas APIs essenciais de Python para Big Data.

Após este curso o aluno estará apto a:

  • Compreender os princípios básicos de Big Data
  • Entender como um Engenheiro de Big Data e Cientista de Dados aplicam as tecnologias para resolução de problemas relacionados à dados
  • Aplicar técnicas de mapeamento/redução nos dados
  • Extrair e carregar tabelas a partir de arquivos, bases de dados e outras fontes (ETL)
  • Analisar dados a partir do Python
  • Preparar infraestrutura para trabalhar com APIs de Machine Learning em Python
  • Acelerar o processamento de grandes bases de dados
  • Usar os principais algoritmos de Machine Learning com Python e suas APIs
  • Trabalhar com Pyspark
  • Planejar e implementar um projeto de Big Data para Análise e Visualização de Dados
  • Criar pipelines de Machine Learning

Conteúdo Programático

Introdução a Big Data

  • Python para Big Data
  • Jupyter Notebook
  • Google Colab

Python para Big Data

  • O modelo de programação MapReduce
  • Introdução a Programação Funcional com Python: Funções Lambda em Python
  • Trabalhando com Grafos em Python
  • Numpy
  • Pandas

Análise Exploratória de Dados

  • Tipos de Variáveis (Categóricas, Discretas, Contínuas, Label Encoder, One hot encoding)
  • Normalização de Dados com Python
  • Visualização de Dados com Python (Matplotlib, Searborn, Bokeh)
  • Medidas de similaridade

Matemática e Dados

  • Introdução à Estatística Descritiva
  • Média, Mediana, Desvio Padrão, Variância
  • Teorema de Bayes e Inferência Bayesiana
  • Teste Estatístico de Hipótese
  • Exemplo: Executando um Teste A/B

Spark e PySpark

  • Operações básicas com DataFrames
  • Operações avançadas com DataFrames
  • Operações com Dados Faltantes e Datas

Introdução a Machine Learning

  • Overview dos Algoritmos de Machine Learning
  • K-nearest neighbors – kNN
  • Construção de Pipeline de Machine Learning com modelo CRISP DM
  • Introdução a Sistemas de Recomendação e Filtros Colaborativos

Machine Learning

  • Regressão Linear
  • Regressão Logística x kNN - Avaliação de Modelos
  • Fundamentos de Redes Neurais Artificiais
  • Regressão Logística x kNN - Avaliação de Modelos
  • Introdução a Processamento Natural de Linguagem (Modelos n-grams)
  • Word2Vec com Gensim
  • Clusterização usando Kmeans
  • Classificação usando Naive Bayes
  • Classificação usando Árvores de Decisão e Random Forest
  • Classificação usando Support Vector Machine

Spark MLlib

  • Introdução ao Spark Mllib
  • Tokenização de documentos de textos para tarefas de classificação
  • Regressão Logística com Spark Mllib
  • KNN com Spark Mllib
  • Spark Streaming

Deep Learning

  • Introdução a Deep Learning
  • Redes Neurais Convolucionais
  • Redes Neurais Recorrentes
  • Introdução ao TensorFlow
  • Conhecendo a base de dados MNIST
  • Aplicação Prática de Redes Neurais MLP para Reconhecimento de Imagem
  • Aplicação Prática de Redes Neurais Convolucionais para Reconhecimento de Imagem
  • Aplicação Prática de Redes Neurais Recorrentes para Análise de Sentimentos

Processamento de Alto Desempenho com Python para Big Data

  • A revolução das GPUs em Machine Learning
  • Arquitetura Cuda e Modelo de Programação em GPU
  • Introdução ao Numba. Comparação de desempenho entre Numpy, Numpy assíncrono e Numpy com Numba em Operações estatísticas
  • Conhecendo os principais frameworks Python para Machine Learning que usam GPUs

Diferenciais deste Curso

  • Único curso no Brasil que apresenta como os temas Big Data, Machine Learning, Computação de Alto Desempenho e Análise de Dados estão relacionados e a importância de cada área para um Cientista de Dados
  • Todo material em língua portuguesa (existem muitos concorrentes que só disponibilizam curso em inglês)
  • Oportunidade de conhecer as experiências reais de empresas do Brasil e do mundo que aplicaram as práticas ensinadas.

Pré-requisitos

  • Desejável conhecer comandos básicos do Linux
  • Desejável conhecer comandos SQL básicos
  • Desejável conhecer Lógica de Programação
  • Desejável conhecer o básico da linguagem Python (variáveis, estruturas de repetição, estruturas condicionais, lambdas)

Carga Horária

Curso Presencial: 40H

  • Diurno: 1 semana de segunda a sexta-feira, 8 horas diárias.
  • Noturno: 2 semanas de segunda a sexta-feira, 4 horas diárias.
  • Sábados: 5 sábados, 8 horas diárias.

Curso Online: 40H

  • Curso EAD ágil
  • 08 horas de aulas online (ao vivo) com o professor através de videoconferência.
  • 32 horas de aulas offline (mínimo recomendado pela 4Linux). Estas horas são alocadas e controladas pelo aluno que deverá acessar o conteúdo digital: vídeo aulas com hands-on e fazer os laboratórios, exercícios e desafios.

Próximas Turmas

Início Término Horário
20/06/2020 18/07/2020 Sábado das 09h00 às 18h00
08/09/2020 29/09/2020 EAD - 12 videoaulas práticas intercaladas com 4 aulas online ao vivo em vídeoconferência às Terças-feiras das 20h às 22h
19/09/2020 17/10/2020 Sábado das 09h00 às 18h00

Temos outras turmas, para mais informações entre em contato com um de nossos vendedores.

Receba Datas e Valores

Quem irá pagar o seu curso?
Modalidades
Preferência de horário
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
CAPTCHA de imagem
Digite o texto exibido na imagem.

Compartilhe esta página