Hadoop and Spark for Data Engineering

Sobre o curso

A maioria das empresas armazena dados em diversos formatos seja em bases de dados ou arquivos de texto. E é aí que surge a necessidade de um profissional com perfil diferente: o Engenheiro de Dados. Geralmente, o dado não está preparado para o uso imediato do Cientista de Dados. É que a massa de dados seja otimizada para que o Cientista consiga fazer o melhor uso possível deste ativo tão valioso que dirige as tomadas de decisão das principais empresas no mundo. O mercado de Big Data entende que é importante deixar que o Cientista de Dados foque apenas no que fazer com os dados. Portanto, é necessário um profissional com foco em como acessar estes dados de modo eficiente (alto desempenho) e eficaz (alta acurácia).
O Engenheiro de Dados deve ser capaz de criar meios que transformem a massa de dados em formatos analisáveis pelo Cientista de Dados. O termo técnico para esse meio é pipeline. O pipeline é um processo composto pelas operações de ingestão, processamento, armazenamento e acesso de dados. O Engenheiro de Dados tem perfil generalista e é focado no pipeline e em bases de dados. O profissional que deseja ser Engenheiro de Dados deve começar aprendendo sobre como arquitetar sistemas distribuídos e armazéns de dados, criar pipelines confiáveis, combinar diversas fontes de dados, colaborar com a equipe de Ciência de Dados.
A comunicação entre o Engenheiro de Dados e o Cientista de Dados é vital para o sucesso da empresa que deseja trabalhar com Big Data. Este curso é a porta de entrada para o mundo do Engenheiro de Dados e apresenta uma visão geral e essencial das principais ferramentas que o aluno deve dominar. Nosso curso é focado em ferramentas abertas uma vez que Open Source é a principal razão pela evolução do Big Data.
Além disso, este curso mostra como é a integração e comunicação entre as áreas de Ciência e Engenharia de Dados. O curso tem como objetivo apresentar as principais ferramentas Open Source do mundo de Engenharia de Dados com exemplos e práticas reais do mercado focando principalmente em Hadoop e Spark.
Este curso apresenta aspectos relacionados a infraestrutura de Hadoop, em especial, nos tópicos de troubleshooting, gerenciamento de usuários (Knox, Ranger, ACLs) e, também, tópicos relacionados a alta disponibilidade e balanceamento no Hadoop. Com isso, passamos a atender em 100% dos requisitos para a certificação HDPCA (HDP Certified Administrator) e HDPCD (HDP Certified Developer) da Hortonworks. Este curso agora também se preocupa em orientar o aluno mostrando como encaixar todas essas ferramentas open source em uma arquitetura de dados: lambda. É importante que o Engenheiro de Dados domine uma linguagem de programação que seja fácil de aprender e seja escalável, por isso, adotamos a linguagem Scala para este curso.

Após este curso o aluno estará apto a:

  • Compreender os princípios básicos de Big Data;
  • Entender como um Engenheiro de Big Data aplica as tecnologias para resolução de problemas relacionados à dados;
  • Configurar um cluster Hadoop;
  • Aplicar técnicas de mapeamento/redução nos dados;
  • Trabalhar com Hortonworks;
  • Usar o sistema de arquivos HDFS;
  • Criar um Data Hub com Hadoop e HBase;
  • Extrair e carregar tabelas a partir de arquivos, bases de dados e outras fontes (ETL) usando Sqoop, Flume e Kafka;
  • Importar dados para o HDFS com o Sqoop;
  • Administrar e fazer troubleshooting no Hadoop;
  • Acelerar o processamento de grandes bases de dados;
  • Trabalhar com Spark;
  • Planejar e implementar um projeto de Big Data para Análise e Visualização de Dados;
  • Usar o principal framework de Big Data, o Hadoop;
  • Usar o Spark em conjunto com o Hadoop;
  • Fazer Ingestão de Dados com Kafka;
  • Trabalhar com Spark Streaming;
  • Trabalhar com Apache Storm;
  • Trabalhar com Apache Flink;
  • Gerenciar usuários no Hadoop;
  • Trabalhar com Apache Knox;
  • Trabalhar com Apache Ranger;
  • Trabalhar com ACLs no HDFS;
  • Lidar com outros esquemas de arquivos: Avro, Parquet;
  • Gerenciar snapshot de diretório HDFS;
  • Trabalhar com alta disponibilidade no Hadoop (Namenode e Hive);
  • Entender as diferenças de tecnologias entre serviços on-premises do Hadoop x Google Cloud;
  • Fazer as certificações HDPCD e HDPCA da Hortonworks (cobre 100% do conteúdo).

Conteúdo Programático

Introdução a Big Data e ao Hadoop

  • Introdução a Big Data:- O que é Big Data e os seus 5V’s- Exemplos de Aplicações;- A relação entre Big Data, Machine Learning e Computação de Alto Desempenho- Conhecendo os profissionais dos Dados
  • O que é o Apache Hadoop e suas soluções comerciais
  • Conhecendo as principais ferramentas do ecossistema Hadoop
  • Como funciona um cluster Hadoop (MapReduce, YARN e HDFS)
  • Introdução a arquitetura de dados Lambda

Instalação e Gerenciamento de um cluster Hadoop com Ambari

  • Apache Ambari
  • Instalação e gerenciamento de um cluster com Apache Ambari
  • Adicionar e remover um nó do Cluster com Ambari
  • Como adicionar e remover serviços com Ambari
  • Definindo qual a infraestrutura necessária para criar um cluster Hadoop (Boas práticas)

Comandos Hadoop

  • Conhecer e importar a sandbox HDP da Hortonworks para executar laboratórios do Hadoop
  • Comandos HDFS – Comandos básicos para gerenciamento de arquivos / diretórios
  • Comandos HDFS – Gerenciamento de Permissões
  • Comandos administrativos do Hadoop

ETL e Análise de Dados com Apache Pig

  • Carregamento e armazenamento de Dados com o Pig
  • Gerenciamento de Tabelas com o Pig
  • Operações no Pig: Agrupamento, Filtragem, Ranqueamento
  • Operações de Junções no Pig: Inner Join, left join e right join
  • Execução do Pig com o Tez – Tez x MapReduce

Armazenando Dados Estruturados com Hive

  • Introdução ao Hive / Criação de tabelas internas e externas
  • Funções agregadas no Hive
  • Gerenciamento de partições no Hive / Partições estáticas e dinâmicas
  • Tabelas ORC e execução de consultas no Hive com Tez
  • Instalação do Presto para fazer consulta no Hive

Armazenando Dados Não Estruturados com Hbase

  • Introdução ao Zookeeper / Introdução ao Hbase
  • CRUD e Trabalhando com Filtros Hbase
  • Instalação do Phoenix e consultando base no Hbase
  • Exportar dados do Hive para Hbase
  • Teorema CAP para armazenamento de dados

Ingestão de Dados

  • Ingestão de Dados Estruturados com Apache Sqoop
  • Ingestão de Dados por Streaming com Flume
  • Ingestão de Dados com Kafka
  • Configurando o Kafka e publicando dados

Processamento de Dados com Spark

  • Introdução ao Spark e a Linguagem Scala
  • RDDs, SparkSQL, DataFrame e Dataset
  • Executando Spark em um Cluster
  • Introdução ao Spark Streaming

Analisando Streams de Dados

  • Introdução ao Apache Storm
  • Introdução ao Apache Flink
  • Configurando uma conta de desenvolvedor Twitter e gerando streams de Tweets

Workflow e Visualização de Dados no Hadoop

  • Criação de um Workflow com Oozie
  • Agendamento de execução de um Workflow com Oozie
  • Configuração do Notebook Zeppelin
  • Análise de Dados e Geração de Gráficos com Spark no Zeppelin

Troubleshooting e Gerenciamento de usuários no Hadoop

  • Criando snapshot de um diretório do HDFS
  • Recuperando snapshot de um diretório do HDFS
  • Instalação e configuração do Knox com Ambari
  • Instalação e configuração do Ranger com Ambari
  • Configurando ACLs no HDFS

Alta Disponibilidade no Hadoop

  • O que é HA?
  • Quais são o servições que necessitam dele e como é a arquitetura de HA para o Hadoop
  • Habilitando HA para Namenode com Ambari
  • Habilitando HA para Resource Manager com Ambari
  • Configurando Configuring HiveServer2 HA e Balanceamento de Carga

Diferenciais deste Curso

  • Único curso no Brasil que cobre 100% das Certificações HDPCA e HDPCD da Hortonworks;
  • Cobre 70% da maioria das certificações da Cloudera;
  • Único curso no Brasil que apresenta um comparativo entre tecnologias de Big Data com Hadoop (on-premise) x Big Data com Google Cloud;
  • Todo material em língua portuguesa (existem muitos concorrentes que só disponibilizam curso em inglês);
  • Oportunidade de conhecer as experiências reais de empresas do Brasil e do mundo que aplicaram as práticas ensinadas.

Pré-requisitos

  • Desejável conhecer comandos básicos do Linux;
  • Desejável conhecer comandos SQL básicos;
  • Desejável conhecer Lógica de Programação.

Carga Horária

Curso Presencial: 40H

  • 40 horas

Próximas Turmas

Início Término Horário
24/06/2019 05/07/2019 Vespertino
15/07/2019 19/07/2019 Diurno - Segunda a Sexta das 08:30h às 17:30h
14/10/2019 18/10/2019 Diurno - Segunda a Sexta das 08:30h às 17:30h
28/10/2019 08/11/2019 Noturno - Segunda à Sexta das 18:30h às 22:30h

Temos outras turmas, para mais informações entre em contato com um de nossos vendedores.

Receba Datas e Valores

Quem irá pagar o seu curso?
Modalidades
Preferência de horário
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
CAPTCHA de imagem
Digite o texto exibido na imagem.

Compartilhe esta página