Hadoop and Spark for Data Engineering

curso 4812

Este curso tem como objetivo transferir conhecimento sobre as principais ferramentas Open Source do mundo de Engenharia de Dados com exemplos e práticas reais do mercado focando principalmente em Hadoop e Spark, em especial, nos tópicos de troubleshooting, gerenciamento de usuários (Knox, Ranger, ACLs) e, também, tópicos relacionados a alta disponibilidade no Hadoop. Capacitar o aluno em boa parte dos tópicos da certificação da Cloudera.

40h

Curso na modalidade presencial e live class

Com assunto da certificação

Cloudera

Conheça a carreira

Big Data

Após fazer este curso você estará preparado para:

  • Configurar um cluster Hadoop;
  • Aplicar técnicas de mapeamento/redução nos dados;
  • Trabalhar com Hortonworks, Spark Streaming, Apache Knox, Apache Ranger e ACLs no HDFS;
  • Criar um Data Hub com Hadoop e HBase;
  • Extrair e carregar tabelas a partir de arquivos, bases de dados e outras fontes (ETL) usando Sqoop, Flume e Kafka;
  • Administrar e fazer troubleshooting no Hadoop;
  • Fazer Ingestão de Dados com Kafka;
  • Lidar com outros esquemas de arquivos: Avro, Parquet;
  • Trabalhar com alta disponibilidade no Hadoop (Namenode e Hive).

Porque fazer este curso na 4Linux

Veja o que nossos clientes alunos e
empresas falam deste curso

O curso é excelente! A 4Linux tem uma infraestrutura adequada e instrutores capacitados, dando um treinamento de qualidade e eficiência. Este curso foi de suma importância para adquirir os conhecimentos necessários para entrar na área de Big Data em uma grande empresa! Estou muito satisfeito em ter feito o curso e recomendo.

Ricardo Gomes de Souza
Aluno

O treinamento de Hadoop da 4Linux atendeu as minhas expectativas, tive algumas dificuldades, mas saí do treinamento com uma visão diferente da área e com planos para aumentar o meu conhecimento sobre o assunto. Eu recomendo o treinamento, acho que ele oferece um conteúdo essencial para quem deseja iniciar na área.

Hebert Souza Santos
Aluno

Após concluir o curso, atualizar meu currículo consegui uma vaga em uma grande empresa, além de todo o conhecimento esse curso me proporcionou uma mudança na carreira. As aulas foram ministradas para todos, do mais ao menos experiente, todos podiam aprender e contribuir. Foi uma experiência incrível, irei realizar mais cursos com a 4Linux.

Letícia Ramos
Aluno

Conteúdo programático

  • O que é Big Data e os seus 5V’s
  • Exemplos de Aplicações
  • A relação entre Big Data, Machine Learning e Computação de Alto Desempenho
  • Conhecendo os profissionais dos Dados
  • O que é o Apache Hadoop e suas soluções comerciais
  • Conhecendo as principais ferramentas do ecossistema Hadoop
  • Como funciona um cluster Hadoop (MapReduce, YARN e HDFS)
  • Introdução a arquitetura de dados Lambda

  • Apache Ambari
  • Instalação e gerenciamento de um cluster com Apache Ambari
  • Adicionar e remover um nó do Cluster com Ambari
  • Como adicionar e remover serviços com Ambari
  • Definindo qual a infraestrutura necessária para criar um cluster Hadoop (Boas práticas)

  • Conhecer e importar a sandbox HDP da Hortonworks para executar laboratórios do Hadoop
  • Comandos HDFS – Comandos básicos para gerenciamento de arquivos / diretórios
  • Comandos HDFS – Gerenciamento de Permissões
  • Comandos administrativos do Hadoop

  • Carregamento e armazenamento de Dados com o Pig
  • Gerenciamento de Tabelas com o Pig
  • Operações no Pig: Agrupamento, Filtragem, Ranqueamento
  • Operações de Junções no Pig: Inner Join, left join e right join
  • Execução do Pig com o Tez – Tez x MapReduce

  • Introdução ao Hive / Criação de tabelas internas e externas
  • Funções agregadas no Hive
  • Gerenciamento de partições no Hive / Partições estáticas e dinâmicas
  • Tabelas ORC e execução de consultas no Hive com Tez
  • Instalação do Presto para fazer consulta no Hive

  • Introdução ao Zookeeper / Introdução ao Hbase
  • CRUD e Trabalhando com Filtros Hbase
  • Exportar dados do Hive para Hbase

  • Ingestão de Dados Estruturados com Apache Sqoop
  • Ingestão de Dados por Streaming com Flume
  • Ingestão de Dados com Kafka
  • Configurando o Kafka e publicando dados

  • Introdução ao Spark e a Linguagem Scala
  • RDDs, SparkSQL, DataFrame
  • Executando Spark em um Cluster
  • Introdução ao Spark Streaming

  • Introdução ao Apache Storm
  • Introdução ao Apache Flink
  • Configurando uma conta de desenvolvedor Twitter e gerando streams de Tweets

  • Criação de um Workflow com Oozie
  • Agendamento de execução de um Workflow com Oozie
  • Configuração do Notebook Zeppelin
  • Análise de Dados e Geração de Gráficos com Spark no Zeppelin

  • Criando snapshot de um diretório do HDFS
  • Recuperando snapshot de um diretório do HDFS
  • Instalação e configuração do Knox com Ambari
  • Instalação e configuração do Ranger com Ambari
  • Configurando ACLs no HDFS

  • O que é HA
  • Quais são o servições que necessitam dele e como é a arquitetura de HA para o Hadoop
  • Habilitando HA para Namenode com Ambari
  • Habilitando HA para Resource Manager com Ambari
  • Configurando Configuring HiveServer2 HA e Balanceamento de Carga

Gostaria de tirar dúvidas ou receber uma proposta?
Fale com a gente.

Conheça os diferenciais da 4Linux
Cursos inovadores com foco na empregabilidade

Preparatório para as principais certificações.

Aulas do tipo ‘mão na massa’

Metodologia IT Experience. Vivenciando o mercado de trabalho dentro da sala de aula.

Blended Learning

Mix de aulas presencial e online, com uso intenso de tecnologias.

Olhar no futuro

Ensinamos novas tecnologias que o mercado de trabalho irá contratar.

Implementar projetos e ensinar

Nos torna únicos no mercado. Sabemos o que é relevante e precisa ser ensinado.

Nem consultores, nem instrutores

CONSTRUTORES = CONSultores + insTRUTORES

Curso presencial ou online?
Turmas noturnas, diurnas ou aos finais de semana?

Temos vários horários e modalidades para atender sua disponibilidade.

Próximas turmas

Formas de pagamento

Cartão de crédito

Parcelado em até 12 vezes sem juros

Transferência bancária

Pagamento à vista e com desconto

Boleto bancário

Entrada mais saldo em até 6 vezes sem juros

Pronto para transformar sua carreira com o poder do open software?

Preencha o formulário.

Te enviaremos datas, preços e mais informações do curso.
Preencha para receber datas e valores:

Compartilhe essa página

Compartilhar no facebook
Compartilhar no twitter
Compartilhar no linkedin
Compartilhar no pinterest
Compartilhar no whatsapp

Download do Conteúdo Programático

Pré-requisitos do aluno

Para acompanhar o curso, o aluno deve saber utilizar computadores e inicializar uma máquina virtual com VirtualBox

Pré-requisitos computacionais para o curso EAD

É necessário que o aluno tenha um computador (Notebook ou Desktop) com no mínimo 8GB com suporte a 64bits, pois será necessário emular máquinas virtuais para realizar os laboratórios práticos, e tenha instalado VirtualBox Instalado com Extention Pack (Linux/Windows/Mac OS X)

Pré-requisitos In Company

Sala equipada com Projetor, Quadro branco ou Cavalete Flip Chart;

Acesso à internet por banda larga, utilizando Rede Ethernet ou Wireless;

Caso exista algum proxy ou bloqueio na rede, a 4Linux deverá ser informada para providenciar com antecedência o download dos arquivos necessários.

Pré-requisitos do aluno

Pré-eequisitos Computacionais Presencial/EAD/EAD AO VIVO

Pré-requisitos In Company