terça-feira, 5 de julho de 2016

Entendendo um pouco mais sobre o relacionamento do HDFS com Namenode e Datanode

Bom dia a todos,

Hoje venho abordar um pouco sobre o que são os Namenodes e o que são os Datanodes. O que eles comem, onde vivem e como se reproduzem.



Um cluster hadoop possui dois tipos de nós:

Namenode(nó mestre)
  • Geralmente 1 ou 2 nós. serão 2 quando for necessário manter uma redundância
  • Controla arquivos que entram, que saem e e seu local no sistema de arquivos
  • É o grande responsável por gerenciar o HDFS. Trabalha no nível gerencial
  • Acesso garantido a todos os nós do cluster. 
  1. Acesso ilimitado ao HDFS das máquinas do cluster. De maneira que possa ler e escrever
  • O HDFS sem o ter o namenode não funciona. Pois é necessário um gerenciador (Namenode)
  • Funções:
  1. Particiona os arquivos e mandar armazenar nos datanodes
  2. Tem o endereço de cada bloco de endereço de dados
  3. Encaminha bloco de dados aos Datanodes
  4. Fica no nó mestre da aplicação
  • Quando ocorre uma falha:
  1. Todos os arquivos serão perdidos, exceto se tiver a replicação desses blocos de arquivos nos datanodes
  • Recuperação
  1. Backup nos datanodes
  2. Ter um segundo namenode
Datanode (nó escravo)
  • Número ilimitado de nós. Quanto mais nós maior a força de trabalho
  • Dispensável em caso de alguma falha desde que os dados de um datanode também esteja em outro datanode
  • Tem como função resumida de Processar, devolver e armazenar
  • São os trabalhadores que processam os arquivos
  • Dependem de instruções repassadas pelo namenode
  • Armazenam os blocos de dados do HDFS
  • Periodicamente encaminham uma lista ao namenode de tudo que eles tem em seu HDFS. Tal parâmetro é configurável de maneira que envie esse sinal em um tempo maior ou menor

Muito obrigado por toda atenção. Toda e qualquer dúvida/sugestão será bem vinda.