Business Intelligence simples e prático: julho 2016

terça-feira, 5 de julho de 2016

Entendendo um pouco mais sobre o relacionamento do HDFS com Namenode e Datanode

Bom dia a todos,

Hoje venho abordar um pouco sobre o que são os Namenodes e o que são os Datanodes. O que eles comem, onde vivem e como se reproduzem.

Um cluster hadoop possui dois tipos de nós:

Namenode(nó mestre)

Geralmente 1 ou 2 nós. serão 2 quando for necessário manter uma redundância
Controla arquivos que entram, que saem e e seu local no sistema de arquivos
É o grande responsável por gerenciar o HDFS. Trabalha no nível gerencial
Acesso garantido a todos os nós do cluster.

Acesso ilimitado ao HDFS das máquinas do cluster. De maneira que possa ler e escrever

O HDFS sem o ter o namenode não funciona. Pois é necessário um gerenciador (Namenode)
Funções:

Particiona os arquivos e mandar armazenar nos datanodes
Tem o endereço de cada bloco de endereço de dados
Encaminha bloco de dados aos Datanodes
Fica no nó mestre da aplicação

Quando ocorre uma falha:

Todos os arquivos serão perdidos, exceto se tiver a replicação desses blocos de arquivos nos datanodes

Recuperação

Backup nos datanodes
Ter um segundo namenode

Datanode (nó escravo)

Número ilimitado de nós. Quanto mais nós maior a força de trabalho
Dispensável em caso de alguma falha desde que os dados de um datanode também esteja em outro datanode
Tem como função resumida de Processar, devolver e armazenar
São os trabalhadores que processam os arquivos
Dependem de instruções repassadas pelo namenode
Armazenam os blocos de dados do HDFS
Periodicamente encaminham uma lista ao namenode de tudo que eles tem em seu HDFS. Tal parâmetro é configurável de maneira que envie esse sinal em um tempo maior ou menor

Muito obrigado por toda atenção. Toda e qualquer dúvida/sugestão será bem vinda.

Quem sou eu

Lucas Rehem de Azevedo

Sales Consultant na Oracle, com foco em data management e dados não estruturados. Fui líder de uma célula de DW/BI, Desenvolvedor ETL e OLAP, Experiente em modelagem dimensional, iniciante em Big Data e perna de pau no futebol As opiniões expressas neste blog são de minha autoria e não refletem as opiniões da empresa que trabalho (ou trabalhei). As opiniões expressas pelos visitantes deste blog são deles, não minhas. As informações contidas neste blog são escritas com base em experiências pessoais. Você é livre para usar a informação deste blog, mas eu não sou responsável e não vou compensá-lo se acontecer alguma inconveniência ao fazer uso desta informação.

Sobre Mim

Graduado em Engenharia de Computação,pós em Banco de Dados Oracle e fazendo MBA em Big Data. Certificado ITIL Foundation V2, Oracle Business Intelligence Foundation (1Z0-526), Oracle Business Intelligence Foundation Suite 11g Essentials (1Z0-591) e Microstrategy Certified Analyst 10 (MCA). Atuo hoje como Gestor da Área BI/DW. Com experiência em liderança de equipes, scrum, criação de modelos denormalizados, Administração Banco de Dados Oracle 10G e 11G, MySQL, Ferramenta OLAP OBIEE 10G,11G e Microstrategy. ETL com ODI 10G,11G e Power Center da Informatica. Experiência com T-SQL e PLSQL...Entre outros conhecimentos do dia a dia. Mas um dia chego lá!