Business Intelligence simples e prático: Tolerância a falhas do modelo MapReduce pelo framework hadoop

sexta-feira, 17 de junho de 2016

Tolerância a falhas do modelo MapReduce pelo framework hadoop

Olá pessoal,

Hoje vamos comentar sobre um dos pontos mais importantes do Hadoop, a tolerância a falhas.

De onde vem essas possíveis falhas? Como por exemplo:

Código feito pelo programador. Quando a exceção do código acontece, é possível ser um motivo de falha
Falha de alguma máquina no cluster. Disco danificado ou cheio, memória ram, processador, e etc
Comunicação da rede

O maior beneficio do hadoop é o de lidar com a falha. de modo que o processamento não seja parado em caso de algum erro. A tolerância a falhas do hadoop independe do programador. o framework do hadoop garante o processamento do trabalho iniciado
O que acontece numa falha?

Quando um erro acontece a JVM comunica ao TaskTracker (Responsável pelas tarefas MapReduce)
TaskTracker excecuta uma tarefa atribuida ao Map ou Reduce
O erro é registrado em um log por meio do TaskTracker e marca a tarefa como falha
Em seguida aquele nó(máquina), é liberado para outra tarefa
O nó master é avisado da falha e redistribui o trabalho

Caso o TaskTracker fique sem comunicação ou muito tempo sem receber informações de algum dos nós do cluster, a tarefa que está/estava naquele nó é considerada nula

Esse limite de tempo de resposta é configurado dentro dos arquivos de configuração no map-site

Não é necessário que a JVM avise que um erro aconteceu para se ter uma falha. Caso ocorra o caso citado acima ele já considera uma falha
Caso uma mesma tarefa falhe sucessivamente:

A tarefa pode ser cancelada, e com isso uma parte do arquivo deixa de ser processada.
O número limite de tentativas também é configurado nos arquivos de parâmetros

Existe um parâmetro, também configurável, que serve para cancelar o processamento como um todo quando houverem muitas falhas. Caso o programador deseje que o processamento seja cancelado por ter um número muito alto de falhas, basta programar o percentual de falhas entre todas as tarefas
Um dos maiores problemas é se o nó mestre falhar

Pois geralmente ele não é substituivel. Acontece quando não se tem um nó mestre redundante. O ideal é que a arquitetura desenvolvida tenha em seu planejamento ter um nó reserva para o nó mestre
Assim que o nó mestre falha, o nó substituto continua o trabalho. Todas as tarefas são replicadas para o nó reserva.
O nó reserva fica em stand by enquanto o nó principal está funcional
Caso não exista redundância, o trabalho inteiro terá de ser reprocessado

Obrigado mais uma vez por toda atenção.

Toda e qualquer sugestão será bem vinda!

Nenhum comentário:

Postar um comentário

Quem sou eu

Lucas Rehem de Azevedo

Sales Consultant na Oracle, com foco em data management e dados não estruturados. Fui líder de uma célula de DW/BI, Desenvolvedor ETL e OLAP, Experiente em modelagem dimensional, iniciante em Big Data e perna de pau no futebol As opiniões expressas neste blog são de minha autoria e não refletem as opiniões da empresa que trabalho (ou trabalhei). As opiniões expressas pelos visitantes deste blog são deles, não minhas. As informações contidas neste blog são escritas com base em experiências pessoais. Você é livre para usar a informação deste blog, mas eu não sou responsável e não vou compensá-lo se acontecer alguma inconveniência ao fazer uso desta informação.

Sobre Mim

Graduado em Engenharia de Computação,pós em Banco de Dados Oracle e fazendo MBA em Big Data. Certificado ITIL Foundation V2, Oracle Business Intelligence Foundation (1Z0-526), Oracle Business Intelligence Foundation Suite 11g Essentials (1Z0-591) e Microstrategy Certified Analyst 10 (MCA). Atuo hoje como Gestor da Área BI/DW. Com experiência em liderança de equipes, scrum, criação de modelos denormalizados, Administração Banco de Dados Oracle 10G e 11G, MySQL, Ferramenta OLAP OBIEE 10G,11G e Microstrategy. ETL com ODI 10G,11G e Power Center da Informatica. Experiência com T-SQL e PLSQL...Entre outros conhecimentos do dia a dia. Mas um dia chego lá!