Logs não mentem: o erro de quem tenta resolver tudo no chute

Escrito por Renato Ornelas. Fundador e CTO da OpenX.

No ambiente de operações, existe uma diferença muito clara entre quem ainda está começando e quem já desenvolveu maturidade para resolver problemas com consistência: a capacidade de olhar para uma mensagem de erro e levá-la a sério.

Pode parecer algo simples e até básico demais. Mas, na prática, é justamente aí que muita gente tropeça.

Quando surge uma falha na rede, a pressão para agir rápido costuma falar mais alto. O impulso é sair executando comandos, resetando interface, trocando parâmetros, mexendo no protocolo, alterando MTU, IP ou qualquer outro elemento que pareça, naquele momento, ter alguma chance de “fazer voltar”. O problema é que esse tipo de reação quase sempre nasce do “achômetro”, não da análise.

E é nesse ponto que os logs fazem toda a diferença.

Os equipamentos de rede registram o que observaram. Eles não estão emitindo opinião, não estão sugerindo possibilidades aleatórias. Estão informando aquilo que ocorreu sob a perspectiva do sistema. Quando aparece uma mensagem como “BGP Hold Timer Expired”, por exemplo, aquilo não deve ser tratado como um detalhe secundário. É um ponto de partida concreto para o diagnóstico.

Ignorar esse tipo de informação leva o técnico a atacar sintomas em vez de investigar a causa. E isso tem um preço: mais indisponibilidade, mais retrabalho, mais mudanças desnecessárias e, muitas vezes, mais tempo até a solução real.

Pense em uma sessão BGP que caiu. Sem olhar o log, é comum começar a trocar cabo, revisar MTU, substituir transceiver, mexer em IP, revisar a configuração inteira. Mas, se o log já indicava algo relacionado ao temporizador, ou a uma falha de comunicação no caminho, muitas dessas ações sequer fariam sentido. A mensagem, sozinha, já eliminaria várias hipóteses ruins.

Esse é um ponto importante: o log não resolve o problema por você, mas reduz drasticamente o universo de possibilidades. Ele ajuda a separar o que é causa do que é consequência.

Se uma interface caiu, é natural que o BGP caia depois. Agora, se a interface continua ativa e apenas a sessão BGP foi derrubada, o raciocínio muda completamente. Ler a sequência dos eventos, entender a severidade da mensagem e observar o contexto anterior ao incidente é o que permite montar uma linha de investigação mais inteligente.

Uma abordagem prática para isso pode seguir seis passos simples:

Capture a mensagem exata.
Observe o contexto: o que aconteceu antes? Houve mudança de configuração, alteração de vizinhança, troca em VRF, alguma ação operacional?
Classifique o erro: ele está ligado a BGP, interface, SPF, MPLS? Qual é a severidade?
Interprete o que a mensagem realmente quer dizer.
Formule hipóteses coerentes com aquele cenário.
Faça uma alteração por vez, sempre documentando.

Esse último ponto é mais importante do que parece. Em operações, é muito comum fazer várias mudanças em sequência e, quando o problema desaparece, ninguém saber exatamente o que resolveu. Isso enfraquece o aprendizado e dificulta evitar reincidências.

Aliás, esse é outro motivo pelo qual ignorar logs sai caro: até pode parecer que o problema foi resolvido, mas quase sempre ele volta. Reiniciar um serviço, resetar um protocolo ou rebootar um equipamento pode restaurar o funcionamento momentaneamente. Só que, sem entender a origem da falha, nada garante que ela não vai reaparecer pouco depois.

Em outras palavras: resolver sem aprender é só adiar o próximo incidente.

Também existe um fator humano importante nisso tudo. Em ambientes pressionados, com fila alta de atendimento, telefone tocando, cliente cobrando e urgência por todos os lados, cria-se a sensação de que o melhor técnico é aquele que começa a agir primeiro. Mas nem sempre quem se movimenta mais rápido é quem resolve melhor. Muitas vezes, o profissional mais eficiente é justamente o que para alguns minutos, lê com atenção, organiza os sinais e só então age.

Preparação não é perda de tempo. Preparação encurta o caminho.

Para que esse processo funcione bem, algumas bases precisam estar organizadas. Centralizar logs em um servidor externo é uma delas. Há equipamentos que mantêm registros apenas em memória; se houver reboot, essas informações desaparecem. Quando os logs estão centralizados, fica muito mais fácil correlacionar eventos entre vários dispositivos e reconstruir o que realmente aconteceu.

Outra base indispensável é o sincronismo de horário com NTP. Sem isso, até mesmo um bom log perde valor. Se cada equipamento marca um horário diferente, a análise vira confusão. Você deixa de saber qual evento aconteceu primeiro, e isso compromete completamente a investigação.

No fim das contas, o log funciona como a caixa-preta da sua operação. Ele registra o antes, o durante e o depois do incidente. Sem ele, o diagnóstico depende apenas da memória, da percepção e da interpretação de quem estava olhando o problema acontecer. E toda testemunha falha em algum detalhe.

Por isso, talvez uma das mudanças mais valiosas para qualquer time técnico seja essa: parar de resolver no chute e começar a confiar mais no que os sistemas já estão mostrando.

Porque, em redes, o log não é enfeite. É evidência.

Logs não mentem: o erro de quem tenta resolver tudo no chute

Deixe um comentário Cancelar resposta