Por Renato Ornelas,
Quantas vezes você já passou horas quebrando a cabeça com um problema “lógico”, olhando configuração, protocolo, gráfico… e, no fim, era só um conector de SFP que não estava encaixado até o final?
Eu sou o Renato Ornelas, fundador do Sistema OpenX, e este texto nasce do 11º episódio da série “Como o OpenX faz para resolver problemas”. Hoje o tema é simples, mas decisivo: faça uma auditoria física.
Quando nada mais faz sentido, é hora de levantar da cadeira, ir para o campo, abrir o rack, olhar cabo por cabo, porta por porta, etiqueta por etiqueta. É aí que muita mágica acontece.
Meu pai sempre diz uma frase que eu carrego comigo:
“Na teoria, teoria e prática são iguais. Na prática, não são.”
Na nossa área, isso é quase uma lei da física.
O mundo teórico x o mundo real
Na sua documentação, está tudo bonito:
- Porta tal ligada na porta tal
- Circuito todo desenhado
- LLDP batendo
- Topologia redondinha no diagrama
Mas, no mundo real, alguém conectou um patch cord na porta errada, reaproveitou um cabo com etiqueta antiga, trocou duas fibras de lugar ou esqueceu de reconectar uma fonte de energia depois de um teste.
O resultado?
Tudo parece certo nos sistemas, mas o tráfego não fecha. E aí começa aquele tipo de problema que “não faz sentido”.
É justamente aí que entra a auditoria física.
Caso 1: o acoplador arranhado
Em um dos circuitos de fibra apagada que recebemos de uma operadora em São Paulo, o técnico deles media o sinal embaixo e dizia: “Está tudo ok”.
Só que aqui em cima não estava nada ok.
Depois de muita análise lógica, fomos para o mundo físico. Ao inspecionar o conector e o acoplador, vimos que lá dentro havia uma ranhura, uma parte levantada, o que comprometia o contato óptico.
Não adiantava trocar cordão, módulo, configurar de novo.
O problema estava no acoplador.
Trocamos o acoplador por outro que tínhamos em estoque.
Problema resolvido na hora.
Se a gente não tivesse ido até o campo olhar fisicamente, provavelmente teria virado um daqueles tickets eternos, pulando de mão em mão.
Caso 2: o circuito de 100G que só agregava 80G
Esse é um dos meus casos favoritos, porque ele mostra bem o valor da auditoria física e do uso inteligente de protocolos como o LLDP (Link Layer Discovery Protocol).
Um cliente nosso foi ativar um circuito no PoP da Eletronet:
- 10 portas de 10G, formando um circuito de 100G.
Subíamos as 10 portas, mas na hora de agregar, só 8 entravam no bundle.
Configuração revisada, tudo certo dos dois lados, nada de errado no papel. Mas não fechava.
O que nos salvou? LLDP.
Com o LLDP, você sabe quem está falando com quem:
- “Sou a porta 10 do equipamento tal”
- “Estou recebendo aqui na porta 8”
Começamos a olhar as relações e percebemos que, em algum ponto do meio do caminho, alguém havia invertido conexões. As portas estavam todas up, mas algumas estavam cruzadas:
- TX da 8 indo para RX da 10
- TX da 10 indo para RX de outra porta
Ou seja: o link subia, mas não como o desenho lógico esperava.
Como eu morava perto do PoP, fui pessoalmente:
Abri o rack, achei as duas fibras erradas, inverti, fechei o rack e avisei:
“Pode testar.”
Circuito agregando as 10 portas.
Problema resolvido em 15 minutos.
Se a gente ficasse só preso à teoria, provavelmente estaria discutindo até hoje se o problema era de configuração, firmware, bug, etc.
Documentação não é a verdade, é uma tentativa de descrever a verdade
Um ponto importantíssimo: documentação não é o mundo real. É a nossa melhor tentativa de representá-lo.
Na OpenX, por exemplo, só no ambiente da Equinix SP4 temos mais de 500 cross-connects. Isso significa mais de mil fibras chegando no nosso rack. É muito fácil:
- alguém ativar um circuito em uma porta “ao lado” da planejada
- uma etiqueta ficar no cabo errado
- um patch panel ser reorganizado e alguém esquecer de ajustar a planilha
Por isso, temos dois cuidados:
- Controles paralelos
Além do controle da própria Equinix, temos o nosso próprio controle interno. E frequentemente comparamos os dois. - Cultura de atualização de documentação
Toda vez que alguém mexe em algo relevante, temos um grupo de WhatsApp só para isso:
“Por favor, atualizar a documentação: movemos tal circuito da porta X para a porta Y.”
Depois alguém vai lá e ajusta:- Zabbix
- Sistema de gerência
- Planilha de clientes
- Diagrama lógico/topológico
Mesmo assim, sabemos que pode haver discrepância.
Por isso, quando um problema “não faz sentido”, voltamos ao mundo físico e perguntamos:
“O que está aqui na minha frente reflete realmente o que está escrito na documentação?”
Etiquetas: baratas, simples e salvadoras
Outro ponto que derruba muita operação é etiqueta mal feita.
Alguns erros comuns:
- Reaproveitar cordão e não trocar a etiqueta
- Ter etiqueta só em uma ponta
- Usar identificação que não faz sentido para quem chega depois
- Etiqueta descolando, rasurada, ilegível
Consequência: toda vez que alguém precisa conferir uma ligação, tem que “seguir o cabo” em meio àquela maçaroca no rack.
Boas práticas simples:
- Etiquetar as duas pontas
- Usar um padrão de nomenclatura consistente
- Garantir que o que está na etiqueta bate com a documentação
- Não ter preguiça de reetiquetar quando o cabo muda de função
Isso facilita muito a tal da “auditoria física”.
Em vez de adivinhar, você confirma.
E se tiver dúvida? Derruba a porta certa e vê o que acontece.
Se derrubar a porta 20 do patch panel e o circuito que cai não é o esperado, tem algo errado na documentação ou nas conexões.
Olhe para os sinais: o comportamento também conta história
Nem sempre o problema físico é binário (funciona / não funciona). Às vezes ele vai se degradando ao longo do tempo.
Um exemplo real: o circuito de fibra da OpenX até minha casa.
- Fibra de aproximadamente 1 km
- Módulos de 10 km
- Tudo funcionando bem
De repente, o sinal começou a piorar.
Troquei para módulos de 20 km: melhorou por um tempo, depois piorou de novo.
Se eu fosse ingênuo, podia ter entrado na espiral:
20 km → 40 km → 80 km…
Mas alguma coisa não fechava:
- Para 1 km de fibra, um módulo de 10 km deveria ser suficiente.
- O problema estava piorando aos poucos, não de uma vez.
Fomos para o mundo físico.
Chegando lá, descobrimos que o peso do cabo, descendo do 21º andar, estava forçando a fibra na caixa de terminação, que tinha poucas voltas internas.
Dei mais algumas voltas na bobina interna para aliviar a tensão.
Nunca mais tive dor de cabeça com esse circuito.
Aqui entra outro ponto crítico: monitoramento de potência óptica e eventos ao longo do tempo.
Na OpenX, monitoramos:
- Sinais ópticos de todas as interfaces
- Comportamento ao longo do tempo (gráficos)
- Eventos abruptos x degradação progressiva
Se de uma leitura para outra você sai de -3 dBm para -18 dBm, algo aconteceu naquele momento:
- queda de árvore
- rompimento
- alguém esbarrou no cabo
- conector deslocado
Se o sinal cai aos poucos ao longo de dias ou semanas, a causa costuma ser outra:
- curvatura excessiva
- conector sujo
- cabo tensionado
- envelhecimento físico da infraestrutura
Essas informações direcionam onde você deve olhar no campo.
Fontes, energia e alarmes relevantes
Um clássico: alguém tira uma fonte para teste e esquece de reconectar.
Enquanto tudo está estável, ninguém percebe.
Aí, um tempo depois, a outra rede de energia falha. Resultado: equipamento no chão, circuito indisponível, cliente ligando.
Por isso, aqui na OpenX:
- Todo equipamento tem duas fontes
- Monitoramos se qualquer uma delas for desconectada
- Alarmes para:
- Falha de fonte
- Queda de energia
- Sinais óticos fora da faixa esperada
A ideia é simples:
Se o equipamento foi projetado para ser redundante, eu quero saber sempre que essa redundância estiver comprometida.
A regra de ouro: comece sempre pela camada física
Quando você se deparar com um problema muito estranho, que não faz sentido, lembre do modelo OSI:
- A primeira camada é a camada física.
Antes de acusar:
- protocolo
- configuração
- roteador
- fabricante
Verifique:
- Cabos
- Conectores
- Portas corretas
- Patch panels
- Etiquetas
- Cross-connects
- Fontes de energia
- Documentação x realidade
E sempre que você pensar ou ouvir:
- “Supostamente está ligado em tal porta…”
- “Deveria estar indo por tal caminho…”
Acenda um alerta interno.
“Supostamente” não é diagnóstico.
É hora de ir lá e conferir.
Em busca da verdade
No fim das contas, auditoria física não tem glamour.
É chão de datacenter, rack aberto, etiqueta na mão, poeira de obra às vezes, madrugada em POP remoto, fibra na escada, testador na cintura.
Mas ela tem algo muito mais importante: verdade.
As coisas são como são, não como você gostaria que elas fossem, nem como o diagrama diz que são.
Quando você assume isso e passa a buscar a verdade no mundo físico, seus diagnósticos melhoram, os problemas “misteriosos” desaparecem e a operação do seu provedor fica mais confiável.
Se nada fizer sentido…
Levanta, vai até o rack, olha, confere, mede, documenta.
A resposta, muitas vezes, está ali. No conector que não entrou até o fim. Na fibra cruzada. Na etiqueta trocada. Na fonte desligada.