Tivemos um sério problema com o PTT-SP na madrugada do dia 30 para o dia 31 de dezembro. Dezenas de profissionais que trabalham na administração de datacenters e backbones reportaram problemas de conectividade. Depois de discussões e diversas ações, saiu um e-mail do time que administra o PTT-SP passando mais detalhes sobre o ocorrido:

Caros Participantes do PTTMetro/PTT.br de São Paulo,

Durante a janela de manutenção executamos com sucesso a substituição de um equipamento de core com mau funcionamento?

No momento a rede está estável para a maior parte dos participantes, que se tiverem conectividade para os servidores de rotas do ATM poderão utilizar normalmente o PTT.br de São Paulo.

Por medida de proteção da infraestrutura e dos demais participantes, alguns sob suspeita foram isolados em um ambiente de quarentena. indisponibilidade.

O PIX Eletronet está fora de conexão pela provável associação coma origem do problema.

Os PIX Telium, Commcorp/G8, Americanet estão sem conexão por decisão unilateral dessas empresas.

A origem do problema foi possivelmente resultado da associação da falha em um dos equipamentos do PTT.br com o relacionamento L2 externo ao PTT.br entre participantes, Loop L2 na rede desses participantes e falha operacional nos mecanismos de proteção do PTT.br.

Amanhã faremos uma revisão geral na rede do PTT.br de São Paulo e agendaremos uma nova janela de manutenção emergencial.

Lamentamos o ocorrido e pretendemos divulgar ainda em Janeiro informações sobre as medidas que iremos tomar para solucionar esses problemas de forma definitiva.

***Fim do e-mail***

Vejam no gráfico abaixo o problema:

A galera ficou puta, pois foram enviados dois e-mails em seguida dizendo que estava tudo normalizado, mas não estava.

O interessante de toda a discussão, para mim, foi levantado na seguinte mensagem:

O problema do Terremark (fora o ponto único de falha do viaduto sobre o rodoanel) é estar também na Grande SP, pois duas matrizes de troca na mesma região aumentam o custo de todos na região.

O PTT-SP tem um SPOF (single point of Failure) e em um viaduto ?!  PTT.br e NIC.br precisam rever isso e rápido.

Toda essa discussão pode ser acompanhada na lista caiu e essa em específico sobre o PTT-SP teve mais de 300 threads. O negócio foi feio.

P.S.: Falta uma resposta final e oficial do que ocorreu.

Atualização: Depois de ter conversado com algumas das pessoas que fazem parte do time que suporta o PTT-SP, eu resolvi editar este post. Removi alguns dos meus comentários, pois acredito que eles geram uma discussão que não levará a nada, porém continuo com o mesmo posicionamento sobre a forma como o PTT-SP está sendo administrado. Não é a primeira e não será a última vez que o PTT-SP apresenta problemas, pois há uma desorganização e falta de controle. Vocês sabem do que eu estou falando…

A iniciativa do PTT é excelente, visa auxiliar, e muito, o tráfego Internet deste país, coisa que as operadoras não fazem por demandar um dinheiro que elas não desejam investir. Agora, não é por falta de dinheiro por parte do PTT.br, ou melhor, por parte do NIC.br, que o PTT-SP apresenta problemas – eles têm muita verba para investir e melhorar este serviço.