Tivemos um sério problema com o PTT-SP na madrugada do dia 30 para o dia 31 de dezembro. Dezenas de profissionais que trabalham na administração de datacenters e backbones reportaram problemas de conectividade. Depois de discussões e diversas ações, saiu um e-mail do time que administra o PTT-SP passando mais detalhes sobre o ocorrido:

Caros Participantes do PTTMetro/PTT.br de São Paulo,

Durante a janela de manutenção executamos com sucesso a substituição de um equipamento de core com mau funcionamento?

No momento a rede está estável para a maior parte dos participantes, que se tiverem conectividade para os servidores de rotas do ATM poderão utilizar normalmente o PTT.br de São Paulo.

Por medida de proteção da infraestrutura e dos demais participantes, alguns sob suspeita foram isolados em um ambiente de quarentena. indisponibilidade.

O PIX Eletronet está fora de conexão pela provável associação coma origem do problema.

Os PIX Telium, Commcorp/G8, Americanet estão sem conexão por decisão unilateral dessas empresas.

A origem do problema foi possivelmente resultado da associação da falha em um dos equipamentos do PTT.br com o relacionamento L2 externo ao PTT.br entre participantes, Loop L2 na rede desses participantes e falha operacional nos mecanismos de proteção do PTT.br.

Amanhã faremos uma revisão geral na rede do PTT.br de São Paulo e agendaremos uma nova janela de manutenção emergencial.

Lamentamos o ocorrido e pretendemos divulgar ainda em Janeiro informações sobre as medidas que iremos tomar para solucionar esses problemas de forma definitiva.

***Fim do e-mail***

Vejam no gráfico abaixo o problema:

A galera ficou puta, pois foram enviados dois e-mails em seguida dizendo que estava tudo normalizado, mas não estava.

O interessante de toda a discussão, para mim, foi levantado na seguinte mensagem:

O problema do Terremark (fora o ponto único de falha do viaduto sobre o rodoanel) é estar também na Grande SP, pois duas matrizes de troca na mesma região aumentam o custo de todos na região.

O PTT-SP tem um SPOF (single point of Failure) e em um viaduto ?!  PTT.br e NIC.br precisam rever isso e rápido.

Toda essa discussão pode ser acompanhada na lista caiu e essa em específico sobre o PTT-SP teve mais de 300 threads. O negócio foi feio.

P.S.: Falta uma resposta final e oficial do que ocorreu.

Atualização: Depois de ter conversado com algumas das pessoas que fazem parte do time que suporta o PTT-SP, eu resolvi editar este post. Removi alguns dos meus comentários, pois acredito que eles geram uma discussão que não levará a nada, porém continuo com o mesmo posicionamento sobre a forma como o PTT-SP está sendo administrado. Não é a primeira e não será a última vez que o PTT-SP apresenta problemas, pois há uma desorganização e falta de controle. Vocês sabem do que eu estou falando…

A iniciativa do PTT é excelente, visa auxiliar, e muito, o tráfego Internet deste país, coisa que as operadoras não fazem por demandar um dinheiro que elas não desejam investir. Agora, não é por falta de dinheiro por parte do PTT.br, ou melhor, por parte do NIC.br, que o PTT-SP apresenta problemas – eles têm muita verba para investir e melhorar este serviço.

Compartilhar:

Este post tem 5 comentários

  1. Quem tem um SPOF é o Terremark. O PTT-SP não tem nada a haver com o Terremark, o PIX Central fica um edifício no bairro do Brooklin, grande parte das conexões são feitas em dupla abordagem com rotas efetivamente distintas.

  2. Só duas observações:

    O Terremark não é o PTT-Metro e não pertence ao NIC.br/CEPTRO.br. Ele é um ptt privado.

    Em relação à PTTs, temos outros para serem usados por todo o Brasil, resta que as empresas se conectem. Se tem uma penca de AS do nordeste com conexão para o PTT-Metro (l2l), o contrário não é inviável e resolveria o problema. Resta saber se vale a pena, porque ninguém em sã conciência *depende* exclusivamente de PTT para operar, por isso que a maioria deu shutdown nas portas do ptt na ocorrência do problema.

    A resposta final ainda tá pendente…
    []’s

  3. Rubens, vc tem toda razão e peço desculpas – depois do incidente eu fui me informar melhor do que aconteceu com alguns conhecidos e recebi uma série de informações. Só espero que os investimentos que estão sendo realizados para melhorar o PTT-SP sejam feitos de forma coordenada e nos pontos certos da infraestrutura. Falta também um posicionamento oficial de vocês sobre o ocorrido.

  4. Apesar da política do PTT ser em geral mandar o posicionamento oficial apenas para a lista de membros de PTT, como já houve um encaminhamento do aviso de problema para a Caiu, possivelmente o posicionamento também seja encaminhado.

    O que posso comentar é que problemas de larga escala em geral requerem mais tempo para compilar todos os dados num diagnóstico do que aconteceu, mais tempo do que a solução.

    Em tempo: já que o artigo foi atualizado, poderia-se atualizar a referência do texto à Terremark que parece apontar para um ponto de falha cuja existência afeta apenas a eles, não ao PTT (e nem tampouco ao Registro.br, outro que já foi citado mais de uma vez como usando Terremark quando isso não acontece).

  5. Rubens, irei reavaliar o post com certeza, mas continuo com a minha crítica quanto aos constantes erros de um serviço que foi lançado por vocês, NIC.br e subsidiárias, para auxiliar os provedores brasileiros. Acho ou melhor, acredito que há muito à ser feito. Estamos aqui para auxilia-los. Gostaria de deixar claro que me disponho a auxilia-los no que for necessário e do meu alcance.

Deixe uma resposta

Fechar Menu