A instituição precisava monitorar seus recursos de infraestrutura de redes como Firewall e Switches e também seus demais ativos, como os servidores responsáveis por prover todos os serviços aos usuários. O ambiente conta com cerca de 100x servidores, divididos em ambientes Linux e Windows e possui também dispositivos como Firewall Juniper, Switches Dell e 3COM. Também deveria ser realizado o monitoramento de SLA de um dos serviços, além de contemplar uma solução para Backup.
As métricas precisavam ser expostas de forma intuitivas para que a alta gerência conseguissem interpretá-las sem dificuldades. O cliente também gostaria de ser mais pró-ativo em relação aos problemas que ocorriam em seu parque de TI, já que muitas vezes precisava recorrer aos logs dos recursos para o diagnóstico; desta forma, queriam centralizar esses logs para que a equipe conseguisse aumentar sua performance e tempo o de resposta aos incidentes.
Sobre o projeto
Desafios na implementação
- O cliente possuía diversas unidades descentralizadas que são suportados pela mesma equipe , portanto estes ambientes também precisavam estar com monitoramento ativo.
- Capacitar a equipe para que ela pudesse administrar o novo ambiente de forma independente é sempre um desafio devido a falta de tempo dos profissionais de TI.
- Análise de logs com viés de segurança (SIEM).
- Disponibilizar um mapa da infraestrutura central com seus ativos sendo monitorados para fácil diagnóstico.
- Dashboards analíticas com as métricas coletadas do ambiente – de fácil interpretação – para que pudesse ser usada pela alta gerência.
Solução implementada
Foi definido para este cliente uma stack de soluções open source que em conjunto pudessem entregar o resultado de uma plataforma robusta de monitoramento. Foi empregado o Zabbix para o monitoramento de servidores, ativos e serviços de rede; ele foi integrado ao Grafana para disponibilizar Dashboards analíticas e o Graylog para centralização e análise de logs do ambiente, que também ocorrem através de dashboards do próprio Graylog. O ambiente foi configurado para que alertas fossem disparados de acordo com a sua criticidade para um e-mail cadastrado e também para um grupo do Telegram.
Nas unidades remotas ainda foi utilizado o Zabbix Proxy, para que as métricas pudessem ser retidas em caso de uma falha de conexão com o ambiente central.
Benefícios e resultados
- Plataforma de monitoramento completa e robusta, sem limitação de uso ou ativos monitorados (sem nenhuma cobrança ou custo de licenciamento mensal/anual).
- Dashboards gerenciais intuitivas e de fácil leitura para rápido diagnóstico e identificação de problemas.
- Análise dos logs centralizados através de dashboards, permitindo que eventos possam ser correlacionados e alertas sejam enviados quando uma anomalia é detectada, sendo aderente ao modelo SIEM.
- Alertas enviados via correio eletrônico ou mensagem ao grupo do Telegram com a participação dos técnicos responsáveis.
- Transferência de conhecimento para que a equipe de TI local pudesse administrar o novo ambiente de forma independente.