Com um ambiente robusto e em crescimento constante o cliente viu a necessidade de atualizar sua gestão de monitoramento, que estava defasada e com alguns gargalos. Com o intuito de utilizar as ferramentas consagradas pelo mercado, eles procuraram a 4Linux para implementar um monitoramento com ferramentas 100% Open Source.
O cliente tinha a necessidade de: centralizar logs de diferentes equipamentos, monitorar diferentes tipos de equipamentos distribuídos em diferentes localidades (VMware, Hyper-V, Microsoft SQL Server, MySQL, OracleDB), criar dashboards customizados para as necessidades do negócio, provisionamento dinâmico para uma possível reutilização do mesmo conceito em outra parte da estrutura da empresa e também a capacitação da equipe nas tecnologias utilizadas no projeto.
Sobre o projeto
Desafios na implementação
- Garantir a centralização dos logs, com os exportadores corretos;
- Instalação de Proxies para recebimento de informações em regiões, que depois eram redirecionadas a central;
- Instalação de agentes em todo o parque de servidores;
- Configuração de Dashboards personalizados aos problemas da empresa;
- Instalação de exportadores para VMware, Hyper-V, Microsoft SQL Server, MySQL, OracleDB;
- Personalização de alguns exportadores, que não traziam algumas métricas necessárias;
- Automatizar todo esses processos de provisionamento e configuração do ambiente.
Solução implementada
Como o cliente precisava monitorar uma grande quantidade de servidores e logs, montamos uma estrutura de monitoramento que contempla um servidor Zabbix Proxy, para receber Logs de uma região com várias sub-redes específicas, que depois por sua vez repassa esses dados para um servidor Zabbix central, que foi instalado na nuvem da Azure.
Os Logs dos servidores Linux e Windows) foram centralizados usando a ferramenta Graylog. Para monitorar a saúde dos servidores, como uso de CPU, memória, disco, optamos por usar o Prometheus. Foram instalados exportadores para programas específicos. As informações foram centralizadas em dashboards utilizando o Grafana. Alertas eram disparados para o Microsoft Teams e emails. Utilizou-se o Ansible como provisionador, para uma replicação em outros ambientes da empresa futuramente.
Benefícios e resultados
- Centralização de logs de diversos ambientes híbridos em um único local.
- Visualização em tempo de real de problemas na infraestrutura.
- Melhoria da resposta do time a incidentes e pesquisa rápida sobre problemas ocorridos.
- Dados detalhados dos sistemas e suas correlações.
- Diminuição de trabalho em busca de informações dos ambientes.
- Provisionamento simplificado do ambiente.
- Equipe capacitada nas tecnologias que foram implementadas.