Reunión sobre Monitoreo
GCBA - ASI / 2018-09-19
Participantes
GCBA
- Gustavo Chuliver (GC)
- Sebastián Kroupa (SK)
- Martín Montero (MM)
(por favor, agregar los que faltan)
CABASE
- Andrés Pugawko (AP)
DGSI-SLyT
- Rodrigo Jiménez (RJ)
NIC.ar
- Robert Martin-Legène (RML)
- Mariano Absatz (MA)
Temas
-
Monitorear todos los nodos selladores
-
Monitorear todos los nodos gateway
-
Monitorear parámetros de host (memoria, cpu, espacio en disco, etc)
-
Monitorear parámetros de aplicación (normalmente se hace sobre un
geth
local) -
El monitoreo del NOC debe ser público. Es decir, quien opere el NOC de BFA no puede agregarlo directamente dentro de su propio esquema de monitoreo (aunque podría hacerlo "en paralelo" al monitoreo público si lo prefiere)
-
La recolección de datos debería ser agnóstica a la herramienta de monitoreo
Sin embargo, RJ plantea que el modo de tomar información por parte de, por ejemplo, Zabbix, es específica de la herramienta, con lo cual dependerá de quién opere el NOC cómo se desarrollen los colectores.
RML plantea que independientemente del poll que se haga remotamente de la información, la misma debería guardarse localmente a intervalos regulares en cada host en un formato agnóstico (por ejemplo JSON), de modo tal que si se pierde conectividad entre el host y el NOC, pero el host sigue funcionando, no se pierdan lecturas por este hecho (cosa que ocurriría si la lectura sólo se dispara vía polling).
** GCBA-ASI utiliza Nagios y PRTG ** CABASE utiliza Observium y SmokePing ** SLyT-DGSI utiliza Zabbix
SK y MM plantean que de todos modos, dado que se define que el monitoreo del NOC estará separado del monitoreo de la entidad que opere el NOC, hay más libertad en la elección. RJ asiente, pero opina que debería ser una herramienta con la que el operador del NOC tenga experiencia y se sienta cómodo.
- Puede haber más de un NOC (operado por entidades distintas) pero todos los NOC monitorean toda la red (todos los nodos y todos los parámetros). Los múltiples NOC no serían complementarios sino redundantes.
- Los operadores de nodos selladores y gateways deben estar obligados a proveer la información de monitoreo al(os) NOC (esto debe ser agregado en el reglamento interno)
- Se conversó la posibilidad de monitorear asimismo nodos transaccionales que lo soliciten
Se plantea que además de enviar alertas (mail, sms, telegram, etc) ante eventos que se definan, debe haber una herramienta que permita ver y analizar el comportamiento histórico, que permita identificar qué es normal y qué no, tendencias de crecimiento, etc.
MM plantea el uso de Pentaho. También se propone el uso de Elastic y Kibana.