Pregunta La mejor herramienta para monitorear copias de seguridad, etc. y hacer estadísticas de los datos a partir de esos datos [cerrado]


He hecho algunas investigaciones sobre nagios, opennms y zenoss pero no estoy seguro de haber encontrado lo que estoy buscando.

La principal fuerza impulsora para mí en este momento es poder monitorear las copias de seguridad. Esto incluye mysql, mssql y, finalmente, algunas copias de seguridad del sistema de archivos.

Tenemos una herramienta que envuelve el proceso de copia de seguridad para estos diferentes sistemas y recopila estadísticas. Así, artículos como:

  • Número de bases de datos respaldadas
  • tamaño del archivo de copia de seguridad db
  • tamaño del archivo de copia de seguridad db comprimido
  • tiempo para hacer copia de seguridad
  • hora de archivo zip

Quiero poder A) tener notificaciones si los trabajos no se ejecutan de acuerdo con la programación B) poder establecer umbrales en las estadísticas que podrían generar notificaciones C) Quiero poder marcar tendencias y graficar las estadísticas

Estoy planeando enviar esta información a la aplicación de monitoreo a través de un HTTP POST. O bien, la aplicación de monitoreo también podría extraerlo de un archivo de registro.

Sin embargo, tendremos otros procesos con otras estadísticas "arbitrarias" (desde la perspectiva del sistema de monitoreo) que querrán monitorear y hacer tendencias, por lo que la flexibilidad es muy importante.

La herramienta o herramientas también deberían poder realizar monitoreo general y tendencias de las interfaces de red, carga del servidor, etc. Una vez que tengamos el monitoreo de respaldo en su lugar, también querremos incluir esos elementos.

Gracias.

Seguir:

He decidido probar lo siguiente en el orden dado:

  • Zabbix: parecía más una "ventanilla única" que las otras y era fácil de instalar en Ubuntu Lucid RC
  • opsview
  • Nagios w / nagvis, pnp4nagios, nagiosgraph
  • cacti w / npc plugin
  • Munin: un poco asustado de la simplicidad, pero esto podría resultar ser una bendición a largo plazo.

Volveré a publicar una vez que haya tomado una decisión, puede pasar un tiempo hasta que eso suceda.


9
2018-04-23 16:14


origen




Respuestas:


En lugar de escribir su propia solución de monitoreo, le recomiendo encarecidamente que use una herramienta existente para que toda la funcionalidad básica de monitoreo y alerta ya esté implementada. Si elige Nagios, obtendrá el monitoreo básico de los recursos del servidor y de la red de forma gratuita, y los siguientes complementos le darán la mayoría del resto de lo que necesita:

check_file_ages_in_dirs le dirá si existen los archivos de copia de seguridad; Aquí está un entrada en el blog Escribí con algunos ejemplos básicos.

check_file puede monitorear el tamaño y los contenidos de los archivos (usando expresiones regulares), por lo que puede enviar sus estadísticas de respaldo a un archivo y monitorearlas.

Lo único que no obtendrás de Nagios es la tendencia y la gráfica; Recomiendo mirar Munin para eso, ya que es fácil de configurar y, como Nagios, tiene montones de complementos contribuidos.


4
2018-04-23 16:45



Solo para aclarar, no estaría escribiendo mi propia herramienta de monitoreo. La pregunta es obtener recomendaciones para las herramientas de monitoreo / tendencias que se integrarán con el marco de respaldo / ejecución de scripts que he construido. - Randy Syring


Esto debería ser bastante fácil de configurar con zabbix.

establecer umbrales personalizados (y muy potentes) es fácil: puede escribir cualquier expresión que desee, por lo que es posible que me avise si "más de 3 de estos 5 servidores no tuvieron una copia de seguridad correcta". También puede utilizar 6 niveles de gravedad y escalados diferentes para lograr notificaciones y alertas flexibles.

zabbix tiene múltiples capacidades de almacenamiento y visualización de datos: todos los datos se almacenan en una base de datos, y para graficar una sola métrica no necesita ninguna configuración, solo tiene que obtener una gráfica "gratis". para almacenamiento a largo plazo y tendencias se calculan promedios de una hora.

En cuanto a obtener sus datos sobre copias de seguridad en zabbix, existen múltiples posibilidades. puede leerlo desde archivos, puede ejecutar comandos personalizados, puede enviarlo desde la máquina monitoreada utilizando la utilidad de línea de comandos zabbix_sender ... y puede haber algunos enfoques más posibles.

la extensión es fácil: cualquier comando personalizado que devuelva datos puede usarse para recopilar, almacenar y visualizar esos datos.

Por supuesto, es posible la supervisión general de los sistemas operativos, aplicaciones, dispositivos snmp e ipmi, etc.


4
2018-04-30 07:49





ejecución

las copias de seguridad son orquestadas por copia de seguridad. Lo uso solo como un contenedor para mis scripts de bash: para tener un solo registro de copia de seguridad. cada script comienza con

 function handle {
         echo Error
         error problem occured
 }
 set -e
 trap handle ERR

por lo que recibo un error en los registros cuando falla alguno de los comandos [por ejemplo, mysqldump o rsync].

todas las copias de seguridad terminan en rdiff repositorio por lo que tengo n días de incrementos.

todas las copias de seguridad se transmiten mediante rsync al servidor de almacenamiento central.

en el servidor de almacenamiento, todas las copias de seguridad se verifican diariamente y después de la verificación exitosa de los datos en el disco local, se copian en una unidad USB externa.

verificación

backupninja.log en todos los servidores es supervisado por nagios. Reviso si contienen solo mensajes DEBUG e INFO. cualquier otra cosa dispara alerta.

Cada copia de seguridad 'toca' un archivo de prueba, cuya presencia y actualización se monitorean en el servidor de repositorio de copias de seguridad central con nagios.

además, los vertederos más críticos de sql se verifican por su tamaño [no solo la frescura] y su integridad [por ejemplo, al final de los volcados de mysql espero una nueva marca de tiempo en

- Dump completado el 2010-04-22 23:21:02

todos los archivos rdiff se verifican diariamente antes de que los datos se sincronicen con la unidad USB y luego nuevamente se sincronizan. así que incluso si se interrumpe la transferencia nocturna, tendré un repositorio consistente solo en el disco USB. El resultado de la comprobación se registra en el archivo, cuyo contenido y frescura se comprueban mediante nagios.

Los discos USB se rotan semanalmente y se almacenan fuera de línea, por si acaso. esto puede ser excesivo para grandes cantidades de datos, pero funciona bien para ~ 300GB de archivos / volcados que cambian lentamente.

tendencias

uso la costumbre simple Munin plugin para trazar el tamaño de diff / data para cada repositorio rdiff.

El tiempo que demora en ejecutarse puede consultarse en los registros de backupninja, pero por el momento no me preocupo.


1
2018-04-23 18:20



Gracias por la respuesta. Ya tengo un marco que maneja copias de seguridad en ejecución (y otras tareas), que recopila estadísticas, por lo que backupninja sería una exageración. Nagios parece ser un consenso y luego munin o cactus a la tendencia. - Randy Syring


nagios puede hacer tendencias, pero necesita generar perfdata (http://nagios.sourceforge.net/docs/1_0/perfdata.html) en su plugin. Si usas un pnp4nagios http://docs.pnp4nagios.org/pnp-0.4/start entonces todo será graficado para ti.

He encontrado que usando opsview http://www.opsview.org/ Es mucho más fácil que configurar nagios y pnp4nagios. Especialmente si usted es el único administrador de Linux que trabaja en el trabajo. Opsview es nagios con un gran webui que permite casi todas las acciones desde el navegador web. Debido a que es nagios, puede usar todos los complementos de nagios que ha estado usando en el pasado. Gran herramienta


1
2018-04-27 19:26



Gracias por el comentario, creo que había descartado opsview por alguna razón, pero en base a tu recomendación, podría terminar probándolo antes de saltar a los nagios. - Randy Syring


Nagios para alertar, y Cactus para los gráficos más algunos scripts de shell o perl harán exactamente lo que usted desea. Con la combinación de ellos, podrías hacer casi cualquier cosa, dependiendo de la cantidad de esfuerzo que estés dispuesto a poner.


0
2018-04-23 16:59



¿Crees que sería mejor "empujar" estadísticas a nagios a través de HTTP o dejar que extraiga estadísticas de los archivos de registro? - Randy Syring


yo recomiendo OpenNMS. El paquete es completamente de código abierto, con soporte activo y mejorado regularmente. Para referencia, encontré en su wiki información de configuración para monitorear Symantec Backup Exec.

Desde su página web ..

OpenNMS es la primera plataforma de administración de red de nivel empresarial desarrollada bajo el modelo de código abierto. Consiste en un proyecto de código abierto apoyado por la comunidad, así como una organización de servicios comerciales, capacitación y apoyo.

Divulgación: no tengo ningún interés comercial aquí, pero el propietario de El grupo OpenNMS, la "organización de servicios comerciales, capacitación y apoyo" mencionada anteriormente es una amiga mía.


0
2018-05-13 19:26





Esto podría hacerse fácilmente con Circonus (http://circonus.com/). Rutinariamente importamos métricas como esta con el DTD XML de reinicio.


0
2018-05-14 00:22