Pregunta El hardware comprueba los servidores Dell R820 a través de Nagios mediante SNMP


Usamos Nagios para el monitoreo. ¿Hay alguna forma de crear comprobaciones de hardware utilizando SNMP MIB para los servidores R820 que ejecutan ESXi5.x en ellos? En este momento estamos usando este plugin de python:

plugin actual de python

Pero ya no podemos usarlo debido a las políticas de seguridad dentro de la organización. Estamos satisfechos con la salida del complemento actual, por lo tanto, sería fantástico si pudiéramos usar un agente similar sin la verificación utilizando SNMP. Gracias


6
2017-08-14 13:47


origen


¿Qué te interesa monitorear? ¿Es esta parte de vSphere con un vCenter central o es un host independiente? - ewwhite
Los servidores son parte del clúster vSphere. Queremos obtener información de hardware lo más cerca posible de lo que uno podría obtener utilizando OME. Es solo que no queremos usar ningún silos de monitoreo adicionales, sino Nagios. - Danila Ladner


Respuestas:


Quizás sea raro, pero prefiero monitorear mis hosts ESXi en un clúster vSphere a través de la interfaz SNMP de vCenter (junto con el correo electrónico para ciertos eventos). Eso cubre la mayor parte de lo que necesito. Entonces, está alertando sobre eventos en lugar de sondear el hardware a través de algo como Nagios.

¿Puede aclarar qué elementos específicos está más interesado en monitorear a nivel de host?

Creo que las trampas y alertas de correo electrónico de vSphere pueden ser tan granulares como desee ...

enter image description here


4
2017-08-14 14:11



Tenemos eso también para nuestro clúster de servidores HP. Lo que también me gusta, a mí y a nuestros operadores aún más interesados ​​en un nivel más profundo, a menos que vSphere también me brinde eso, algo así como la información sobre el FAN de la CPU en el zócalo 3d dejó de girar, o la temperatura general de la placa del sistema aumentó más que el nivel aceptable . Algo en esta dirección. Y dado que usamos OpsView para todas las necesidades de monitoreo en la organización, sería conveniente no usar otros silos + generar algunas capturas SNMP personalizadas que necesitamos. - Danila Ladner
@DanilaLadner Todos están cubiertos por las alarmas de estado del hardware del host. - ewwhite
Bien, ¿puedo hacer que los controles encuesten estos objetos que se conectan a vSphere Server desde Nagios? ¿Hay alguna API que permita hacer eso? No esperes que contestes eso. Gracias por la ayuda. Podría considerar esto e investigar más sobre eso. Gracias de nuevo. - Danila Ladner


No VMware ha elegido ir a la ruta CIM en lugar de SNMP, por lo que no puede hacer exactamente lo que pidió. El único soporte SNMP que han implementado es el envío de trampas, que fue muy defectuoso la última vez que lo probé (es cierto, hace algunos años).

Dos buenas opciones ya han sido discutidas aquí (check_esxi_hardware.py, OP5's check-esx-plugin).

Como probablemente sepas, Nagios Exchange está plagado de intentos de otras personas para resolver esto., pero la mayoría de ellos están desactualizados y no funcionarán con los productos modernos de VMware.

Respecto al problema de tener acceso de root, el complemento de python Solía ​​trabajar sin acceso a la raíz más allá del nivel raíz del árbol CIM (por ejemplo, no se hereda hasta las máquinas virtuales en sí), pero parece que ya no es el caso de 5.1. Sin embargo, probablemente podría crear un rol especial para que lo use Nagios (que no es el rol de administrador).

A juzgar por los comentarios que hizo anteriormente (sobre el deseo de una supervisión más detallada del estado del hardware), es posible que lo mejor sea que lo haga alguna comprobación de IPMI a través del procesador de servicios (BMC, LOM, iLO, como quiera que lo llame) en ese caso.

Si está tratando específicamente con hardware de Dell, puede agregar el Paquete offline específico de Dell (VIB) para habilitar el soporte de OpenManage en ESXi.

En el futuro, es posible que pueda utilizar el excelente check_openmanage plugin para esto, pero actualmente no es posible.


2
2017-08-14 15:34



Heh, incluso cloné el rol de administrador y lo nombré de forma diferente y el cheque obtuvo una respuesta de "permiso denegado". + no se ven grupos en Vsphere Client, tuve que ir y editar manualmente / etc / groups para 5.1 Ahora sentado y leyendo "DELL SNMP Reference Guide" que tiene 600 páginas. Suspiro. - Danila Ladner
La supervisión desde el host no tiene sentido de esta manera. Aproveche los agentes de Dell CIM y las instalaciones de vCenter. - ewwhite
@ewwhite, mucha gente usa nagios para monitorear toda la infraestructura de la red, por lo que tiene mucho sentido incluir ESX en ella en lugar de tener que revisar otra consola, IMHO. - natxo asenjo
Tienes razón. Excepto cuando Nagios no funciona para la aplicación deseada ... - ewwhite
Sin embargo, no todos se descontrolan por vCenter - Keith


usamos el plugin check_esx de op5 (http://www.op5.org/community/plugin-inventory/op5-projects/check-esx-plugin) exactamente para este propósito. Necesitas instalar el vmware perl sdk.

Lo usamos así:

check_esx -H $HOSTADDRESS$ -u root -p passwd -l runtime -s health
CHECK_ESX.PL OK - All 449 health checks are Green | Alerts=0;;

El complemento check_esx puede monitorear muchas cosas, un gran trabajo de los chicos de op5.


0
2017-08-14 14:54



Sí, todos son buenos y geniales, pero desafortunadamente requieren acceso de raíz para consultar la información de CIM. Así que esta parte "$ HOSTADDRESS $ -u root -p passwd" ya no será suficiente para nosotros a partir del 1 de septiembre - Danila Ladner
Ok, ¿a partir de septiembre esto ya no va a funcionar en esx? ¿O solo en su lugar debido a sus nuevas políticas de seguridad? Según el plugin doc (kb.op5.com/display/HOWTOs/…) podría usar un usuario local de esx con solo derechos de perfil de solo lectura - natxo asenjo
Políticas de seguridad vigentes. He intentado Read-Only que no funciona, al menos en 5.1 - Danila Ladner
Acabo de intentarlo y funciona en 5.1. Agregué un usuario local en el host de esx, luego, en la pestaña de permisos, agregué al nuevo usuario a la función de solo lectura y puedo monitorear con éxito el tiempo de ejecución del hardware con check_esx y este usuario. - natxo asenjo
probado tanto en un dell r720 como en un r820, ambos ejecutando esxi 5.1 - natxo asenjo


El problema con check_esxi_hardware y un usuario de rol de solo lectura o no administrador (no root) se debe a una característica o error de PAM en ESXi 5.1 y posteriores, según su punto de vista.

Cualquier usuario que se crea y se asigna a cualquier rol que no sea el de administrador se establece en denegado TODOS en /etc/security/access.conf. Incluso si clona la función de administrador y asigna el usuario que cree a esta función de clonación, se configurará como denegado TODOS en /etc/security/access.conf.

He creado un usuario "nagios" en un host ESXi 5.5 localmente (no a través de vCenter) y lo asigné a la "función de solo lectura" en la pestaña de permisos. Por defecto, sus permisos en access.conf son "-: nagios: ALL"

Si ssh al servidor ESXi y edito /etc/security/access.conf y cambio los permisos de usuario de nagios a "+: nagios: sfcb" o "+: nagios: ALL", entonces funciona check_esxi_hardware.

El uso de "+: nagios: sfcb" restringe al usuario "nagios" para que solo pueda acceder al servicio CIM.

El problema que ahora encuentra es que los cambios en /etc/security/access.conf no son persistentes en todos los reinicios.

Este es un hilo en las comunidades VMware que discuten este problema: https://communities.vmware.com/thread/464552?start=15&tstart=0

Este es un muy buen artículo que discute el mismo problema usando wbem: https://alpacapowered.wordpress.com/2013/09/27/configuring-and-securing-local-esxi-users-for-hardware-monitoring-via-wbem/

Estos son dos blogs que discuten cómo hacer cambios persistentes en los reinicios en ESXi:

www.therefinedgeek.com.au/index.php/2012/02/01/enabling-ssh-access-in-esxi-5-0-for-non-root-users/

www.virtuallyghetto.com/2011/08/how-to-persist-configuration-changes-in.html

No puedo crear los hipervínculos de los dos últimos enlaces, ya que esta es mi primera publicación a serverfault y hasta que tenga 10 puntos de reputación, solo puede poner dos enlaces en una respuesta (lo que es justo).

No he decidido qué solución usaré para hacer que este sea persistente en todos los reinicios. Todavía estoy probando.

Gracias


0
2018-01-05 01:41