Scénario #35390
Seth 2.8.1 : pas de données de surveillance - zephiragents en erreur
100%
Description
Sur nos zephirs , TOUS les serveurs en version 2.8 ont ce message dans les LOGs de la page d'état :
2023-05-11 14:41:18 SURVEILLANCE ÉCHEC pas de données de surveillance (z_stats arrêté ?)
Sur tous les serveurs , on constate :
- que z_stats est bien démarré
- les erreurs suivantes :
mai 11 14:36:35 geom-upgrade systemd[1]: Started Agent zephir. mai 11 14:36:36 geom-upgrade creoled[13281]: 127.0.0.1 - - [11/May/2023:14:36:36] "GET /get/creole/interface_0/nom_zone_eth0 HTTP/1.1" 200 33 "" "python-requests/2> mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] default locale: fr_FR encoding: UTF-8 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] Loading agents from ./configs/... mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] from patches.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] from sso.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] from localcert.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] localcert, period 86400 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] from dbcheck.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] dbcheck, period 3600 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] from network.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] network, period 60 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] from eximstats.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] eximstats, period 180 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] from maj.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] maj, period 3600 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] from sentinelle.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] sentinelle, period 300 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] from freshclam.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] fresh, period 3600 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] from nut.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] from dhcp.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] from services.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] postgresql, period 115 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:36+0200 [-] exim, period 115 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] http, period 115 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] mysql, period 115 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] ftp, period 115 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] ead_web, period 115 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] ead_server, period 115 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] ssh, period 115 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] from kernel.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] Add KernelMaintenance agent mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] KernelMaintenance : pas de dernière mesure disponible. mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] KernelMaintenance, period 86400 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] from netstat.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] netstats, period 60 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] from bastion.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] bastion, period 3600 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] from systemd.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] systemd, period 3600 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] from web.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] web, period 180 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] from diag.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] diag, period 360000 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] from systeme.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] sysinfo, period 60 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] diskspace, period 300 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] from bilan.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] bilan, period 120 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] from debsums.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] Add debsums agent for root mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] Add debsums alert agent mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] RootDebsums : pas de dernière mesure disponible. mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] RootDebsums, period 7200 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] debsums : pas de dernière mesure disponible. mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] debsums, period 300 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] from tcpservices.agent: mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] tcpservices, period 120 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] Loaded. mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] KernelMaintenance : pas de dernière mesure disponible. mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] RootDebsums : pas de dernière mesure disponible. mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] debsums : pas de dernière mesure disponible. mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [twisted.scripts._twistd_unix.UnixAppLogger#info] twistd 18.9.0 (/usr/bin/python3 3.8.1> mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [twisted.scripts._twistd_unix.UnixAppLogger#info] reactor class: twisted.internet.epoll> mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [-] Site starting on 8090 mai 11 14:36:37 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:37+0200 [twisted.web.server.Site#info] Starting factory <twisted.web.server.Site object at 0x7f> lines 964-1001/1001 (END) mai 11 14:36:39 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:39+0200 [stderr#error] Traceback (most recent call last): mai 11 14:36:39 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:39+0200 [stderr#error] File "/usr/lib/python3/dist-packages/zephir/monitor/agentmanager/agent.py", line 324, in scheduled_measure mai 11 14:36:39 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:39+0200 [stderr#error] m = self.measure() mai 11 14:36:39 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:39+0200 [stderr#error] File "/usr/lib/python3/dist-packages/zephir/monitor/agents/dbcheck.py", line 46, in measure mai 11 14:36:39 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:39+0200 [stderr#error] error_nb = int(line.strip().split()[0]) mai 11 14:36:39 geom-upgrade zephiragents[134463]: [-] Traceback (most recent call last): mai 11 14:36:39 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:39+0200 [stderr#error] IndexError: list index out of range mai 11 14:36:39 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:39+0200 [-] /!\ Agent dbcheck, exception during measure: list index out of range (ligne 324) mai 11 14:36:39 geom-upgrade zephiragents[134463]: [-] File "/usr/lib/python3/dist-packages/zephir/monitor/agentmanager/agent.py", line 324, in scheduled_measure mai 11 14:36:39 geom-upgrade zephiragents[134463]: [-] m = self.measure() mai 11 14:36:39 geom-upgrade zephiragents[134463]: [-] File "/usr/lib/python3/dist-packages/zephir/monitor/agents/dbcheck.py", line 46, in measure mai 11 14:36:39 geom-upgrade zephiragents[134463]: [-] error_nb = int(line.strip().split()[0]) mai 11 14:36:39 geom-upgrade zephiragents[134463]: [-] IndexError: list index out of range mai 11 14:36:39 geom-upgrade zephiragents[134463]: [-] /!\ Agent dbcheck, exception during measure: list index out of range (ligne 324) mai 11 14:36:39 geom-upgrade creoled[13281]: 127.0.0.1 - - [11/May/2023:14:36:39] "GET /get/creole?variable=activer_agregation HTTP/1.1" 200 93 "" "python-requests/2.22.0" mai 11 14:36:39 geom-upgrade creoled[13281]: 127.0.0.1 - - [11/May/2023:14:36:39] "GET /get/creole?variable=container_path_mail HTTP/1.1" 200 29 "" "python-requests/2.22.0" mai 11 14:36:39 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:39+0200 [-] KernelMaintenance : pas de dernière mesure disponible. mai 11 14:36:39 geom-upgrade zephiragents[134463]: [-] KernelMaintenance : pas de dernière mesure disponible. mai 11 14:36:39 geom-upgrade zephiragents[134463]: 2023-05-11T14:36:39+0200 [-] debsums : pas de dernière mesure disponible. mai 11 14:36:39 geom-upgrade zephiragents[134463]: [-] debsums : pas de dernière mesure disponible.
mai 11 14:36:39 geom-upgrade zephiragents134463: [-] IndexError: list index out of range
mai 11 14:36:39 geom-upgrade zephiragents134463: [-] /!\ Agent dbcheck, exception during measure: list index out of range (ligne 324)
Sous-tâches
Demandes liées
Historique
#1 Mis à jour par Joël Cuissinat il y a 11 mois
- Lié à Scénario #31927: Mettre en place un check de la bd Samba ajouté
#2 Mis à jour par Joël Cuissinat il y a 11 mois
- Lié à Tâche #35313: Incohérence entre l'agent Zéphir et diagnose sur les erreurs de base de données Scribe ajouté
#3 Mis à jour par Joël Cuissinat il y a 11 mois
- ça ne devrait pas planter si le fichier est vide
- les scripts / test diagnose / agent ne devrait pas être exécutés sur un serveur membre
#4 Mis à jour par Joël Cuissinat il y a 11 mois
- Tracker changé de Demande à Scénario
- Sujet changé de pas de données de surveillance - zephiragents en erreur à Seth 2.8.1 : pas de données de surveillance - zephiragents en erreur
- Début
16/05/2023supprimé
#5 Mis à jour par Joël Cuissinat il y a 11 mois
- Points de scénarios mis à 2.0
#6 Mis à jour par Philippe Carre il y a 7 mois
- Echéance mis à 03/11/2023
- Version cible mis à Distribution EOLE - Prestation Cadoles MTE 2023 s40 - s44
- Début mis à 02/10/2023
#8 Mis à jour par Philippe Carre il y a 5 mois
Après MaJ (depuis test-eole) d'un seth membre 2.8.1 , on a toujours le même message sur le zephir :
2023-11-29 11:55:09 SURVEILLANCE ÉCHEC pas de données de surveillance (z_stats arrêté ?)
2023-11-29 11:53:27 SURVEILLANCE ÉCHEC pas de données de surveillance (z_stats arrêté ?)
2023-11-29 11:50:33 SURVEILLANCE ÉCHEC pas de données de surveillance (z_stats arrêté ?)
DAns zephir_backend :
2023-11-29T11:50:46.980826+01:00 vm-pne-eole-05.ac.cs zephir_backend[2307856]: 2023-11-29T11:50:46+0100 [_GenericHTTPChannelProtocol (TLSMemoryBIOProtocol),9582,10.230.215.24] co nnexion du serveur 7835 2023-11-29T11:50:46.981392+01:00 vm-pne-eole-05.ac.cs zephir_backend: [_GenericHTTPChannelProtocol (TLSMemoryBIOProtocol),9582,10.230.215.24] connexion du serveur 7835 2023-11-29T11:53:41.010508+01:00 vm-pne-eole-05.ac.cs zephir_backend[2307856]: 2023-11-29T11:53:41+0100 [_GenericHTTPChannelProtocol (TLSMemoryBIOProtocol),9743,10.230.215.24] co nnexion du serveur 7835 2023-11-29T11:53:41.010935+01:00 vm-pne-eole-05.ac.cs zephir_backend: [_GenericHTTPChannelProtocol (TLSMemoryBIOProtocol),9743,10.230.215.24] connexion du serveur 7835 2023-11-29T11:55:23.400359+01:00 vm-pne-eole-05.ac.cs zephir_backend[2307856]: 2023-11-29T11:55:23+0100 [_GenericHTTPChannelProtocol (TLSMemoryBIOProtocol),9815,10.230.215.24] co nnexion du serveur 7835 2023-11-29T11:55:23.400628+01:00 vm-pne-eole-05.ac.cs zephir_backend: [_GenericHTTPChannelProtocol (TLSMemoryBIOProtocol),9815,10.230.215.24] connexion du serveur 7835
C'est pas très parlant! Quels LOGs je pourrais vérifier ?
#9 Mis à jour par Benjamin Bohard il y a 4 mois
Pour ce qui concerne directement la correction de l’agent dbcheck, le changement est visible en premier lieu sur le module avec les agents zephir (service z_stats). Les journaux du service z_stats devrait faire apparaître que l’agent dbcheck est bien lu (avec la ligne "from dbcheck.agent:") mais pas chargé (pas de ligne "dbcheck, period 3600" immédiatement après).
#10 Mis à jour par Philippe Carre il y a 4 mois
Avant MàJ : zephir-client (2.8.1-58)
déc. 13 15:12:40 seth281-zm-6379 zephiragents[951]: 2023-12-13T15:12:40+0100 [stderr#error] Traceback (most recent call last): déc. 13 15:12:40 seth281-zm-6379 zephiragents[951]: [-] Traceback (most recent call last): déc. 13 15:12:40 seth281-zm-6379 zephiragents[951]: 2023-12-13T15:12:40+0100 [stderr#error] File "/usr/lib/python3/dist-packages/zephir/monitor/agentmanager/agent.p> déc. 13 15:12:40 seth281-zm-6379 zephiragents[951]: [-] File "/usr/lib/python3/dist-packages/zephir/monitor/agentmanager/agent.py", line 324, in scheduled_measure déc. 13 15:12:40 seth281-zm-6379 zephiragents[951]: 2023-12-13T15:12:40+0100 [stderr#error] m = self.measure() déc. 13 15:12:40 seth281-zm-6379 zephiragents[951]: [-] m = self.measure() déc. 13 15:12:40 seth281-zm-6379 zephiragents[951]: 2023-12-13T15:12:40+0100 [stderr#error] File "/usr/lib/python3/dist-packages/zephir/monitor/agents/dbcheck.py", > déc. 13 15:12:40 seth281-zm-6379 zephiragents[951]: [-] File "/usr/lib/python3/dist-packages/zephir/monitor/agents/dbcheck.py", line 46, in measure déc. 13 15:12:40 seth281-zm-6379 zephiragents[951]: 2023-12-13T15:12:40+0100 [stderr#error] error_nb = int(line.strip().split()[0]) déc. 13 15:12:40 seth281-zm-6379 zephiragents[951]: [-] error_nb = int(line.strip().split()[0]) déc. 13 15:12:40 seth281-zm-6379 zephiragents[951]: 2023-12-13T15:12:40+0100 [stderr#error] IndexError: list index out of range déc. 13 15:12:40 seth281-zm-6379 zephiragents[951]: [-] IndexError: list index out of range déc. 13 15:12:40 seth281-zm-6379 zephiragents[951]: 2023-12-13T15:12:40+0100 [-] /!\ Agent dbcheck, exception during measure: list index out of range (ligne 324) déc. 13 15:12:40 seth281-zm-6379 zephiragents[951]: [-] /!\ Agent dbcheck, exception during measure: list index out of range (ligne 324)
Après MàJ : zephir-client (2.8.1-62)
reconfigure
root@dire-besac-sb:~# synchro_zephir Demande de synchronisation auprès du service z_stats : ok
root@dire-besac-sb:~# systemctl stop z_stats.service
root@dire-besac-sb:~# systemctl start z_stats.service
éc. 13 15:59:56 dire-besac-sb zephiragents[2813215]: 2023-12-13T15:59:56+0100 [-] bastion, period 3600 déc. 13 15:59:56 dire-besac-sb zephiragents[2813215]: 2023-12-13T15:59:56+0100 [-] from dbcheck.agent: déc. 13 15:59:56 dire-besac-sb zephiragents[2813215]: 2023-12-13T15:59:56+0100 [-] Loaded. déc. 13 15:59:56 dire-besac-sb zephiragents[2813215]: 2023-12-13T15:59:56+0100 [-] RootDebsums : pas de dernière mesure disponible. déc. 13 15:59:56 dire-besac-sb zephiragents[2813215]: 2023-12-13T15:59:56+0100 [-] debsums : pas de dernière mesure disponible. déc. 13 15:59:56 dire-besac-sb zephiragents[2813215]: 2023-12-13T15:59:56+0100 [-] KernelMaintenance : pas de dernière mesure disponible. déc. 13 15:59:56 dire-besac-sb zephiragents[2813215]: 2023-12-13T15:59:56+0100 [twisted.scripts._twistd_unix.UnixAppLogger#info] twistd 18.9.0 (/usr/bin/python3 3.8.10) starting up. déc. 13 15:59:56 dire-besac-sb zephiragents[2813215]: 2023-12-13T15:59:56+0100 [twisted.scripts._twistd_unix.UnixAppLogger#info] reactor class: twisted.internet.epollreactor.EPollReactor. déc. 13 15:59:56 dire-besac-sb zephiragents[2813215]: 2023-12-13T15:59:56+0100 [-] Site starting on 8090 déc. 13 15:59:56 dire-besac-sb zephiragents[2813215]: 2023-12-13T15:59:56+0100 [twisted.web.server.Site#info] Starting factory <twisted.web.server.Site object at 0x7f1f0e0f6e80> déc. 13 15:59:58 dire-besac-sb zephiragents[2813215]: 2023-12-13T15:59:58+0100 [-] debsums : pas de dernière mesure disponible. déc. 13 15:59:58 dire-besac-sb zephiragents[2813215]: 2023-12-13T15:59:58+0100 [-] KernelMaintenance : pas de dernière mesure disponible. déc. 13 15:59:58 dire-besac-sb zephiragents[2813215]: [-] debsums : pas de dernière mesure disponible. déc. 13 15:59:58 dire-besac-sb zephiragents[2813215]: [-] KernelMaintenance : pas de dernière mesure disponible. déc. 13 16:01:37 dire-besac-sb zephiragents[2813215]: 2023-12-13T16:01:37+0100 [twisted.python.log#info] 127.0.0.1 - - [13/Dec/2023:15:01:36 +0000] "POST /xmlrpc HTTP/1.1" 200 128 "-" "Pyt> déc. 13 16:01:37 dire-besac-sb zephiragents[2813215]: [-] 127.0.0.1 - - [13/Dec/2023:15:01:36 +0000] "POST /xmlrpc HTTP/1.1" 200 128 "-" "Python-xmlrpc/3.8"
Donc le pb semble bien être corrigé.
Mais j'ai toujours les messages d'erreur coté zephir :
2023-12-13 16:01:37 SURVEILLANCE ÉCHEC pas de données de surveillance (z_stats arrêté ?)
Pour préciser , tout est vert sur la page d'état.
#11 Mis à jour par Joël Cuissinat il y a 3 mois
- Assigné à mis à Benjamin Bohard
- Release mis à EOLE 2.8.1
#12 Mis à jour par Philippe Carre il y a 3 mois
- Statut changé de Nouveau à Résolu
Pb local corrigé. Mais reste l'avertissement coté zephir. Cf #35729
#13 Mis à jour par Philippe Carre il y a 3 mois
- Statut changé de Résolu à Terminé (Sprint)