Project

General

Profile

Anomalie #5577

Eole 2.3 : Erreurs zephiragents dans le syslog

Added by Nicolas Lesaint about 8 years ago. Updated about 7 years ago.

Status:
Fermé
Priority:
Normal
Assigned To:
Category:
-
Start date:
Due date:
05/16/2014
% Done:

100%

Estimated time:
2.50 h
Spent time:
Distribution:
Toutes

Description

Bonjour,

je constate que les fichiers "/var/log/syslog" et "/var/log/rsyslog/local/zephiragents/zephiragents/alert.log" de nos serveurs Horus et Scribe 2.3 se remplissent environ toutes les 8 minutes avec les messages suivants :

Jun 12 16:34:18 horus zephiragents: [-] Unhandled error in Deferred:
Jun 12 16:34:18 horus zephiragents: [-] Unhandled Error
Jun 12 16:34:18 horus zephiragents: [-] #011Traceback (most recent call last):
Jun 12 16:34:18 horus zephiragents: [-] #011Failure: twisted.internet.error.ProcessTerminated: A process has ended with a probable error condition: process ended with exit code 1.
Jun 12 16:34:18 horus zephiragents: [-] Unhandled error in Deferred:
Jun 12 16:34:18 horus zephiragents: [-] Unhandled Error
Jun 12 16:34:18 horus zephiragents: [-] #011Traceback (most recent call last):
Jun 12 16:34:18 horus zephiragents: [-] #011Failure: twisted.internet.error.ProcessTerminated: A process has ended with a probable error condition: process ended with exit code 1.

Les serveurs sont à jour, le diagnose est OK.


Related issues

Related to zephir-client - Anomalie #6510: Le script eximstats.sh utilise l'ancien nom de fichier compressé pour les logs d'exim. Fermé 12/03/2013
Related to zephir-client - Anomalie #7195: Eole 2.4 : Erreurs zephiragents dans le syslog Fermé
Related to zephir-client - Anomalie #7383: Report des modification publiées sur eole 2.3.12 RC Fermé 02/21/2014
Related to zephir-parc - Anomalie #7310: Sur un sphynx24 instancié, le service z_stats n'est pas démarré Fermé 04/04/2014
Duplicated by zephir-client - Tâche #8098: Scribe 2.4 : problème de l'agent Zéphir Fermé

Associated revisions

Revision 3febaa23 (diff)
Added by Bruno Boiget over 7 years ago

corrections sur la gestion des retour des scripts de mesures (agents eximstats et bacula)

Fixes #5577

Revision ec4d00ce (diff)
Added by Bruno Boiget about 7 years ago

Corrections sur les agents de surveillance

- correction d'appels systèmes (données sur stderr pour printers, ...)
- amélioration des logs en cas d'erreur de mesure

Fixes #5577 @4h

History

#1 Updated by Joël Cuissinat over 7 years ago

  • Project changed from Horus to zephir-client
  • Status changed from Nouveau to A étudier
  • Assigned To set to Bruno Boiget
  • Target version set to Mises à jour 2.3.12

#2 Updated by Bruno Boiget over 7 years ago

  • Distribution changed from EOLE 2.3 to Toutes

Le problème semble venir de l'agent eximstats.

Il utilise le script /usr/sbin/eximstat.sh mais celui-ci renvoie un message sur la sortie d'erreur si il ne trouve pas de logs à traiter (l'agent attend ce message sur la sortie standard).

-−> utiliser aussi le callback de l'appel à eximstats.sh comme errback (et gérer le cas ou le retour est de type 'failure')

#3 Updated by Bruno Boiget over 7 years ago

pour gérer ce genre de cas (informations utiles remontées sur stderr), il est possible d'utiliser 'errortoo=1' avec la commande getProcessOutput pour ne pas avoir d'errback dès que la sortie d'erreur est utilisée.

ex dans ce cas :

res = getProcessOutput("/usr/share/zephir/monitor/bin/eximstats.sh", env = {'LC_ALL': 'C'}, errortoo=1)

#4 Updated by Bruno Boiget over 7 years ago

  • Status changed from A étudier to Résolu
  • % Done changed from 0 to 100

#5 Updated by Fabrice Barconnière over 7 years ago

  • Status changed from Résolu to À valider
  • % Done changed from 100 to 90

Toujours les messages dans les logs toute les 6 à 8 minutes.

#6 Updated by Fabrice Barconnière over 7 years ago

  • Target version changed from Mises à jour 2.3.12 to Mises à jour 2.3.13

#7 Updated by Bruno Boiget about 7 years ago

  • Estimated time set to 2.50 h

Les agents suivants font des appels via getProcessOutput sans gérer le cas d'une sortie en erreur:

diag.py
netstat.py
samba3.py
services.py
systeme.py
web.py

#8 Updated by Bruno Boiget about 7 years ago

  • Due date set to 05/16/2014

#9 Updated by Bruno Boiget about 7 years ago

Après modification dans la librairie process.py de twisted pour afficher le processus en erreur sur un serveur :

May 12 17:28:40 serv-pedago zephiragents: [-] #011Traceback (most recent call last):
May 12 17:28:40 serv-pedago zephiragents: [-] #011Failure: twisted.internet.error.ProcessTerminated: A process has ended with a probable error condition: process (/usr/share/zephir/monitor/bin/printers.sh) ended with exit code 1.

Le problème vient de l'appel à la commande lpstat qui renvoie un message sur la sortie d'erreur dans le cas ou aucune imprimante n'est déclarée:

/usr/bin/lpstat -p
lpstat: Aucune destination ajoutée.

Il y a pourtant bien un 'errback' ajouté à l'appel du script, mais il ne semble pas pris en compte dans ce cas.
En utilisant errortoo=1 ici aussi, on passe dans le callback dans tous les cas (même si le code de retour n'est pas 0 ...)

#10 Updated by Bruno Boiget about 7 years ago

  • Status changed from À valider to Résolu
  • % Done changed from 90 to 100

#11 Updated by Gilles Grandgérard about 7 years ago

  • Status changed from Résolu to Fermé

ok

Also available in: Atom PDF