Project

General

Profile

Anomalie #5577

Eole 2.3 : Erreurs zephiragents dans le syslog

Added by Nicolas Lesaint over 10 years ago. Updated almost 10 years ago.

Status:
Fermé
Priority:
Normal
Assigned To:
Category:
-
Start date:
Due date:
05/16/2014
% Done:

100%

Estimated time:
2.50 h
Spent time:
Distribution:
Toutes

Description

Bonjour,

je constate que les fichiers "/var/log/syslog" et "/var/log/rsyslog/local/zephiragents/zephiragents/alert.log" de nos serveurs Horus et Scribe 2.3 se remplissent environ toutes les 8 minutes avec les messages suivants :

Jun 12 16:34:18 horus zephiragents: [-] Unhandled error in Deferred:
Jun 12 16:34:18 horus zephiragents: [-] Unhandled Error
Jun 12 16:34:18 horus zephiragents: [-] #011Traceback (most recent call last):
Jun 12 16:34:18 horus zephiragents: [-] #011Failure: twisted.internet.error.ProcessTerminated: A process has ended with a probable error condition: process ended with exit code 1.
Jun 12 16:34:18 horus zephiragents: [-] Unhandled error in Deferred:
Jun 12 16:34:18 horus zephiragents: [-] Unhandled Error
Jun 12 16:34:18 horus zephiragents: [-] #011Traceback (most recent call last):
Jun 12 16:34:18 horus zephiragents: [-] #011Failure: twisted.internet.error.ProcessTerminated: A process has ended with a probable error condition: process ended with exit code 1.

Les serveurs sont à jour, le diagnose est OK.


Related issues

Related to zephir-client - Anomalie #6510: Le script eximstats.sh utilise l'ancien nom de fichier compressé pour les logs d'exim. Fermé 12/03/2013
Related to zephir-client - Anomalie #7195: Eole 2.4 : Erreurs zephiragents dans le syslog Fermé
Related to zephir-client - Anomalie #7383: Report des modification publiées sur eole 2.3.12 RC Fermé 02/21/2014
Related to zephir-parc - Anomalie #7310: Sur un sphynx24 instancié, le service z_stats n'est pas démarré Fermé 04/04/2014
Duplicated by zephir-client - Tâche #8098: Scribe 2.4 : problème de l'agent Zéphir Fermé

Associated revisions

Revision 3febaa23 (diff)
Added by Bruno Boiget about 10 years ago

corrections sur la gestion des retour des scripts de mesures (agents eximstats et bacula)

Fixes #5577

Revision ec4d00ce (diff)
Added by Bruno Boiget almost 10 years ago

Corrections sur les agents de surveillance

- correction d'appels systèmes (données sur stderr pour printers, ...)
- amélioration des logs en cas d'erreur de mesure

Fixes #5577 @4h

History

#1 Updated by Joël Cuissinat about 10 years ago

  • Project changed from Horus to zephir-client
  • Status changed from Nouveau to A étudier
  • Assigned To set to Bruno Boiget
  • Target version set to Mises à jour 2.3.12

#2 Updated by Bruno Boiget about 10 years ago

  • Distribution changed from EOLE 2.3 to Toutes

Le problème semble venir de l'agent eximstats.

Il utilise le script /usr/sbin/eximstat.sh mais celui-ci renvoie un message sur la sortie d'erreur si il ne trouve pas de logs à traiter (l'agent attend ce message sur la sortie standard).

-−> utiliser aussi le callback de l'appel à eximstats.sh comme errback (et gérer le cas ou le retour est de type 'failure')

#3 Updated by Bruno Boiget about 10 years ago

pour gérer ce genre de cas (informations utiles remontées sur stderr), il est possible d'utiliser 'errortoo=1' avec la commande getProcessOutput pour ne pas avoir d'errback dès que la sortie d'erreur est utilisée.

ex dans ce cas :

res = getProcessOutput("/usr/share/zephir/monitor/bin/eximstats.sh", env = {'LC_ALL': 'C'}, errortoo=1)

#4 Updated by Bruno Boiget about 10 years ago

  • Status changed from A étudier to Résolu
  • % Done changed from 0 to 100

#5 Updated by Fabrice Barconnière about 10 years ago

  • Status changed from Résolu to À valider
  • % Done changed from 100 to 90

Toujours les messages dans les logs toute les 6 à 8 minutes.

#6 Updated by Fabrice Barconnière about 10 years ago

  • Target version changed from Mises à jour 2.3.12 to Mises à jour 2.3.13

#7 Updated by Bruno Boiget almost 10 years ago

  • Estimated time set to 2.50 h

Les agents suivants font des appels via getProcessOutput sans gérer le cas d'une sortie en erreur:

diag.py
netstat.py
samba3.py
services.py
systeme.py
web.py

#8 Updated by Bruno Boiget almost 10 years ago

  • Due date set to 05/16/2014

#9 Updated by Bruno Boiget almost 10 years ago

Après modification dans la librairie process.py de twisted pour afficher le processus en erreur sur un serveur :

May 12 17:28:40 serv-pedago zephiragents: [-] #011Traceback (most recent call last):
May 12 17:28:40 serv-pedago zephiragents: [-] #011Failure: twisted.internet.error.ProcessTerminated: A process has ended with a probable error condition: process (/usr/share/zephir/monitor/bin/printers.sh) ended with exit code 1.

Le problème vient de l'appel à la commande lpstat qui renvoie un message sur la sortie d'erreur dans le cas ou aucune imprimante n'est déclarée:

/usr/bin/lpstat -p
lpstat: Aucune destination ajoutée.

Il y a pourtant bien un 'errback' ajouté à l'appel du script, mais il ne semble pas pris en compte dans ce cas.
En utilisant errortoo=1 ici aussi, on passe dans le callback dans tous les cas (même si le code de retour n'est pas 0 ...)

#10 Updated by Bruno Boiget almost 10 years ago

  • Status changed from À valider to Résolu
  • % Done changed from 90 to 100

#11 Updated by Gilles Grandgérard almost 10 years ago

  • Status changed from Résolu to Fermé

ok

Also available in: Atom PDF