Projet

Général

Profil

Anomalie #6401

Le service z_stats s'arrete de fonctionner

Ajouté par Jean-Marc MELET il y a plus de 10 ans. Mis à jour il y a plus de 8 ans.

Statut:
Ne sera pas résolu
Priorité:
Normal
Assigné à:
-
Catégorie:
-
Version cible:
-
Début:
Echéance:
% réalisé:

30%

Temps passé:
Distribution:
EOLE 2.3

Description

Régulièrement sur plusieurs serveurs le service z_stats ne fonctionne plus:

- Soit il n'est plus démarré
- Soit il est actif mais il ne fait plus rien et ne génère plus de logs. Il faut alors tuer le processus, supprimer le pid associé puis relancer le service

Pour le moment ce phénomène a été constaté sur les Amon uniquement car cela empêche l'agent rvp d'effectuer les tests et les actions nécéssaires pour relancer les tunnels HS


Demandes liées

Lié à zephir-parc - Anomalie #7310: Sur un sphynx24 instancié, le service z_stats n'est pas démarré Fermé 04/04/2014
Lié à zephir-client - Anomalie #7941: blocage du process z_stats Ne sera pas résolu
Lié à eole-bacula - Anomalie #6337: ERROR in authenticate.c:418 Unable to authenticate console "127.0.0.1-mon" at client:127.0.0.1:36131. Ne sera pas résolu

Révisions associées

Révision b4a35e8c (diff)
Ajouté par Joël Cuissinat il y a environ 10 ans

z_stats : retouches sur le script d'init 2.3

Fixes: #8275 @30m
Ref: #6401 @30m

Historique

#1 Mis à jour par Jean-Marc MELET il y a plus de 10 ans

Le problème apparait également sur les scribes, on s'en rend compte lorsque la communication avec Zéphir ne se fait plus (voyant contact avec le serveur en rouge sur Zéphir et pas de transfert des commandes en attente). Exemple sur un serveur:

root@scribe.peda.clg-annefrank.local:~# synchro_zephir 

Demande de synchronisation au service z_stats : Traceback (most recent call last):
  File "/usr/bin/synchro_zephir", line 60, in <module>
    sys.stdout.write(z_stats_proxy.archive_for_upload())
  File "/usr/lib/python2.6/xmlrpclib.py", line 1199, in __call__
    return self.__send(self.__name, args)
  File "/usr/lib/python2.6/xmlrpclib.py", line 1489, in __request
    verbose=self.__verbose
  File "/usr/lib/python2.6/xmlrpclib.py", line 1237, in request
    errcode, errmsg, headers = h.getreply()
  File "/usr/lib/python2.6/httplib.py", line 1060, in getreply
    response = self._conn.getresponse()
  File "/usr/lib/python2.6/httplib.py", line 986, in getresponse
    response.begin()
  File "/usr/lib/python2.6/httplib.py", line 391, in begin
    version, status, reason = self._read_status()
  File "/usr/lib/python2.6/httplib.py", line 349, in _read_status
    line = self.fp.readline()
  File "/usr/lib/python2.6/socket.py", line 397, in readline
    data = recv(1)
socket.timeout: timed out
root@scribe.peda.clg-annefrank.local:~# service z_stats status
 L'outil de surveillance Zephir (pid 32430) est actif ...
root@scribe.peda.clg-annefrank.local:~# service z_stats stop
 * Stopping statistiques zephir: z_stats                                                                                                                                                                                [ OK ] 
root@scribe.peda.clg-annefrank.local:~# service z_stats status
 L'outil de surveillance Zephir (pid 32430) est actif ...
root@scribe.peda.clg-annefrank.local:~# pkill -9 -f stats
root@scribe.peda.clg-annefrank.local:~# service z_stats status
root@scribe.peda.clg-annefrank.local:~# rm /var/run/z_stats.pid 
rm : supprimer fichier «/var/run/z_stats.pid» ? o
root@scribe.peda.clg-annefrank.local:~# service z_stats start
 * Starting statistiques zephir: z_stats                                                                                                                                                                                [ OK ] 
root@scribe.peda.clg-annefrank.local:~# service z_stats status
L'outil de surveillance Zephir est arreté
root@scribe.peda.clg-annefrank.local:~# service z_stats status
 L'outil de surveillance Zephir (pid 27585) est actif ...
root@scribe.peda.clg-annefrank.local:~# synch
synchro_aaf        synchro_scribe.sh  synchro_zephir     
root@scribe.peda.clg-annefrank.local:~# synchro_zephir 

Demande de synchronisation au service z_stats : ok
La synchronisation avec zephir est en cours, vous pouvez vérifier les transferts en cours:

- tail -f /var/log/uucp/Log

Le résultat des éventuelles actions lancées sera disponibles dans les fichiers suivants:

- /var/log/zephir/last_action.log (dernière action exécutée)
- /var/log/zephir/actions.log (actions précédentes)

#2 Mis à jour par Joël Cuissinat il y a plus de 10 ans

  • Statut changé de Nouveau à A étudier
  • Version cible mis à Mises à jour 2.3.13

#3 Mis à jour par Daniel Dehennin il y a environ 10 ans

  • Version cible Mises à jour 2.3.13 supprimé

#4 Mis à jour par Joël Cuissinat il y a environ 10 ans

  • % réalisé changé de 0 à 30

J'ai retouché le script d'init pour que le stop fonctionne mieux mais ça ne résout certainement pas le fond du problème...

#5 Mis à jour par Emmanuel GARETTE il y a plus de 8 ans

  • Statut changé de A étudier à Ne sera pas résolu

Le problème principe était l'agent RVP. Normalement cela devrait ne plus se reproduire.

Merci de rouvrir une demande si le problème persiste encore.

Formats disponibles : Atom PDF