Projet

Général

Profil

Tâche #22503

Scénario #22528: Assistance aux utilisateurs (02-04)

Creole en 2.5.2 plante suite à maj - reconf - reboot

Ajouté par équipe eole Academie d'Orléans-Tours il y a plus de 6 ans. Mis à jour il y a presque 6 ans.

Statut:
Fermé
Priorité:
Normal
Assigné à:
Début:
15/12/2017
Echéance:
% réalisé:

100%

Temps estimé:
4.00 h
Temps passé:
Restant à faire (heures):
0.0

Description

Bonjour,

Comme indiqué dans mes mails aux listes (amon, scribe, horus) , sujet "creoled & co en 2.5.2" pour horus et scribe, et sujet "creoled arrête apres une màj auto" sur amon, nous avons des erreur régulière et aléatoires sur des modules 2.5.2 qui passe des MAJ.

Exemple d'un scribe :

MAJ :


2017-11-27T01:29:11.756150+01:00 scribemaq118.etab-maquette-dsi.lan zephir: MAJ => INIT : Début
2017-11-27T01:33:17.827549+01:00 scribemaq118.etab-maquette-dsi.lan zephir: MAJ => FIN : 20 paquets mis à jour
2017-11-27T01:33:18.221399+01:00 scribemaq118.etab-maquette-dsi.lan zephir: MAJ => MSG : Reconfiguration automatique
2017-11-27T01:33:18.399276+01:00 scribemaq118.etab-maquette-dsi.lan zephir: RECONFIGURE => INIT : Début de configuration
2017-11-27T01:37:35.162843+01:00 scribemaq118.etab-maquette-dsi.lan zephir: RECONFIGURE => FIN : Configuration terminée
2017-11-27T01:37:38.423109+01:00 scribemaq118.etab-maquette-dsi.lan zephir: RECONFIGURE => MSG : Redémarrage automatique

Controle-vnc qui ne reviendra pas a lui : https://pastebin.com/f1xtRjnb

Eolesso qui semble se relancer : https://pastebin.com/aDw7nLyn mais qui ne l'est pas :

root@scribemaq118:~# ps faux| grep sso
root     17546  0.0  0.1  11800  2176 pts/0    S+   12:35 0:00          \_ grep --color=auto sso

C'est un comportement aléatoire mais récurent, heureusement pas massif à la vue du nombre de serveur, mais ça ne rate jamais, y en a toujours quelque un (jamais les même)

Exemple d'un Horus :


> 2017-11-28T02:14:26.889998+01:00 horus zephir: MAJ => INIT : Début
> 2017-11-28T02:16:51.543900+01:00 horus zephir: MAJ => FIN : 23 paquets mis à jour
> 2017-11-28T02:16:51.651915+01:00 horus zephir:MAJ => MSG : Reconfiguration automatique
> 2017-11-28T02:16:51.821384+01:00 horus zephir: RECONFIGURE => INIT : Début de configuration
> 2017-11-28T02:19:37.857881+01:00 horus zephir:RECONFIGURE => FIN : Configuration terminée
> 2017-11-28T02:19:43.534974+01:00 horus zephir: RECONFIGURE => MSG : Redémarrage automatique

Donc il reboot suite à la maj.

Et la creoled ne démarrera pas : https://pastebin.com/ZYy1HWz1

root@horus:~# netstat -pnl | grep 8000
root@horus:~#

Sur horus, cela impacte le service ead_server qui est down :

ps faux| grep ead

root         2  0.0  0.0      0     0 ?        S    02:20   0:00 [kthreadd]
root     12274  0.0  0.1  11800  2152 pts/0    S+   13:25 0:00          \_ grep --color ead
root      1443  0.0  1.7 120444 35168 ?        S    02:20   0:13 /usr/bin/python /usr/bin/twistd -noy /usr/share/ead2/frontend/frontend.tac --pidfile /var/run/ead/ead-web.pid --logfile /var/log/ead/ead-web.log
root      2174  0.0  0.8  69752 16692 ?        S    02:39   0:20 /usr/bin/python /usr/bin/gunicorn -c /etc/eole/flask/eoleflask.conf eoleflask.application:run(config='eoleadmin')
root      2179  0.0  1.4 138880 29432 ?        S    02:39 0:12  \_ /usr/bin/python /usr/bin/gunicorn -c /etc/eole/flask/eoleflask.conf eoleflask.application:run(config='eoleadmin')

root@horus:~# netstat -pnl | grep 4201
root@horus:~# netstat -pnl | grep 4200
tcp        0      0 0.0.0.0:4200 0.0.0.0:*               LISTEN      1443/python 

Les services touchés sur horus sont :
- ead-server
- eole-sso
- horus_frontend

Sur Amon, l'impact étant plus important, je me suis résolu à faire comme à Lyon, cad relancer en cron les services bastion et creole.

Lié à
https://dev-eole.ac-dijon.fr/issues/16703
https://dev-eole.ac-dijon.fr/issues/16704

?

Nicolas

creoled - Script d'init modifié (4,75 ko) Philippe Caseiro, 20/12/2017 08:42

Révisions associées

Révision c05b87ce (diff)
Ajouté par Philippe Caseiro il y a plus de 6 ans

Relancer le démarrage de creoled en cas d'erreur

Si creold ne se lance pas correctement on essaye
de le relancer 25 fois avant de sortir avec une
erreur.

ref #22503 @4h

Historique

#1 Mis à jour par Philippe Caseiro il y a plus de 6 ans

  • Fichier creoled ajouté
  • Statut changé de Nouveau à En attente d'informations
  • Assigné à mis à Philippe Caseiro

Bonjour,

Voici un script d'init alternatif pour tenter d'éviter le problème.

Il nous est très difficile de reproduire ce problème, si vous pouviez tester ce script d'init sur vos serveurs et me confirmer que cela fonctionne ?

Il suffit de copier le fichier joint "creoled" dans /etc/init.d/creoled

Merci d'avance.

#2 Mis à jour par Philippe Caseiro il y a plus de 6 ans

  • % réalisé changé de 0 à 30

#3 Mis à jour par équipe eole Academie d'Orléans-Tours il y a plus de 6 ans

Bonjour,

Merci, on va le mettre sur nos horus et scribe, modules sur lesquels on n'avait encore rien fait. Sur AMON il faudrait qu'on enlève de la variante la relance auto, on ne le fera que si c'est concluant ;-)

#4 Mis à jour par Joël Cuissinat il y a plus de 6 ans

  • Statut changé de En attente d'informations à Nouveau

#5 Mis à jour par Joël Cuissinat il y a plus de 6 ans

  • Tracker changé de Demande à Tâche
  • Temps estimé mis à 4.00 h
  • Tâche parente mis à #22528
  • Restant à faire (heures) mis à 4.0

#6 Mis à jour par Philippe Caseiro il y a plus de 6 ans

  • Tâche parente #22528 supprimé

#7 Mis à jour par Joël Cuissinat il y a plus de 6 ans

  • Tâche parente mis à #22528

#8 Mis à jour par Philippe Caseiro il y a plus de 6 ans

  • Assigné à Philippe Caseiro supprimé

#9 Mis à jour par Joël Cuissinat il y a environ 6 ans

  • Statut changé de Nouveau à Résolu
  • Assigné à mis à Joël Cuissinat
  • % réalisé changé de 30 à 100
  • Restant à faire (heures) changé de 4.0 à 0.25

Pas de retour mais la publication de cette modification ne peut plus tarder => paquet candidat 2.5.2

#10 Mis à jour par Joël Cuissinat il y a environ 6 ans

  • Statut changé de Résolu à Fermé
  • Restant à faire (heures) changé de 0.25 à 0.0

#11 Mis à jour par équipe eole Academie d'Orléans-Tours il y a environ 6 ans

Désolé du manque de retour, je pense que la correction est efficace car la dernière vague de mise à jour ne nous a pas posé de soucis avec la modif poussée dans la variante de nos horus et scribe.

Nicolas

#12 Mis à jour par Yoni Baude il y a presque 6 ans

Bonjour,

Sur nos horus 2.5.2 nous avons toujours le plantage de creoled au reboot de nos serveurs suite au maj kernel (ce n'est pas systématique) après la correction du fichier /etc/init.d/creoled.

Merci de aide.

Cordialement,
Yoni

#13 Mis à jour par Yoni Baude il y a presque 6 ans

Pour complément le Frontend Horus est désactivé.

Formats disponibles : Atom PDF