Project

General

Profile

Tâche #22503

Scénario #22528: Assistance aux utilisateurs (02-04)

Creole en 2.5.2 plante suite à maj - reconf - reboot

Added by équipe eole Academie d'Orléans-Tours almost 2 years ago. Updated over 1 year ago.

Status:
Fermé
Priority:
Normal
Assigned To:
Start date:
12/15/2017
Due date:
% Done:

100%

Estimated time:
4.00 h
Spent time:
Remaining (hours):
0.0

Description

Bonjour,

Comme indiqué dans mes mails aux listes (amon, scribe, horus) , sujet "creoled & co en 2.5.2" pour horus et scribe, et sujet "creoled arrête apres une màj auto" sur amon, nous avons des erreur régulière et aléatoires sur des modules 2.5.2 qui passe des MAJ.

Exemple d'un scribe :

MAJ :


2017-11-27T01:29:11.756150+01:00 scribemaq118.etab-maquette-dsi.lan zephir: MAJ => INIT : Début
2017-11-27T01:33:17.827549+01:00 scribemaq118.etab-maquette-dsi.lan zephir: MAJ => FIN : 20 paquets mis à jour
2017-11-27T01:33:18.221399+01:00 scribemaq118.etab-maquette-dsi.lan zephir: MAJ => MSG : Reconfiguration automatique
2017-11-27T01:33:18.399276+01:00 scribemaq118.etab-maquette-dsi.lan zephir: RECONFIGURE => INIT : Début de configuration
2017-11-27T01:37:35.162843+01:00 scribemaq118.etab-maquette-dsi.lan zephir: RECONFIGURE => FIN : Configuration terminée
2017-11-27T01:37:38.423109+01:00 scribemaq118.etab-maquette-dsi.lan zephir: RECONFIGURE => MSG : Redémarrage automatique

Controle-vnc qui ne reviendra pas a lui : https://pastebin.com/f1xtRjnb

Eolesso qui semble se relancer : https://pastebin.com/aDw7nLyn mais qui ne l'est pas :

root@scribemaq118:~# ps faux| grep sso
root     17546  0.0  0.1  11800  2176 pts/0    S+   12:35 0:00          \_ grep --color=auto sso

C'est un comportement aléatoire mais récurent, heureusement pas massif à la vue du nombre de serveur, mais ça ne rate jamais, y en a toujours quelque un (jamais les même)

Exemple d'un Horus :


> 2017-11-28T02:14:26.889998+01:00 horus zephir: MAJ => INIT : Début
> 2017-11-28T02:16:51.543900+01:00 horus zephir: MAJ => FIN : 23 paquets mis à jour
> 2017-11-28T02:16:51.651915+01:00 horus zephir:MAJ => MSG : Reconfiguration automatique
> 2017-11-28T02:16:51.821384+01:00 horus zephir: RECONFIGURE => INIT : Début de configuration
> 2017-11-28T02:19:37.857881+01:00 horus zephir:RECONFIGURE => FIN : Configuration terminée
> 2017-11-28T02:19:43.534974+01:00 horus zephir: RECONFIGURE => MSG : Redémarrage automatique

Donc il reboot suite à la maj.

Et la creoled ne démarrera pas : https://pastebin.com/ZYy1HWz1

root@horus:~# netstat -pnl | grep 8000
root@horus:~#

Sur horus, cela impacte le service ead_server qui est down :

ps faux| grep ead

root         2  0.0  0.0      0     0 ?        S    02:20   0:00 [kthreadd]
root     12274  0.0  0.1  11800  2152 pts/0    S+   13:25 0:00          \_ grep --color ead
root      1443  0.0  1.7 120444 35168 ?        S    02:20   0:13 /usr/bin/python /usr/bin/twistd -noy /usr/share/ead2/frontend/frontend.tac --pidfile /var/run/ead/ead-web.pid --logfile /var/log/ead/ead-web.log
root      2174  0.0  0.8  69752 16692 ?        S    02:39   0:20 /usr/bin/python /usr/bin/gunicorn -c /etc/eole/flask/eoleflask.conf eoleflask.application:run(config='eoleadmin')
root      2179  0.0  1.4 138880 29432 ?        S    02:39 0:12  \_ /usr/bin/python /usr/bin/gunicorn -c /etc/eole/flask/eoleflask.conf eoleflask.application:run(config='eoleadmin')

root@horus:~# netstat -pnl | grep 4201
root@horus:~# netstat -pnl | grep 4200
tcp        0      0 0.0.0.0:4200 0.0.0.0:*               LISTEN      1443/python 

Les services touchés sur horus sont :
- ead-server
- eole-sso
- horus_frontend

Sur Amon, l'impact étant plus important, je me suis résolu à faire comme à Lyon, cad relancer en cron les services bastion et creole.

Lié à
https://dev-eole.ac-dijon.fr/issues/16703
https://dev-eole.ac-dijon.fr/issues/16704

?

Nicolas

creoled - Script d'init modifié (4.75 KB) Philippe Caseiro, 12/20/2017 08:42 AM

Associated revisions

Revision c05b87ce (diff)
Added by Philippe Caseiro almost 2 years ago

Relancer le démarrage de creoled en cas d'erreur

Si creold ne se lance pas correctement on essaye
de le relancer 25 fois avant de sortir avec une
erreur.

ref #22503 @4h

History

#1 Updated by Philippe Caseiro almost 2 years ago

  • File creoled added
  • Status changed from Nouveau to En attente d'informations
  • Assigned To set to Philippe Caseiro

Bonjour,

Voici un script d'init alternatif pour tenter d'éviter le problème.

Il nous est très difficile de reproduire ce problème, si vous pouviez tester ce script d'init sur vos serveurs et me confirmer que cela fonctionne ?

Il suffit de copier le fichier joint "creoled" dans /etc/init.d/creoled

Merci d'avance.

#2 Updated by Philippe Caseiro almost 2 years ago

  • % Done changed from 0 to 30

#3 Updated by équipe eole Academie d'Orléans-Tours almost 2 years ago

Bonjour,

Merci, on va le mettre sur nos horus et scribe, modules sur lesquels on n'avait encore rien fait. Sur AMON il faudrait qu'on enlève de la variante la relance auto, on ne le fera que si c'est concluant ;-)

#4 Updated by Joël Cuissinat almost 2 years ago

  • Status changed from En attente d'informations to Nouveau

#5 Updated by Joël Cuissinat almost 2 years ago

  • Tracker changed from Demande to Tâche
  • Estimated time set to 4.00 h
  • Parent task set to #22528
  • Remaining (hours) set to 4.0

#6 Updated by Philippe Caseiro almost 2 years ago

  • Parent task deleted (#22528)

#7 Updated by Joël Cuissinat almost 2 years ago

  • Parent task set to #22528

#8 Updated by Philippe Caseiro almost 2 years ago

  • Assigned To deleted (Philippe Caseiro)

#9 Updated by Joël Cuissinat over 1 year ago

  • Status changed from Nouveau to Résolu
  • Assigned To set to Joël Cuissinat
  • % Done changed from 30 to 100
  • Remaining (hours) changed from 4.0 to 0.25

Pas de retour mais la publication de cette modification ne peut plus tarder => paquet candidat 2.5.2

#10 Updated by Joël Cuissinat over 1 year ago

  • Status changed from Résolu to Fermé
  • Remaining (hours) changed from 0.25 to 0.0

#11 Updated by équipe eole Academie d'Orléans-Tours over 1 year ago

Désolé du manque de retour, je pense que la correction est efficace car la dernière vague de mise à jour ne nous a pas posé de soucis avec la modif poussée dans la variante de nos horus et scribe.

Nicolas

#12 Updated by Yoni Baude over 1 year ago

Bonjour,

Sur nos horus 2.5.2 nous avons toujours le plantage de creoled au reboot de nos serveurs suite au maj kernel (ce n'est pas systématique) après la correction du fichier /etc/init.d/creoled.

Merci de aide.

Cordialement,
Yoni

#13 Updated by Yoni Baude over 1 year ago

Pour complément le Frontend Horus est désactivé.

Also available in: Atom PDF