Tâche #22503
Scénario #22528: Assistance aux utilisateurs (02-04)
Creole en 2.5.2 plante suite à maj - reconf - reboot
Description
Bonjour,
Comme indiqué dans mes mails aux listes (amon, scribe, horus) , sujet "creoled & co en 2.5.2" pour horus et scribe, et sujet "creoled arrête apres une màj auto" sur amon, nous avons des erreur régulière et aléatoires sur des modules 2.5.2 qui passe des MAJ.
Exemple d'un scribe :
MAJ :
2017-11-27T01:29:11.756150+01:00 scribemaq118.etab-maquette-dsi.lan zephir: MAJ => INIT : Début 2017-11-27T01:33:17.827549+01:00 scribemaq118.etab-maquette-dsi.lan zephir: MAJ => FIN : 20 paquets mis à jour 2017-11-27T01:33:18.221399+01:00 scribemaq118.etab-maquette-dsi.lan zephir: MAJ => MSG : Reconfiguration automatique 2017-11-27T01:33:18.399276+01:00 scribemaq118.etab-maquette-dsi.lan zephir: RECONFIGURE => INIT : Début de configuration 2017-11-27T01:37:35.162843+01:00 scribemaq118.etab-maquette-dsi.lan zephir: RECONFIGURE => FIN : Configuration terminée 2017-11-27T01:37:38.423109+01:00 scribemaq118.etab-maquette-dsi.lan zephir: RECONFIGURE => MSG : Redémarrage automatique
Controle-vnc qui ne reviendra pas a lui : https://pastebin.com/f1xtRjnb
Eolesso qui semble se relancer : https://pastebin.com/aDw7nLyn mais qui ne l'est pas :
root@scribemaq118:~# ps faux| grep sso root 17546 0.0 0.1 11800 2176 pts/0 S+ 12:35 0:00 \_ grep --color=auto sso
C'est un comportement aléatoire mais récurent, heureusement pas massif à la vue du nombre de serveur, mais ça ne rate jamais, y en a toujours quelque un (jamais les même)
Exemple d'un Horus :
> 2017-11-28T02:14:26.889998+01:00 horus zephir: MAJ => INIT : Début > 2017-11-28T02:16:51.543900+01:00 horus zephir: MAJ => FIN : 23 paquets mis à jour > 2017-11-28T02:16:51.651915+01:00 horus zephir:MAJ => MSG : Reconfiguration automatique > 2017-11-28T02:16:51.821384+01:00 horus zephir: RECONFIGURE => INIT : Début de configuration > 2017-11-28T02:19:37.857881+01:00 horus zephir:RECONFIGURE => FIN : Configuration terminée > 2017-11-28T02:19:43.534974+01:00 horus zephir: RECONFIGURE => MSG : Redémarrage automatique
Donc il reboot suite à la maj.
Et la creoled ne démarrera pas : https://pastebin.com/ZYy1HWz1
root@horus:~# netstat -pnl | grep 8000 root@horus:~#
Sur horus, cela impacte le service ead_server qui est down :
ps faux| grep ead
root 2 0.0 0.0 0 0 ? S 02:20 0:00 [kthreadd] root 12274 0.0 0.1 11800 2152 pts/0 S+ 13:25 0:00 \_ grep --color ead root 1443 0.0 1.7 120444 35168 ? S 02:20 0:13 /usr/bin/python /usr/bin/twistd -noy /usr/share/ead2/frontend/frontend.tac --pidfile /var/run/ead/ead-web.pid --logfile /var/log/ead/ead-web.log root 2174 0.0 0.8 69752 16692 ? S 02:39 0:20 /usr/bin/python /usr/bin/gunicorn -c /etc/eole/flask/eoleflask.conf eoleflask.application:run(config='eoleadmin') root 2179 0.0 1.4 138880 29432 ? S 02:39 0:12 \_ /usr/bin/python /usr/bin/gunicorn -c /etc/eole/flask/eoleflask.conf eoleflask.application:run(config='eoleadmin') root@horus:~# netstat -pnl | grep 4201 root@horus:~# netstat -pnl | grep 4200 tcp 0 0 0.0.0.0:4200 0.0.0.0:* LISTEN 1443/python
Les services touchés sur horus sont :
- ead-server
- eole-sso
- horus_frontend
Sur Amon, l'impact étant plus important, je me suis résolu à faire comme à Lyon, cad relancer en cron les services bastion et creole.
Lié à
https://dev-eole.ac-dijon.fr/issues/16703
https://dev-eole.ac-dijon.fr/issues/16704
?
Nicolas
Révisions associées
Relancer le démarrage de creoled en cas d'erreur
Si creold ne se lance pas correctement on essaye
de le relancer 25 fois avant de sortir avec une
erreur.
ref #22503 @4h
Historique
#1 Mis à jour par Philippe Caseiro il y a plus de 6 ans
- Fichier creoled ajouté
- Statut changé de Nouveau à En attente d'informations
- Assigné à mis à Philippe Caseiro
Bonjour,
Voici un script d'init alternatif pour tenter d'éviter le problème.
Il nous est très difficile de reproduire ce problème, si vous pouviez tester ce script d'init sur vos serveurs et me confirmer que cela fonctionne ?
Il suffit de copier le fichier joint "creoled" dans /etc/init.d/creoled
Merci d'avance.
#2 Mis à jour par Philippe Caseiro il y a plus de 6 ans
- % réalisé changé de 0 à 30
#3 Mis à jour par équipe eole Academie d'Orléans-Tours il y a plus de 6 ans
Bonjour,
Merci, on va le mettre sur nos horus et scribe, modules sur lesquels on n'avait encore rien fait. Sur AMON il faudrait qu'on enlève de la variante la relance auto, on ne le fera que si c'est concluant ;-)
#4 Mis à jour par Joël Cuissinat il y a plus de 6 ans
- Statut changé de En attente d'informations à Nouveau
#5 Mis à jour par Joël Cuissinat il y a plus de 6 ans
- Tracker changé de Demande à Tâche
- Temps estimé mis à 4.00 h
- Tâche parente mis à #22528
- Restant à faire (heures) mis à 4.0
#6 Mis à jour par Philippe Caseiro il y a plus de 6 ans
- Tâche parente
#22528supprimé
#7 Mis à jour par Joël Cuissinat il y a plus de 6 ans
- Tâche parente mis à #22528
#8 Mis à jour par Philippe Caseiro il y a plus de 6 ans
- Assigné à
Philippe Caseirosupprimé
#9 Mis à jour par Joël Cuissinat il y a environ 6 ans
- Statut changé de Nouveau à Résolu
- Assigné à mis à Joël Cuissinat
- % réalisé changé de 30 à 100
- Restant à faire (heures) changé de 4.0 à 0.25
Pas de retour mais la publication de cette modification ne peut plus tarder => paquet candidat 2.5.2
#10 Mis à jour par Joël Cuissinat il y a environ 6 ans
- Statut changé de Résolu à Fermé
- Restant à faire (heures) changé de 0.25 à 0.0
#11 Mis à jour par équipe eole Academie d'Orléans-Tours il y a environ 6 ans
Désolé du manque de retour, je pense que la correction est efficace car la dernière vague de mise à jour ne nous a pas posé de soucis avec la modif poussée dans la variante de nos horus et scribe.
Nicolas
#12 Mis à jour par Yoni Baude il y a presque 6 ans
Bonjour,
Sur nos horus 2.5.2 nous avons toujours le plantage de creoled au reboot de nos serveurs suite au maj kernel (ce n'est pas systématique) après la correction du fichier /etc/init.d/creoled.
Merci de aide.
Cordialement,
Yoni
#13 Mis à jour par Yoni Baude il y a presque 6 ans
Pour complément le Frontend Horus est désactivé.