Project

General

Profile

Tâche #11211

Distribution EOLE - Scénario #11288: Résoudre les problèmes d'instabilité constatés sur Zéphir 2.3.16

segfault Zephir

Added by Thierry Bertrand about 8 years ago. Updated about 8 years ago.

Status:
Fermé
Priority:
Haut
Assigned To:
Start date:
04/15/2015
Due date:
% Done:

100%

Estimated time:
6.00 h
Spent time:
Remaining (hours):
0.0

Description

depuis la 2.3.16RC, nos zephirs sont particulièrement instables, un plus que les autres.

On a essayé la piste du logrotate, ça a corrigé une partie mais là, nous obtenons des segfault:

[1761839.561921] twistd[9513]: segfault at 7200000065 ip 00007ff775d2c56e sp 00007ff75b1f9800 error 4 in etree.so[7ff775d02000+108000]
twistd[25577]: segfault at 6400000041 ip 0000000000456dea sp 00007f79ea7f9720 error 4 in python2.6[400000+21d000]
[314264.896036] twistd[13934]: segfault at 8 ip 00000000004d6a0e sp 00007f5ce1ff8598 error 6 in python2.6[400000+21d000]
[993189.116272] twistd[10680]: segfault at 8 ip 00000000004d6a0e sp 00007f138b1e9598 error 6 in python2.6[400000+21d000]

Problème reproduit dans les académies (cf ml)

test_zephir.py View (2.53 KB) Emmanuel GARETTE, 04/24/2015 04:25 PM


Related issues

Related to zephir-parc - Tâche #11218: Problèmes de plantage du backend Zéphir suite à mise à jour 2.3.16 RC Reporté 04/15/2015

Associated revisions

Revision 786e0570 (diff)
Added by Bruno Boiget about 8 years ago

lxml_parser : Correction de la méthode d'itération dans le chargement

ref #11211 @45m

Revision 61117e49 (diff)
Added by Bruno Boiget about 8 years ago

zephir-creole3 : Merge de la branche 2.4.2 de creole

ref #11211 @30m

Revision 01e19fab (diff)
Added by Bruno Boiget about 8 years ago

zephir-creole3 : Merge de la branche 2.4.2 de creole

ref #11211 @30m

Revision 9af3e843 (diff)
Added by Bruno Boiget about 8 years ago

Ajout d'un mode NOLOG au logger (évite les accès concurrents dans Zéphir)

ref #11211 @ 20m

History

#1 Updated by Joël Cuissinat about 8 years ago

  • Tracker changed from Anomalie to Tâche
  • Estimated time set to 6.00 h
  • Parent task set to #11288
  • Remaining (hours) set to 6.0

#2 Updated by Scrum Master about 8 years ago

  • Status changed from Nouveau to En cours

#3 Updated by Bruno Boiget about 8 years ago

  • Assigned To set to Bruno Boiget

nous avons réussi à reproduire quelquefois le problème sur une machine Zéphir de test de charge.

En lançant le backend dans gdb, nous n'avons pour l'instant pas réussi à avoir de message consistant d'un plantage à l'autre.

Non reproduit pour l'instant en lançant avec strace (peut être dû au fait que le programme tourne beaucoup plus lentement dans ce cas).

#4 Updated by Daniel Dehennin about 8 years ago

Emmanuel Garette a trouvé que le contournement appliqué à la 2.4 (#5754) fait planter creole3.lxml_parser.py, c’est à dire le creole d’EOLE 2.4 porté sur 2.3 pour Zéphir.

J’ai validé la correction Ubuntu du bug #1201849 sur Precise Pangolin et Trusty Tahr.

Nous pouvons donc inverser le contournement #5754.

#5 Updated by Emmanuel GARETTE about 8 years ago

Voici le script utiliser pour reproduire les plantages.

#6 Updated by Thierry Bertrand about 8 years ago

paquets devs installé ce matin sur un zephir plutôt instable jusqu'à la désactivation des threads
Les threads ont été réactivés

#7 Updated by Thierry Bertrand about 8 years ago

reconfigure effectué, le cache s'est monté correctement dès la première fois
serveur mis sous surveillance active

#8 Updated by Scrum Master about 8 years ago

  • Status changed from En cours to Résolu

#9 Updated by Bruno Boiget about 8 years ago

  • Status changed from Résolu to En cours
  • Remaining (hours) changed from 6.0 to 1.0

#10 Updated by Bruno Boiget about 8 years ago

  • Remaining (hours) changed from 1.0 to 0.5

#11 Updated by Bruno Boiget about 8 years ago

  • % Done changed from 50 to 90

paquet compilé en candidate.

faire un mail sur la liste Zéphir pour prévenir de la dispo et maj changelog

#12 Updated by Scrum Master about 8 years ago

  • Status changed from En cours to Résolu

#13 Updated by Thierry Bertrand about 8 years ago

  • Status changed from Résolu to Fermé
  • % Done changed from 90 to 100
  • Remaining (hours) changed from 0.5 to 0.0

le serveur mis à jour depuis la semaine dernière se comporte de manière stable depuis la mise à jour.
Rappel : les threads ont été réactivés et le cache est à on.

Also available in: Atom PDF