Projet

Général

Profil

Tâche #11211

Distribution EOLE - Scénario #11288: Résoudre les problèmes d'instabilité constatés sur Zéphir 2.3.16

segfault Zephir

Ajouté par Thierry Bertrand il y a environ 9 ans. Mis à jour il y a presque 9 ans.

Statut:
Fermé
Priorité:
Haut
Assigné à:
Début:
15/04/2015
Echéance:
% réalisé:

100%

Temps estimé:
6.00 h
Temps passé:
Restant à faire (heures):
0.0

Description

depuis la 2.3.16RC, nos zephirs sont particulièrement instables, un plus que les autres.

On a essayé la piste du logrotate, ça a corrigé une partie mais là, nous obtenons des segfault:

[1761839.561921] twistd[9513]: segfault at 7200000065 ip 00007ff775d2c56e sp 00007ff75b1f9800 error 4 in etree.so[7ff775d02000+108000]
twistd[25577]: segfault at 6400000041 ip 0000000000456dea sp 00007f79ea7f9720 error 4 in python2.6[400000+21d000]
[314264.896036] twistd[13934]: segfault at 8 ip 00000000004d6a0e sp 00007f5ce1ff8598 error 6 in python2.6[400000+21d000]
[993189.116272] twistd[10680]: segfault at 8 ip 00000000004d6a0e sp 00007f138b1e9598 error 6 in python2.6[400000+21d000]

Problème reproduit dans les académies (cf ml)

test_zephir.py Voir (2,53 ko) Emmanuel GARETTE, 24/04/2015 16:25


Demandes liées

Lié à zephir-parc - Tâche #11218: Problèmes de plantage du backend Zéphir suite à mise à jour 2.3.16 RC Reporté 15/04/2015

Révisions associées

Révision 786e0570 (diff)
Ajouté par Bruno Boiget il y a presque 9 ans

lxml_parser : Correction de la méthode d'itération dans le chargement

ref #11211 @45m

Révision 61117e49 (diff)
Ajouté par Bruno Boiget il y a presque 9 ans

zephir-creole3 : Merge de la branche 2.4.2 de creole

ref #11211 @30m

Révision 01e19fab (diff)
Ajouté par Bruno Boiget il y a presque 9 ans

zephir-creole3 : Merge de la branche 2.4.2 de creole

ref #11211 @30m

Révision 9af3e843 (diff)
Ajouté par Bruno Boiget il y a presque 9 ans

Ajout d'un mode NOLOG au logger (évite les accès concurrents dans Zéphir)

ref #11211 @ 20m

Historique

#1 Mis à jour par Joël Cuissinat il y a environ 9 ans

  • Tracker changé de Anomalie à Tâche
  • Temps estimé mis à 6.00 h
  • Tâche parente mis à #11288
  • Restant à faire (heures) mis à 6.0

#2 Mis à jour par Scrum Master il y a presque 9 ans

  • Statut changé de Nouveau à En cours

#3 Mis à jour par Bruno Boiget il y a presque 9 ans

  • Assigné à mis à Bruno Boiget

nous avons réussi à reproduire quelquefois le problème sur une machine Zéphir de test de charge.

En lançant le backend dans gdb, nous n'avons pour l'instant pas réussi à avoir de message consistant d'un plantage à l'autre.

Non reproduit pour l'instant en lançant avec strace (peut être dû au fait que le programme tourne beaucoup plus lentement dans ce cas).

#4 Mis à jour par Daniel Dehennin il y a presque 9 ans

Emmanuel Garette a trouvé que le contournement appliqué à la 2.4 (#5754) fait planter creole3.lxml_parser.py, c’est à dire le creole d’EOLE 2.4 porté sur 2.3 pour Zéphir.

J’ai validé la correction Ubuntu du bug #1201849 sur Precise Pangolin et Trusty Tahr.

Nous pouvons donc inverser le contournement #5754.

#5 Mis à jour par Emmanuel GARETTE il y a presque 9 ans

Voici le script utiliser pour reproduire les plantages.

#6 Mis à jour par Thierry Bertrand il y a presque 9 ans

paquets devs installé ce matin sur un zephir plutôt instable jusqu'à la désactivation des threads
Les threads ont été réactivés

#7 Mis à jour par Thierry Bertrand il y a presque 9 ans

reconfigure effectué, le cache s'est monté correctement dès la première fois
serveur mis sous surveillance active

#8 Mis à jour par Scrum Master il y a presque 9 ans

  • Statut changé de En cours à Résolu

#9 Mis à jour par Bruno Boiget il y a presque 9 ans

  • Statut changé de Résolu à En cours
  • Restant à faire (heures) changé de 6.0 à 1.0

#10 Mis à jour par Bruno Boiget il y a presque 9 ans

  • Restant à faire (heures) changé de 1.0 à 0.5

#11 Mis à jour par Bruno Boiget il y a presque 9 ans

  • % réalisé changé de 50 à 90

paquet compilé en candidate.

faire un mail sur la liste Zéphir pour prévenir de la dispo et maj changelog

#12 Mis à jour par Scrum Master il y a presque 9 ans

  • Statut changé de En cours à Résolu

#13 Mis à jour par Thierry Bertrand il y a presque 9 ans

  • Statut changé de Résolu à Fermé
  • % réalisé changé de 90 à 100
  • Restant à faire (heures) changé de 0.5 à 0.0

le serveur mis à jour depuis la semaine dernière se comporte de manière stable depuis la mise à jour.
Rappel : les threads ont été réactivés et le cache est à on.

Formats disponibles : Atom PDF