Tâche #35543
Scénario #35462: Hâpy 2.9 : vérifier l'intégration des nœuds Hâpy Node et la mise en place d'un cluster (pb de certificats)
Hâpy 2.9 : erreur fatale dans le script postservice/30-one-mng reconfigure
100%
Description
Lors de la mise en œuvre du mode cluster (test squash HP-003-02), j'ai obtenu ces erreurs lors du reconfigure des serveurs hapy2 et hapy3 et j'ai été obligé de stopper son exécution avec un ctrl+c (NB : en fait, j'ai pas eu la patience des 120 essais !!!)
run-parts: executing /usr/share/eole/postservice/30-one-mng reconfigure Wait for oned to be startedundefined method `[]' for nil:NilClass .undefined method `[]' for nil:NilClass .undefined method `[]' for nil:NilClass .undefined method `[]' for nil:NilClass .undefined method `[]' for nil:NilClass .undefined method `[]' for nil:NilClass
En mode debug, ça donne :
+ main + wait_true_retcode 'Wait for oned to be started' 'onecluster show 0 > /dev/null' + tries=120 + ret_code=1 + i=0 + echo -n Wait for oned to be started Wait for oned to be started+ '[' 1 -eq 0 ']' + '[' 0 -ge 120 ']' ++ expr 0 + 1 + i=1 + sleep 1 + eval onecluster show 0 '>' /dev/null ++ onecluster show 0 undefined method `[]' for nil:NilClass + ret_code=255
Si j'essaie de relancer une instance sur hapy1, cette fois ce sont les services opennebula-flow et opennebula-gate qui ne démarrent plus et le serveur est planté...
run-parts: executing /usr/share/eole/postservice/30-one-mng instance Wait for oned to be started. The default cluster name is already "default" HOST named default not found. HOST named default not found. Host default already present in cluster nil versions are discouraged and will be deprecated in Rubygems 4 Hosts sync OK Configuring datastores for Cluster Updating system-default datastore [one.datastore.update] Error getting datastore [100]. Updating images-disques datastore [one.datastore.update] Error getting datastore [101]. Updating iso-images datastore [one.datastore.update] Error getting datastore [102]. run-parts: executing /usr/share/eole/postservice/30-one-node instance run-parts: executing /usr/share/eole/postservice/31-one-netmng instance OneClient: update network named 'CR_aca' postservice.opennebula.network - Update of virtual network with template /tmp/oneVnet-cy7urjze failed postservice.opennebula.network - Error Updating virtual network CR_aca run-parts: /usr/share/eole/postservice/31-one-netmng exited with return code 1 Erreur : postservice
NB : reproduit 2 fois, j'ai pu gagner un peu de temps en réutilisant les configurations sauvegardées dans /mnt/eole-ci-tests/output/jojo/hapy*.eol
;)
Associated revisions
L’intégration des nœuds nécessite un leader.
Ref #35543
L’élection du leader est problématique avant synchronisation de la DB.
Ref #35543
La liste des nœuds n’est pas stockée dans un tableau.
Ref #35543
History
#1 Updated by Joël Cuissinat about 1 month ago
- Description updated (diff)
#2 Updated by Joël Cuissinat about 1 month ago
- Description updated (diff)
#3 Updated by Joël Cuissinat about 1 month ago
- Parent task set to #35462
#4 Updated by Benjamin Bohard about 1 month ago
L’erreur ne semble pas systématique. Dans mon itération du test, seul l’un des deux hapy "secondaire" présente le problème. Coïncidence ou pas, son intégration a pris beaucoup de temps en comparaison avec celle de l’autre.
#5 Updated by Benjamin Bohard about 1 month ago
Lors d’une nouvelle tentative, en redémarrant oneflow si nécessaire sur les nœuds, l’intégration semble bien se passer et les reconfigure passent plus ou moins : il y a des avertissements sur l’exécution des hooks parce qu’aucun leader n’est identifié à ce moment.
#6 Updated by Benjamin Bohard about 1 month ago
- Status changed from Nouveau to En cours
#7 Updated by Benjamin Bohard about 1 month ago
- Description updated (diff)
- Assigned To set to Benjamin Bohard
#8 Updated by Benjamin Bohard about 1 month ago
Le service opennebula-flow s’arrête (et redémarre) inopinément
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Trying to enqueue job opennebula-flow.service/restart/replace août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Installed new job opennebula-flow.service/restart as 560022 août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Enqueued job opennebula-flow.service/restart as 560022 août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Job 560022 opennebula-flow.service/restart finished, result=done août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Converting job opennebula-flow.service/restart -> opennebula-flow.service/start août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: AssertFileNotEmpty=/var/lib/one/.one/oneflow_auth succeeded. août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Failed to set 'io.bfq.weight' attribute on '/system.slice/opennebula-flow.service' to '100': No such file or directory août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: About to execute /usr/sbin/logrotate -f /etc/logrotate.d/opennebula-flow -s /var/lib/one/.logrotate.status août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Forked /usr/sbin/logrotate as 139284 août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Changed dead -> start-pre août 24 15:27:22 hapy2 systemd[1]: Starting OpenNebula Flow Service... août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: User lookup succeeded: uid=9869 gid=9869 août 24 15:27:22 hapy2 systemd[139284]: opennebula-flow.service: Executing: /usr/sbin/logrotate -f /etc/logrotate.d/opennebula-flow -s /var/lib/one/.logrotate.status août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Child 139284 belongs to opennebula-flow.service. août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Control process exited, code=exited, status=0/SUCCESS (success) août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Running next control command for state start-pre. août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: About to execute sh "gzip -9 /var/log/one/oneflow.log-* &" août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Forked sh as 139285 août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: User lookup succeeded: uid=9869 gid=9869 août 24 15:27:22 hapy2 systemd[139285]: opennebula-flow.service: Executing: sh "gzip -9 /var/log/one/oneflow.log-* &" août 24 15:27:22 hapy2 opennebula-flow[139285]: sh: gzip -9 /var/log/one/oneflow.log-* &: Aucun fichier ou dossier de ce type août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Child 139285 belongs to opennebula-flow.service. août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Control process exited, code=exited, status=127/n/a (success) août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Got final SIGCHLD for state start-pre. août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Passing 0 fds to service août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: About to execute /usr/bin/ruby /usr/lib/one/oneflow/oneflow-server.rb août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Forked /usr/bin/ruby as 139286 août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Changed start-pre -> running août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Job 560022 opennebula-flow.service/start finished, result=done août 24 15:27:22 hapy2 systemd[1]: Started OpenNebula Flow Service. août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Failed to send unit change signal for opennebula-flow.service: Connection reset by peer août 24 15:27:22 hapy2 systemd[139286]: opennebula-flow.service: Executing: /usr/bin/ruby /usr/lib/one/oneflow/oneflow-server.rb août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: User lookup succeeded: uid=9869 gid=9869 août 24 15:27:22 hapy2 opennebula-flow[139286]: == Sinatra (v3.0.3) has taken the stage on 2474 for development with backup from Thin août 24 15:27:25 hapy2 systemd[1]: opennebula-flow.service: Trying to enqueue job opennebula-flow.service/stop/replace août 24 15:27:25 hapy2 systemd[1]: opennebula-flow.service: Installed new job opennebula-flow.service/stop as 560173 août 24 15:27:25 hapy2 systemd[1]: opennebula-flow.service: Enqueued job opennebula-flow.service/stop as 560173 août 24 15:27:25 hapy2 systemd[1]: opennebula-flow.service: Changed running -> stop-sigterm août 24 15:27:25 hapy2 systemd[1]: Stopping OpenNebula Flow Service... août 24 15:27:26 hapy2 opennebula-flow[139286]: == Sinatra has ended his set (crowd applauds) août 24 15:27:26 hapy2 opennebula-flow[139286]: 2023-08-24 15:27:22 +0200 Thin web server (v1.8.1 codename Infinite Smoothie) août 24 15:27:26 hapy2 opennebula-flow[139286]: 2023-08-24 15:27:22 +0200 Maximum connections set to 1024 août 24 15:27:26 hapy2 opennebula-flow[139286]: 2023-08-24 15:27:22 +0200 Listening on 127.0.0.1:2474, CTRL+C to stop août 24 15:27:26 hapy2 opennebula-flow[139286]: 2023-08-24 15:27:26 +0200 Stopping ... août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Child 139286 belongs to opennebula-flow.service. août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Main process exited, code=exited, status=0/SUCCESS (success) août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Deactivated successfully. août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Service restart not allowed. août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Changed stop-sigterm -> dead août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Job 560173 opennebula-flow.service/stop finished, result=done août 24 15:27:26 hapy2 systemd[1]: Stopped OpenNebula Flow Service. août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Consumed 691ms CPU time.
#9 Updated by Benjamin Bohard about 1 month ago
- Status changed from En cours to À valider
#10 Updated by Laurent Gourvenec 19 days ago
- Status changed from À valider to Résolu
#11 Updated by Joël Cuissinat 15 days ago
- % Done changed from 0 to 100
J'ai un doute sur le fait que les hôtes seraient pré-enregistrés ?
root@hapy1's password: * Enregistrement du noeud [one.host.allocate] NAME is already taken by HOST 0. Hosts register failed
Malgré ces erreurs, le cluster semble fonctionnel ;)
#12 Updated by Joël Cuissinat 15 days ago
- Status changed from Résolu to Fermé
- Remaining (hours) set to 0.0