Project

General

Profile

Demande #35317

Si bareos-dir ne redémarre pas, le contact avec Zéphir ne se fait plus

Added by Emmanuel GARETTE 6 months ago. Updated 3 months ago.

Status:
Terminé (Sprint)
Priority:
Normal
Assigned To:
-
Category:
-
Target version:
-
Start date:
04/02/2023
Due date:
% Done:

0%


Description

Après un reconfigure, bareos-dir n'a pas redémarré pour une raison obscure :

avril 02 05:31:23 amon systemd[1]: Starting Bareos Director Daemon service...
avril 02 05:31:25 amon bareos-dir[11655]: bareos-dir: ERROR TERMINATION at lib/bsys.cc:464
avril 02 05:31:25 amon bareos-dir[11655]: bareos-dir is already running. pid=1583
avril 02 05:31:25 amon bareos-dir[11655]: Check file /var/lib/bareos/bareos-dir.9101.pid
avril 02 05:31:25 amon systemd[1]: bareos-director.service: New main PID 1583 does not belong to service, and PID file is not owned by root. Refusing.
avril 02 05:31:25 amon systemd[1]: bareos-director.service: New main PID 1583 does not belong to service, and PID file is not owned by root. Refusing.
avril 02 05:31:25 amon systemd[1]: bareos-director.service: Failed with result 'protocol'.
avril 02 05:31:25 amon systemd[1]: Failed to start Bareos Director Daemon service.

Un restart permet de redémarrer le service sans soucis.

Le soucis c'est z_stats traceback si bareos-dir n'est plus accessible :

avril 02 09:21:08 amon zephiragents[11705]: 2023-04-02T09:21:08+0200 [-] Unhandled Error
avril 02 09:21:08 amon zephiragents[11705]:         Traceback (most recent call last):
avril 02 09:21:08 amon zephiragents[11705]:           File "/usr/lib/python3/dist-packages/twisted/application/app.py", line 398, in startReactor
avril 02 09:21:08 amon zephiragents[11705]:             runReactorWithLogging(
avril 02 09:21:08 amon zephiragents[11705]:           File "/usr/lib/python3/dist-packages/twisted/application/app.py", line 312, in runReactorWithLogging
avril 02 09:21:08 amon zephiragents[11705]:             reactor.run()
avril 02 09:21:08 amon zephiragents[11705]:           File "/usr/lib/python3/dist-packages/twisted/internet/base.py", line 1267, in run
avril 02 09:21:08 amon zephiragents[11705]:             self.mainLoop()
avril 02 09:21:08 amon zephiragents[11705]:           File "/usr/lib/python3/dist-packages/twisted/internet/base.py", line 1276, in mainLoop
avril 02 09:21:08 amon zephiragents[11705]:             self.runUntilCurrent()
avril 02 09:21:08 amon zephiragents[11705]:         --- <exception caught here> ---
avril 02 09:21:08 amon zephiragents[11705]:           File "/usr/lib/python3/dist-packages/twisted/internet/base.py", line 902, in runUntilCurrent
avril 02 09:21:08 amon zephiragents[11705]:             call.func(*call.args, **call.kw)
avril 02 09:21:08 amon zephiragents[11705]:           File "/usr/lib/python3/dist-packages/zephir/monitor/agentmanager/zephirservice.py", line 298, in wakeup_for_upload
avril 02 09:21:08 amon zephiragents[11705]:             agent.archive()
avril 02 09:21:08 amon zephiragents[11705]:           File "/usr/lib/python3/dist-packages/zephir/monitor/agentmanager/agent.py", line 407, in archive
avril 02 09:21:08 amon zephiragents[11705]:             self.ensure_data_uptodate()
avril 02 09:21:08 amon zephiragents[11705]:           File "/usr/lib/python3/dist-packages/zephir/monitor/agentmanager/agent.py", line 418, in ensure_data_uptodate
avril 02 09:21:08 amon zephiragents[11705]:             self.write_data()
avril 02 09:21:08 amon zephiragents[11705]:           File "/usr/lib/python3/dist-packages/zephir/monitor/agents/bareos.py", line 57, in write_data
avril 02 09:21:08 amon zephiragents[11705]:             self.table.table_data = self.last_measure.value['services']
avril 02 09:21:08 amon zephiragents[11705]:         builtins.TypeError: 'NoneType' object is not subscriptable
avril 02 09:21:08 amon zephiragents[11705]:         
avril 02 09:21:08 amon zephiragents[11705]: [-] Unhandled Error
avril 02 09:21:08 amon zephiragents[11705]: [-]         Traceback (most recent call last):
avril 02 09:21:08 amon zephiragents[11705]: [-]           File "/usr/lib/python3/dist-packages/twisted/application/app.py", line 398, in startReactor
avril 02 09:21:08 amon zephiragents[11705]: [-]             runReactorWithLogging(
avril 02 09:21:08 amon zephiragents[11705]: [-]           File "/usr/lib/python3/dist-packages/twisted/application/app.py", line 312, in runReactorWithLogging
avril 02 09:21:08 amon zephiragents[11705]: [-]             reactor.run()
avril 02 09:21:08 amon zephiragents[11705]: [-]           File "/usr/lib/python3/dist-packages/twisted/internet/base.py", line 1267, in run
avril 02 09:21:08 amon zephiragents[11705]: [-]             self.mainLoop()
avril 02 09:21:08 amon zephiragents[11705]: [-]           File "/usr/lib/python3/dist-packages/twisted/internet/base.py", line 1276, in mainLoop
avril 02 09:21:08 amon zephiragents[11705]: [-]             self.runUntilCurrent()
avril 02 09:21:08 amon zephiragents[11705]: [-]         --- <exception caught here> ---
avril 02 09:21:08 amon zephiragents[11705]: [-]           File "/usr/lib/python3/dist-packages/twisted/internet/base.py", line 902, in runUntilCurrent
avril 02 09:21:08 amon zephiragents[11705]: [-]             call.func(*call.args, **call.kw)
avril 02 09:21:08 amon zephiragents[11705]: [-]           File "/usr/lib/python3/dist-packages/zephir/monitor/agentmanager/zephirservice.py", line 298, in wakeup_for_upload
avril 02 09:21:08 amon zephiragents[11705]: [-]             agent.archive()
avril 02 09:21:08 amon zephiragents[11705]: [-]           File "/usr/lib/python3/dist-packages/zephir/monitor/agentmanager/agent.py", line 407, in archive
avril 02 09:21:08 amon zephiragents[11705]: [-]             self.ensure_data_uptodate()
avril 02 09:21:08 amon zephiragents[11705]: [-]           File "/usr/lib/python3/dist-packages/zephir/monitor/agentmanager/agent.py", line 418, in ensure_data_uptodate
avril 02 09:21:08 amon zephiragents[11705]: [-]             self.write_data()
avril 02 09:21:08 amon zephiragents[11705]: [-]           File "/usr/lib/python3/dist-packages/zephir/monitor/agents/bareos.py", line 57, in write_data
avril 02 09:21:08 amon zephiragents[11705]: [-]             self.table.table_data = self.last_measure.value['services']
avril 02 09:21:08 amon zephiragents[11705]: [-]         builtins.TypeError: 'NoneType' object is not subscriptable
avril 02 09:21:33 amon zephiragents[11705]: 2023-04-02T09:21:33+0200 [-] Erreur remontée par /usr/share/eole/bareos/test_director :
avril 02 09:21:33 amon zephiragents[11705]: [-] Erreur remontée par /usr/share/eole/bareos/test_director :
avril 02 09:21:33 amon zephiragents[11705]: 2023-04-02T09:21:33+0200 [-] got stderr: b'socket error: [Errno 111] Connection refused\n'
avril 02 09:21:33 amon zephiragents[11705]: [-] got stderr: b'socket error: [Errno 111] Connection refused\n'

Dans les logs de Zéphir :

2023-03-31 04:46:59    SURVEILLANCE    ÉCHEC    impossible de contacter le serveur zephir

Après redémarrage de bareos-dir + z_stats tout est rentré dans l'ordre.


Related issues

Duplicates Distribution EOLE - Scénario #35032: Zephir-agent ne remonte plus les informations au Zéphir si bareos est arrêté Terminé (Sprint) 10/01/2022 01/01/2024

History

#1 Updated by Joël Cuissinat 6 months ago

  • Duplicates Scénario #35032: Zephir-agent ne remonte plus les informations au Zéphir si bareos est arrêté added

#2 Updated by Joël Cuissinat 3 months ago

  • Status changed from Nouveau to Terminé (Sprint)

Also available in: Atom PDF