あるシステムのクラスタに新規のシェルを追加したところ、今まで動いていたサービスが動かなくなってしまった。
起動するものの、チェック機能で障害と判定されてダウン、クラスタなので別のサーバでサービスを再開するも、そちらもチェックされてダウン、2度繰り返すとクラスタはマシン自体を落としてしまうと…
調べること数時間、通信が可能なサーバが減っていることに気がついた。そこで、ふとhostsをみると、同じIPで別ホスト名が定義されていたり…。通信の設定自体はIP単位だが、管理はホスト名なので、重複したIPのホスト名の一つが使用できないと判断されてしまったようだ。
うかつにhostsは変えられないなぁ…。というか、使ったら戻して…