今週は、月曜日から回線障害の対応などで忙しかったです。
障害が起きると、保守などを行う会社は大変ですね。
いろんなとこに連絡と調査が必要になります。
サービスを提供して、お金をもらっている時点で、当たり前のことなのですが。
先々月の障害と違い、今回の障害は実際にお客様の業務には影響がなかったようですが…
お客様には障害の状況および影響範囲を報告する必要があります。
調査するのは得意だと思っていたので、調査しお客様に報告しました。
報告資料なので、スピードを重視したうえ、お客様が見やすいように最低限ととのえ、不要な情報は省いて報告しました。
が、この不要な情報と判断したものが、じつは回線障害とは無関係と思った警告も回線障害に関係する警告でした。
お客様に指摘され、自分のミスに気づきました。
お客様のつもりを考えたけど…実際、自分がお客様のシステムやネットワークをきちんと理解していないのが、
原因だったと思います。もっと、きちんと所属しているチームの上長にもっと聞くべきでした。
障害というトラブルで始まった今週。火曜日も回線障害の対応
…でも、いま考えると自分にはおごりがあったのかなと、いま文章にしていて思います。
バックアップ回線に切り替わらなかった原因を探しました。これは簡単に解決しましたが…結果までは長い道のりでした。
障害のことも、報告が終わり、お客様も納得されたからよかったと思った矢先。
先週報告を終えたつもりでいた障害対応について、お客様から返信が…
「問題ないと判断したエビデンスはなにか」という内容。
ネットワークやシステムとかに関係なく、結果があるからには原因があります。
現実世界ではなかなか、証拠をつかむのに時間がかかりますが、
ネットワークやシステムには必ずログというものがあるので、証拠を見つけやすいです。人間の経験が作られた英知の結晶でしょうか。
で、お客様からの質問「問題ないと判断したエビデンスはなにか」にも、もちろんログを精査したうえでのことです。
最初にお客様には、現状あるログが不十分のため、いまのログ取得の設定では判断がつかないので、
詳細に調べるために詳細ログの取得が必要といったのだけど、これはスルー。
ちなみに、このときにあったログは無線アクセスポイントの接続と切断だけをエラー報告し、その他は接続情報のだけです。
これらは、正常時のログでもあるので、これでエラーとは判断がつきません。
そのため、ベンダーに問合せ、ベンダーも判断つかないため、メーカーで解析依頼。
メーカからの回答を受け、ベンダーで調査した内容を報告してもらったのが、アクセスポイントの設置場所の見直し。
ここまで報告を行ったのち、お客様からの回答は「他店に比べて、対象の店舗のエラー件数は異常か、正常か」。
で、他店と比べて異常ではなかったので、報告したらエビデンスを求められる始末。無作為に選んだ300店舗と比較した結果。
警告メッセージの数だけでいうと多い店舗は5,000件以上、対象の店舗は1,000件以下。ちなみに5,000件以上の警告があった店舗は5店舗ほど。
とりあえず、この資料を提出すればよかったかも。
先週から、モチベが下がった状態で、こういうことが起きるとさらに落ちます。
…考えすぎなのだけど、こんな時は、それに気づけなくなりますね。
つづきは週末中に書きます。