uzullaがブログ

uzullaがブログです。

「ITインフラ監視[実践]入門」を読みました

ソフトウェアエンジニアのための ITインフラ監視[実践]入門 (Software Design plus)

ソフトウェアエンジニアのための ITインフラ監視[実践]入門 (Software Design plus)

大変ありがたいことに献本いただきました。実は微力ながら内容のレビューもさせていただき(書籍内でも触れていただいて大変光栄です)、だからというわけではないですが、まず最初によい本だと書いておきます!

ただ、今回改めて頂いた書籍を読んでみましたので感想みたいなものを書いてみたいと思います。

いやー、しかしさいとーさん単著すごいね!!!w

見落とされがちな事を埋める

監視は大きなサービスにおいてはかならず重要視されていますが、中小規模では経験不足もあり、どうしても後手後手にまわります。まあそれでもなんとかやっていけるので、どんどんと属人、職人芸、過去の経験にたよった運用になりがちです。それは視界の狭さにつながり、実は非効率的だったり、運良く大惨事になっていないだけだったりします。

本書ではそういった問題についてアドホックな解決策を提案するわけではありません。たとえば1年もすれば移り変わる「○○ってツールが良いよ!」などといった「ぐぐればでてくる」話はメインでなく、どういった項目を監視すべきで、そのためには事前にどのような情報を抑えておくのがよいのか、という時代を超えた必要な項目がわかりやすく書かれています。そう、普遍的であることはとても良い事ですよね。

すでに普段から監視に携わっている人なら、本書をみて「わかるわ〜」と思うのではないでしょうか(あるいはドキッっとする?)。 ただ、すでに監視業務に関わっている人でも、うっかり勘や慣れで作業していると「あーあれわすれてたわ!」みたいなことはしばしば発生します。この書籍はそれに対してチェックシート的につかうこともできるのではないでしょうか。

全部のせ!

ただ、初めてやる人がこれを全部やるとパンクしてしまう可能性が否定できないかな〜とおもったりはしました。著者とは何度も話しているので、ここまでしっかりやるぞ!というすごい人なのはよく分かる!w そして、いつかはこうなるのも事実ですが、初心者が最初の資料作成で詰んでしまわないが多少不安です…w

ウォーターフォール的に十分な情報をつみかさねていくのが最善ではあるとしても、まあ現実はアドホックな事は多いので…、本書で「ここまでやらねば無意味…」と焦らず、できる項目の範囲で調査、計画、設定、運用の1連をしてみてほしい所です。たとえば外形監視だけからはじめるとかね。

実践的

ところどころ、特にいいね!と思う所があります。たとえばバージョンの調べ方ですね。 大体のソフトはhoge —versionとかやればバージョンが確認できるのですが、OSのパッケージをそのままつかう場合には、そのバージョンにさらにパッチがあたっていて、別物に*1なっていたりします。そしてわりとそこらへんはしられていなかったりする気がしますが、本書ではパッケージを見たほうが良いとかかれていて好印象です。

問い合わせをしろ!電話をしろ!というのもそうですね、どうしても「なんかおかしい、ググッてみるか…これににてるな?」とか遠回りすることってありますからね(特に、初心者のころは)

あと、オンプレの話ですね〜おっさんホイホイとはいわないけど、やはりきになります!。 IaaS全盛の今でも、ラックとかの話がでるのがうれしいのは、私が年をとったからでしょうか…w ブレーカーの件はまさに私は食らったことがあるやつで、ほんとね、マジで注意な!!!(あと、外資系だと、国内のDCでも担当者が日本人じゃないとかあるよ!!営業に速攻で電話したけど!)

気になる点

殆ど無いのですが、個人的に一点だけ強く気になったのがバッチ処理関連。Cronとかに関する所があんまりなかった所ですね。Cron関連もちゃんとしらべてメモっておかないとヤバい。

Cronは言わなくてもアプリをしらべてれば普通チェックするかもですが、ジョブ実行関係は高負荷になることが多いんで、「90%しきい値を毎晩3時にこえる」みたいなのもあったりして…、まあこれはローカルな話かもですが。あと夜間バックアップとか、ログローテーションとかもcronで走るよね。(最近はあんまりここらへんきにならんのかな)

あと、物理サーバーHWが壊れるのは本当によくある話で、特に雑に設定されたサーバーだとRAIDがこわれてるのにきづかない〜とかまれによくあって…。今時のインテリジェントなサーバーならツールで全部把握できるはずですが、うっかり入れそびれてる業者とかいて大変重要です。*2 そのようなハードウェア系の故障は一発でサーバ全損になり、レストア・リカバリーやるぞ!って地獄が始まるのですが…、そこらへんの「数時間じゃおわらねえ」という時の心構え(?)みたいなのが…まあ今日日は流行らないですかね…w(予備機をおけばいいし) (特に予備機のない)HW故障はかなり疲弊するので、「体制がととのえられないなら、IaaSをつかえ!」みたいなのもね知見としてありますよね。あるいは交換部品を事前に用意しておくとか…、あそこのサーバー屋はRAIDなのにHDD交換するのには必ずBIOSでやらさせるとか…まあここらへんは属人的すぎるか。 それに、ここは実際には監視とはいえないところですけど。

ふと今おもいましたけど、そういえば、みなさん監視のログってどれくらい保存してるんですかね?

網羅すれば、一丁前

監視や保守は、ある定形であらゆるケースにマッチ!ということはまずなく、システムや人員に応じて変わります。 (あるいは、そこらへんの重要さがわかってくると、監視や保守のために「サービス側を変える」というのも普通に検討できます)

なので、「本書に完全にそったから完璧」と慢心せず、どんどんとシステムにあった監視体制をととのえていくのが重要ですね。

そういう意味では、まずは監視をやる人たちで、本書を一冊づつ買って!(まあ回し読みでもいいでしょうけどw) 心構えを作っていくのに最高なのではないかとおもいました。

あと、役員(等)の方々にも読んでみてほしいですね、どれくらいこれが面倒なのか「片手間でやっといてよ〜」とかいわせないためにもね!w

最後にもう一度リンク。

ソフトウェアエンジニアのための ITインフラ監視[実践]入門 (Software Design plus)

ソフトウェアエンジニアのための ITインフラ監視[実践]入門 (Software Design plus)

…気付いたけれど、ベストセラー1位だし、amazonで注文が即日ではない…これは売れてるな!!!

余談

監視もいいけど、だれか「障害復旧実践入門」かかないかなあwww

*1:というと大げさか、セキュリティ問題系のバグが潰されている

*2:老害発言ですけど、物理アラート(ランプ)でしかわからないHWというのも昔はよくあった…