LIVESENSE made*

リブセンスのエンジニアやデザイナーの活動や注目していることをまとめたブログです。

MENU

転職クチコミサービスでのプロダクトチーム文化と取り組み

背景

転職クチコミサービスの転職会議を開発するプロダクトチームは2014年頃には6名ほどの小さな組織でした。

2017年現在は30名強と、徐々にメンバーを増やしながら成長してきました。

今回はこのチームで作り上げてきた文化の話をしたいと思います。

Team Geekとの出会い

僕たちが成長する上で強く影響を受けた書籍がTeam Geekです。

HRT(謙虚・尊敬・信頼)などで有名な名著ですが、チーム文化についても重要な項目として語られています。

この文化というのは非常に捉えづらいものではありますが、文化を意識してチームを作る事が非常に大切だったなと感じています。

Spotify engineering cultureとの出会い

文化について意識的に作り上げる段階において、強く影響を受けたのがSpotifyの資料です。

前後編合わせて30分程度の短い動画ながら、Agileの精神、Leanな開発、上手な「失敗」の仕方など、非常に濃い内容が含まれています。

2014年の資料であるにもかかわらず、今でも共感できる内容がたくさん含まれています。

皆が同じ目標を向き、自律的に動く組織文化

Spotifyの資料の中で特に影響を受けたのが「高いAlignmentかつ高いAutonomyな組織」のモデルです。

少々馴染みの薄い言葉なので、それぞれ意味を訳してみます。

Alignmentは、「整列」や「同調」「一致性」「団結」など、一方向へ向かう様子を表しています。

Autonomyは、「自治」・「自律」という意味になります。

つまり「同じ方向を向いた状態」でかつ「自律的である」という事になります。

この2つの概念は、それぞれ相反するような概念に思えるかもしれません。

しかしSpotifyの資料においては、むしろ「高い一致性こそが高い自律を可能にする」とも語られ、どちらも高い状態であることを理想であるとしています。

f:id:livesense-made:20170705234101p:plain

もう少し深掘りすると、理想像はこのようなことと言えます。

  • 明確なミッションを持ち、メンバーとリーダー全員が、同じ方向を向いて同じ目標に向かって進む
  • メンバーは「どう解決するか?どれが最適か?」の部分を考えて実行する。
  • リーダーは「何が課題か?解決のために何が必要か?」に責務を持つ

Team Geekでもミッション・ステートメントの重要さや、サーバントリーダーなど類似する考え方があり、これらの重要さが語られています。

この「明確なミッションを高いレベルで共有し、高い一致性を持ち高い自治性があるチーム」という理想像は、転職会議のチーム文化へ強く影響を与えてくれました。

高い一致性と自律性を持ったチームで何が出来るか?

それでは高い一致性と自律があるチームは何が良くて、何が出来るのでしょうか?

ここからは僕たちが理想像のチームだからこそ出来たと感じていることを紹介していきます。

とりあえずやってみる → 上手く行ったら残す/駄目ならすぐ捨てる

新しい仕組みやツールへのトライアル・施策は様々な懸念があったり、障壁が高いなどがあり、どうしても腰が重くなりがちです。

転職会議では「とりあえずやってみよう」を合言葉に、フットワークを軽くアクションを起こす文化を推奨しています。 まず小さくやってみる→運用してみる→上手く行ったら残す / 駄目なら修正するか撤退する、という流れです。

Spotifyの資料では、Part2の「Waste-repellent Culture」という項目で類似の事が紹介されています。 また、Lean Startupの考えともほとんど同じです。

当然、各々が何も考えず無作為にいろんなものを取り入れてしまえば混沌としてしまう可能性もありますが、各自が責務と自由のバランスの上で行えているので今のところ適切にワークしています。

標準化(Standalization) より 異花受粉(Cross-pollination)

リブセンスではPHPやRuby on Rails、Go、Reactなどがよく使われています。

これらはすべて誰かが決めたわけではなく、自然発生的に広まっていきました。

Spotifyの資料においては異花受粉(Cross-pollination)という呼び方で、この徐々に良いツールがチームからチームへ伝播してデファクトスタンダードとして広まる現象を説明しています。併せて、一貫性と柔軟性が保たれる効果をもたらされる利点も説明されています。

新しい言語やツール、ライブラリを一つのチームが取り入れて、それが良いものであれば隣のチーム・リポジトリにも使われるというフローは、開発にはよくあるごく自然な現象です。

しかし、その現象に対して「足並みをそろえて標準化するより、より良いものが自然に伝播していく文化には利点がある」ということをしっかり認識することで、「とりあえずやってみる」の精神をより加速させて来ることが出来ました。

今日まで、良い温度感で技術の新陳代謝を進めることが出来ていると感じています。

「とりあえずやってみる」の部分でも懸念として上がりましたが、こう聞いてしまうと「いろんなライブラリが入って、学習コストが高くなってしまうのでは?」と感じる方もいるかもしれません。

こちらも同様で、各自が正しく目的を捉えた上で適切な技術選定を心がけているため、極端に突飛な選定はされず、各自の責任の持てる範囲でのチャレンジがなされています。

Internal Open-Source Model

Spotifyの資料ではInternal Open-source Modelというのが紹介されており、転職会議でもこの考え方を取り入れました。

これはチームで開発されるシステムを全て内部的なオープンソースと同じように扱い、特定のチームが特定のシステムだけ触るのではなく、必要になったチームがPull Requestをするというやり方です。

この方法はPayPalのInnerSourceも近いかもしれません。

転職会議は現在クチコミ関連の他にも・求人・会員情報・ログイン認証・企業向け管理画面など、大小幾つかのシステムが独立的に動いています。

これらのシステムに対し、専属のチームを設けるのではなくそれぞれのチームが自分たちのミッション・施策に応じて、各チームが必要なシステムに必要なだけPull Requestをしてリリースして作業を進めています。

一つのシステムに対して必ず一つのチームが改修する体制にしている場合、自分たちの施策が他のチームの優先度で左右されてしまったりということがありがちです。

Internal Open-Source Modelを取り入れることによって、各チームが他のチームに依存せずプロジェクトを進めることが出来ています。

リポジトリオーナー

通常のオープンソースにコアなメンテナが存在するのに倣って、各リポジトリに複数人のオーナーとサブオーナーを設けています。 *1 これはいくつかのリポジトリで試験的に行ってみて、うまくいきそうだったので現在展開しています。

オーナー・サブオーナーはOSSのメンテナと同じようにコードレビューを行い、リポジトリの品質や一貫性を担保することが主な責務で、その代わりにリポジトリのライブラリ選定やコーディング規約などもおまかせしています(先に説明したCross-pollinationによる伝播がチーム内でも適度に行われる事も狙っています)。

基本的にはそのリポジトリを頻繁に触るチームのメンバーや、そのシステムに詳しいメンバーから選出しています。システムを触らなくなってきたり、オーナー業務が偏ってきた場合には適切に交代や追加をしていく予定です。

品質の保持や一定の自由度が出来た上での副次的な効果として、コードレビューが一部のメンバーへ極度に偏ったり、逆にレビュアーが多すぎて緊張感の無い薄いレビューになってしまう問題が緩和出来る効果がありました。

また若手メンバーにもサブオーナーになってもらい責務を持った視点でレビューをしてもらうことで、育成の機会になるという部分も見られそうだと感じています。

「やってあげる」よりも「出来るようにする」(Self-serve Model)

転職会議がAWS化した時期を境に、SRE(Site Reliability Engineering)チームが設立されました。 *2

SREチームはサイトのパフォーマンス向上やセキュリティ向上、安定的な運用を目指しているチームです。

まだまだAWSに移行したばかりで、ノウハウが足りない、メンバーの学習が追いつかないなど、様々課題もあります。

新しいシステムの作成などAWSに触る部分が出てきた場合、慣れているSREチームのメンバーが作業をしてしまう方が素早く出来るのですが、どうしても作業が集中してボトルネックになってしまいがちです。

そのためSREチームが直接作業するのは極力減らし、どんどんメンバーが各自で「出来るようになる」という土壌を作ることを心がけています。

フロントエンドにおいても類似です。フロントエンドが得意なメンバーが作業を請け負うのではなく、できるだけ触ったことが無いメンバーをアサインしたり、勉強会を執り行ったりして「出来るようにする」ということを意識しています。

デザイナーとフロントエンドエンジニアのやり取りにおいても、CSSやテンプレート、JSXなどを全部フロントエンドエンジニアがやってしまうとボトルネックになってしまう事があるため、ある程度からはデザイナーだけでもどんどん作業が出来るようにしています。

どちらもInternal Open-Source Modelと同様、各自に信頼を置いてやれる領域を可能な限りで広げ、なるべく他のチームやメンバーがボトルネックになるのを避けるような取り組みです。

部分的なリモート勤務

リブセンスには今のところリモートワークなどの制度はありませんが、転職会議チームでは会社の規則に反せず、チームで適切に運用できる範囲でのリモート勤務を取り入れています。

導入にあたっては、オフィス出社を前提とした上で上手くリモートの自由度を取り入れているQuipperさんの記事を参考にさせていただきました

基本的にはこのようなルールで進めています。

  • 基本的にはオフィスに出社するのが前提。対面の会話は大事にする
    • 在宅勤務をするときはチャットでコメントする。
    • 用事などリモート関係なく出勤時間がずれる場合もチャットでコメント
  • タイムシフトのためのリモートではないので、基本的に作業時間はずらさない
    • だいたい11:00〜18:00でみんなが働いているので、そのぐらいを目安とする
  • 体調不良を理由にしたリモートワークはナシ
    • 低いパフォーマンスで仕事せず、しっかり休んで回復させる

朝や午後に数時間利用したり週に1度丸々リモートにするなど、利用の仕方はメンバーによって様々です。

数ヶ月やってみて今のところ混乱や問題は無く、快適に運用できています。これもメンバーが高い一致性と自律性を持って仕事に取り組めている文化があってこそ上手く行ったことではないかなと感じています。

まとめ

ここまで転職会議プロダクトチームの文化を一部ですが紹介してきました。 今回のお話で興味を持った方は是非Team GeekやSpotify engineering cultureをじっくりと見ていただければなと思います。

転職会議は今後も成長させたいと感じていますし、文化もどんどん強くしていきたいと感じています。

様々変わる部分も今後出てくると思いますが、ミッションに対して高いレベルで一致をしつつ自律した組織を理想像とする志はいつまでも保持していきたいなと感じています。

転職会議では僕たちと文化を育ててくれるメンバーを募集しています!

http://recruit.livesense.co.jp/

*1:なんていう記事を書いている間にgithubにcode ownersという機能が実装されてました。

*2: 転職会議のAWS化の苦労話などは、また別なタイミングで出来たらなと思います

テストの取り組み、あるいは体のよい車輪の再発明について

ジョブセンスのエンジニアをしている松下です。
コードレビューと大人の話し合い、若手から作りの相談を受け付けることが最近の主な担当業務です。

先日自分のチームが取り組んだプロジェクトは、古いバージョンのPHPで実装されているアルバイト応募機能を、Ruby 2.4に置き換えるというものでした。
応募というのはコンバージョンに直接的に関わるため、機能に様々な工夫が加えられる等で煩雑化し、コードも荒れ模様。 それに対し単にRubyポーティングするだけでは意味が薄いので、不要な機能の削減やコードクオリティの向上に力を入れたプロジェクトでした。

さて、コンバージョンに直接関わる機能ということは入念なテストが重要となってきます。単にエラーを出したくないというのはもちろん、フォームでは個人情報の入力もあるためです。
ここではそのテストにおける取り組みの1つを紹介いたします。

テストで楽をしたい

前述の通り、テスト対象はアルバイトへの応募機能です。
そして自分が実装担当した部分は、とある経路で応募フォームに来た場合に、そこにフォームに加えてアルバイトの詳細情報を表示するというものでした。

まずフォームの入力〜SUBMITのテストについては、手堅さが最も求められる上に自動化しきるのも難しいためリリース前にテスト項目書を作成しての手動テストを実施しました。
チーム全員でテスト項目を出し合い、相互レビューによって内容を担保します。 (RSpecによる単体テストと、CapybaraにFeatureテストはある程度記述した上でです)

次に考えるべきは、フォームと並んで表示されるアルバイト詳細情報表示のテストです。
その実装は、詳細情報の表示となると項目数が多く、またそれを適切にユーザに見せるためのViewロジックが必要となります。
単純なものでは時給額の値が1000の場合に「1,000円」と表示するようなものであったり(これはRailsのヘルパにありますが)、アルバイトの形態に応じて表記を変更するといったものとなります。

こうしたViewロジックは基本的にはDraperに寄せ、その単体テストを書くことで挙動の保証をしています。
しかし当然ながらクラスの単体テストで全てを担保できるわけではあいません。
結合レベルの話もありますが、Viewテンプレート側に多少ロジックのははみ出ることはありますし、またそもそものところでDBに想定外のデータが含まれていてエラーとなることもあります。

想定外のデータについて補足します。
ジョブセンスは、学生ベンチャーに始まって東証1部上場までしたリブセンスの急成長を支えたサービスです。 したがって、正規化されていない場合やジェイウォーク、バリデーションが仕込みきれていなかった等で特殊なデータがDBに格納されている場合も睨む必要があります。

しかし発生し得るパターンを確認し、網羅的にそのテストデータを作成するのは非常にコストがかかります。
また、これはView層なのでサービス改善による変化が起きやすく、テストの資産価値は相対的には低めです。

ではどうするか。
既存のアルバイトデータに対して網羅的にアクセスして確認するのみです。
幸い我々には10数万件のアルバイト実データがあります。 そしてリブセンスでは、そんな本番DBのデータを開発用DBへ日次で同期させる仕組みがあるため(事故防止で個人情報はマスキングをかけています)、開発環境でも網羅的なアクセスをすることが容易です。

これにより、「え、そんなデータのパターンがあってエラーになったの?!」という状況を未然に防ぐこととしました。
細かい表示内容を担保することももちろんですが、まず最優先で担保したいのは「そもそもエラーにならない」ことです。

ツールを考える

指定したリクエストパターンに対してガツガツとHTTPしてくれるツール、と言えばJMeterあたりが使えそうでしょうか。
が、自分は練度の低いエンジニアであるため、使い方を調べるところからスタートした結果、案外時間がかかるかも知れない…。
それであれば、やることは単純ですし手に馴染んだ言語でササっと書いてしまった方が早いしモチベーションも上げやすいと考えました。
また、DBアクセス、URL生成、HTTPリクエスト、結果出力と、1つのコード内でシームレスにできるのは楽でもあります。

自分のチームにおいてはRubyが一級市民ではありますが、パフォーマンスを考えると並列アクセスがしやすい言語の方が良いです。 Rubyでもできないことはないですが、せっかくなので他の言語を使いましょう。

というわけで、比較的手に馴染んでいて並列処理のしやすいClojureを選びました。
使い捨てのコードなので、後に誰かがメンテがするようなこともなく苦情も来ません。たぶん。 (このようにして業務の中で第二言語の練度を高めていくのは、個人的に好きな学習スタイルです)

実装する (体よく車輪を再発明する)

まずは雛形を作ります。

$ lein new app reqs

そしてproject.cljに依存ライブラリを記述した上で、REPLを起動してsrc/reqs/core.cljにコードを書いていきます。

HTTPリクエストにはclj-httpを用います。 {:async? true}オプションによる非同期リクエストをベースにしているので、明示的に並列処理は書いていないです。

(ns reqs.core
  (:require [clojure.core.async :as async]
            [clj-http.client :as client])
  (:gen-class))

(defn- fetch-jobs-from-db
  "DBから求人情報を取得する"
  [] ...)

(defn- job->url
  "求人情報からエラー確認対象のURLに変換する"
  [job] ...)

(defn- async-parallel-req
  "指定したURL群に対して非同期にがががっとリクエストする"
  [urls ch]
  (doseq [url urls]
    (client/get url {:async? true}
                (fn [_] (async/put! ch (str "OK " url)))
                (fn [_] (async/put! ch (str "NG " url))))))

(defn- async-parallel-req-with-log
  "リクエストしてその結果をシリアルに出力する"
  [urls]
  (let [ch (async/chan)]
    ;; 出力を一本化するためのgoマクロ
    (async/go
      (loop [i 0]
        (let [log (async/<! ch)]
          (println (str i ": " log))
          (recur (inc i)))))
    (async-parallel-req urls ch)))

(defn -main [& args]
  (->> (fetch-jobs-from-db)
       (map job->url)
       async-parallel-req-with-log))

fetch-jobs-from-dbのところは、自分はKormaを用いました。
ここで対象となるレコード数が多い場合には遅延シーケンスを使って少しずつDBから読み込むようにするのもアリでしょう。

さて、これで完成です。
$ lein runっと。

出力の一本化

printlnするところでgoマクロを使っていますが、これは並列実行処理が同時に標準出力を用いた場合への対応です。
この対応をしなかった場合には、概ねは以下のように表示されるものの

OK https://domain.com/path/to/123
OK https://domain.com/path/to/124
OK https://domain.com/path/to/125

たまに以下のようになります。

OK https://domain.com/path/to/126OK https://domain.com/path/to/127

OK https://domain.com/path/to/128

したがって出力処理を一本化して、表示が崩れないようにしています。

なお、今回は標準出力を使っていますが、出力先が同時書き込みできない類のものであればこのような対処が必要となります。

ちなみに起動が遅いのが気になるのなら

JVM系言語の宿命ですね。

コンパイルをしてDripを用いるのはいかがでしょうか。
Dripをインストールした上で以下のようにします。

$ lein uberjar
$ drip -jar target/uberjar/reqs-0.1.0-SNAPSHOT-standalone.jar

結果

上記のプログラムと約10数万件あるジョブセンスの求人データを用い、2件のバグを発見しました。

これは前職での経験ですが、テスト専門の業者に依頼したところ、社内メンバーの半分のテストケースで1.5倍のバグが検知されたという話がありました。
リブセンスにおいてはテストコードを書く文化が根付いているものの、それとは別の話として、テストが自動であろうと手動であろうと「いかに効果的なテストパターンを想定するか」は重要であると考えさせられます。

テストにおいても効果的なLazyinessを発揮していきつつ、またモチベーティブに仕事ができるよう心掛けていきたいです。

気軽に試せるエンタープライズSDS「ScaleIO」を試してみた

こんにちは、インフラグループの水野です。
みなさんネットワークストレージ大好きですよね?
NFSやFC(Fiber Channel)-SAN、iSCSI、GlusterFS、Ceph、広義の意味ではオブジェクトストレージのAmazon S3、Swift etc… 長年利用されているものから新しいもの、エンタープライズからオープンソースまで様々あると思います。
今回はScaleIOの導入検証する機会がありましたのでご紹介させていただきます。

What’s ScaleIO?

EMC ScaleIO (以下ScaleIO)はEMCが提供しているエンタープライズ向けのSoftware Defined Storageプロダクトです。
同様のものとしてOSSのCephがしばしば挙げられます。

ScaleIOは以下のような特徴を持っています。

  • ソフトウェアで定義された、ブロックストレージを提供
  • 数千ノード規模まで対応しており、台数の増減が容易
  • 一部ノードがダウンしても運用継続可能な耐障害性を備える
  • 高速、高性能(特にCephより高速であると謳っている)
    • オーバーヘッドも少ないため、ハイパーバイザーなどとの同居が可能
  • インストールが容易、管理用のUIが便利

2015年ごろから検証用途であれば機能・容量共に無制限で利用できるようになったということがあり、気軽に検証できるようになりました。

いざ導入

公式で提供されているドキュメントが非常にわかりやすいのでそちらにしたがって進めていきます。

構成

ScaleIOは下記コンポーネントで構成されます。

  • GW(GateWay)
  • IM(Installation Manager)
  • MDM(Meta Data Manager)
  • TB(Tie Breaker)
  • SDS(ScaleIO Data Server)
  • SDC(ScaleIO Data Client)

また、公式ドキュメントではスタンダードな最少3台構成と冗長性を高めた最少5台構成が提案されています。

  • 最少3台構成
    • Master MDM * 1
    • Slave MDM * 1
    • TB * 1
  • 最少5台構成
    • Master MDM * 1
    • Slave MDM * 2
    • TB * 2

今回は最少3台構成+GW / IM用1台の合計4台構成で試してみます。 ScaleIOが扱うボリューム領域を別途用意する必要がありますが、今回はLVMを使って切り出すことにしました。
詳細情報は以下のとおりです。

役割 IPアドレス ディストリビューション ScaleIO用の論理ボリューム名(参照してるデバイス名)
GW / IM 192.168.10.1 Ubuntu 16.04 LTS
Master MDM 192.168.10.2 Ubuntu 16.04 LTS /dev/VolGroup00/lv_scaleio( /dev/dm-2 )
Slave MDM 192.168.10.3 Ubuntu 16.04 LTS /dev/VolGroup00/lv_scaleio( /dev/dm-2 )
TB 192.168.10.4 Ubuntu 16.04 LTS /dev/VolGroup00/lv_scaleio( /dev/dm-2 )

最終的には以下のような全体像になります。 f:id:nashiox:20170622201229p:plain

インストール

パッケージをダウンロード

インストールに必要なパッケージ群をダウンロードします。 必要なものは以下からダウンロードできます。

日本語版のダウンロードページだと現在(2017/06/21) v.1.32.3が、海外版のダウンロードページだとv.2.0.1.2がダウンロードできます。日本語ページのバージョンがちょっと古いですね。
今回は最新のv.2.0.1.2を利用するため海外版のページからScaleIO Linux版をダウンロードリンクから落とします。

ダウンロードしたものは以下のようにして解凍しておきましょう。

$ unzip path/to/ScaleIO_Linux_v2.0.zip
$ ls ScaleIO_2.0.1.2_Complete_Linux_SW_Download
Documentation                                      ScaleIO_2.0.1.2_Gateway_for_Windows_Download       ScaleIO_2.0.1.2_SLES_12.1_Download
ScaleIO_2.0.1.2_GPG-RPM-KEY_Download               ScaleIO_2.0.1.2_RHEL_OEL6_Download                 ScaleIO_2.0.1.2_UBUNTU_14.04_Download
ScaleIO_2.0.1.2_GUI_for_Linux_Download             ScaleIO_2.0.1.2_RHEL_OEL7_Download                 ScaleIO_2.0.1.2_UBUNTU_16.04_Download
ScaleIO_2.0.1.2_GUI_for_Windows_Download           ScaleIO_2.0.1.2_SLES_11.3_Download                 ScaleIO_2.0.1.2_XEN_6.5_Download
ScaleIO_2.0.1.2_Gateway_for_Linux_Download         ScaleIO_2.0.1.2_SLES_12.0_Download                 ScaleIO_v2.0.x_Linux_Windows_Quick_Start_Guide.pdf

ScaleIO Gatewayのインストール

まずはインストーラーをセットアップするため、ScaleIO Gatewayをインストールします。

Gatewayインストール用のrpm/debパッケージがあります。

$ ls ScaleIO_2.0.1.2_Complete_Linux_SW_Download/ScaleIO_2.0.1.2_Gateway_for_Linux_Download
EMC-ScaleIO-gateway-2.0-12000.122.x86_64.rpm ScaleIO_Complete_Config.csv                  emc-scaleio-gateway_2.0-12000.122_amd64.deb
EMC_ScaleIO_Software_Agreement.txt           ScaleIO_Minimal_Config.csv

今回はUbuntuで利用するのでemc-scaleio-gateway_2.0-12000.122_amd64.debをGatewayホストにアップロードしておきます。

インストーラー画面の初期パスワードを決めてインストールを行います。

[root]
### rpmとjavaが必要なので予め入れておきます
$ apt-get install rpm openjdk-8-jre

### 初期パスワードをGATEWAY_AMDIN_PASSWORD環境変数に渡してインストールします
$ GATEWAY_ADMIN_PASSWORD={{ パスワード }} dpkg -i /tmp/emc-scaleio-gateway_2.0-12000.122_amd64.deb
~~~~~ 省略 ~~~~~
The EMC ScaleIO Gateway is running. PID=11422.

https://192.168.10.1(Gatewayをインストールしたアドレス)にアクセスをしてインストーラー画面が表示されればOKです。 初回の接続が重く、タイムアウトする場合があるのでローカルからcurlなどでアクセスしておくと良いです。

デフォルトでは80/443でリッスンしていますが、ポートを変えたい場合は/opt/emc/scaleio/gateway/conf/server.xml内の${http.port}${ssl.port}を任意のポートに変えて、gatewayを再起動します。

$ sudo systemctl restart scaleio-gateway

ScaleIOのインストール

https://192.168.10.1でインストーラーにアクセスし、User name: adminPassword: {{ パスワード }}でログインします。 f:id:nashiox:20170621214628p:plain

ログインができると次のような画面になります。 f:id:nashiox:20170621214710p:plain

ガイドに従って、Get Startedボタンからinstallation packageのアップロードに進みます。 f:id:nashiox:20170621215243p:plain

Blowseボタンを押してインストールに必要なパッケージをアップロードしていきます。 ダウンロードしてきたパッケージ群の中に各ディストリビューションのインストールパッケージが入っています。

$ ls ScaleIO_2.0.1.2_Complete_Linux_SW_Download/ScaleIO_2.0.1.2_UBUNTU_16.04_Download
EMC-ScaleIO-lia-2.0-12000.122.Ubuntu.16.04.x86_64.tar    EMC-ScaleIO-sds1-2.0-12000.122.Ubuntu.16.04.x86_64.tar   EMC-ScaleIO-xcache-2.0-12000.122.Ubuntu.16.04.x86_64.tar
EMC-ScaleIO-mdm-2.0-12000.122.Ubuntu.16.04.x86_64.tar    EMC-ScaleIO-sds2-2.0-12000.122.Ubuntu.16.04.x86_64.tar   EMC_ScaleIO_Software_Agreement.txt
EMC-ScaleIO-sdc-2.0-12000.122.Ubuntu.16.04.x86_64.tar    EMC-ScaleIO-sds3-2.0-12000.122.Ubuntu.16.04.x86_64.tar
EMC-ScaleIO-sds-2.0-12000.122.Ubuntu.16.04.x86_64.tar    EMC-ScaleIO-sds4-2.0-12000.122.Ubuntu.16.04.x86_64.tar

今回はUbuntu16.04なのでそこからtarファイルをすべて選択してUploadボタンを押します。 アップロードが完了すると次の画面のようになると思います。 問題なければProceed to Installボタンで次に進みます。 f:id:nashiox:20170621215705p:plain

次はScaleIOクラスタの構成情報をアップロードします。 クラスタ構成を記述した以下のようなCSVを用意します。

IPs,Password,Operating System,Is MDM/TB,Is SDS,SDS Device List,Is SDC
192.168.10.2,rootパスワード,linux,Master,Yes,/dev/dm-2,Yes
192.168.10.3,rootパスワード,linux,Slave,Yes,/dev/dm-2,Yes
192.168.10.4,rootパスワード,linux,TB,Yes,/dev/dm-2,Yes

上記ファイルをBlowseボタンで選択し、Upload Installation CSVボタンでアップロードします。 f:id:nashiox:20170621220539p:plain

アップロードが完了すると次のような画面になると思います。 f:id:nashiox:20170621220143p:plain

MDM Password、LIA Passwordをそれぞれ入力し、Licenseにチェックを入れます。 あとはTopologyの内容がCSVに設定した項目とあっているかを確認して、次へ進みます。

ここまで来るとあとはほぼ自動でインストールが進みます。 各インストールフェーズが終わるたびにボタンを押して進んでいきます。 f:id:nashiox:20170621220705p:plain

インストールが全て完了すると以下のようになります。 Mark Operation Completedボタンを押して完了しましょう。 f:id:nashiox:20170621220815p:plain

バグフィックス

Ubuntu16.04にインストールをしていくと、SDCがうまくインストールできない事象にぶつかりました(同様にCentOS7でもインストールしてみましたがそちらでは発生しませんでした)。
ぶつかったのは以下の通りですが、一通り解決した方法を記載しておきます。

  • systemdのunitファイルが無い
  • unitファイルが利用する実行ファイルのパスが違う
  • driverを取得しに行くところの設定が無い

systemdのunitファイルがない

以下のパスにありました。

$ sudo cp -a /opt/emc/scaleio/sdc/bin/sdc.service /etc/systemd/system/
$ sudo systemctl daemon-reload

unitファイルが利用する実行ファイルのパスが違う

先ほど配置したファイルを書き換えました。

$ diff -u /opt/emc/scaleio/sdc/bin/sdc.service /etc/systemd/system/sdc.service
--- /opt/emc/scaleio/sdc/bin/sdc.service    2016-12-23 15:13:30.000000000 +0900
+++ /etc/systemd/system/sdc.service 2017-06-22 15:30:39.117453761 +0900
@@ -11,8 +11,8 @@
 After=network.target

 [Service]
-ExecStart=/opt/emc/scaleio/sdc/bin/scini start > /dev/null 2<>/dev/null
-ExecStop=/opt/emc/scaleio/sdc/bin/scini stop > /dev/null 2<>/dev/null
+ExecStart=/etc/init.d/scini start > /dev/null 2<>/dev/null
+ExecStop=/etc/init.d/scini stop > /dev/null 2<>/dev/null
 Restart=always
 RestartSec=0
 RemainAfterExit=true


$ sudo systemctl daemon-reload

driverを取得しに行くところの設定が無い

下記URLを参考に/bin/emc/scaleio/scini_sync/driver_sync.confを書き換えました。

EMC Community Network - DECN: ScaleIO: Set SDC Performance Profile and Set SDC Name Failed

github.com

使ってみる

今回はOpenStackのcinderバックエンドとして組み込んでみます。
/etc/cinder/cinder.confを次のように書き換えます。

$ sudo vim /etc/cinder/cinder.conf
[Default]
enabled_backends = lvm,scaleio  ### scaleioを追記

### 以下を最下部に追記
[scaleio]
volume_driver = cinder.volume.drivers.dell_emc.scaleio.driver.ScaleIODriver   ### 新しめのOpenStackなら同梱されてます
volume_backend_name = scaleio
san_ip = {{ ScaleIO GatewayのIP }}
sio_protection_domain_name = default
sio_storage_pool_name = defaultSP
sio_storage_pools = default:defaultSP
san_login = admin
san_password = {{ MDMのパスワード }}
san_thin_provision = false

$ sudo systemctl restart openstack-cinder-api openstack-cinder-scheduler

### openstack側にvolume設定をします
$ cinder type-create scaleio
$ cinder type-key scaleio set volume_backend_name=scaleio

これでOpenStack側でボリュームを作成する際に、scaleioをストレージの種別で選択すればScaleIO上にボリュームが作られます。
f:id:nashiox:20170622193550p:plain

オーバーヘッドが少ないのでコンピュートノードにScaleIOをインストールすることもできるそうです。

ノードの増減

ノードを増やすときはインストールのときと同様にWebインストーラーから行います。 先ほど用意したCSVを以下のように修正しましょう。

IPs,Password,Operating System,Is MDM/TB,Is SDS,SDS Device List,Is SDC
192.168.10.2,rootパスワード,linux,Master,Yes,/dev/dm-2,Yes
192.168.10.3,rootパスワード,linux,Slave,Yes,/dev/dm-2,Yes
192.168.10.4,rootパスワード,linux,TB,Yes,/dev/dm-2,Yes
192.168.10.5,rootパスワード,linux,,Yes,/dev/dm-2,Yes

192.168.10.5を追加してみました。 あとは先ほど同様CSVをアップロードしてインストールを進めていきます。 この時、下記画面でAdd to existing sys.に変えるのを忘れないようにします。 f:id:nashiox:20170621221614p:plain

これで簡単にノードを増やすことができます。

再起動等でノードが切り離された場合でも自動で復旧しますし、データはミラーリングされているため、一部ノードが切り離されたとしても継続して動作します。 この辺も非常に頭が良くて便利です。

ScaleIO GUIで見てみる

Windowsに同梱のGUIツールをインストールしてみました。 表示はこのような感じになります。 f:id:nashiox:20170622174310p:plain

ストレージ容量やIO速度、管理してる台数、アラートなどなど様々な項目があり非常に見やすいです。

まとめ

GUIでインストール・管理も簡単、ノードの増減による拡張性が高いなどさすがはエンタープライズ製品だなという感じでした。 エンタープライズ製品のストレージを触るためには通常費用が発生するので気軽に試すという機会はなかなか作れませんが、検証用途なら機能無制限で無料で利用できるというのは非常に良かったです。 本番導入にはライセンスが必要になりますので、導入は予算との兼ね合いになると思います。 しかしながら、管理・運用の容易さを考えると検討の価値は十分あるのではないかと思いました。

AWSの構成図をいい感じに出力してくる「Cloudcraft」を使ってみた

こんにちは、リブセンスのインフラグループに所属している竹本です。 主にDOOR賃貸(AWS)や転職ドラフト ITエンジニア版 / デザイナ版(オンプレ)のインフラまわりを担当しています。 インフラグループでは、各プロダクト毎に担当者(窓口役)をつけて定期的にローテーションをしているため、業務引き継ぎの際に構成図が必要な場面が多々あります。 そこで本日はAWSの構成図をいい感じに出力してくれる「Cloudcraft」についてご紹介したいと思います。

背景

DOOR賃貸では、ここ1年でELBをALBにリプレースしたり、一部APをRails化したりとインフラの構成が日々変化しています。 しかしながら、構成図の更新は手間がかかることもあり、後回しにしがちです。 また、作成者によって粒度が違うので解説が必要だったり、手作業なので漏れや間違いが発生する可能性もあります。

今回は、そんな課題を解決してくれる可能性を秘めたツール「Cloudcraft」を試してみました。

Cloudcraft

概要

AWSの構成図を3Dでいい感じに描けるアプリです。 使い方は、こちらからSign upすればすぐに使えます。 Google OAuthにも対応してます。 見た目かなりカッコイイです。

f:id:livesense-made:20170524110347p:plain

有料の「Pro Solo」プラン以上を契約すると、「Live Sync機能」が使えます。 この機能は、IAMにCloudcraft用のロールを作成し、「ReadOnlyAccess」ポリシーを付与することで利用できるようになります。 登録したアカウントのAWS環境をスキャンし、構成図を作成してくれるという優れものです。

料金プラン

詳細はこちら から確認できます。

f:id:livesense-made:20170529124459p:plain

Freeプランでも構成図を作成したり、Exportしたり、各コンポーネント(EC2等)のコストを表示できます。 f:id:livesense-made:20170524110830p:plain

Cloudcraftを使ってみた

一通り使ってみた所感をまとめたいと思います。 ご活用頂ければ幸いです。

初回作成

Live Sync機能を使って最初にできた構成図がこちら。 f:id:livesense-made:20170524112606p:plain なんだこれは(笑) カオス過ぎて記念にスクリーンショット取ってしまいました。 スキャンから構成図の作成まで自動でやってくれると思っていたのですが、 コンポーネントの配置は自分でやらないといけないようです。

最終的に出来上がった構成図

主要な部分のみですが、DOOR賃貸のステージング環境構成図を作ってみました。

f:id:livesense-made:20170529134554p:plain

良かった点

Live Sync機能

すでにご紹介した通り、スキャンすれば当該AWSアカウントで使用しているコンポーネントが自動でリストアップされます。 漏れ無く構成図を書くことができますね。

例) コンポーネントのリスト

f:id:livesense-made:20170529132210p:plain

関係する各コンポーネント間を自動でリンク

Live Syncでリストアップされたコンポーネント(例えばRoute53)をクリックするだけで、 Route53とそれに紐づくELBが画面上に出力されます。 不要なリソースが起動している等、予想と違う構成になっていた場合に気づきやすいので有用ですね。

例) 構成図のサンプル

f:id:livesense-made:20170524113701p:plain

フィルタ機能

フィルタ機能があり、例えば「staging」と入力すれば、インタンス名やtag等にstagingと入っているものだけが表示されます。 タグをうまく使えば、環境や機能ごとに構成図が作れそうです。

例) フィルタ入力画面

f:id:livesense-made:20170525184945p:plain

コンポーネントの自動更新

DOOR賃貸では、EC2を blue/greenでデプロイしています。 AMIに変更があれば、EC2のblue/greenを入れ替えるのですが、なんとその変更にも自動で追従してくれます。

blue/greenデプロイの詳細についてこちらのブログをご参照ください。

構成図を作成するだけで、月額料金が分かる

「BUDGET」タブを選択すれば、構成図上にあるコンポーネントの料金を出力してくれます。 設計の段階でおおよそのコストが分かるのはありがたいですね。

例) バジェット画面のサンプル

f:id:livesense-made:20170529153310p:plain

マネジメントコンソールへのリンク

例えば、構成図上のEC2コンポーネントをクリックすると以下のような画面になります。

例) EC2の詳細画面

f:id:livesense-made:20170529154256p:plain

出力されるインタンスIDをクリックするとマネジメントコンソールの当該EC2ページに遷移します。 ELB等の他コンポーネントも同様です。

あったらいいなと思う機能

サブネットの自動配置

サブネットがあるとかなり見やすくなるのですが、 自動ではサブネットは追加されません。手動でサブネットを追加しようと思うと画力が必要になってきます。 サブネットの自動追加機能が待たれます。

注意点

有料プランの場合、グリッドのサイズは無制限ですが、freeプランの場合は制限があります。 グリッドが足りなくなる可能性がありますのでご注意ください。

例) 有料プランでグリッドを無制限にした場合

f:id:livesense-made:20170526165722p:plain

まとめ

ある程度直感的に操作できるようなってはいますが、それでも操作に慣れるまでは時間がかかります。 また、構成図にサブネットがあるのとないのでは仕上がりがだいぶ違ってきますが、今のところ自動でサブネットは追加されません。 Pro Solo以上のプランを利用する場合、月49ドル以上の費用がかかってしまいますが、環境によっては費用以上の効果を発揮すると思います。 例えば、一度しっかりと作り込んでおけば、インフラ構成に変更があったとしても差分は自動更新してくれる(配置は手動ですが)ので、更新はかなり楽になると思います。 また、追記漏れや作成者によって粒度が違うといった問題も解消されます。 無料でも試せるのでこれを機会に検証してみることをオススメします。

番外編

havaも使ってみた

今回ご紹介したCloudcraft以外にも、同様にAWSの構成図を作れるhavaというサービスがあったのでご紹介します。 こちらはスキャンすると構成図の作成まですべて自動でやってくれます。 仕上がりがこちら。

f:id:livesense-made:20170526170530p:plain

すごく縦長になってしまいました。縦置きのディスプレイが必要な長さです。 こちらは構成図自体の修正はできないようです。 シンプルな構成であれば活用できるかもしれません。 よかったらこちらもお試しください。

転職会議のECSデプロイ事情

こんにちは、転職会議でプログラマをやっている山内です。 皆さんはDockerを使っていますか? 転職会議では、AWSに移行する際に一部のアプリケーションにおいてDockerを採用しました。

AWS上でDockerコンテナを動かすのにECSを利用しています。 今日は転職会議のECSへのDockerデプロイツールであるpnzrについて紹介します。

当初の運用方式

転職会議はAWS移行した際にDockerを導入しました。 AWSが公式で用意しているAWSコンソールには、最低限の機能しか用意されていません。 このためDockerコンテナのデプロイはchat botとlambdaを利用して行っていました。

デプロイに利用するtask definition templateにはデータベースのパスワードなどの秘密情報が含まれるため、githubのリポジトリに含めることができません。 そこで、秘密情報はS3に設置するようにしました。

当初のデプロイ方式をfig1に示します。

f:id:ieee0824x:20170526140742p:plain
fig1: 当初のデプロイ方式

この構成ではいくつか問題が有りました。

まずtask definitionは日々複数の開発者によって更新されるため、なるべくgitによるバージョン管理を行いたいです。 またS3に置いているとはいえ、秘密情報を平文で保存するのはセキュリティ上よくありません。 理想的には以下のような方式でtask definitionの管理とデプロイをできるとよさそうです。

f:id:ieee0824x:20170526140825p:plain
fig2: 理想的なデプロイ方式

何か良いものは無いか検討した

いろいろ下調べをした上でやりたいことはhakoが近かったです。 ですが以下のような点があったので採用しませんでした。

  • 自分たちでhakoを管理しようと思ったらドキュメントが少ない
  • 設定の暗号化をしたい
  • 複数のAWSアカウント(本番環境/検証環境)へのデプロイをやりたい
  • ELBの管理はTerraformでやるので必要ない

作ったもの

前述のようなことを行うため、Go言語製のコマンドラインツール pnzr (“ぱんつぁー”)を作りました。

転職会議ではchat botからpnzrを呼び出すことでデプロイを行っています。

f:id:ieee0824x:20170526140853p:plain
fig3: pnzrのデプロイ方式

このpnzrはECSのServiceとtask definitionの管理だけを行うという方針で設計されており、ELBやクラスターの管理は行いません。 ELBの管理も原理的に不可能ではありませんでしたが、ELBは別途Terraformで管理をする予定だったので含めませんでした。

pnzrには次の5つの機能があります。

  • ECSのデプロイ
  • 設定の分割管理
  • 設定の暗号化
  • 暗号化されたファイルの確認
  • 暗号化されたファイルの編集

基本的な設定項目はECSのtask definitionの項目に依存します。 実装の都合により、jsonのキーはキャメルケースにしておく必要があります。

pnzrで簡単なアプリケーションをデプロイする

例えば test-cluster という名前のクラスターに sample という名前のサービスをデプロイするとします。 その時の設定を sample.json という名前で保存したと仮定します。 その時の設定を例に示すと以下のようになります。

{
    "ECS":{
        "Service":{
            "Cluster":"test-cluster",
            "DeploymentConfiguration":{
                "MaximumPercent":200,
                "MinimumHealthyPercent":50
            },
            "DesiredCount":1,
            "LoadBalancers":[
                {
                    "ContainerName":"sample",
                    "ContainerPort":80,
                    "TargetGroupArn":"taget group の arn"
                }
            ],
            "Role":"ecsServiceRole",
            "ServiceName":"sample",
            "TaskDefinition":"sample-app"
        },
        "TaskDefinition":{
            "ContainerDefinitions":[
                {
                    "Cpu":0,
                    "Essential":true,
                    "Image":"ieee0824/dummy-app:latest",
                    "MemoryReservation":2048,
                    "Name":"sample-app",
                    "PortMappings":[
                        {
                            "HostPort":0,
                            "ContainerPort":8080,
                            "Protocol":"tcp"
                        }
                    ]
                }
            ],
            "Family":"sample",
            "NetworkMode":"bridge",
            "TaskRoleArn":"task role の arn"
        }
    }
}

前述の通りpnzrではロードバランサーの管理は想定していません。 ロードバランサーとtarget groupは予め何らかの方法で用意してください。

ロードバランサー周辺の設定は少しわかりづらいので説明しておきます。 ECSにおいてデプロイされたコンテナがロードバランサー紐づく時target groupを利用して紐付けられます。 なのでpnzrでデプロイする前にロードバランサーを作成しておき設定にarnを記述する必要があります。 ロードバランサーのarnに紐づくわけではないことにご注意ください。

"LoadBalancers":[
    {
        "ContainerName":"sample",
        "ContainerPort":80,
        "TargetGroupArn": "taget group の arn"
    }
]

おおよそのデプロイするための準備はこれで完了です。 pnzrにdeployオプションと先ほど作った設定ファイル名を渡すことでデプロイできます。

$ pnzr deploy sample.json

ECSの設定項目は多岐にわたるのでここに書いてない設定項目は多々あります。 設定項目はほぼtask definition通りなので、先に手動で設定を行って確認し、それをもとにjsonを書くとわかりやすいと思います。

設定ファイルを分割する

pnzrでは設定ファイルを分割することができます。 例えば本番環境と検証環境を分けてデプロイする時環境に依存する項目だけを切り出して管理するのに役立ちます。

まず本体となる設定ファイルを main.json とします。 main.jsonの中身を次のようにします。

{
    "ECS":{
        "TaskDefinition":{
            "ContainerDefinitions":[
                "Environment": $env
            ]
        }
    }
}

$env と書かれたjsonのフォーマットにそぐわないものが登場しました。 $env はpnzrの設定ファイルにおける変数です。

本体となる設定ファイルを作ったら次に本体に埋め込まれる情報を仕込んだファイルを作ります。 次のようなファイルを vars/config.json として作ります。

{
    "env" : [
        {
            "Name": "FOO",
            "Value": "var"
        }
    ]
}

デプロイのタイミングで本体の設定ファイルと分割設定の入ったディレクトリを指定することで設定が埋め込まれます。

$ pnzr deploy -f main.json -vars_path vars/

設定が埋め込まれることによって次のような設定としてデプロイされます。

{
    "ECS":{
        "TaskDefinition":{
            "ContainerDefinitions":[
                "Environment": [
                    {
                        "Name": "FOO",
                        "Value": "var"
                    }
                ]
            ]
        }
    }
}

この時 vars ディレクトリの中は config.json のみでしたが複数のjsonが混在していても問題ありません。

pnzrで秘密情報を扱う

pnzrは設定ファイルの暗号化に対応しています。 Ansibleでいうところのvaultのようなものです。 pnzrにおいて設定の暗号化は vault オプションを利用します。

たとえば以下のような secure.json を暗号化してみます。

$ pnzr vault -encrypt -key_id ${KMS_KEY_ID} secure.json
{
    "db_password": "foo",
    
}

暗号化すると次のようになります

{"type":"kms","cipher":"EQECAHh5q0tFgkoZe9C6czjL/QJ6+DlDwjLL6N3YmGIcYUKyuwAAAKkwgaYGCSqGSIb3DQEHBqCBmDCBlQIBADCBjwYJKoZIhvcNAQcBMB4GCWCGSAFlAwQBLjARBAxLgpVvtPehqdE3J5YOytNu974QzkXRoMqhU1OUfRnI413s9W7iqs5LB8n2CjIDd0OxsHgUMb2F25tb+B0f5OBgPDvQ/VL/sj4hJwpbXjkTdebIaeFA16b4A3gFaPNQmHF"}

暗号化した設定は平文の設定ファイルと同じように扱うことができます。 暗号化したものをデプロイするときはkms key idをデプロイ時に指定します。 kms key idを指定すること意外は平文をデプロイする時と変わりません。 pnzrが自動的に暗号化したファイルを復号してECSにデプロイします。

# varsは平文と暗号文の入ったディレクトリ
$ pnzr deploy -vars_path vars/ -key_id ${KMS_KEY_ID} main.json

f:id:ieee0824x:20170526140931p:plain
fig4: 暗号化したファイルをデプロイする図

暗号化した内容を編集したいときは vault-edit オプションを使用することで安全に編集することができます。 vault-editは環境変数に依存して起動するエディタが決定されます。
詳細はwikiをご覧ください。

さいごに

以上、簡単に転職会議でのDockerの運用についてご紹介しました。

些細な事ですがエンジニアのお仕事を楽にできれば幸いです。