こんにちは、久々の更新です。
クラウドストレージ?とは少し異なるのですが、
FOBAS CSC が利用できる、バックグラウンド
ストレージサービスとして、HDFS (Hadoop
Distributed File System) を追加しました。
「クラウド」とならんで、バズワードまっしぐらの
「ビッグデータ」ブームに乗って、Hadoop が
とても注目されています。
別に、そのブームにあやかった訳ではないのですが、
FOBAS CSC と HDFS の組み合わせは、とても
ユニークな特徴を提供できる可能性があり実装
してみました。
元々、HDFS は、Hadoop が目的としている
大規模クラスタシステムを用いた分散処理で
処理対象となるデータを格納するための分散
ファイルシステムです。
コストの安い、言いかえれば信頼性がそれ程
高くないサーバを大量に組み合わせて、大規模な
計算処理を行う事を想定しているために、以下の
ようなメリットがあります。
1) 低コスト・高性能
同等規模のシステムを単一ハードウェアで構成
する場合と比較して、低コストで実現できる。
2) 高スケーラビリティ
サーバノード数に対するスケーラビリティが
極めて高い。
3) 高信頼性
サーバノード障害の影響を受けにくく信頼性
が高い。また自律的にミラーの再構成等を
行うため効率的。
一見良い所だらけに思えますが、HDFS は汎用の
ファイルシステムではありません。大規模ファイル
の順次処理に最適化されているため、通常のファ
イルシステムとして利用するには、以下の様な問題
があります。
1) 小規模、大量ファイルのI/Oパフォーマンス
少し使ってみた事のある方はご存じですが、
ファイルのロケーションを見つけて読み始める
までの性能はお世辞にも良いものではありません。
2) 更新処理 (Write-Once-Read-Many Model)
HDFS の特徴を表すもので、データの書き込みは
一度だけで、それを多くのユーザで参照する
というモデルです。多数のユーザから同一データ
を更新するという事を想定していません。
3) ファイルへのランダムアクセス
2)と関連しますが、アクセスはストリーム経由の
順次書き込みと読み込みのみです。
ここまで読むと、HDFS はファイルシステムとしては、
かなり個性的な、用途が限られるものだという事が
ご理解いただけるかと思います。
そこで、FOBAS CSC の出番です。
ご存じかと思いますが、FOBAS CSC はユーザ側
から見ると、ファイルキャッシュにアクセスする
通常の汎用ファイルシステムです。
非同期で、バックグラウンドのクラウドストレージに
ブロック単位で書き込み、読み込みを行います。
HDFS の前段に FOBAS CSC を配置することで、
前述の HDFS のデメリットをすべて補完することが
できるのです。
この組み合わせによって、高信頼で高いスケーラ
ビリティをもつ高速な汎用ファイルシステムが、
低価格なサーバのクラスタシステムで構築できる
事になります。
オンプレミス、あるいはプライベートクラウドで
数10TBから数100TB のファイルシステムの構築が
必要なお客様は、是非一度ご検討ください。
まつした