研究内容 >> 大規模データ処理アルゴリズム

大規模データ処理アルゴリズム

GoogleやAmazon,Salesforce.comに代表されるクラウド・コンピューティングでは,非常に多くの低コストサーバマシンで構成した大規模クラスタ上でスケールアウト型の並列計算サービスを提供しています.そこでは検索処理やテキスト処理等の高い並列性を有する計算ジョブを非常に多くのタスクに分割し,大規模なワーカマシン群で並列処理を行うことで,高ジョブスループットを実現しています.しかしながら,非常に多くのワーカマシンでジョブをタスクレベルで分散実行する場合,ハードディスクやメモリ・CPUといったハードウェアの故障やソフトウェア的な不具合が頻発し,タスク処理時間に大きなばらつきが生じてジョブレベルの応答性能が悪化するという落伍者の問題が知られています.今後は今まで以上の巨大なワーカマシン台数から構成される超大規模データセンターによるスケールアウト型コンピューティング・サービスが世界規模で展開されることが予想され,このような超大規模データセンターで効率的なジョブ管理やタスク・スケジューリングを実現するためには,巨大なデータ処理を要求するジョブに対する効率的な計算資源の割当てや落伍者の問題を考慮したタスク・スケジューリングの開発が欠かせません.ここでは究極のクラウド・コンピューティング環境として特にスケールアウト・クラウドとモバイル・クラウドに焦点を当て,スケールアウト・クラウドでは数十万台規模のワーカマシンでBig Dataを効率よく並列処理するためのフレームワークや低電力で高信頼なジョブ処理を実現するジョブ管理法について,モバイル・クラウドでは計算資源や通信資源を伸縮自在(エラスティック)に割当・解放を行うエラスティック資源管理技術について,研究を展開していきます.

クラウド・コンピューティング上におけるスケジューリングの必要性について,以下の記事で平易に解説しています.
大規模システム管理研究室 ― Hadoop の投機的実行数は何故4なのか?―

ビッグデータ解析

全国規模の道路網や物流ネットワーク,Twitter等の巨大ソーシャルネットワークを解析し,種々の知見を得るためには,それらのデータに対して膨大な計算を要するため,ハードウェアとソフトウェア両方の性能改善が必須となります.本研究では,特に巨大なグラフデータに着目し,計算機で扱うためのデータ前処理に始まり,組合せ最適化の技術を用いたアルゴリズム設計,巨大なデータを圧縮状態のまま処理する技法の開発,Hadoop等による数百台規模の並列分散環境でのデータ処理技法,処理したデータの可視化技術等の研究開発を行います.理論だけではなく,当研究室専用の100台規模のクラスタサーバを用いた実験による性能評価も行います.

 

研究プロジェクト例

スケールアウトクラウド実測プロジェクト

100台以上の超高密度スケールアウトアーキテクチャのカートリッジ型サーバを用いた大規模分散並列処理の性能測定を行います.

     測定内容
     ・Hadoop環境の性能測定,評価
     ・MapReduce型ワークロードの実測
     ・データセンター内ネットワークのパケットトラヒック計測

     着目点
     ・ノード数がスケールすることによる処理性能の改善効果
     ・ノードの性能がばらついているときの処理性能の劣化度合い
     ・タスクスケジューリング方式の違いによる性能差

次世代型データセンター 電力消費マネージメントプロジェクト

大規模データセンターの電力消費量を抑えつつタスク処理を効率的に行う電源管理スケジューリングの開発を行います.
     ・タスクの到着パターンに適応した電源管理法
     ・タスクのクラス分類法とサーバ群管理

前のページ | 次のページ