: 機械学習系 Bigdata環境構築 3か月~

すこし本格的に 機械学習をやろうとして 3か月ぐらいまともにプログラムが組めてない
サーバーを立てて Hadoopをどうたらこうたら
クラスタ林gで100台ぐらいのPCを1分借りたいだけなんだが Amazon EMRなどを使えばいいというはなしはおいておくと
やれECRだECSだと様々な単語が飛び出し
やれしらべたりなんだりで
完全ローカルな環境にレジストリ立てるのに外部に公開したWebサーバが必要な場合があるなど
めちゃくちゃ感があるので(Docker HUBなどをつかうのもためした)

環境構築するだけで 初見だとWebサーバの構築などに慣れていて 3か月くらいかかるなと
クラスタリング設定したり
いろんな他のソフトの設定をしたり かなりたいへんで
ようやくJupyter notebookにもどって
機械学習のスクリプトをためせるかなみたいな。

EMRでやめときゃよかった まぁ というわけでこの辺はまだドキュメントも少ないので
結構環境構築に慣れていても 3か月は欲しい

Bigdata化しない機械学習の環境なら1人月もあればいい

Amazon純正のECRがいまいち難しいので
場合によっては SSL環境下のDocker Registryは自分で建てたほうが良いかもしれない
問題は Docker Registry が PULL専用の場合 CloundFrontで大規模配信で1024コンテナとかを短時間で配信しきれるかどうか
調査しておかなければいけないことは根深い
(さすがにコンテナを1024個デプロイするとなるとCloundFront級でないときつい 何が使えるか調査)

実験して確認するから 肝心の機械学習のコーディングできやしねぇ

いきおいDocker Registryをローカルに抱えたAMIでスタートしてぇ
さすがに1000台は客がついてから実験に入るとしても
100台ぐらいはデモンストレーションできないとだめだろうなと(ま少ない台数でクラスタリングでBigdataするアルゴリズムもあるけどそれはそれ)

調査する内容が多い(ダメだというにも調査は必要なために 良いプラン ダメなプランわける調査が長い)

Leave a Reply

メールアドレスが公開されることはありません。

注意(NOTICE)

コメントの投稿は反映までに時間がかかる場合があります。 Post Comments may take some minutes to publish.