: 機械学習 シーズン3 Docker.Cluster 1日目- Now 5日目

学習 シーズン1
 基礎理論 学習 1か月程度

機械学習 シーズン2
 環境調査
   Pythonや関連モジュールコンパイル
   Centos/Redhat調査
   Ubuntu(軽く)
   Hadoop/HDFS 簡易調査
機械学習 シーズン3 11/09-
 Docker.Cluster Hadoop/HDFS


1日目 (11/09)Docker/CentosにHadoopのインストール
     Docker/Centos on AmazonLinux固有の問題の調査
CDH3とCDH5の違いでつまる
     精神的につらい
起きた自傷の把握。hadoop namenode on docker まではちゃんと動いた。
     暫定Dockerfileを書いて手順確立 centos/Docker on AWS 無事動作
     設定ファイルがlocalhostで動いているので考える。
     Docker Container ImageのCommit(暫定)

    残作業 HDFS:hostnameの反映
        datanodeの設定
        Master&slaveの設定
        マルチコア
    18h/2-3h(休憩)


2日目 (11/10)2docker cluster(namenode+datanode) on 1EC2 で最小HDFS構成
datanode 確認
docker のタスク/スケジュールの概念に悩む。
namenode imageがうまく動かない。IP解決も含め問題を見つける 
         DDNSなしだとクラスターは難しい
datanode imageでも少し問題 初回は調整が大変
         Dockerで固定IPアドレスを使う。 – Qiita
docker network create –subnet=192.168.1.0/24 userdefinednw
docker run –net=userdefinednw –ip=192.168.1.2

        Dockerでホストとコンテナ間でのファイルコピー – Qiita
        docker cp target id:path
docker cp id:path target
namenodeではBackupはSlaveではなくSecondary namenodeという
作業予定
     –ip によるipアドレスの固定(仮想ネットワークの設定)
     Commit ImageにIP/DNS名の作業(hostnameの反映)ip
datanode image
     1namenode 1datanode の 2 node cluster の確認 lsはhostから
     4時間に1回 shutdown crontab


2019/11/10
vCPU ECU メモリ (GiB) インスタンスストレージ (GB) Linux/UNIX の料金

t2.small 1 変数 2 GiB EBS のみ 0.0304USD/時間
t2.medium 2 変数 4 GiB EBS のみ 0.0608USD/時間

g4dn.xlarge 4 該当なし 16 GiB 125 GB NVMe SSD 0.71USD/時間
a1.xlarge 4 該当なし 8 GiB EBS のみ 0.1284USD/時間
m4.xlarge 4 13 16 GiB EBS のみ 0.258USD/時間     
c5d.xlarge 4 17 8 GiB 1 x 100 NVMe SSD 0.244USD/時間
c5n.xlarge 4 該当なし 10.5 GiB EBS のみ 0.272USD/時間
r5d.xlarge 4 19 32 GiB 1 x 150 NVMe SSD 0.348USD/時間

hadoop-hdfs
hadoop-mapreduce
hadoop-yarn
hadoop-kms

sudo hadoop dfsadmin -report 2>&1 | grep -e name

12h (休憩3-4h)


3日目 (11/11) hadoop map reduce

datanode hadoop docker cluster だいたいノウハウがたまった(だいたい)
まだhadoopのインストールにyum cdh を使っているが
その辺は今後の課題とする

What is MapReduce? How it Works – Hadoop MapReduce Tutorial

Next task

Job tracker, Task tracker
kubernetes,Docker swarm

14h (休憩3-4h)

コンテナクラスタ管理ツール「kubernetes」でDockerをもっと便利に使う方法 – WPJ
replication

sudo dd if=/dev/zero of=/swapfile bs=1024 count=python -c "print(2*1024*1024)"

/usr/lib/hadoop-0.20-mapreduce/bin/hadoop-daemon.sh start jobtracker
sudo /etc/init.d/hadoop-0.20-mapreduce-jobtracker start

export HADOOP_JOBTRACKER_USER=ec2-user

hadoop jar hadoop-mapreduce-examples-2.7.4.jar wordcount /example/wordcount/input /example/wordcount/output
hadoop jar /usr/lib/hadoop-0.20/hadoop-examples.jar pi 100 100
hadoop jar /usr/lib/hadoop-0.20/hadoop-examples.jar pi 100 100

16h


4日目 (11/12) hadoop map reduce 2日目

Task tracker設定(あらかた調べたので今日は早いといいな)
hadoop jar コマンドのテスト
さすがに気力が尽きた
/etc/hadoop/slaves

Task tracker がTask trackerなのか!?
というのはおいておいて MRv1の設定がおおよそできるようにはなった。
まだ、docker clusterでやろうとするといろいろむずかしい。
まずはEC2でクラスタリングを組んだ


5日目
【Tips】AWS CLIを使ってAmazon EC2を起動・停止するワンライナーまとめ | Developers.IO

aws ec2 describe-instance-status –instance-ids
aws ec2 start-instances –instance-ids && aws ec2 wait instance-running –instance-ids

Hive on EMR
Hadoop(Jar) on EMR
Pyspark on EMR

EMRに戻ってきた。
基礎知識が違うので習得が早い

初めてのEMR!Hadoopクラスタを起動してみた。 | Developers.IO

sudo -u hdfs hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 64 10000 2>&1 | grep -e Finished -e Estimated

aws s3 ls s3://ap-northeast-1.elasticmapreduce.samples/


Leave a Reply

メールアドレスが公開されることはありません。

注意(NOTICE)

コメントの投稿は反映までに時間がかかる場合があります。 Post Comments may take some minutes to publish.