最近, YOLOv5, YOLOXやDetectron2などを少し触る機会があったので, まずはYOLOv5について少しまとめておく.
前回はYOLOv5インストールおよび推論編について記載したが, 今回は学習編ということで, オリジナルデータを使ったモデル学習について記す.
3. 学習[1]
3.1 アノテーション
オリジナルデータでモデル学習するためには, 学習データに対してこれは「XXX」, これは「YYY」などと, 検出する物体を囲む矩形(バウンディングボックス)の指定とラベルを付与する必要がある.
今回は, 以前開発したピープルカウンタ[2]のデータ(Intel Depth Sensorの距離画像を処理したもの)を用いる.
[画像]

上記画像に対し, 以下のようなYOLO形式のラベルファイルを作成する.
フォーマット:
クラス番号 物体重心位置[x, y] サイズ[w, h]
0 0.7469163501410836 0.22516973601567405 0.1852987834331521 0.2610307903593224 0 0.42223105003787753 0.647709003215434 0.23650070079951857 0.37299035369774913
注) 位置, サイズは, 画像サイズに対する比率で表現
この作業にはオーサリングツールを用いる.
無料のツールもいくつかあるので, ラベルの出力フォーマットや使いやすさなどから選べばよい.
以前はVoTT[3]を使用していたが, 最近はYOLO形式で出力できるIabelImg[4]を使用することも増えてきた.
データとラベルは, 以下のディレクトリに配置する.
data ─── train_data ─── images/
└── labels/
└── val_data ─── images/
└── labels/
3.2 学習
今回, 学習済みのyolov5s.ptをもとに, オリジナルデータとそのラベルファイルを使って再学習を行う.
学習手順
(1) 学習済みモデル(yolov5s.pt)をダウロードし, modelsの下に配置する.
学習済みモデルは, 下記のサイトからダウンロードすることができる.
github.com
(2) data/coco.yamlをベースに, configファイル(今回はhug2.yaml)を作成する.
configファイル内の学習/評価データのディレクトリ, クラス数, クラス名を設定する.
# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) train: data/train_data/images val: data/val_data/images # Classes nc: 1 # number of classes names: ['passer'] # class names
(3) モデルを学習する.
$ python train.py --data data/hug2.yaml --cfg models/yolov5s.yaml --weights models/yolov5s.pt --img 640 --batch-size 32 --epochs 100
train: weights=models/yolov5s.pt, cfg=models/yolov5s.yaml, data=data/hug2.yaml, hyp=data/hyps/hyp.scratch-low.yaml, epochs=100, batch_size=32, imgsz=640, rect=False, resume=False, nosave=False, noval=False, noautoanchor=False, noplots=False, evolve=None, bucket=, cache=None, image_weights=False, device=, multi_scale=False, single_cls=False, optimizer=SGD, sync_bn=False, workers=8, project=runs/train, name=exp, exist_ok=False, quad=False, cos_lr=False, label_smoothing=0.0, patience=100, freeze=[0], save_period=-1, local_rank=-1, entity=None, upload_dataset=False, bbox_interval=-1, artifact_alias=latest
From https://github.com/ultralytics/yolov5
e54e758..cee5959 master -> origin/master
* [new branch] apple/mps -> origin/apple/mps
8ddfd6a..152d964 classifier -> origin/classifier
* [new branch] test/FReLU_v2 -> origin/test/FReLU_v2
932f456..c58f17a test/conv_reduction -> origin/test/conv_reduction
* [new branch] test/convtranspose -> origin/test/convtranspose
* [new branch] test/dw5 -> origin/test/dw5
* [new branch] test/nature -> origin/test/nature
* [new branch] test/poly -> origin/test/poly
7ff7fc2..4d16efb test/python_versions -> origin/test/python_versions
* [new branch] ultralytics/HUB -> origin/ultralytics/HUB
* [new branch] v7.0 -> origin/v7.0
* [new branch] v7.0-dwconv2dtranspose -> origin/v7.0-dwconv2dtranspose
github: ⚠️ YOLOv5 is out of date by 50 commits. Use `git pull` or `git clone https://github.com/ultralytics/yolov5` to update.
YOLOv5 🚀 v6.1-161-ge54e758 torch 1.10.2+cu113 CUDA:0 (NVIDIA GeForce RTX 3060, 12054MiB)
hyperparameters: lr0=0.01, lrf=0.01, momentum=0.937, weight_decay=0.0005, warmup_epochs=3.0, warmup_momentum=0.8, warmup_bias_lr=0.1, box=0.05, cls=0.5, cls_pw=1.0, obj=1.0, obj_pw=1.0, iou_t=0.2, anchor_t=4.0, fl_gamma=0.0, hsv_h=0.015, hsv_s=0.7, hsv_v=0.4, degrees=0.0, translate=0.1, scale=0.5, shear=0.0, perspective=0.0, flipud=0.0, fliplr=0.5, mosaic=1.0, mixup=0.0, copy_paste=0.0
Weights & Biases: run 'pip install wandb' to automatically track and visualize YOLOv5 🚀 runs (RECOMMENDED)
TensorBoard: Start with 'tensorboard --logdir runs/train', view at http://localhost:6006/
Overriding model.yaml nc=80 with nc=1
from n params module arguments
0 -1 1 3520 models.common.Conv [3, 32, 6, 2, 2]
1 -1 1 18560 models.common.Conv [32, 64, 3, 2]
2 -1 1 18816 models.common.C3 [64, 64, 1]
3 -1 1 73984 models.common.Conv [64, 128, 3, 2]
4 -1 2 115712 models.common.C3 [128, 128, 2]
5 -1 1 295424 models.common.Conv [128, 256, 3, 2]
6 -1 3 625152 models.common.C3 [256, 256, 3]
7 -1 1 1180672 models.common.Conv [256, 512, 3, 2]
8 -1 1 1182720 models.common.C3 [512, 512, 1]
9 -1 1 656896 models.common.SPPF [512, 512, 5]
10 -1 1 131584 models.common.Conv [512, 256, 1, 1]
11 -1 1 0 torch.nn.modules.upsampling.Upsample [None, 2, 'nearest']
12 [-1, 6] 1 0 models.common.Concat [1]
13 -1 1 361984 models.common.C3 [512, 256, 1, False]
14 -1 1 33024 models.common.Conv [256, 128, 1, 1]
15 -1 1 0 torch.nn.modules.upsampling.Upsample [None, 2, 'nearest']
16 [-1, 4] 1 0 models.common.Concat [1]
17 -1 1 90880 models.common.C3 [256, 128, 1, False]
18 -1 1 147712 models.common.Conv [128, 128, 3, 2]
19 [-1, 14] 1 0 models.common.Concat [1]
20 -1 1 296448 models.common.C3 [256, 256, 1, False]
21 -1 1 590336 models.common.Conv [256, 256, 3, 2]
22 [-1, 10] 1 0 models.common.Concat [1]
23 -1 1 1182720 models.common.C3 [512, 512, 1, False]
24 [17, 20, 23] 1 16182 models.yolo.Detect [1, [[10, 13, 16, 30, 33, 23], [30, 61, 62, 45, 59, 119], [116, 90, 156, 198, 373, 326]], [128, 256, 512]]
YOLOv5s summary: 270 layers, 7022326 parameters, 7022326 gradients, 15.8 GFLOPs
Transferred 342/349 items from models/yolov5s.pt
Scaled weight_decay = 0.0005
optimizer: SGD with parameter groups 57 weight (no decay), 60 weight, 60 bias
albumentations: Blur(always_apply=False, p=0.01, blur_limit=(3, 7)), MedianBlur(always_apply=False, p=0.01, blur_limit=(3, 7)), ToGray(always_apply=False, p=0.01), CLAHE(always_apply=False, p=0.01, clip_limit=(1, 4.0), tile_grid_size=(8, 8))
train: Scanning '/home/aska/Project/Hug2/yolov5/data/train_data/labels.cache' images and labels... 2528 found, 0 missing, 0 empty, 0 corrupt: 100%|██████████| 2train: Scanning '/home/aska/Project/Hug2/yolov5/data/train_data/labels.cache' images and labels... 2528 found, 0 missing, 0 empty, 0 corrupt: 100%|██████████| 2528/2528 [00:00<?, ?it/s]
val: Scanning '/home/aska/Project/Hug2/yolov5/data/val_data/labels.cache' images and labels... 632 found, 0 missing, 0 empty, 0 corrupt: 100%|██████████| 632/63val: Scanning '/home/aska/Project/Hug2/yolov5/data/val_data/labels.cache' images and labels... 632 found, 0 missing, 0 empty, 0 corrupt: 100%|██████████| 632/632 [00:00<?, ?it/s]
Plotting labels to runs/train/exp2/labels.jpg...
AutoAnchor: 5.69 anchors/target, 1.000 Best Possible Recall (BPR). Current anchors are a good fit to dataset ✅
Image sizes 640 train, 640 val
Using 8 dataloader workers
Logging results to runs/train/exp2
Starting training for 100 epochs...
: (省略)
Epoch gpu_mem box obj cls labels img_size
97/99 8.11G 0.01325 0.007735 0 74 640: 100%|██████████| 79/79 [00:22<00:00, 3.55it/s]
Class Images Labels P R mAP@.5 mAP@.5:.95: 100%|██████████| 10/10 [00:02<00:00, 4.04it/s]
all 632 887 0.983 0.988 0.993 0.772
Epoch gpu_mem box obj cls labels img_size
98/99 8.11G 0.01303 0.007623 0 92 640: 100%|██████████| 79/79 [00:22<00:00, 3.52it/s]
Class Images Labels P R mAP@.5 mAP@.5:.95: 100%|██████████| 10/10 [00:02<00:00, 4.04it/s]
all 632 887 0.979 0.99 0.992 0.774
Epoch gpu_mem box obj cls labels img_size
99/99 8.11G 0.01303 0.007568 0 81 640: 100%|██████████| 79/79 [00:22<00:00, 3.54it/s]
Class Images Labels P R mAP@.5 mAP@.5:.95: 100%|██████████| 10/10 [00:02<00:00, 4.05it/s]
all 632 887 0.977 0.991 0.993 0.777
100 epochs completed in 0.698 hours.
Optimizer stripped from runs/train/exp2/weights/last.pt, 14.4MB
Optimizer stripped from runs/train/exp2/weights/best.pt, 14.4MB
Validating runs/train/exp2/weights/best.pt...
Fusing layers...
YOLOv5s summary: 213 layers, 7012822 parameters, 0 gradients, 15.8 GFLOPs
Class Images Labels P R mAP@.5 mAP@.5:.95: 100%|██████████| 10/10 [00:04<00:00, 2.24it/s]
all 632 887 0.982 0.984 0.993 0.781
Results saved to runs/train/exp学習を実行すると, "runs/train/expXX"に学習に関連する情報や, "runs/train/expXX/weights"に学習済みモデルが保存される.
以下, 学習関連情報の一例.
・labels.jpg

・results.png

・PR_curve.png

・val_batch2_labels.jpg / val_batch2_pred.jpg


これら以外にも, 多数の情報が出力されている.
3.3 推論
学習が完了したら, そのモデルを使って推論を行ってみる.
$ python detect.py --source data/val_data/images/FCam9_00000158.jpg --weights runs/train/exp/weights/best.pt detect: weights=['runs/train/exp2/weights/best.pt'], source=data/val_data/images/FCam9_00000158.jpg, data=data/coco128.yaml, imgsz=[640, 640], conf_thres=0.25, iou_thres=0.45, max_det=1000, device=, view_img=False, save_txt=False, save_conf=False, save_crop=False, nosave=False, classes=None, agnostic_nms=False, augment=False, visualize=False, update=False, project=runs/detect, name=exp, exist_ok=False, line_thickness=3, hide_labels=False, hide_conf=False, half=False, dnn=False YOLOv5 🚀 v6.1-161-ge54e758 torch 1.10.2+cu113 CUDA:0 (NVIDIA GeForce RTX 3060, 12054MiB) Fusing layers... YOLOv5s summary: 213 layers, 7012822 parameters, 0 gradients, 15.8 GFLOPs image 1/1 /data/Project/Hug2Data/labeled_data/AM9/labels/Hug2-gray-2018-PascalVOC-export/val_data/images/FCam9_00000158.jpg: 480x640 2 passers, Done. (0.013s) Speed: 0.3ms pre-process, 13.1ms inference, 0.9ms NMS per image at shape (1, 3, 640, 640) Results saved to runs/detect/exp
推論を実行すると, "runs/detect/expXX"に推論結果が画像として保存される.

yolov3のときの学習と比較すると, configファイルの設定などが簡単になっており, かなり使いやすい.
次回は, yolov5で学習したモデルを, onnxなど他のフレームワークのモデルに変換するあたりを紹介しようと思う.
----
[1] Train Custom Data - YOLOv5
[2] ピープルカウンタを考えてみる(7)
[3] GitHub - microsoft/VoTT
[4] GitHub - tzutalin/labelImg



