如何在aiForge中使用TensorBoard?
Jan 6, 2021
- 如圖所示,如果要使用aiForge的話,必須點擊進入TensorBoard才能正常顯示視覺化的Log資料
- 除此之外,當我們在進行訓練的時候,請找出程式碼中,有TensorBoard相關API的部份。
- 假設當下有4顆GPU進行4種不同的訓練任務,TensorBoard可以個別顯示,在左下角
# 以PyTorch_YOLOv4-tiny為例:# 把train.py第408行的
SummaryWriter(comment=opt.name)
# 改成SummaryWriter("/root/notebooks/tensorflow/logs",comment=opt.name)
它的作用原理就是將SummaryWriter寫入的內容從原本目前的資料夾(預設),移動到/root/notebooks/tensorflow/logs當中。
1/10更新:每完成一次的訓練(例如300 epochs)後,請將logs資料夾移除,再重新建立logs資料夾,藉此清空前次訓練得到的紀錄,要保留也可以。
1/28更新:如果要使用soft link的話,可以使用以下指令:
# 將內部training log資料夾透過soft link到aiForge指定的log讀取目錄$ cd /root/notebooks/tensorflow/logs
$ ln -s /root/notebooks/output/log /root/notebooks/tensorflow/logs# 如果不想使用這個soft link了,可以到/root/notebooks/tensorflow/logs底下刪除,用以下找到l開頭的,如lrwxrwxrwx$ cd /root/notebooks/tensorflow/logs
$ ls -lalrwxrwxrwx 1 root 2045 65 Jan 28 09:37 log -> /root/notebooks/nfs/work/yanwei.liu/CrossDomainFewShot/output/log#直接rm log即可把這個softlink刪除
$ rm log
注意事項
剛開始訓練的時候,可能會因為單個epochs訓練比較久,所以數值無法即時寫入到TensorBoard上進行即時數值的顯示,這時候請耐心等待除了使用相對/絕對路徑外,也可以用soft link的指令去連結資料夾位置