YOLO v5, v7 與 v8 物件偵測模型效能比較,執行於 Jetson AGX Orin 與 RTX 4070 Ti

物件偵測是電腦視覺技術中一項極為重要且快速發展的領域,而 YOLO (You Only Look Once) 則是物件偵測中最熱門的框架之一。目前最新的版本為 YOLO v5、v7 與 v8,本文將比較這幾個版本在 NVIDIA Jetson AGX Orin 32GB 邊緣運算裝置 (目前市面上最強大的嵌入式 AI 電腦),以及 RTX 4070 Ti 顯示卡上的執行效能。歡迎詳閱本文,找出哪一款 YOLO 最符合您的需求喔!

註:本文經ZED同意之後翻譯(原文連結)

YOLO v5, v7 與 v8 在 Jetson AGX Orin 上的執行效能

每當有新的 YOLO 問世,我們心中的第一個問題總是:

要不要升級到最新的版本?

多數情況下,各類 benchmark 都是在 A100 這類高階 GPU 上來測試,與實際用於生產的嵌入式 GPU 相差甚遠。再者,即便大家都知道 TensoRT 可有效對大多數的神經網路進行最佳化,但實際上很少用到。最後,將 YOLO v7 與 Ultralytics v5 / v8 進行比較的 benchmark 也不太多。

因此,Stereolabs (ZED景深攝影機製造商) 於2023年初,針對 YOLO v5、YOLO v7 與 YOLO v8 在 AGX Orin 推出了完整的 COCO benchmark (與實際延遲時間進行比較),使用 TensorRT 8.4 與 JetPack 5。結果如下:

另一方面,也針對 NVIDIA Jetson AGX Orin (JetPack 5) 與 RTX 4070 Ti (Batch 1, TRT8.4, FP16) 上以 640 解析度來執行所有 YOLOv8、YOLOv5 與 YOLOv7 模型,詳細結果如下:

MODEL AP AP0.5 AGX ORIN (FPS) RTX 4070 TI (FPS)
v5n 28 45.7 370 934
v8n 37.3 52.5 383 1163
v7-tiny 37.4 55.2 290 917
v5s 37.4 56.8 277 877
v8s 44.9 61.8 260 925
v5m 45.4 64.1 160 586
v8m 50.2 67.2 137 540
v5l 49 67.3 116 446
v7 51.2 69.7 115 452
v8l 52.9 69.8 95 391
v5x 50.7 68.9 67 252
v7x 52.9 71.1 77 294
v8x 53.9 71.0 64 236

以下是一些有趣的結果:

  • 就相同執行階段而言,所有 v8 模型的 mAP 都比 v5 提升了 4 到 9 左右。
  • v8m 與 v8l 在 mAP(mean Average Precision) 與推論速度上已優於 v5l 與 v5x。
  • 就準確率與推論速度來說,v8n 是最佳的輕量化模型。
  • YOLO v8 (目前為止) 尚未提供以 1280 解析度來訓練的模型,因此在可小幅降低推論速度但講求高解析度的情境下,YOLO v7 仍是推論的最佳方案。

將 YOLO 結合數位雙生技術( Digital Twin)

新款的 YOLOv8 相較於傳統的 YOLOv5 物件偵測器有長足的改進。已從諸多產業看到一股明顯的趨勢,就是將景深影像整合 YOLO 技術,例如 ZED 2i 景深攝影機。這款攝影機可讓在空間中定位與追蹤人體/物體的成效更上一層樓。以下影片是將 YOLO 整合 ZED 2i 景深影像 (其中用到了 ZED SDK) 的即時數位雙生影片,也可以看到物體的 3D 邊界框(bounding box):

總結

由上可知,本文所提的三種  YOLO 版本 (v5, v7, v8) 在 Jetson Orin 上都有相當亮眼的表現。但根據本文測試,YOLO v8 看起來是其中成效最好的一款。不論是執行於 Orin 與 RTX 4070 Ti,YOLO v8 的所有變體針對 COCO 資料集的 mAP 都優於 v5。如果您還在尋找某一款又快又可靠的物件偵測框架的話,YOLO v8 應該是您的最佳選擇。

藉由在 ZED SDK 中加入自定義物件,您就能把新款的 YOLO v8 搭配 ZED 景深攝影機來取得物體的 3D 邊界框。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *