KUMICO

TREND

ADAS/自動運転向けの物体検出CNNを1個のArmコア内蔵FPGAで実現、ザイリンクスが講演(出典:日経TECH/有料記事)

以下、実装手法の抜粋

デバイス:Zynq UltraScale+ EG(XCZU3EG)
データセット:Pascal Visual Object Classes
ネットワークモデル:Tincy YOLO(Tiny YOLOの独自改造版)
 以下の複数の技術を使って、精度低下なしに16fpsを実現
 (普通にARM Cortex-A53でTiny YOLOを動かした場合の160倍)

(1)CNNで処理するデータやパラメーターの量子化
  入力層:8bit以上
  隠れ層(12層):重みは1bit、データは3bit
  出力層:8bit以上

(2)FPGAファブリックの利用
  量子化された畳み込み層の処理のオフロードに利用

(3)Cortex-A53が内蔵するSIMD演算器「NEON」の利用
  入力層の高速化に寄与

(4)アルゴリズム的な工夫
  入力層の次のmaxpool層の除去

(5)4つのCortex-A53を使った並列処理

なお、Tiny YOLOが「Darknet」フレームワークをベースに開発されており、CUDAプログラミングではないGPUであるMaliへの実装のうまみがないとのこと。

CNN部分は低精度で構わなのでFPGA、入力層と回帰部分は高精度必要なのでCPU(NEON)ということかと思われます。reVISIONもそうですが、Xilinx社はFPGAだけというより、SOC FPGAで総合的に速度を上げるアプローチ。このクラスのデバイスでも64bit ARMを搭載してるのが強いですね。

> エッジAI最新トレンド一覧はこちら

OTHER TREND

MORE  

まこちゃんブログ

NEWS

MORE  

PARTNER

  • Intel
  • Xilinx

お探しの組み込み製品はキーワードで検索!