TREND
富士ソフトが厳選する「組み込み」「エッジAI」の注目情報をご紹介します。
エッジAI
-
「AI開発は誰でもできる」・・・電機大手を難局に陥れるオープン化の波(出典:ニュースイッチ)
弊社執行役員の八木とエンベデッドプロダクト事業推進部商品開発室長の薬師寺のコメントが出ています。AIは高度化とコモディティ化の両方に進んでいますが、すぐ事業に取り入れようとする会社は「今のAIでできること」から用途を考えるので、コモディティ化したAIの方が需要が大きいという現実があります。
その意味ではAIがシステムインテグレーションの1カテゴリでしかなくなることを見越して「AIがわかるSIer」を目指すのがビジネス的に正しいのですが、本コラムの中の人としては、その方向で進めば進むほどAIの面白みが少なくなって寂しいという気もしています。「AI開発は誰でもできる」…電機大手を難局に陥れるオープン化の波
IoT(モノのインターネット)が人工知能(AI)技術の主戦場になった。電子基板製造会社や組み込みソフト開発会社、システムインテグレーターなどがAIに参入している。オープンな開発環境が整い画像認識や人
弊社執行役員の八木とエンベデッドプロダクト事業推進部商品開発室長の薬師寺のコメントが出ています。AIは高度化とコモディティ化の両方に進んでいますが、すぐ事業に取り入れようとする会社は「今のAIでできること」から用途を考えるので、コモディティ化したAIの方が需要が大きいという現実があります。
その意味ではAIがシステムインテグレーションの1カテゴリでしかなくなることを見越して「AIがわかるSIer」を目指すのがビジネス的に正しいのですが、本コラムの中の人としては、その方向で進めば進むほどAIの面白みが少なくなって寂しいという気もしています。 -
一般販売間近のNVIDIA Jetson Nano情報です。
SSD, Classification, Segmentation, Pose Estimation, Super Resolution, Tiny YOLO v3のサンプルコードを動かすドキュメントがNVIDIAで公開中
Deep Learning Inference Benchmarking Instructions
https://devtalk.nvidia.com/default/topic/1050377/jetson-nano/deep-learning-inference-benchmarking-instructions/
そのベンチマーク結果は以下のページに
https://devblogs.nvidia.com/jetson-nano-ai-computing/
ちなみに、5V 2.5AのUSB電源の要求に、5V 2.4Aの一般的なスマホ用電源だと、推論動かすと落ちます。2.5A以上出る電源を用意しましょう。Jetson Nano Brings AI Computing to Everyone | NVIDIA Developer Blog
Compute performance, compact footprint, and flexibility make Jetson Nano ideal for developers to create AI-powered devices and embedded systems.
SSD, Classification, Segmentation, Pose Estimation, Super Resolution, Tiny YOLO v3のサンプルコードを動かすドキュメントがNVIDIAで公開中
Deep Learning Inference Benchmarking Instructions
https://devtalk.nvidia.com/default/topic/1050377/jetson-nano/deep-learning-inference-benchmarking-instructions/
そのベンチマーク結果は以下のページに
https://devblogs.nvidia.com/jetson-nano-ai-computing/
ちなみに、5V 2.5AのUSB電源の要求に、5V 2.4Aの一般的なスマホ用電源だと、推論動かすと落ちます。2.5A以上出る電源を用意しましょう。 -
CPUのみで高速学習、組み込みAIを低コストで実現(出典:EE Times Japan)
ディープインサイト社のKAIBERの学習エンジンをXeon向けに最適化して、GPUがなくても高速学習可能にしたとのこと。詳細不明ですが、画像ではなく時系列データの深層学習の場合は、学習時の並列度は画像ほど高く出来ないはずで、CPUの最適化が効く領域かと思われます。これで画像の深層学習もCPUだけで実用的な速度が出せれば画期的です。
CPUのみで高速学習、組み込みAIを低コストで実現
ディープインサイトは、「第8回IoT/M2M展」で、IntelのCPUのみで学習を行うデモを展示した。ディープインサイトが開発しているディープラーニング用フレームワーク「KAIBER(カイバー)」の学習エンジンをCPU向けに最適化し、GPUを使わない環境で高速に学習できるようにしている。
ディープインサイト社のKAIBERの学習エンジンをXeon向けに最適化して、GPUがなくても高速学習可能にしたとのこと。詳細不明ですが、画像ではなく時系列データの深層学習の場合は、学習時の並列度は画像ほど高く出来ないはずで、CPUの最適化が効く領域かと思われます。これで画像の深層学習もCPUだけで実用的な速度が出せれば画期的です。
-
名刺大FPGA開発ボード「Ultra96」は3万円、推論アルゴリズムの実装も容易に(出典:MONOist)
Jetson Nano対抗にしても、このクラスのFPGAが載っている開発キットしては確かに破格。これまでのZynq UltraScale+ MPSoCのボードの半額ぐらいですね。
付属のDEEPHi DNNDKは、Jetsonで言うところのTensorRTで、枝刈りや量子化を行ってネットワークを小さくしてFPGAに実装するツールのようです。
FPGAによるエッジAIは根強いニーズがありながら、高価格FPGAデバイスが必要だったり、FPGA専用のネットワークで学習しないとうまく実装できなかったりしましたが、低価格デバイスで、既存のネットワークをユーザーが簡単に実装できるということであれば、非常に魅力的な選択肢になりそうです。名刺大FPGA開発ボード「Ultra96」は3万円、推論アルゴリズムの実装も容易に
アヴネットは、「第8回 IoT/M2M展 春」において、名刺サイズのFPGA開発プラットフォーム「Ultra96」を用いた画像認識デモを披露した。
Jetson Nano対抗にしても、このクラスのFPGAが載っている開発キットしては確かに破格。これまでのZynq UltraScale+ MPSoCのボードの半額ぐらいですね。
付属のDEEPHi DNNDKは、Jetsonで言うところのTensorRTで、枝刈りや量子化を行ってネットワークを小さくしてFPGAに実装するツールのようです。
FPGAによるエッジAIは根強いニーズがありながら、高価格FPGAデバイスが必要だったり、FPGA専用のネットワークで学習しないとうまく実装できなかったりしましたが、低価格デバイスで、既存のネットワークをユーザーが簡単に実装できるということであれば、非常に魅力的な選択肢になりそうです。 -
Pythonと機械学習ができること 画像認識を工場の事例で試してみた
> 「機械学習を使った画像認識」+「ラダー・PLCで動く工場の機器」を連携させてみました。
エッジAI(クラス分類)を実用化(RasPiでPLC制御)する手順を見せてくれる貴重な記事。エッジAI推論にEdge TPU(USB版)を使っているのもポイント高いです。Pythonと機械学習ができること 画像認識を工場の事例で試してみた
「機械学習を使った画像認識」+「ラダー・PLCで動く工場の機器」を連携させてみました。Pythonとラズベリーパイでデバッグしましたので誰でも同様にテストすることができます。Pythonは多くの分野で活躍しているプログラミング言語Pytho
> 「機械学習を使った画像認識」+「ラダー・PLCで動く工場の機器」を連携させてみました。
エッジAI(クラス分類)を実用化(RasPiでPLC制御)する手順を見せてくれる貴重な記事。エッジAI推論にEdge TPU(USB版)を使っているのもポイント高いです。 -
ハードウェア構築言語 Chisel がアツい(かもしれない)(出典:Hatena Blog)
GoogleのEdge TPUの論理回路がChiselという言語で開発されたという内容。AIとは直接関係ない話なんですが、FPGAやASICの論理設計といえば、もう20年前からずっとVerilog-HDLかVHDLという言語と相場が決まっていたもので、Chiselが使われたということは(ごく一部では)驚きをもって迎えられています。
もちろんC言語およびその派生言語による高位合成の使用率は徐々に高まっていましたが、高位合成元年と何度も言われながらもなかなか普及していない状況です。
それが、AIというアプリケーションをターゲットにした今、急に高位合成やChisel(Chiselは高位合成ではなく「ハードウェア構築言語」らしいですが)といったHDL以外の言語による設計が脚光を浴びてきたように思います。DeepLearningのFrameworkでPythonが一躍メジャーになったのと似てますね。
Chiselについては私も詳しくないので紹介先のblogにおまかせするとして、AI開発で高位合成が使われるようになったのは以下の理由が想定されます。
・AIは進歩が激しく、開発サイクルも早くなるため、実装に高い生産性が必要
・ニューラルネットワークはブラックボックスのため、ソフトウェアベースのモデル開発から一気にHW化する手法が馴染みやすい
・ニューラルネットワークの演算は高位合成で実現しやすく、HDL実装に比べてもパフォーマンス・実装効率が遜色ない
新しいアプリケーションが開発手法を変えていくというのは、ハードウェア開発の現場ではあまり無いことなので、興味深いところです。ハードウェア構築言語 Chisel がアツい(かもしれない)
いきなりタイトルと関係なさそうな話題からスタートしますが、今週1番のトピックは、なんと言ってもEdge TPUがオフィシャルに発売されたことでしょう。 しかもUSB接続のアクセラレータがたった80ドル弱ですよ。日本だとMouserで8800円ほど。 こいつをいち早く入手できたIdein社内でのお試し結果がこちら。 Edge TPU(USB版)Mobilenet v2 1.0 224×224 ImageNetRaspberry Pi 3 Model B v1.2で10msちょっとでした pic.twitter.com/BOfSAgUewJ— Koichi Nakamura (@9_ties) 2…
GoogleのEdge TPUの論理回路がChiselという言語で開発されたという内容。AIとは直接関係ない話なんですが、FPGAやASICの論理設計といえば、もう20年前からずっとVerilog-HDLかVHDLという言語と相場が決まっていたもので、Chiselが使われたということは(ごく一部では)驚きをもって迎えられています。
もちろんC言語およびその派生言語による高位合成の使用率は徐々に高まっていましたが、高位合成元年と何度も言われながらもなかなか普及していない状況です。
それが、AIというアプリケーションをターゲットにした今、急に高位合成やChisel(Chiselは高位合成ではなく「ハードウェア構築言語」らしいですが)といったHDL以外の言語による設計が脚光を浴びてきたように思います。DeepLearningのFrameworkでPythonが一躍メジャーになったのと似てますね。
Chiselについては私も詳しくないので紹介先のblogにおまかせするとして、AI開発で高位合成が使われるようになったのは以下の理由が想定されます。
・AIは進歩が激しく、開発サイクルも早くなるため、実装に高い生産性が必要
・ニューラルネットワークはブラックボックスのため、ソフトウェアベースのモデル開発から一気にHW化する手法が馴染みやすい
・ニューラルネットワークの演算は高位合成で実現しやすく、HDL実装に比べてもパフォーマンス・実装効率が遜色ない
新しいアプリケーションが開発手法を変えていくというのは、ハードウェア開発の現場ではあまり無いことなので、興味深いところです。 -
Google、推論特化のエッジデバイス向けASIC「Edge TPU」を販売開始(出典:エルミタージュ秋葉原)
開発ボードが149.99ドル(約1万6700円)
USBアクセラレータが75ドル(約8300円)
カメラが24.99ドル(約2800円)
USBアクセラレータタイプを入手した方からのレポートがTwitterなどで見られますが、下馬評通りかなり高いパフォーマンスのようです。価格から考えると今のところエッジAIチップで最強ではないかと。
以下、レポートまとめ
→ハードウェア構築言語 Chisel がアツい(かもしれない)
http://bonotake.hatenablog.com/entry/2019/03/08/081016
によると、Raspberry Pi 3 Model B v1.2 + Edge TPU USB版で、Mobilenet v2 1.0 224x224 ImageNetが10ms
→RaspberryPi3(USB2.0)とLaptopPC(USB3.1)でGoogle Edge TPU Acceleratorを使用してMobileNet-SSD v2の動作スピードを検証してみました(MS-COCO)
https://qiita.com/PINTO/items/dd6ba67643bdd3a0e595
によると、MobileNet-SSD v2 + Core i7 + USB 3.1 + TPU + Async mode (非同期マルチプロセス処理)で12 ms から 15 ms
→このTweetによると
https://twitter.com/MikaelGueck/status/1103729090375401473
mobilenet_ssd_v2_face_quant_postprocess_edgetpu.tflite が 8ms(詳細不明)開発ボードが149.99ドル(約1万6700円)
USBアクセラレータが75ドル(約8300円)
カメラが24.99ドル(約2800円)
USBアクセラレータタイプを入手した方からのレポートがTwitterなどで見られますが、下馬評通りかなり高いパフォーマンスのようです。価格から考えると今のところエッジAIチップで最強ではないかと。
以下、レポートまとめ
→ハードウェア構築言語 Chisel がアツい(かもしれない)
http://bonotake.hatenablog.com/entry/2019/03/08/081016
によると、Raspberry Pi 3 Model B v1.2 + Edge TPU USB版で、Mobilenet v2 1.0 224x224 ImageNetが10ms
→RaspberryPi3(USB2.0)とLaptopPC(USB3.1)でGoogle Edge TPU Acceleratorを使用してMobileNet-SSD v2の動作スピードを検証してみました(MS-COCO)
https://qiita.com/PINTO/items/dd6ba67643bdd3a0e595
によると、MobileNet-SSD v2 + Core i7 + USB 3.1 + TPU + Async mode (非同期マルチプロセス処理)で12 ms から 15 ms
→このTweetによると
https://twitter.com/MikaelGueck/status/1103729090375401473
mobilenet_ssd_v2_face_quant_postprocess_edgetpu.tflite が 8ms(詳細不明) -
エッジコンピューティング調査 – 動機と分類
エッジAIはもちろんエッジコンピューティングの中の1要素でしか無いのですが、そのエッジコンピューティングが、何を目的に、どういう手法で行われるのかの概略を分類した良記事。IoTは言葉の定義でモヤモヤしやすいので、こういう記事は概念を揃えるためにもありがたいですね。
エッジコンピューティング調査 – 動機と分類
研究所でデータセンターのあり方を見直して、新しいコンピューティングのあり方を提案していくぞという話をしており、先行技術としてエッジコンピューティングについて調査している。 次のサーベイ論文が、2018年ということもあり、最近のエッジコンピューティングの状況について、よくまとめられている。 Bilal Kashif, Khalid Osman, Erbad Aiman, Khan Samee U, “Potentials, trends, and prospects in edge technologies: Fog, cloudlet, mobile edge, and micro data …
エッジAIはもちろんエッジコンピューティングの中の1要素でしか無いのですが、そのエッジコンピューティングが、何を目的に、どういう手法で行われるのかの概略を分類した良記事。IoTは言葉の定義でモヤモヤしやすいので、こういう記事は概念を揃えるためにもありがたいですね。
-
演算量を90%減、エッジで画像生成・認識できるAIを三菱電機が開発(出典:MONOist)
GAN(敵対的生成ネットワーク)の計算量を減らす手法を開発。組み込みデバイスやエッジ上で動作させることを狙う。
Object Detection や Semantic Segmentation が、それなりのアクセラレーターを積んだエッジデバイスでも実現可能になった今、次のトレンドはGANになりそうです。当面の需要は、この記事にもある通り学習データセットの生成ですが、エッジや組み込みでも動作するようになって現場で画像を生成することができるようになると、色々と面白いことができそうです。
それにしても、軽量化の手法が枝刈りではなく隠れ層をバッサリ間引くとは、大胆な手法です。演算量を90%減、エッジで画像生成・認識できるAIを三菱電機が開発 (1/2)
三菱電機は2019年1月31日、従来手法から演算量とメモリ量を約10分の1に抑えた画像生成用ディープニューラルネットワーク構築技術を開発したと発表した。画像生成や画像内の物体認識を組み込みデバイスやエッジ上で動作させることを狙う技術となる。
GAN(敵対的生成ネットワーク)の計算量を減らす手法を開発。組み込みデバイスやエッジ上で動作させることを狙う。
Object Detection や Semantic Segmentation が、それなりのアクセラレーターを積んだエッジデバイスでも実現可能になった今、次のトレンドはGANになりそうです。当面の需要は、この記事にもある通り学習データセットの生成ですが、エッジや組み込みでも動作するようになって現場で画像を生成することができるようになると、色々と面白いことができそうです。
それにしても、軽量化の手法が枝刈りではなく隠れ層をバッサリ間引くとは、大胆な手法です。 -
リコー、GBDTモデル学習回路アーキテクチャ開発(出典:EE Times Japan)
DeepLearningではないけど古くから非常にメジャーな機械学習アルゴリズム・勾配ブースティングをFPGAでアクセラレートしたという論文。
モデル学習の処理は26~259倍、電力効率はCPU/GPU利用時に比べ90~1105倍だが、予測精度はソフトウェアライブラリーで学習したモデルと同等とのこと。
DeepLearningの学習をエッジデバイスで行うのはまだまだ非現実的だけど、DeepLearningではない、決定木アルゴリズムなら実装可能ということで、今後は様々な「エッジ学習可能なAIチップ」が登場しそうです。リコー、GBDTモデル学習回路アーキテクチャ開発
リコーは、機械学習で注目される「GBDT(Gradient Boosting Decision Tree:勾配ブースティング決定木)」モデルを、高速かつ低消費電力で学習できる回路アーキテクチャを開発した。
DeepLearningではないけど古くから非常にメジャーな機械学習アルゴリズム・勾配ブースティングをFPGAでアクセラレートしたという論文。
モデル学習の処理は26~259倍、電力効率はCPU/GPU利用時に比べ90~1105倍だが、予測精度はソフトウェアライブラリーで学習したモデルと同等とのこと。
DeepLearningの学習をエッジデバイスで行うのはまだまだ非現実的だけど、DeepLearningではない、決定木アルゴリズムなら実装可能ということで、今後は様々な「エッジ学習可能なAIチップ」が登場しそうです。 -
マイコンへのAI実装と開発をサポートするツールセットを発表(出典:MONOist)
学習済みニューラルネットワークを、STM32マイコン上で実行可能なC言語コードに変換し、最適なライブラリ関数を呼び出せる。アクセラレータも付いていない32bitマイコンなので、もちろん画像なんかではくセンサデータや音などがターゲット。将来的にはセンサ基板そのものがインテリジェント化して、生データや正規化されたデータに加えて、センサの特性に合ったリアルタイムな推論結果も取得できるようになりそう。組込みシステムでは分散処理は必ずしも正しいわけではありませんが、選択肢が広がることは良いことです。
マイコンへのAI実装と開発をサポートするツールセットを発表
STMicroelectronicsは、32ビットマイコン「STM32」向けのコード生成ツール「STM32CubeMX」の追加機能として、AIの実装と開発をサポートする「STM32Cube.AI」をはじめとするツールセットを発表した。
学習済みニューラルネットワークを、STM32マイコン上で実行可能なC言語コードに変換し、最適なライブラリ関数を呼び出せる。アクセラレータも付いていない32bitマイコンなので、もちろん画像なんかではくセンサデータや音などがターゲット。将来的にはセンサ基板そのものがインテリジェント化して、生データや正規化されたデータに加えて、センサの特性に合ったリアルタイムな推論結果も取得できるようになりそう。組込みシステムでは分散処理は必ずしも正しいわけではありませんが、選択肢が広がることは良いことです。
-
組み込みAIは必要不可欠な技術へ、推論に加えて学習も視野に(出典:MONOist)
これも年初展望記事。『2019年からは、組み込み機器を開発する上で、組み込みAIは当たり前の存在になっていきそうだ。』ということで、NVIDIAのJetson、IntelのOpenVINO、QualcommのSoC、FPGA、AI専用チップについて昨年度のおさらいと今年度の展望をまとめてあります。
そして「組み込みAIで学習」に注目しています。まだ深層学習を組み込みで学習できる手段は技術的には不可能ですが、ニーズが高いことは弊社でも感じています。当面の解決方法は、エッジAIに強力なGPUサーバを使う以外に、軽量なエッジAIとサーバ側AI(またはクラウドAI)との連携によるハイブリッドAIなどが考えられます。組み込みAIは必要不可欠な技術へ、推論に加えて学習も視野に (1/4)
2017年初時点では芽吹きつつあった程度の組み込みAI。今や大きな幹にまで成長しつつあり、2019年からは、組み込み機器を開発する上で組み込みAIは当たり前の存在になっていきそうだ。
これも年初展望記事。『2019年からは、組み込み機器を開発する上で、組み込みAIは当たり前の存在になっていきそうだ。』ということで、NVIDIAのJetson、IntelのOpenVINO、QualcommのSoC、FPGA、AI専用チップについて昨年度のおさらいと今年度の展望をまとめてあります。
そして「組み込みAIで学習」に注目しています。まだ深層学習を組み込みで学習できる手段は技術的には不可能ですが、ニーズが高いことは弊社でも感じています。当面の解決方法は、エッジAIに強力なGPUサーバを使う以外に、軽量なエッジAIとサーバ側AI(またはクラウドAI)との連携によるハイブリッドAIなどが考えられます。 -
2019年も大注目! 出そろい始めた「エッジAIプロセッサ」の現在地とこれから(出典:EE Times Japan)
「図1:AIプロセッシングを実行する演算器の関係」がわかりやすいですね。FPGAは書かれていませんが、位置づけとしてはDSPの位置と同じか、さらに下側に来ると思われます。
ただ、本記事では、スマホ用SoCなど組み込みSIerや個人では入手可能ではないデバイスも含まれており、工場などのカスタム需要が高く少量多品種が求められる現場では、やはりRasPi、NVIDIA JetsonシリーズやPCベースのエッジデバイスの需要が高いのではと思われます。2019年も大注目! 出そろい始めた「エッジAIプロセッサ」の現在地とこれから (1/3)
2018年に登場したスマートフォンのプロセッサの多くにAI機能(機械学習)を処理するアクセラレーターが搭載された。そうしたAIアクセラレーターを分析していくと、プロセッサに大きな進化をもたらせたことが分かる。こうした進化は今後も続く見通しで、2019年もAIプロセッサに大注目だ。
「図1:AIプロセッシングを実行する演算器の関係」がわかりやすいですね。FPGAは書かれていませんが、位置づけとしてはDSPの位置と同じか、さらに下側に来ると思われます。
ただ、本記事では、スマホ用SoCなど組み込みSIerや個人では入手可能ではないデバイスも含まれており、工場などのカスタム需要が高く少量多品種が求められる現場では、やはりRasPi、NVIDIA JetsonシリーズやPCベースのエッジデバイスの需要が高いのではと思われます。 -
LOVEをはぐくむロボット「LOVOT」は先端技術満載、デザインは根津孝太氏(出典:MONOist)
メインボードはIntel Core i5 8000シリーズ、サブボードはXilinx Zynq Ultrascale+ MPSoCを搭載し、Zynq側でDeepLearningによる顔認証を行っているとのこと。
私の知る限り、コンシューマー向け量産製品でFPGAによるエッジAIを搭載した製品、さらにはここまで強力なFPGAを搭載した製品としても、これが初めてだと思います。本体が初期費60万円+月額1~2万円、消費電力50Wというスペックだから実現できたと言えます。ロボット全体が人肌温度ということなので、GPUではなくFPGA採用の理由はおそらく発熱だと思われます。LOVEをはぐくむロボット「LOVOT」は先端技術満載、デザインは根津孝太氏 (1/3)
ロボットベンチャーのGROOVE Xは、2015年11月の創業から約3年をかけて開発してきたロボット「LOVOT(らぼっと)」を発表。「人の代わりに仕事はしないが、一緒にいるとほっとする、うれしくなるロボット。LOVOTは人の愛する力を育むことができる」(同社 代表取締役の林要氏)という。
メインボードはIntel Core i5 8000シリーズ、サブボードはXilinx Zynq Ultrascale+ MPSoCを搭載し、Zynq側でDeepLearningによる顔認証を行っているとのこと。
私の知る限り、コンシューマー向け量産製品でFPGAによるエッジAIを搭載した製品、さらにはここまで強力なFPGAを搭載した製品としても、これが初めてだと思います。本体が初期費60万円+月額1~2万円、消費電力50Wというスペックだから実現できたと言えます。ロボット全体が人肌温度ということなので、GPUではなくFPGA採用の理由はおそらく発熱だと思われます。 -
高速・省エネルギーのディープラーニング専用プロセッサの開発
FPGAのディープラーニングでは、層ごとに量子化のbit数を変えて全体の精度低下を抑えるのはすでに各社手がけていますが、ネットワークごとにbit数を変えてさらに最適化するという技術を東芝メモリ社が開発。推論器の説明は掲載されていますが、学習はどうするのか。量子化bit数を決める学習と、量子化bit数に近似した重みを算出する学習の2段階なのか。ぜひ試してみたい。
高速・省エネルギーのディープラーニング専用プロセッサの開発 | 東芝メモリ
東芝メモリ株式会社は、ディープラーニングの演算量を削減するアルゴリズムと、ディープラーニングの処理を効率的に実行するハードウェアアーキテクチャの協調開発により、認識精度をほとんど劣化させずに演算量を削減し、ディープラーニングの高速化・省エネルギー化を実現する技術を開発しました。
FPGAのディープラーニングでは、層ごとに量子化のbit数を変えて全体の精度低下を抑えるのはすでに各社手がけていますが、ネットワークごとにbit数を変えてさらに最適化するという技術を東芝メモリ社が開発。推論器の説明は掲載されていますが、学習はどうするのか。量子化bit数を決める学習と、量子化bit数に近似した重みを算出する学習の2段階なのか。ぜひ試してみたい。
-
グーグルはなぜ「オンデバイスAI」を志向するのか【出典:MONOist】
エッジAIの最大の問題は、エッジではあくまで推論専用で、学習はサーバーやクラウド環境で実行されるもの、という割り切りが必要なことです。EP部ではそれをハイブリッドAIというエッジAI-クラウドAI一体型のシステムで解決する構想があります。
本記事では、オンデバイスAI(という新語がエッジAIや組み込みAIとどう違うのか不明)の次のステップは、デバイスのみで学習も含め完結することで、そのためにフェデレーションラーニング(Federated Learning)という手法を紹介しています。これはデバイスが休止しているときに学習を行い、それを他のデバイスにも共有する仕組みのようです。エッジのハードウェアの非力さを、時間とクラスタリングで解決する方向ですが、これは産業機器にも応用できそうです。グーグルはなぜ「オンデバイスAI」を志向するのか (1/2)
グーグル(Google)は2018年11月21日、東京都内で会見を開き、同社のスマートフォン「Pixel 3/Pixel 3 XL」で採用したAI(人工知能)利用の方向性である「オンデバイスAI」について紹介した。
エッジAIの最大の問題は、エッジではあくまで推論専用で、学習はサーバーやクラウド環境で実行されるもの、という割り切りが必要なことです。EP部ではそれをハイブリッドAIというエッジAI-クラウドAI一体型のシステムで解決する構想があります。
本記事では、オンデバイスAI(という新語がエッジAIや組み込みAIとどう違うのか不明)の次のステップは、デバイスのみで学習も含め完結することで、そのためにフェデレーションラーニング(Federated Learning)という手法を紹介しています。これはデバイスが休止しているときに学習を行い、それを他のデバイスにも共有する仕組みのようです。エッジのハードウェアの非力さを、時間とクラスタリングで解決する方向ですが、これは産業機器にも応用できそうです。 -
Xilinx、新カテゴリ「ACAP」の第1弾「Versal」を発表【マイナビニュース】
Xilinx社の新FPGA、ではなく新カテゴリのチップシリーズACAP(Adaptive Compute Acceleration Platform)をリリース。中身はZynq UltraScale+ MPSoCの進化系ではあるけど、高速なCPUと強力な周辺ユニットの統合で多機能チップとしての性格を強め、FPGAはすでに機能の一部でしかない形になりつつある。
その強力な周辺ユニットの一つがAI Engineで、従来ならFPGA部で実現していたAI機能を、専用のユニットにしている。ただし、ハードIPで実現している他社のSoCのAIアクセアレーターに比べて、よりFPGA的なコンフィギュレーションが可能になっているようで、C/C++の高位合成に近い感じでAIが設計できるようになる模様。
https://news.mynavi.jp/article/20181023-709201/
そして、それなりに高価なチップになることが予想されるものの、非常に多機能で高速処理を実現できそうなチップであり、@Vengineerさんの仰る通り、このチップを使いこなすには相当マルチなスキルが必要。すごい時代になってきた。
https://blogs.yahoo.co.jp/verification_engineer/71720199.htmlXDF 2018 – Xilinx、新カテゴリ「ACAP」の第1弾「Versal」を発表
2018年3月に概要が明らかにされ、同8月のHotChips 30で内部構造の一端が公開された「Project Everest」こと「ACAP(Adaptive Compute Acceleration Platform)」であるが、これの採用第1弾となる「Xilinx Versalシリーズ」がXDF 2018の基調講演で公開された。
Xilinx社の新FPGA、ではなく新カテゴリのチップシリーズACAP(Adaptive Compute Acceleration Platform)をリリース。中身はZynq UltraScale+ MPSoCの進化系ではあるけど、高速なCPUと強力な周辺ユニットの統合で多機能チップとしての性格を強め、FPGAはすでに機能の一部でしかない形になりつつある。
その強力な周辺ユニットの一つがAI Engineで、従来ならFPGA部で実現していたAI機能を、専用のユニットにしている。ただし、ハードIPで実現している他社のSoCのAIアクセアレーターに比べて、よりFPGA的なコンフィギュレーションが可能になっているようで、C/C++の高位合成に近い感じでAIが設計できるようになる模様。
https://news.mynavi.jp/article/20181023-709201/
そして、それなりに高価なチップになることが予想されるものの、非常に多機能で高速処理を実現できそうなチップであり、@Vengineerさんの仰る通り、このチップを使いこなすには相当マルチなスキルが必要。すごい時代になってきた。
https://blogs.yahoo.co.jp/verification_engineer/71720199.html -
Arm MLプロセッサ、明らかになったその中身【出典:EE Times Japan】
ARM純正のDNNアクセラレータについての詳細記事。
最新のスマホでは、各社独自のDNNアクセラレーターをSoCに実装しているが、ARM自身が対応する意味は大きい。スマホ以外の組み込み機器への搭載も進むと思われるので、エッジAIの本命の一つと考えられる。
ただ、記事を読み限りでは、やはりこれはCPUありきのアクセラレーターであり、単体で動くわけではなく、計算を制御するCPUや命令群、つまりコンパイラ性能やソフトウェアスタックに性能や使い勝手が大きく依存しそう。スマホ開発では当然そういう技術ノウハウは培っているだろうけど、一般的な組み込み開発では、かなり開発ツールがこなれてこないと、このハードルはかなり高いのではないか。Arm MLプロセッサ、明らかになったその中身 (1/5)
2018年8月に開催された「Hot Chips 30」では、Armの「ML Processor(MLプロセッサ)」の中身が明らかになった。その詳細を解説する。
ARM純正のDNNアクセラレータについての詳細記事。
最新のスマホでは、各社独自のDNNアクセラレーターをSoCに実装しているが、ARM自身が対応する意味は大きい。スマホ以外の組み込み機器への搭載も進むと思われるので、エッジAIの本命の一つと考えられる。
ただ、記事を読み限りでは、やはりこれはCPUありきのアクセラレーターであり、単体で動くわけではなく、計算を制御するCPUや命令群、つまりコンパイラ性能やソフトウェアスタックに性能や使い勝手が大きく依存しそう。スマホ開発では当然そういう技術ノウハウは培っているだろうけど、一般的な組み込み開発では、かなり開発ツールがこなれてこないと、このハードルはかなり高いのではないか。 -
Omnitek社のDPU、FPGA上で最高性能のCNNを実証
超ハイエンドチップによる超速処理のCNN IP-Coreのようです。
・Xilinx®Virtex®UltraScale +™XCVU9P-3で5,300fps
・TensorFlowなどの標準フレームワークを使用
・C/C++やPythonによる完全なSW制御が可能で、FPGA設計の専門知識は不要
一方、こちらはローエンドFPGAであるLattice用のCNNアクセラレータIP
https://news.mynavi.jp/article/20181012-705307/
・軽量FPGAのiCE40 UltraPlus向けは従来は1bitだけだったが、新たに6bit(!)の量子化にも対応
・中規模FPGAのECP 5向けは、DRAMのメモリ帯域幅を従来の16bit幅から32bit幅に拡大
6bitって何でしょう?Intel FPGAの12bit精度と同じく、DSPの仕様上の最適bit長でしょうか。Omnitek DPU Demonstrates Highest Performance Convolutional Neural Network on an FPGA
The Omnitek DPU is a world class performing FPGA-based Processing Unit for Machine Learning in Datacentres and embedded applications.
超ハイエンドチップによる超速処理のCNN IP-Coreのようです。
・Xilinx®Virtex®UltraScale +™XCVU9P-3で5,300fps
・TensorFlowなどの標準フレームワークを使用
・C/C++やPythonによる完全なSW制御が可能で、FPGA設計の専門知識は不要
一方、こちらはローエンドFPGAであるLattice用のCNNアクセラレータIP
https://news.mynavi.jp/article/20181012-705307/
・軽量FPGAのiCE40 UltraPlus向けは従来は1bitだけだったが、新たに6bit(!)の量子化にも対応
・中規模FPGAのECP 5向けは、DRAMのメモリ帯域幅を従来の16bit幅から32bit幅に拡大
6bitって何でしょう?Intel FPGAの12bit精度と同じく、DSPの仕様上の最適bit長でしょうか。 -
低コストFPGAで深層学習、コア技術をオープンソース化したベンチャーの狙い【出典:MONOist】
LeapMind社が開発してきたFPGA向けのディープラーニングのソフトウェアスタックをBlueoilの名でオープンソース化するという驚きの発表がありました。
これまで、ローエンドFPGA向けのオープンソースなニューラルネットワークは、東工大の中原准教授のGUINNESSや、PINK-Z1向けのBNN-PYNQがありますが、いずれもXilinx FPGA向けのものでした。数少ないIntel FPGAのローエンド向けニューラルネットワークという意味でも興味深いです。
同社が5月に発表した物体検知のニューラルネットワークもこオープンソースに含まれるかどうかわかりませんが、いずれは含まれるだろうとは思いますし、それが対応してからが本当の使い所かと思われます。低コストFPGAで深層学習、コア技術をオープンソース化したベンチャーの狙い (1/2)
LeapMindは2018年10月19日、組み込み向けFPGA上でディープラーニングを動作させるソフトウェアスタックをオープンソースで公開した。同社が今まで強みとしてきた技術が、誰でも利用もできるようになった。同社CTO(最高技術責任者)を務める徳永拓之氏に、blueoilとはどのようなもので、何が実現できるのか。そして、オープンソース化した狙いなどを聞いた。
LeapMind社が開発してきたFPGA向けのディープラーニングのソフトウェアスタックをBlueoilの名でオープンソース化するという驚きの発表がありました。
これまで、ローエンドFPGA向けのオープンソースなニューラルネットワークは、東工大の中原准教授のGUINNESSや、PINK-Z1向けのBNN-PYNQがありますが、いずれもXilinx FPGA向けのものでした。数少ないIntel FPGAのローエンド向けニューラルネットワークという意味でも興味深いです。
同社が5月に発表した物体検知のニューラルネットワークもこオープンソースに含まれるかどうかわかりませんが、いずれは含まれるだろうとは思いますし、それが対応してからが本当の使い所かと思われます。 -
TensorFlow Lite を マイコンで動かす
@Vengineerさんの記事で、TensorFlowのr1.12 のブランチでCortex-MクラスのマイコンでTensorFlow Liteが動くマイコン向けコードが追加されていたことが紹介されています。
READMEを読むと、以下の特徴があるようです。処理速度のことは特に記載なしです。
・C++用だけどCっぽい機能しか使ってないので移植も簡単(公開されてるのはBlue Pill STM32F103互換開発ボード)
・ベアメタルで動く(OS不要)
・モデルデータはファイルではなく連続したデータ型配列の形でFlashROMに格納されているものを読み込む
・サンプルのスピーチキーワード検出モデルの実行に必要な容量は合計22KBTensorFlow Lite を マイコンで動かす – @Vengineerの戯言
@Vengineerの戯言 : Twitter SystemVerilogの世界へようこそ 、 すべては、SystemC v0.9公開から始まった いつものように、TensorFlowのソースコードを眺めていたら、r1.12 のブランチがき…
@Vengineerさんの記事で、TensorFlowのr1.12 のブランチでCortex-MクラスのマイコンでTensorFlow Liteが動くマイコン向けコードが追加されていたことが紹介されています。
READMEを読むと、以下の特徴があるようです。処理速度のことは特に記載なしです。
・C++用だけどCっぽい機能しか使ってないので移植も簡単(公開されてるのはBlue Pill STM32F103互換開発ボード)
・ベアメタルで動く(OS不要)
・モデルデータはファイルではなく連続したデータ型配列の形でFlashROMに格納されているものを読み込む
・サンプルのスピーチキーワード検出モデルの実行に必要な容量は合計22KB -
深層学習を使わない軽量AIを搭載したFPGAを開発へ【出典:MONOist】
HACARUS-Xは、深層学習を使わず、少ないデータから特徴を抽出するスパースモデリング技術と機械学習を組み合わせた軽量AIパッケージです。オフラインのデバイス上でも動作するようです。
軽量AIの詳細不明ですが、時系列データの多変量解析だけじゃなく映像の動体検知までやってるようです。
使用デバイスがZynq UltraScale+ MPSoCなので、軽量と言いつつもかなり高価なエッジデバイスが必要なようなので、DeepLearningとの棲み分けは学習をエッジでできるかどうかがポイントになるかと。
ベースとなる理論、精度、処理時間、汎化性能など知りたいところです。深層学習を使わない軽量AIを搭載したFPGAを開発へ
PALTEKは、ハカルスと共同で、ハカルスのAI(人工知能)エンジン「HACARUS-X(ハカルスエックス)」を搭載したFPGAとボックスコンピュータ製品の開発に着手した。学習から推測までのAI機能がエッジ端末上で可能になる。
HACARUS-Xは、深層学習を使わず、少ないデータから特徴を抽出するスパースモデリング技術と機械学習を組み合わせた軽量AIパッケージです。オフラインのデバイス上でも動作するようです。
軽量AIの詳細不明ですが、時系列データの多変量解析だけじゃなく映像の動体検知までやってるようです。
使用デバイスがZynq UltraScale+ MPSoCなので、軽量と言いつつもかなり高価なエッジデバイスが必要なようなので、DeepLearningとの棲み分けは学習をエッジでできるかどうかがポイントになるかと。
ベースとなる理論、精度、処理時間、汎化性能など知りたいところです。 -
なぜインテルはコンピュータビジョンに注力するのか、エッジへの分散処理が鍵に【出典:MONOist】
コンピュータビジョンに関わる市場が急成長している
・コンピュータビジョン市場規模が2023年までに173億8000万米ドルに
・ディープラーニング関連の売上高が2016年の6億5500万米ドルから2025年に350億米ドルに
・動画解析の市場規模が2022年までに111億7000万米ドルに
・要因は監視カメラなどのアナログからデジタルへの移行
エッジに拘る理由は
・IoT導入時の制約の45%がネットワーク
・クラウドで学習してエッジで推論を行うことが当たり前に(分散型アーキテクチャ)
・クラウドからエッジに至るまでの幅広い製品ポートフォリオを有している
OpenVINOの特徴
・100以上のディープラーニング開発用のフレームワークをサポート
・Intelプロセッサ、FPGA、MobidiusのVPUでの推論を生成可能(さすがにNVIDIAのGPUは非対応)
・オープンソースで無償なぜインテルはコンピュータビジョンに注力するのか、エッジへの分散処理が鍵に
インテルがAI技術の1つとして注目されている「コンピュータビジョン」への取り組みについて説明。2018年5月に発表した無償のコンピュータビジョン開発ソフトウェア「OpenVINOツールキット」は日本市場でも浸透しつつあるという。
コンピュータビジョンに関わる市場が急成長している
・コンピュータビジョン市場規模が2023年までに173億8000万米ドルに
・ディープラーニング関連の売上高が2016年の6億5500万米ドルから2025年に350億米ドルに
・動画解析の市場規模が2022年までに111億7000万米ドルに
・要因は監視カメラなどのアナログからデジタルへの移行
エッジに拘る理由は
・IoT導入時の制約の45%がネットワーク
・クラウドで学習してエッジで推論を行うことが当たり前に(分散型アーキテクチャ)
・クラウドからエッジに至るまでの幅広い製品ポートフォリオを有している
OpenVINOの特徴
・100以上のディープラーニング開発用のフレームワークをサポート
・Intelプロセッサ、FPGA、MobidiusのVPUでの推論を生成可能(さすがにNVIDIAのGPUは非対応)
・オープンソースで無償 -
FPGAを活用したエッジAIソリューションの協業で合意【出典:MONOist】
DMP社の「ZIA」はPCレスのスタンドアローンで動作する推論IPで、現状、FPGA単独で動作する推論エンジンとしては非常に高速で様々なニューラルネットにも対応できる汎用性もあります。
本来はASIC用のIPの研究開発を行っている会社なので、FPGA対応でもIntel・Xilinx両者に対応しています。リソースサイズもそれなりに大きいようで、Arria 10 GXやZynq UltraScale+ MPSoCの大きめのFPGAをターゲットにしているようです。FPGAを活用したエッジAIソリューションの協業で合意
ディジタルメディアプロフェッショナルは、FPGAを活用したエッジAIソリューションで、PALTEKと協業する。DMPのAI技術とPALTEK提供のFPGAを組み合わせることで、エッジ側IoTデバイスに低消費電力AI機能を迅速に組み込めるようになる。
DMP社の「ZIA」はPCレスのスタンドアローンで動作する推論IPで、現状、FPGA単独で動作する推論エンジンとしては非常に高速で様々なニューラルネットにも対応できる汎用性もあります。
本来はASIC用のIPの研究開発を行っている会社なので、FPGA対応でもIntel・Xilinx両者に対応しています。リソースサイズもそれなりに大きいようで、Arria 10 GXやZynq UltraScale+ MPSoCの大きめのFPGAをターゲットにしているようです。 -
安価な組み込みAIを世界へ! Ideinが「高火力」を選んだ理由【出典:ASCII.jp】
少し前に、ラズパイで高速な物体認識のデモを行って話題になったIdein社が、エッジAIの学習用にさくらインターネットの高火力コンピューティングを使っているというPR記事です。エッジAIといえど学習は一般的なGPUサーバを使い、学習フレームワークさえ使えれば、どこのオープンクラウドでも良い(安くて安定していればもっと良い)というわけです。
安価な組み込みAIを世界へ! Ideinが「高火力」を選んだ理由
「Raspberry Pi Zero」など、リソースの少ない組み込みデバイスでもディープラーニング(深層学習)モデルを実用十分なスピードで動作させる「最適化技術」を持つAIベンチャーのIdein。そのIdeinが、さくらの「高火力コンピューティング」でGPUクラスタを利用している。
少し前に、ラズパイで高速な物体認識のデモを行って話題になったIdein社が、エッジAIの学習用にさくらインターネットの高火力コンピューティングを使っているというPR記事です。エッジAIといえど学習は一般的なGPUサーバを使い、学習フレームワークさえ使えれば、どこのオープンクラウドでも良い(安くて安定していればもっと良い)というわけです。
-
エッジAIを安価・高速に、FPGAを駆使するベンチャー(出典:EE Times Japan)
LeapMind社は、DeLTA-FamilyというWebベースのサービス群で自社の技術を手軽に提供できる仕組みを築くとともに、技術的にも大きなブレイクスルーを達成しています。
低消費電力なSoC FPGAによる組込みDeep Learning物体検出タスクにおいて推論スピード10.5fpsを達成
https://leapmind.io/news/content/?id=2330
CycloneクラスのFPGAで物体検出を10.5fpsで実行できるのは、かなり凄いことです。
(おそらく画像サイズや検出数、分類数に制約があるとはいえ)
まず、YOLOもSSDも、そのままのネットワークではFPGAに入りません。ネットワークの各層を、機能を保ったまま、FPGAが得な方式に、しかもできるだけリソースサイズを小さくして、学習効率と推論精度とFPGA使用率と処理速度のバランスを最適にする必要があります。おそらく、CNN部分はFPGAが得意なVGG系へ変更し、量子化、枝刈りなどを駆使しているものと思われますが、他にローエンドFPGAで実現できた例を聞いていないので、様々な困難があるのだと思われます。
ハイエンドFPGAのコストは他のAIチップに比べてかなり高く、FPGAを実用的にAIで使うにはCycloneVクラスの価格帯がベストなので、CycloneVで一般物体検知AIが動くことで、FPGAの可能性が一気に広がるのではないかと思います。エッジAIを安価・高速に、FPGAを駆使するベンチャー (1/2)
LeapMindは2018年8月31日、東京都内で同社初となるプライベートカンファレンス「DeLTA TECH 2018」を開催した。このイベントでは、LeapMindの強みとなる技術が多く明かされていた。
LeapMind社は、DeLTA-FamilyというWebベースのサービス群で自社の技術を手軽に提供できる仕組みを築くとともに、技術的にも大きなブレイクスルーを達成しています。
低消費電力なSoC FPGAによる組込みDeep Learning物体検出タスクにおいて推論スピード10.5fpsを達成
https://leapmind.io/news/content/?id=2330
CycloneクラスのFPGAで物体検出を10.5fpsで実行できるのは、かなり凄いことです。
(おそらく画像サイズや検出数、分類数に制約があるとはいえ)
まず、YOLOもSSDも、そのままのネットワークではFPGAに入りません。ネットワークの各層を、機能を保ったまま、FPGAが得な方式に、しかもできるだけリソースサイズを小さくして、学習効率と推論精度とFPGA使用率と処理速度のバランスを最適にする必要があります。おそらく、CNN部分はFPGAが得意なVGG系へ変更し、量子化、枝刈りなどを駆使しているものと思われますが、他にローエンドFPGAで実現できた例を聞いていないので、様々な困難があるのだと思われます。
ハイエンドFPGAのコストは他のAIチップに比べてかなり高く、FPGAを実用的にAIで使うにはCycloneVクラスの価格帯がベストなので、CycloneVで一般物体検知AIが動くことで、FPGAの可能性が一気に広がるのではないかと思います。 -
AIチップの過去・現在・未来(出典:EE Times Japan)
AIチップと言えどAI部分以外は通常の高性能SoCなので、そういうところもちゃんと作れないといけないという、LSI屋さんの記事です。
AIチップの過去・現在・未来 (1/2)
人工知能(AI)技術の発端を理解するために、今日に至るまでのその進化の過程を時系列に沿って見ていきます。また、AIチップの現状を踏まえ、先進運転支援システム(ADAS)や自動運転車の実現によって私たちの日々の生活を大きく変えるには、AIチップに何が必要なのかを考えていきます。
AIチップと言えどAI部分以外は通常の高性能SoCなので、そういうところもちゃんと作れないといけないという、LSI屋さんの記事です。
-
クラウドから「エッジ」に動くITの巨人(出典:日本経済新聞)
エッジコンピューティングにAmazonやMS、Googleなどが参入し、次の主戦場になるという解説記事。フォグコンピューティングについても説明あり。
2年前から、EP部ではエッジコンピューティングとそれを内包するフォグコンピューティングに注目し、それを実現できる機器としてIoTフォグコンピューティングゲートウェイ(仮称)を開発、そのアプリケーションとしてFPGAで高速動作するFPGAエッジAIを研究してきました。
やっと時代が追いついてきた感がありますが、追いつかれそうないなや、IT界の巨人たちに掻っ攫われそうな勢いですね。その大波が来る前に、なんとか深い根を這わせていきたいところです。クラウドから「エッジ」に動くITの巨人
あらゆるモノがネットにつながるIoT時代の到来は「超ビッグデータ社会」の到来とも言い換えられる。我々の生活は膨大なデータのやり取りと切り離せなくなるのだ。超データ社会で注目を集めるのが「エッジコンピ
エッジコンピューティングにAmazonやMS、Googleなどが参入し、次の主戦場になるという解説記事。フォグコンピューティングについても説明あり。
2年前から、EP部ではエッジコンピューティングとそれを内包するフォグコンピューティングに注目し、それを実現できる機器としてIoTフォグコンピューティングゲートウェイ(仮称)を開発、そのアプリケーションとしてFPGAで高速動作するFPGAエッジAIを研究してきました。
やっと時代が追いついてきた感がありますが、追いつかれそうないなや、IT界の巨人たちに掻っ攫われそうな勢いですね。その大波が来る前に、なんとか深い根を這わせていきたいところです。 -
アクセルがエッジ側推論に特化したディープラーニング・フレームワーク「AILIA」を発表
エッジ(端末)側での推論に特化したディープラーニングフレームワークSDKで、Windows/Mac/iOS/Androidのプラットフォームとともに、自社製品組み込みにも対応し、FPGAにも対応予定。
様々な学習済みモデルをダウンロードでき、Unity pluginが用意されているところがユニークです。エッジ(端末)側での推論に特化したディープラーニングフレームワークSDKで、Windows/Mac/iOS/Androidのプラットフォームとともに、自社製品組み込みにも対応し、FPGAにも対応予定。
様々な学習済みモデルをダウンロードでき、Unity pluginが用意されているところがユニークです。 -
急成長と共にASIC/SoC化が進むマシンラーニング・チップ市場【出典:EDA Express】
現時点のディープラーニング用チップの主役はGPUですが、ASIC/SoCが急成長して過半数となる予想。これから大きくなるエッジAI市場では特にその傾向が強くなるのではと考えています。
急成長と共にASIC/SoC化が進むマシンラーニング・チップ市場
2018年8月21日、Electronics Weekly.comの記事:ASIC asserts rights to ML chip marketAllied Market Researchのレポートによると、マシンラーニング・チップ市場…
現時点のディープラーニング用チップの主役はGPUですが、ASIC/SoCが急成長して過半数となる予想。これから大きくなるエッジAI市場では特にその傾向が強くなるのではと考えています。
-
AIカメラ自作キット「Google AIY Vision Kit」の紹介
「Google AIY Vision Kit」が購入者のところへ届き始めているようです(こういうキットは最初は全世界的に品薄です)。
内容は、メインプロセッサとしてRaspberry Pi Zero、推論処理用にVisionBonnetというボードが入っていて、これらとRasPi Cameraを接続して、ダンボール製の箱に入れてスタンドアローンで物体認識ができるようになります(表情認識以外の機能を使うには、表示用に外部モニタ、設定用にPCが必要)。
VisionBonnetにはMobidiusのAIチップが搭載されているので、実装可能なネットワークや性能はMovidius Neural Compute Stickと同様と思われます。
付属の学習済みネットワークは「1000種類のオブジェクトを認識」「映像から表情を検出し、喜びの度合いを評価」「イヌ・ネコ・人間の識別」の3種類。MobidiusのSDKを使ってカスタマイズできそうです。
(Zeroではない)Raspberry PiとMovidius Neural Compute Stickの組み合わせよりも、コンパクトで安く同じことができるので、個人ユーザーも入手可能で、現実的な用途で使えるエッジAIとしては最も安価ではないかと思います。「Google AIY Vision Kit」が購入者のところへ届き始めているようです(こういうキットは最初は全世界的に品薄です)。
内容は、メインプロセッサとしてRaspberry Pi Zero、推論処理用にVisionBonnetというボードが入っていて、これらとRasPi Cameraを接続して、ダンボール製の箱に入れてスタンドアローンで物体認識ができるようになります(表情認識以外の機能を使うには、表示用に外部モニタ、設定用にPCが必要)。
VisionBonnetにはMobidiusのAIチップが搭載されているので、実装可能なネットワークや性能はMovidius Neural Compute Stickと同様と思われます。
付属の学習済みネットワークは「1000種類のオブジェクトを認識」「映像から表情を検出し、喜びの度合いを評価」「イヌ・ネコ・人間の識別」の3種類。MobidiusのSDKを使ってカスタマイズできそうです。
(Zeroではない)Raspberry PiとMovidius Neural Compute Stickの組み合わせよりも、コンパクトで安く同じことができるので、個人ユーザーも入手可能で、現実的な用途で使えるエッジAIとしては最も安価ではないかと思います。 -
AIチップ総論:NVIDIAが先行、グーグル・インテル・中国勢が追従、日本の勝機は?【出典:ビジネス+IT/有料記事】
エッジ向けもクラウド向けも、GPUもASICもスマホ用SoCも含めて「AIチップ」で統括した総論記事。ベンチャーと中国ベンダが頑張ってるという内容です。
AIチップ総論:NVIDIAが先行、グーグル・インテル・中国勢が追従、日本の勝機は?
次代のコンピューター基盤とサービスの覇権をとるべく、AIチップの開発競争が始まっている。Nvidia、Google、Facebook、Apple、Amazonなども新世代のデバイスやサービスの開発に向けてオリジナルチップ開発に舵を切った。その開発レースの(現時点での)全貌を明らかにした上で、この流れに対して日本はどのようなポジションにあるか、どのようなギャップがあるか解説する。
エッジ向けもクラウド向けも、GPUもASICもスマホ用SoCも含めて「AIチップ」で統括した総論記事。ベンチャーと中国ベンダが頑張ってるという内容です。
-
より良い機械学習のためのアノテーションの機械学習
・より良い機械学習のためのアノテーションの機械学習
https://tech-blog.abeja.asia/entry/ml-annotation
・Annotation Meetup で「アノテーションこそが本質」という発表をさせて頂きました。
https://www.kurusugawa.jp/annotation-meetup-20180705/
エッジAIに限らないけど、とっても重要なアノテーションの記事を2本。
エッジAIは推論精度がクラウドやサーバより低くなりがちなため、学習そのものよりも、データセットやアノテーションの段階でいかに学習しやすい教師データを生成できるかが重要になります。より良い機械学習のためのアノテーションの機械学習
ABEJAでリサーチャーをしている白川です。 皆さん、アノテーションしていますか? 私はしています。アノテーション、自分でやるのは大変ですよね。 AIというとモデルの学習に注目されがちですが、もしかしたら、アノテーションはAI開発においてモデル開発以上に重要で注意の必要なプロセスかもしれません。 今回はなぜアノテーションがそれほど重要なのか、良いアノテーションとはどのようなアノテーションなのかについて、機械学習的にアプローチしてみたいと思います。 アノテーションの機械学習、楽しいですよ。
・より良い機械学習のためのアノテーションの機械学習
https://tech-blog.abeja.asia/entry/ml-annotation
・Annotation Meetup で「アノテーションこそが本質」という発表をさせて頂きました。
https://www.kurusugawa.jp/annotation-meetup-20180705/
エッジAIに限らないけど、とっても重要なアノテーションの記事を2本。
エッジAIは推論精度がクラウドやサーバより低くなりがちなため、学習そのものよりも、データセットやアノテーションの段階でいかに学習しやすい教師データを生成できるかが重要になります。 -
Google、推論に特化したエッジ向けTPU「Edge TPU」をIoT向けに外販へ – クラウド Watch(出典:クラウドWatch)
ついにエッジ用DLアクセラレーターの本命登場。
・推論専用
・超低消費電力(4TOPS/2W)
・2018年秋に出荷予定
・NXPのSoC、Wi-Fi、セキュアエレメントを統合したSOMとして販売(量産時もSOMで供給)
・ベースボード(キャリアボード)も同時発売
・TensorFlow Liteで開発(ランタイムが適切な演算ハードウェアを選択するらしい)
なお、他のデバイスの計算能力と消費電力はこんな感じ
ASIC(Movidius Myriad2) : 100GFLOPS/W
GPU(NVIDIA Tegra X2) : 600GFLOPS/15W
FPGA(Arria 10 GX 1150KLE) : 1,366GFLOPS/30W
TOPSとFLOPSを比較するのは厳密ではないけど、だいたい同じもの考えると、ワットあたりの消費電力はGPUやFPGAより2桁上ということになります。本当ならすごい。Google、推論に特化したエッジ向けTPU「Edge TPU」をIoT向けに外販へ
Googleは、7月24日~7月26日(現地時間)の3日間にわたり、同社のクラウドサービスである「Google Cloud」の戦略や技術、開発ツールなどについての説明を行うイベントとなる「Google Cloud Next ’18」(以下Next ’18)を、米国カリフォルニア州サンフランシスコ市にあるモスコーン・センター・サウスで開催している。
ついにエッジ用DLアクセラレーターの本命登場。
・推論専用
・超低消費電力(4TOPS/2W)
・2018年秋に出荷予定
・NXPのSoC、Wi-Fi、セキュアエレメントを統合したSOMとして販売(量産時もSOMで供給)
・ベースボード(キャリアボード)も同時発売
・TensorFlow Liteで開発(ランタイムが適切な演算ハードウェアを選択するらしい)
なお、他のデバイスの計算能力と消費電力はこんな感じ
ASIC(Movidius Myriad2) : 100GFLOPS/W
GPU(NVIDIA Tegra X2) : 600GFLOPS/15W
FPGA(Arria 10 GX 1150KLE) : 1,366GFLOPS/30W
TOPSとFLOPSを比較するのは厳密ではないけど、だいたい同じもの考えると、ワットあたりの消費電力はGPUやFPGAより2桁上ということになります。本当ならすごい。 -
人工知能ニュース:エッジAIに対応した高性能画像認識システムを開発(出典:MONOist)
「これまで判別が難しかった微細な傷を分類したり、青果物の選別項目を増加したりできるようになる。」とのことで、自分たちのプロモーション活動の中でも、これらのユースケースが工場向けエッジAIの代表的なテーマになっている実感があります。なお、この製品自体にはAI関連ソフトウェアは搭載しておらず、AI実行可能なハードウェアプラットフォームという位置づけの模様。
・CPU ARM Cortex-A15(1.4GHz) Quad Core
・画像処理/認識 画像認識アクセラレータ(390MHz) Quad Core
・CameraLink 4CHエッジAIに対応した高性能画像認識システムを開発
マクセルシステムテックは、エッジAI対応の高性能画像認識システムを開発した。2018年10月から、ボードタイプの「NVP-Ax430CL」とユニットタイプ「NVP-Ax435CL」、ソフトウェア開発キット、アプリケーション開発支援ツールを販売する。
「これまで判別が難しかった微細な傷を分類したり、青果物の選別項目を増加したりできるようになる。」とのことで、自分たちのプロモーション活動の中でも、これらのユースケースが工場向けエッジAIの代表的なテーマになっている実感があります。なお、この製品自体にはAI関連ソフトウェアは搭載しておらず、AI実行可能なハードウェアプラットフォームという位置づけの模様。
・CPU ARM Cortex-A15(1.4GHz) Quad Core
・画像処理/認識 画像認識アクセラレータ(390MHz) Quad Core
・CameraLink 4CH -
中国General Processor Technologiesのエッジ向けAIアクセラレータ「GPT」
AIアクセラレータ「GPT」はCNN推論用に設計されたコンフィギュラブルIPで、コンボリューション、プーリング、ドロップアウト、パディングおよびプログラム可能なアクティベーション機能を提供。精度は、組み込み整数データ型または16ビット浮動小数点演算を使用。FPGAではなくSoC向けのIPで、Optimum Semiconductor社のSoC「GP8300」に搭載される予定。
中国General Processor Technologiesのエッジ向けAIアクセラレータ「GPT」
2018年6月25日、中国のIPベンダGeneral Processor Technologiesは、新製品となるAIアクセラレータ「GPT」とDSP「VLVm1」を発表した。プレスリリース文発表によるとAIアクセラレータ「GPT」はCNN…
AIアクセラレータ「GPT」はCNN推論用に設計されたコンフィギュラブルIPで、コンボリューション、プーリング、ドロップアウト、パディングおよびプログラム可能なアクティベーション機能を提供。精度は、組み込み整数データ型または16ビット浮動小数点演算を使用。FPGAではなくSoC向けのIPで、Optimum Semiconductor社のSoC「GP8300」に搭載される予定。
-
深層学習のFPGA評価キット、LeapMindがモデル作成サービスの契約者向けに提供(出典:BEST OF INFLUENCER)
LeapMind社が4月に開始したWebベースの深層学習サービス「DeLTA-Lite」で生成される推論器はx86用実行ファイルとFPGA用バイナリですが、そのFPGA用バイナリを実行できるFPGAボードとカメラもセット販売するようです。FPGAボードはTerasicのDE10-nanoで、推論結果の表示には別途Ethernet経由で映像受信可能なデバイス(PCとかRasPi)が必要と思われます。
LeapMind社が4月に開始したWebベースの深層学習サービス「DeLTA-Lite」で生成される推論器はx86用実行ファイルとFPGA用バイナリですが、そのFPGA用バイナリを実行できるFPGAボードとカメラもセット販売するようです。FPGAボードはTerasicのDE10-nanoで、推論結果の表示には別途Ethernet経由で映像受信可能なデバイス(PCとかRasPi)が必要と思われます。
-
MS ExcelやWordにAI機能を今秋追加!マイクロソフトがIoTを睨んだエッジAIに注力!FPGA「BrainWave」とは?「DLLAB DAY 2018」(出典:ロボスタ)
Project BrainWaveはサーバー向けの機械学習アクセラレーションのソリューションで、GoogleのTPU対抗(TPUの5倍早いらしい)という位置づけですが、『今後、「BrainWave」はクラウドはもとより、エッジデバイスにも導入していくことを示唆した。榊原氏はおそらく年内には「BrainWave」の機構を取り入れたデバイスのプレビュー版が出せるのではないか、と展望を語った。』とのことで、エッジ向けに何らかのデバイス(たぶんミドルクラスのFPGA)に展開する模様。
Project BrainWaveはサーバー向けの機械学習アクセラレーションのソリューションで、GoogleのTPU対抗(TPUの5倍早いらしい)という位置づけですが、『今後、「BrainWave」はクラウドはもとより、エッジデバイスにも導入していくことを示唆した。榊原氏はおそらく年内には「BrainWave」の機構を取り入れたデバイスのプレビュー版が出せるのではないか、と展望を語った。』とのことで、エッジ向けに何らかのデバイス(たぶんミドルクラスのFPGA)に展開する模様。
-
【DAC2018】FlexLogixがディープラーニング向けの組込み型FPGAコア「EFLX4K AI」を発表
FlexLogixは「eFPGA」という組み込み型FPGAコアを販売しており、「EFLX4K AI」はそのAI実装向けバリエーション。ややこしいですが、「FPGA用のIPコア」ではなく「SoCにFPGA機能を搭載するためのSoC用IPコア」です。
【DAC2018】FlexLogixがディープラーニング向けの組込み型FPGAコア「EFLX4K AI」を発表
2018年6月25日、SoC組み込み型のFPGAコアを手掛けるFlex Logix Technologiesは、新製品となるAI向けのeFPGA「EFLX4K AI」を発表した。プレスリリース文FlexLogixによると新製品「EFLX4K…
FlexLogixは「eFPGA」という組み込み型FPGAコアを販売しており、「EFLX4K AI」はそのAI実装向けバリエーション。ややこしいですが、「FPGA用のIPコア」ではなく「SoCにFPGA機能を搭載するためのSoC用IPコア」です。
-
NEDOらがアナログ抵抗変化素子を用いた超ローパワーエッジ向けAI回路を開発
深層学習のベクトル積和演算をアナログ回路で行うAIチップを開発している会社は何社かあって、確かに消費電力は下がるけど速度が早くならない(アナログなので状態変化に一定の時間がかかる)うえに、DACとADCも必要なのでチップもあまり小型化できない、という話を聞きました。今回の発表は、そのへんの課題をある程度クリアできたのかもしれません。
NEDOらがアナログ抵抗変化素子を用いた超ローパワーエッジ向けAI回路を開発
2018年6月18日、NEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)は、パナソニックセミコンダクターソリューションズ(株)、北海道大学とともに、アナログ抵抗変化素子を用いたAI半導体向けの脳型情報処理回路を開発し、世界最高水…
深層学習のベクトル積和演算をアナログ回路で行うAIチップを開発している会社は何社かあって、確かに消費電力は下がるけど速度が早くならない(アナログなので状態変化に一定の時間がかかる)うえに、DACとADCも必要なのでチップもあまり小型化できない、という話を聞きました。今回の発表は、そのへんの課題をある程度クリアできたのかもしれません。
-
エッジAIに限った話ではないですが、機械学習用データセットのまとめのまとめ
機械学習を行う際に利用可能なデータセットについてまとめています。
https://github.com/arXivTimes/arXivTimes/tree/master/datasets
【23個掲載】機械学習で使えるデータセット一挙勢揃い!
https://www.codexa.net/ml-dataset-list/
Googleの世界最大の画像データセット「Open Images v4」の概要や使い方のまとめ
https://www.codexa.net/open-images-v4-overview/
上海交通大学のXiaming Chenさんのまとめ
https://github.com/awesomedata/awesome-public-datasets#image-processing
Semantic Segmentation用データセット
https://github.com/mrgloom/awesome-semantic-segmentation#datasets機械学習を行う際に利用可能なデータセットについてまとめています。
https://github.com/arXivTimes/arXivTimes/tree/master/datasets
【23個掲載】機械学習で使えるデータセット一挙勢揃い!
https://www.codexa.net/ml-dataset-list/
Googleの世界最大の画像データセット「Open Images v4」の概要や使い方のまとめ
https://www.codexa.net/open-images-v4-overview/
上海交通大学のXiaming Chenさんのまとめ
https://github.com/awesomedata/awesome-public-datasets#image-processing
Semantic Segmentation用データセット
https://github.com/mrgloom/awesome-semantic-segmentation#datasets -
AWS Summit Tokyo 2018でみかけたクラウド+エッジAI
(1) AWS社のエリアでJetson展示
AWS Greengrassを実装したJetson(NVIDIAの組み込みGPUボード)を推論ハードウェアとしたシステム。AWSのSageMakerでTX1用のモデルを学習させ、Greengrassを使って学習済モデルをJetsonにデプロイ。Jetsonでは3種類のミニカーの車種を検出する物体検知(YOLO?)が動いていました。
(2)IntelブースでFPGA AI展示
IEI社の産業用PCに同社製Arria 10 GX FPGAボードを組み込んだエッジ向けのAI環境で、Tiny YOLOを動かしていました。こちらもPCにはCentOSにGreengrassを組み込んであり、サーバーでの学習結果を取り込むとともに、推論結果をAWSで表示するデモになっていました。
IEI社のPCはこれ↓で、今後、販売時のモデルにFPGAボード内蔵のものが用意される模様
https://www.ieiworld.com/jp/product/model.php?II=525
内蔵されるFPGAボードも、既存のインテル® Arria® 10 SoCボードより小型(ショートサイズ、ロープロファイル対応)で、価格もかなり安くなるエッジ向け商品になるそうです。(1) AWS社のエリアでJetson展示
AWS Greengrassを実装したJetson(NVIDIAの組み込みGPUボード)を推論ハードウェアとしたシステム。AWSのSageMakerでTX1用のモデルを学習させ、Greengrassを使って学習済モデルをJetsonにデプロイ。Jetsonでは3種類のミニカーの車種を検出する物体検知(YOLO?)が動いていました。
(2)IntelブースでFPGA AI展示
IEI社の産業用PCに同社製Arria 10 GX FPGAボードを組み込んだエッジ向けのAI環境で、Tiny YOLOを動かしていました。こちらもPCにはCentOSにGreengrassを組み込んであり、サーバーでの学習結果を取り込むとともに、推論結果をAWSで表示するデモになっていました。
IEI社のPCはこれ↓で、今後、販売時のモデルにFPGAボード内蔵のものが用意される模様
https://www.ieiworld.com/jp/product/model.php?II=525
内蔵されるFPGAボードも、既存のインテル® Arria® 10 SoCボードより小型(ショートサイズ、ロープロファイル対応)で、価格もかなり安くなるエッジ向け商品になるそうです。 -
Latticeがエッジ向けのAI組み込みFPGAキット「Lattice sensAI」を発表
対応プラットフォームはECP5ボードとiCE40 UltraPlusボード
もちろん2値化CNNで、リファレンスデザインは
- 顔検出
- キーフレーズ検出
- オブジェクトカウント
- 顔追跡および速度標識検出
VengineerさんがLattice FPGA用のNNアクセラレータIPと開発環境を読み解いていらっしゃいます。
https://blogs.yahoo.co.jp/verification_engineer/71582757.html
Caffeの場合は.protoと.caffemodelを、TensorFlowの場合は.pbを入力として、Neural Network Compilerにて、Neural Networkの命令および量子化されたウェイト(たぶん、ファイル)を生成し、その生成したファイル( .lscml / ,bin )をFPGAの内部RAMにロードする。
CNN : Ubuntu,Windowsで動作、TensorFlow/Caffe共にサポート
BNN : Ubuntuのみ動作、Caffeのみサポート
ついにシェア第3位のFPGAベンダも動き出しましたね。Latticeがエッジ向けのAI組み込みFPGAキット「Lattice sensAI」を発表
2018年5月21日、FPGAベンダLattice Semiconductorは、新製品となるエッジデバイス向けのAI組み込みFPGAキット「Lattice sensAI」を発表した。プレスリリース文「Lattice sensAI」はIoT…
対応プラットフォームはECP5ボードとiCE40 UltraPlusボード
もちろん2値化CNNで、リファレンスデザインは
- 顔検出
- キーフレーズ検出
- オブジェクトカウント
- 顔追跡および速度標識検出
VengineerさんがLattice FPGA用のNNアクセラレータIPと開発環境を読み解いていらっしゃいます。
https://blogs.yahoo.co.jp/verification_engineer/71582757.html
Caffeの場合は.protoと.caffemodelを、TensorFlowの場合は.pbを入力として、Neural Network Compilerにて、Neural Networkの命令および量子化されたウェイト(たぶん、ファイル)を生成し、その生成したファイル( .lscml / ,bin )をFPGAの内部RAMにロードする。
CNN : Ubuntu,Windowsで動作、TensorFlow/Caffe共にサポート
BNN : Ubuntuのみ動作、Caffeのみサポート
ついにシェア第3位のFPGAベンダも動き出しましたね。 -
PFNとDeNAのICLR2018の読み会
3部に分かれている中の1件目がモデル軽量化の話題。かなりまとまっていて、トレンド追うのに非常に良い。
ICLR2018読み会 @ PFN (Part 1)
https://connpass.com/event/88077/ Part 1: https://www.youtube.com/watch?v=5wW6OFK_Y94 Part 2: https://www.youtube.com/watch?v=qmr6ZpFGFpA Part 3: https://www…
3部に分かれている中の1件目がモデル軽量化の話題。かなりまとまっていて、トレンド追うのに非常に良い。
-
Armが機械学習専用プロセッサ「Arm ML」を投入へ(出典:Impress Watch)
・CNNの画像認識に適したアーキテクチャを取っているが、RNNやLSTMなどほかのネットワークモデルにも対応できる柔軟性を持つ
・電力効率を上げるため、データ精度はINT8のみとしており、浮動小数点演算はサポートしない
・プルーニング(Pruning:剪定)にハードウェアで対応
・2018年中盤にRTLの提供開始、チップの登場は2019年の見込み
・Object Detection専用のプロセッサも別途リリース(Full HDの60フレームの動画の中の群衆から、リアルタイムで個々の顔部分を検知するといった処理が可能)【後藤弘茂のWeekly海外ニュース】 Armが機械学習専用プロセッサ「Arm ML」を投入へ
Armがついにマシンラーニング(ML:機械学習)専用プロセッサのIPを正式にリリースする。Armの「Arm MLプロセッサ(Machine Learning Processor)」は、最近、各社から次々に登場している「ニューラルネットワークプロセッサ(NPU)」と同じく、ニューラルネットワーク(Neural Network:NN)を低電力かつ高パフォーマンスに実行する。CPUやGPU、DSPの拡張ではなく、最初からML処理専用に設計された専用アーキテクチャだ。Armは、Arm MLを投入することを、今年(2018年)2月に発表していたが、いよいよ技術的な詳細を明らかにした。
・CNNの画像認識に適したアーキテクチャを取っているが、RNNやLSTMなどほかのネットワークモデルにも対応できる柔軟性を持つ
・電力効率を上げるため、データ精度はINT8のみとしており、浮動小数点演算はサポートしない
・プルーニング(Pruning:剪定)にハードウェアで対応
・2018年中盤にRTLの提供開始、チップの登場は2019年の見込み
・Object Detection専用のプロセッサも別途リリース(Full HDの60フレームの動画の中の群衆から、リアルタイムで個々の顔部分を検知するといった処理が可能) -
電気通信大学とオープンストリーム、 FPGAによるAIエッジコンピューティング技術の実証実験を行い、論文を発表
論文の概略は、integerで構成されたDCGANを、上位層から順に2値化していき、どこまで2値化すれば精度が保てるか、という内容です。
結論としては、一番最後のDeconv2Dが一番インパクトが大きいので、それ以外は、2値化しても実用的な精度は保てるとのこと。
<参考資料>
・電通大のプレスリリース
http://www.uec.ac.jp/news/announcement/2018/20180403_922.html
・電通大の論文
https://arxiv.org/abs/1803.10930オープンストリームと電気通信大学、FPGAによるAIエッジコンピューティング技術の実証実験を行い、論文を発表
オープンストリームと電気通信大学、FPGAによるAIエッジコンピューティング技術の実証実験を行い、論文を発表
論文の概略は、integerで構成されたDCGANを、上位層から順に2値化していき、どこまで2値化すれば精度が保てるか、という内容です。
結論としては、一番最後のDeconv2Dが一番インパクトが大きいので、それ以外は、2値化しても実用的な精度は保てるとのこと。
<参考資料>
・電通大のプレスリリース
http://www.uec.ac.jp/news/announcement/2018/20180403_922.html
・電通大の論文
https://arxiv.org/abs/1803.10930 -
AIの導入で失敗、ありがちな4パターン(出典:日経TECH/有料記事)
AI導入で失敗する4つの典型例
(1)見切り発車
(2)深層学習信奉
(3)構築を丸投げ
(4)作って満足
IoTのときも同じようなこと言われていましたね。AIの導入で失敗、ありがちな4パターン
多くの企業がAIの実証実験に取り組む一方、実用化に至らない事例も相次ぐ。AI導入の失敗例を探ると、4つの要因が浮かび上がってきた。目的が不明確、特性の理解不足、開発丸投げ、運用軽視が「無限ループ」につながる。
AI導入で失敗する4つの典型例
(1)見切り発車
(2)深層学習信奉
(3)構築を丸投げ
(4)作って満足
IoTのときも同じようなこと言われていましたね。 -
クラウディアン株式会社、エッジコンピューティングを実現するデバイス「CLOUDIAN AI BOX」の開発を発表(出典:ログミー)
クラウディアン社ではもともとローカルストレージを作っていた。
AIを使ったデジタルサイネージ、AIによる交通量測定の実証実験をきっかけに、AI BOXを開発。
AI BOXの特長
・GPUはNVIDIAのJetson TX2
・PoEでカメラに給電可能
・HDMI出力有り
・LTE、Wi-Fi、128GSSD内蔵
・IP67対応、サージプロテクションあり(アウトドアモデル)
・動作温度
アウトドアモデル:-30~60℃
インドアモデル:-10~50℃
・サイズ
アウトドアモデル:210x367x83 4.31kg
インドアモデル:142x106x55 0.8kg
(参考:Fog Gatewayは220x156x90)
・価格は不明
クロスコンパスやABEJAと協業
製造業からの引き合いが一番多い
クラウドを使えない工場には自社ストレージとの組み合わせで販売クラウド全盛期に引く手あまたの“スゴい箱” 日本発ベンチャーが「AI BOX」に見る勝機
オブジェクトストレージ製品「CLOUDIAN HYPERSTORE」を提供するクラウディアン株式会社が、エッジコンピューティングを実現するデバイス「CLOUDIAN AI BOX」の開発を発表しました。クラウド全盛期の今、同社がハードウェア製品の展開に注力する理由とは何か。太田社長に開発のきっかけや国内IoT市場における勝機を聞きました。(CLOUDIAN AI Projectの詳細はこちら)
クラウディアン社ではもともとローカルストレージを作っていた。
AIを使ったデジタルサイネージ、AIによる交通量測定の実証実験をきっかけに、AI BOXを開発。
AI BOXの特長
・GPUはNVIDIAのJetson TX2
・PoEでカメラに給電可能
・HDMI出力有り
・LTE、Wi-Fi、128GSSD内蔵
・IP67対応、サージプロテクションあり(アウトドアモデル)
・動作温度
アウトドアモデル:-30~60℃
インドアモデル:-10~50℃
・サイズ
アウトドアモデル:210x367x83 4.31kg
インドアモデル:142x106x55 0.8kg
(参考:Fog Gatewayは220x156x90)
・価格は不明
クロスコンパスやABEJAと協業
製造業からの引き合いが一番多い
クラウドを使えない工場には自社ストレージとの組み合わせで販売 -
レグラスのAIカメラのPR記事。Xilinx社との対談形式。
DL推論器の実装については、
・推論器は(Xilinx社のreVISIONではなく)量子化版CNNをFPGA Fabric上に実装
・学習はChainerを用いてGPUクラウドサービスを使用
ターゲットとしては
・最大4つ迄イメージセンサーを接続でき、ステレオ測距や周囲360°撮影、多波長カメラ等としても使用可能
・建設、工事現場、工場等、安全監視が必要な業界
・誤報での出動が90%を占めるとも言われている警備会社からも高い関心Zynq UltraScale+ MPSoCで、AI搭載インテリジェントカメラを実現
人物検知などの監視機能を備えたインテリジェントカメラを手掛けるレグラスは、画像処理のプラットフォームとして、FPGAファブリックとArmプロセッサコアを統合したザイリンクスのZynq®-7000 SoCおよびZynq UltraScale+™ MPSoCを採用した。
DL推論器の実装については、
・推論器は(Xilinx社のreVISIONではなく)量子化版CNNをFPGA Fabric上に実装
・学習はChainerを用いてGPUクラウドサービスを使用
ターゲットとしては
・最大4つ迄イメージセンサーを接続でき、ステレオ測距や周囲360°撮影、多波長カメラ等としても使用可能
・建設、工事現場、工場等、安全監視が必要な業界
・誤報での出動が90%を占めるとも言われている警備会社からも高い関心 -
Google、機械学習をモバイルで処理するTensorFlow向け画像認識モデル「MobileNetV2」オープンソース公開。従来モデルより高速に
組み込み機器で深層学習を処理する場合、どうしても少ないハードウェアリソースで動くような設計を行う必要がある。
その場合、ネットワークを最適化して演算回数を減らすアプローチと、演算処理を実行デバイスに最適化して計算速度を上げるアプローチがある。MobileNetは前者のアプローチであり、特定のハードウェアに依存しない手法といえる。Google、機械学習をモバイルで処理するTensorFlow向け画像認識モデル「MobileNetV2」オープンソース公開。従来モデルより高速に
Googleは、TensorFlow向けとしてスマートフォンなどのモバイル端末のために設計されたコンピュータビジョン・ニューラルネットワーク・ファミリの次世代モデル「MobileNetV2」をオープンソースとして発表しました。
組み込み機器で深層学習を処理する場合、どうしても少ないハードウェアリソースで動くような設計を行う必要がある。
その場合、ネットワークを最適化して演算回数を減らすアプローチと、演算処理を実行デバイスに最適化して計算速度を上げるアプローチがある。MobileNetは前者のアプローチであり、特定のハードウェアに依存しない手法といえる。 -
ADAS/自動運転向けの物体検出CNNを1個のArmコア内蔵FPGAで実現、ザイリンクスが講演(出典:日経TECH/有料記事)
以下、実装手法の抜粋
デバイス:Zynq UltraScale+ EG(XCZU3EG)
データセット:Pascal Visual Object Classes
ネットワークモデル:Tincy YOLO(Tiny YOLOの独自改造版)
以下の複数の技術を使って、精度低下なしに16fpsを実現
(普通にARM Cortex-A53でTiny YOLOを動かした場合の160倍)
(1)CNNで処理するデータやパラメーターの量子化
入力層:8bit以上
隠れ層(12層):重みは1bit、データは3bit
出力層:8bit以上
(2)FPGAファブリックの利用
量子化された畳み込み層の処理のオフロードに利用
(3)Cortex-A53が内蔵するSIMD演算器「NEON」の利用
入力層の高速化に寄与
(4)アルゴリズム的な工夫
入力層の次のmaxpool層の除去
(5)4つのCortex-A53を使った並列処理
なお、Tiny YOLOが「Darknet」フレームワークをベースに開発されており、CUDAプログラミングではないGPUであるMaliへの実装のうまみがないとのこと。
CNN部分は低精度で構わなのでFPGA、入力層と回帰部分は高精度必要なのでCPU(NEON)ということかと思われます。reVISIONもそうですが、Xilinx社はFPGAだけというより、SOC FPGAで総合的に速度を上げるアプローチ。このクラスのデバイスでも64bit ARMを搭載してるのが強いですね。ADAS/自動運転向けの物体検出CNNを1個のArmコア内蔵FPGAで実現、ザイリンクスが講演
米Xilinx(ザイリンクス)社は、1個のArmコア内蔵FPGA「Zynq UltraScale+ EG(XCZU3EG)」上に実装できる、物体検出用の畳み込みニューラルネットワーク(CNN)「Tincy YOLO」を開発し、その概要をドイツ・ドレスデンで開催の電子設計・テスト技術に関する国際学会「2018 Design, Automation & Test in Europe:DATE 18」(3月19日~22日)で発表した。ビデオストリームからリアルタイム(16フレーム/秒の速度)で物体を検出できるため、ADASや自動運転向けの画像認識処理などに応用可能だとした。
以下、実装手法の抜粋
デバイス:Zynq UltraScale+ EG(XCZU3EG)
データセット:Pascal Visual Object Classes
ネットワークモデル:Tincy YOLO(Tiny YOLOの独自改造版)
以下の複数の技術を使って、精度低下なしに16fpsを実現
(普通にARM Cortex-A53でTiny YOLOを動かした場合の160倍)
(1)CNNで処理するデータやパラメーターの量子化
入力層:8bit以上
隠れ層(12層):重みは1bit、データは3bit
出力層:8bit以上
(2)FPGAファブリックの利用
量子化された畳み込み層の処理のオフロードに利用
(3)Cortex-A53が内蔵するSIMD演算器「NEON」の利用
入力層の高速化に寄与
(4)アルゴリズム的な工夫
入力層の次のmaxpool層の除去
(5)4つのCortex-A53を使った並列処理
なお、Tiny YOLOが「Darknet」フレームワークをベースに開発されており、CUDAプログラミングではないGPUであるMaliへの実装のうまみがないとのこと。
CNN部分は低精度で構わなのでFPGA、入力層と回帰部分は高精度必要なのでCPU(NEON)ということかと思われます。reVISIONもそうですが、Xilinx社はFPGAだけというより、SOC FPGAで総合的に速度を上げるアプローチ。このクラスのデバイスでも64bit ARMを搭載してるのが強いですね。 -
NVIDIA と Arm が提携、何十億台もの IoT デバイスにディープラーニングの導入を目指す(出典:CNET Japan)
ARMの機械学習用IPである「Project Trillium」にNVIDIAが協力するといった内容。
ARMのCPUコアとは切り離されたIPだとすると、すでに同様の機能を搭載したIP CoreやSoCが登場しており、ライバルは多い。NVISIAとしてはTX1/2よりこちらが本命ではないか?ARMの機械学習用IPである「Project Trillium」にNVIDIAが協力するといった内容。
ARMのCPUコアとは切り離されたIPだとすると、すでに同様の機能を搭載したIP CoreやSoCが登場しており、ライバルは多い。NVISIAとしてはTX1/2よりこちらが本命ではないか? -
LinaroからARMベースの組込AI開発キット発表
搭載しているプロセッサは、
(1) Hikey 970 : HiSilicon Kirin 970
(2) Ultra96 : Xlinix Zynq UltraScale+ MPSoC ZU3EG
(3) ROCK960 PRO & Enterprise Edition : Rockchip RK3399Pro
(1)(3)はスマホ用のSOCを搭載して、両方ともNPU(ニューラルネットワークのアクセラレータユニット)を搭載。(2)はXilinxのSoC FPGAで、こちらもFPGAをニューラルネットワークのアクセラレータとしての利用を想定。
いずれも4コアARMと豊富なペリフェラルのコントローラやグラフィックエンジンを内蔵しています。
LinaroはARM用の組込Linuxを開発しているグループなので、組込AI版のラズパイを目指しているように見えます。
<製品詳細>
https://www.96boards.ai/products/96Boards Unveils Four A.I. Developer Platforms: HiKey 970, Ultra96, ROCK960 PRO & Enterprise Edition
Many new processors include a Neural Processing Unit (NPU) – aka Neural Network Accelerator (NNA) – in order to speed up talks associated with artificial
搭載しているプロセッサは、
(1) Hikey 970 : HiSilicon Kirin 970
(2) Ultra96 : Xlinix Zynq UltraScale+ MPSoC ZU3EG
(3) ROCK960 PRO & Enterprise Edition : Rockchip RK3399Pro
(1)(3)はスマホ用のSOCを搭載して、両方ともNPU(ニューラルネットワークのアクセラレータユニット)を搭載。(2)はXilinxのSoC FPGAで、こちらもFPGAをニューラルネットワークのアクセラレータとしての利用を想定。
いずれも4コアARMと豊富なペリフェラルのコントローラやグラフィックエンジンを内蔵しています。
LinaroはARM用の組込Linuxを開発しているグループなので、組込AI版のラズパイを目指しているように見えます。
<製品詳細>
https://www.96boards.ai/products/ -
ザイリンクスが7nmプロセスの新製品「ACAP」を投入、AI処理性能は20倍以上に(出典:MONOist)
AI向けを鮮明に明示した製品。Xilinx社として、AIはハイエンドFPGAという方向なのでしょうか。
ザイリンクスが7nmプロセスの新製品「ACAP」を投入、AI処理性能は20倍以上に
ザイリンクスは、新しい製品カテゴリーとなる「ACAP」を発表した。これまで同社が展開してきた製品とは異なるカテゴリーに位置付けられ、幅広いアプリケーションとワークロードの需要に適応可能とする。TSMCの7nmプロセスで開発されており、2018年内に開発を完了し、2019年に製品出荷を始める計画だ。
AI向けを鮮明に明示した製品。Xilinx社として、AIはハイエンドFPGAという方向なのでしょうか。
-
組み込みAI開発、現場が渇望する「FPGA人材」(出典:日経TECH/有料記事)
確かにFPGA開発の人材は枯渇しているが、いろいろな会社を回っている感覚では、現時点では「組み込みAI向け」のFPGA人材はまだ需要も明確ではないのではないかと思う。
もう少し広く考えて「AIの実装を検討できる組み込みエンジニア」という観点であれば、
すぐに需要は拡大すると思われるので、それを想定した教育が必要。組み込みAI開発、現場が渇望する「FPGA人材」
「当社が受託するハードウエアの設計案件は、今やほとんどがFPGA(回路構成を自由に変更できる半導体)がらみ。とにかく開発人材が足りない」――。こう語るのは、OKIアイディエス(群馬県高崎市)で代表取締役社長を務める穴田則明氏だ。沖電気工業(OKI)グループの同社は、情報通信機器や映像機器、FA(ファクトリーオートメーション)機器、医療機器などの設計受託開発を手掛けるEMS(Electronics Manufacturing Servive)事業会社である。穴田氏によれば、同社が手掛ける製品分野ではここ数年でFPGAの受託開発案件が増加し、社内の人材不足感が際立ってきたという。
確かにFPGA開発の人材は枯渇しているが、いろいろな会社を回っている感覚では、現時点では「組み込みAI向け」のFPGA人材はまだ需要も明確ではないのではないかと思う。
もう少し広く考えて「AIの実装を検討できる組み込みエンジニア」という観点であれば、
すぐに需要は拡大すると思われるので、それを想定した教育が必要。 -
2017/12/24発表のサーベイ「A Survey of FPGA Based Neural Network Accelerator」日本語抄訳
2017/12/24発表のサーベイ「A Survey of FPGA Based Neural Network Accelerator」の日本語抄訳をLeapMindの山田さんが公開されています。FPGA実装手法の概論です。
また、2017/12/23発表のサーベイ「A Survey of Model Compression and Acceleration for Deep Neural Networks」は、特にエッジ向けのモデル圧縮の手法についての手法を紹介しています。こちらも山田さん抄訳です。
http://cparch-mclearn.blogspot.jp/2017/12/a-survey-of-model-compression-and_30.html
http://cparch-mclearn.blogspot.jp/2018/01/a-survey-of-model-compression-and.html
http://cparch-mclearn.blogspot.jp/2018/01/a-survey-of-model-compression-and_8.html
いずれも推論器をFPGAに組み込む際の一般的手法が多数紹介されていますので、各種エッジAIプラットフォームの特長や欠点を把握するのに役立つかと思います。「A Survey of FPGA Based Neural Network Accelerator」の邦訳
A survey of FPGA Based Neural Network Accelerator …
2017/12/24発表のサーベイ「A Survey of FPGA Based Neural Network Accelerator」の日本語抄訳をLeapMindの山田さんが公開されています。FPGA実装手法の概論です。
また、2017/12/23発表のサーベイ「A Survey of Model Compression and Acceleration for Deep Neural Networks」は、特にエッジ向けのモデル圧縮の手法についての手法を紹介しています。こちらも山田さん抄訳です。
http://cparch-mclearn.blogspot.jp/2017/12/a-survey-of-model-compression-and_30.html
http://cparch-mclearn.blogspot.jp/2018/01/a-survey-of-model-compression-and.html
http://cparch-mclearn.blogspot.jp/2018/01/a-survey-of-model-compression-and_8.html
いずれも推論器をFPGAに組み込む際の一般的手法が多数紹介されていますので、各種エッジAIプラットフォームの特長や欠点を把握するのに役立つかと思います。 -
ラズパイゼロで高速物体認識-Executing MobileNet on Raspberry Pi Zero-
・1000分類の物体認識
・ざっと測った感じでは2.5fps(1回あたり400ms)
・MobileNet_v1_1.0_224モデルを使用し、Googleの以前のGoogLeNetデモよりも正確で高速
・作者曰く、モデル上で数学的に同等の変換しか実行せず、FP32で実行するため、精度の低下はほとんどないとのこと
http://tech.nikkeibp.co.jp/atcl/nxt/event/18/00004/030100038/ (出典:日経xTECH)
こちらの記事によると、MobileNetをRasPi内臓のGPUでアクセラレーションして、GPUなしで0.17fps、GPUありで3.7fps (x21)出ているようです。
また、月額課金のIoT基盤サービス「Actcast」のモジュールとして提供するプランのようです。Demo: Executing MobileNet on Raspberry Pi Zero
This demo runs image classification with MobileNet using only limited resources of Raspberry Pi Zero 1.3. No external computing resources are used. Please no…
・1000分類の物体認識
・ざっと測った感じでは2.5fps(1回あたり400ms)
・MobileNet_v1_1.0_224モデルを使用し、Googleの以前のGoogLeNetデモよりも正確で高速
・作者曰く、モデル上で数学的に同等の変換しか実行せず、FP32で実行するため、精度の低下はほとんどないとのこと
http://tech.nikkeibp.co.jp/atcl/nxt/event/18/00004/030100038/ (出典:日経xTECH)
こちらの記事によると、MobileNetをRasPi内臓のGPUでアクセラレーションして、GPUなしで0.17fps、GPUありで3.7fps (x21)出ているようです。
また、月額課金のIoT基盤サービス「Actcast」のモジュールとして提供するプランのようです。 -
人工知能ニュース:三菱電機の「コンパクトな人工知能」、FPGAへの実装も可能に(出典:MONOist)
実装方法や学習方法など不明ですが、枝刈りで小さくする手法のようです。
三菱電機の「コンパクトな人工知能」、FPGAへの実装も可能に
三菱電機は小規模なFPGAにも実装できる「コンパクトなハードウェアAI」を発表。深層学習などによって得た推論アルゴリズムについて、従来と比べて処理速度を10倍、もしくはFPGAの回路規模を10分の1にすることができるという。
実装方法や学習方法など不明ですが、枝刈りで小さくする手法のようです。
-
PFUからChainer対応のFPGA内蔵推論処理ボード
・産業用PC/コンピューターに挿す拡張ボード
・深層学習済みのニューラルネットワークは米Intel社のFPGA「Arria10 GX1150」に実装する。
・「AIというとGPUが話題に上ることが多いが、リアルタイム処理性能や低消費電力性、ボード寸法などを考慮した結果、FPGAを選んだ」
・標準のChainerはターゲットのハードウエアがMPUやGPUなので、FPGA実装向けのデータを出力する機能(ソフトウエア)はPFUが開発した。
・Deep Learningアクセラレータカードは2018年11月に出荷を開始する予定。FPGA向けデータ出力機能の付いた深層学習フレームワークや、サンプルのニューラルネットワーク(画像認識用)、サンプルのアプリケーションソフトウエア(画像認識)が付属する(いずれもホストの産業用PC/コンピューターのARシリーズ向け)。
展示会で聞いたところによると、アクセラレーターは独自実装したとのこと。ネットワークすべてをFPGAに入れるのではなく、ホストのChainerから関数単位でFPGAのアクセラレーションファンクションを呼び出す方式。PFNのChainer対応の推論処理ボード、PFUが発売
PFUは、産業向けエッジコンピューティング事業の幅を広げる。その第1弾として、深層学習の推移処理を実行するPCI Expressボード「<AI400シリーズ>Deep Learningアクセラレータカード」を発売した。
]・産業用PC/コンピューターに挿す拡張ボード
・深層学習済みのニューラルネットワークは米Intel社のFPGA「Arria10 GX1150」に実装する。
・「AIというとGPUが話題に上ることが多いが、リアルタイム処理性能や低消費電力性、ボード寸法などを考慮した結果、FPGAを選んだ」
・標準のChainerはターゲットのハードウエアがMPUやGPUなので、FPGA実装向けのデータを出力する機能(ソフトウエア)はPFUが開発した。
・Deep Learningアクセラレータカードは2018年11月に出荷を開始する予定。FPGA向けデータ出力機能の付いた深層学習フレームワークや、サンプルのニューラルネットワーク(画像認識用)、サンプルのアプリケーションソフトウエア(画像認識)が付属する(いずれもホストの産業用PC/コンピューターのARシリーズ向け)。
展示会で聞いたところによると、アクセラレーターは独自実装したとのこと。ネットワークすべてをFPGAに入れるのではなく、ホストのChainerから関数単位でFPGAのアクセラレーションファンクションを呼び出す方式。 -
学習用か推論用か、深層学習用プロセッサを巡る戦略 – サーバー・プロセッサ バトルロイヤル2017:ITpro Active
どのHWアーキテクチャが、何に向いているのかが、具体的な製品名でまとめられていて、今後のエッジAIのアーキテクチャを予想する材料に。
学習用か推論用か、深層学習用プロセッサを巡る戦略
大手半導体メーカーや大手クラウド事業者が、ディープラーニング(深層学習)用のプロセッサ開発に力を注いでいる。ディープラーニングに必要な「低い精度での積和演算」に特化した行列演算ユニットを数百~数万個搭載することで、汎用プロセッサを上回る性能を目指す。
どのHWアーキテクチャが、何に向いているのかが、具体的な製品名でまとめられていて、今後のエッジAIのアーキテクチャを予想する材料に。
-
自動運転技術:電子ミラーにディープラーニングを、100m後方から接近する車両を検出 (出典:MONOist)
・カメラとディスプレイでサイドミラーを置きかえる電子ミラー向けに、100m離れた後側方の物体を深層学習(ディープラーニング)で検知する技術
・独自のディープラーニング「コンパクトな人工知能(AI)」を、ルネサス エレクトロニクスのSoC「R-Car H3」のCPUで動作
・従来、電子ミラー向けでは30m程度だった検出距離を100mまで拡大するとともに、検出精度を14%から81%に向上
単眼カメラの距離検出とDL物体検出をCPUで実装。フレームレートが気になるところですが、実用化しているとなると30fpsは出ているはず?電子ミラーにディープラーニングを、100m後方から接近する車両を検出
三菱電機は、カメラとディスプレイでサイドミラーを置きかえる電子ミラー向けに、100m離れた後側方の物体を深層学習(ディープラーニング)で検知する技術を披露した。
・カメラとディスプレイでサイドミラーを置きかえる電子ミラー向けに、100m離れた後側方の物体を深層学習(ディープラーニング)で検知する技術
・独自のディープラーニング「コンパクトな人工知能(AI)」を、ルネサス エレクトロニクスのSoC「R-Car H3」のCPUで動作
・従来、電子ミラー向けでは30m程度だった検出距離を100mまで拡大するとともに、検出精度を14%から81%に向上
単眼カメラの距離検出とDL物体検出をCPUで実装。フレームレートが気になるところですが、実用化しているとなると30fpsは出ているはず?