KUMICO

COLUMN

カメラ映像の高速異常検出を実現するFPGAエッジAI

AIによって、めざましい進歩を遂げている画像認識技術。「エッジAI」+「FPGA」によって創出される新しい画像認識の世界をご案内します。

現在、ステレオカメラなどに用いられている画像認識の技術は、AIの台頭によりめざましい進化を遂げています。AIとひと口に言っても、こうした先進技術において不可欠なのが、エッジAIという存在。エッジAIは、画像認識技術において何を可能にしたのでしょうか。

従来型AIと新しいAIについて

AIという言葉が聞かれるようになった当初は、AIといえばクラウド型が主流でした。クラウド型AIというのは、たとえばIoTデバイスに取り付けられたセンサーからのセンシング情報をキャプチャし、それをクラウド上にあるサーバーで予測・推論し結果を返す、という一連の構造を持つAIです。iOS向けのアプリケーションソフトウェアであるSiriで実現されている各種サービスで使われているAIの形態がこれに近いと考えられます。

クラウド型AIの特徴に、遅延の発生があります。Siriを使ったことがある人はお分かりだと思いますが、Siriに質問を投げかけてから答えが返ってくるまでには、少し間がありますよね。これは、クラウド側がAIによって音声を認識し、理解して、返すべき最適な答えを出す時間に加えて、手元のパソコンからインターネットを経由してSiriが機能しているクラウド間のネットワーク通信にも時間がかかるためです。

スマートフォンの音声認識であれば、単にユーザーが返答を待てばいいだけの話ですが、これが自動運転の衝突防止機能だったらそうはいきません。車載カメラで目の前の人や物を感知し、撮影データをクラウドにアップロード、それを処理して答を出して、クラウドからそれを送り返す…といったことをしている間に車は障害物にぶつかってしまうでしょう。そうした事故を起こさないために、自動運転車にはクラウド型AIではないAIが搭載されています。このような機器自体に組み込むAIを、エッジAIと言います。

エッジAIとは、端末(エッジ)側にある程度の高い処理能力を持たせ、クラウドに頼らずレスポンシブに結果を返す仕組みを持ったAIのことです。自動運転車でいえば、走行中に近距離にある障害物を感知したら衝突を回避するようにハンドルを操作したり、ブレーキをかけるという判断を、クラウドに負荷をかけることなくエッジAIが独断で行う仕組みということです。エッジ(端末)がAI化すれば、通信データ量の削減とレスポンスの低遅延化が実現でき、IoT監視カメラの膨大な画像データや大量のセンサーデータなども低コストで扱うことが可能になります。

多くの半導体メーカーがエッジ向けのAI用SoC(システム・オン・チップ)の開発に乗り出しています。

エッジAIが真価を発揮する分野とは?

それでは、エッジAIはどのような分野で力を発揮するのでしょうか。その一例が、ステレオビジョン(画像認識)技術の分野です。人間の目は、右目と左目に入ってくる画像の差分(視差)情報から奥行きを認識し、物体までの距離をつかむことができます。ステレオビジョン技術は、車載ステレオカメラや産業機器、監視カメラのようなセキュリティ分野などに用いられています。ではなぜ、エッジAIがステレオビジョンの分野に有効なのでしょうか。

エッジAIの特性として、まずレイテンシー(遅延)の低さが挙げられます。レイテンシーが低いということは、画像のキャプチャから結果を返すまでの時間が短いということで、これは車載ステレオカメラが障害物を認識して車を自動停止させるといったような動作が瞬時に行われることになります。また、例えば工場のラインに秒速100個の製造物が流れていた場合、どこに傷が付いているのか、あるいは傷が付いていないのかを正確に、しかも高速に判断し、適切な対応をとることができるようになります。このように距離情報を画像から計算できるステレオビジョン技術と、画像の被写体を認識するAI技術が融合し、それらがエッジデバイスの中で連携することで、従来実現できなかった高度な機能を実現することができるようになったのです。

最近では、AI関連の注目ワードとしてディープラーニング(深層学習)があります。ディープラーニングとは多層ニューラルネットワークによる機械学習手法の一種で、それにより、あらかじめ決められたプログラムに従った処理だけでなく、人間の脳のように柔軟な情報処理機能を実現しようとするものです。ディープラーニングで学習した特徴量を使うことで、これは人間の顔である、これは犬の顔であるなど、被写体を認識するニューロンのネットワークが形成され、それによってどのような画像が入力されたのかを識別することができるようになります。

このディープニューラルネットワーク分野で画像を扱う用途の主力となるのが「畳み込みニューラルネットワーク(CNN)」で、画像認識の精度を上げるための様々な最適化手法やアルゴリズム研究が注目されています。CNNは、視覚情報を処理する脳の複雑な構造をヒントにしてつくられていて、入力層を経た後、畳み込み層とプーリング層という層を何度か繰り返し、最後に得られた特徴量から最終的な推論を行う全結合層で構成されています。畳み込み層で得られたのが局所的な特徴でも、それをプーリング層が適切にまとめる役割を果たします。たとえば、識別したい物体が画像の中で右あるいは左に写っているかというのを、私たち人間は重要視しません。重要なのは、その画像が犬なのか猫なのかというカテゴリ分類です。CNNも同じように、カテゴリ分類以外の情報は削ぎ落とし、精度の高い識別にすぐれた能力を発揮するものとなっています。

エッジAI×FPGAで広がるIoTの未来

CNNの高速推論処理を実現するには、極めて大量の積和演算が必要です。そして、組み込み機器で求められることが多いリアルタイム性という点を鑑みても、この演算処理はエッジデバイス側で行い、そこで機能するエッジAIによって高速に、かつ正確に推論されることが求められます。エッジ側にこうした機能を持たせるのに適しているのが、FPGAです。複雑で高い並列処理能力や高度な計算リソースが重要視されるAIの学習はサーバ側で実施し、エッジ側ではFPGAが推論だけを高速に実施する構成になります。

AIの推論機能をFPGAに実装することで、以下のメリットがあります。

(1)運用コストの削減
(2)省電力化
(3)高速処理
(4)安定稼働
(5)小型化

クラウド・サーバに依存しない低コストでの運用が可能になるため、長期的な利用を想定したIoTエッジ端末に最適なFPGA。小型であるため各種機器に組み込むことができるのに加え、工場のような使用環境温度の厳しい環境でも動作可能な拡張温度対応の製品ラインナップもあるため、使用環境や放熱設計の自由度が高いといえるでしょう。

こうした様々なメリットがあるFPGAは、高度な画像認識(ステレオビジョン)技術が使われるADAS(先進運転支援システム)をはじめ、産業・FAロボットアーム制御、小売業店舗内の顧客動線検知、セキュリティ対策特殊監視などに貢献しています。

個別相談も承っております。下記よりお申し込みください。

個別相談会申し込み

関連記事

OTHER COLUMN

MORE  

まこちゃんブログ

NEWS

MORE  

PARTNER

  • Intel
  • Xilinx

お探しの組み込み製品はキーワードで検索!