Neural Decision Processors(NDP)
TML120が物理的パッケージを提供する一方、NDPは推論を駆動する専用エンジンです。eFabric™ エコシステムの中核は**Neural Decision Processor(NDP)**です。これはトランジスタレベルから設計されたカテゴリ定義型のシリコンであり、1つのことを最大効率で行います:ディープニューラルネットワークの実行です。AIを単なる「タスク」または「プログラム」として扱う汎用プロセッサとは異なり、NDPはシリコン自体のアーキテクチャがニューラルネットワークのアーキテクチャを反映するように設計されています。
A. シリコンネイティブインテリジェンス
eFabric™ ワークフローでは、モデルを実行するための「コード」を書きません。代わりに、プラットフォームがニューラルネットワークのシナプスとニューロンをNDPのハードワイヤードロジックに直接マッピングします。
- 「焼き込まれた」優位性: ロジックが仮想(ソフトウェア)ではなく物理的であるため、「命令フェッチ」のオーバーヘッドがありません。
- 決定論的パフォーマンス: センサー入力からニューラル決定までの信号移動時間はほぼ瞬時で完全に予測可能であり、リアルタイム安全およびトリガーアプリケーションにとって重要です。
B. At-Memoryの電力優位性
NDPの定義的特徴はAt-Memory演算アーキテクチャです。従来のシステムでは、エネルギーが「バス」を介したデータの往復移動に無駄に使われます。NDPはウェイトパラメータを計算ゲート内に直接保存することでこの「エネルギーコスト」を排除します。これにより動作効率が大幅に向上します(η)
これにより、プロセッサは多くの場合バッテリーの自然漏れよりも低い電力レベルであるマイクロワットのみを消費しながら、「Always-On」監視状態に留まることができます。
「NDPは単なるプロセッサではなく、フィルターです。システムのエッジに座り、データのストリームを静かに処理します。「聞こえ」たり「感じ」たりした重要なことだけをデバイスの残りの部分に警告し、システムエネルギーの究極のゲートキーパーとして機能します。」
専用ML共同プロセッサ対汎用MCU
エッジAIの初期には、開発者はニューラルネットワークを実行するために汎用マイクロコントローラー(MCU)、例えばARM Cortex-Mシリーズを使用することを余儀なくされていました。これらのMCUは汎用性がありますが、「何でもできるが、どれも得意ではない」です。eFabric™ アプリケーションに必要なマイクロワットスケールを達成するには、この「ソフトウェア定義」アプローチをNeural Decision Processor(NDP)を介したハードウェア定義実行に置き換える必要があります。
A. 計算パラダイム:命令対回路 根本的な違いは、プロセッサがすべてのニューラルネットワークの心臓部である**Multiply-Accumulate(MAC)**のような数学的演算をどのように扱うかにあります。
汎用MCU(ソフトウェア定義): MCUは**命令セットアーキテクチャ(ISA)**です。単一のニューラルレイヤーを解決するには、命令をフェッチし、デコードし、RAMからデータをフェッチし、ALUで計算し、書き戻す必要があります。このサイクルは何百万回も繰り返され、CPUとメモリ間のすべての「ホップ」で大量のエネルギーを消費します。
NDP(ハードウェア定義): NDPはデータフローアーキテクチャです。フェッチする「命令」はありません。ニューラルネットワークのレイヤーは物理シリコンゲートに直接マッピングされます。データが流入すると、計算は回路を通じた同時物理反応として発生します。
B. エネルギーギャップ:1mWの壁を破る 従来のMCUでは、CPUとシステムバスがデータを移動するために電源を維持する必要があるため、「エネルギーコスト」が高くなります。
-
MCUの「コスト」: 低クロック速度でも、Cortex-M4はAIモデルを実行中に5mAから10mAを消費する可能性があります。標準的な220mAhのCR2032バッテリーでは、わずか数日しか持ちません。
-
NDPの優位性: メモリバスとCPUのオーバーヘッドを排除することで、NDPは同じ推論を行いながら150µA未満(マイクロアンペア)を消費します。これは毎週充電が必要なデバイスと単一のセルで3年持続するデバイスの違いです。
| 機能 | 汎用MCU(Cortex-M) | Syntiant® NDP(専用シリコン) |
|---|---|---|
| ロジックタイプ | プログラマブルロジック(ソフトウェア) | 固定機能ニューラルロジック |
| データ移動 | CPU <-> RAM(高エネルギー) | At-Memory(ほぼゼロエネルギー) |
| 並列性 | 逐次(一度に1演算) | 大規模(行列全体の演算) |
| Always-On実現性 | 劣る(バッテリーを急速に消耗) | ネイティブ(Always-On向けに設計) |
C. 決定論:ミリ秒の信頼性
MCUはRTOSを実行してBluetoothやWi-Fiなどの他のタスクを処理することが多いため、センサーイベントへの応答時間が変動する可能性があります。これがジッタです。
NDPは決定論的プロセッサです。モデル向けにハードワイヤードされているため、「センサー入力」から「ニューラル決定」までの時間は常に一定です。ガラスの破壊や高圧バルブの故障を検出するなどのミッションクリティカルなアプリケーションでは、このミリ秒レベルの一貫性が重要です。
「NDPをMCUの代替ではなく、その「セキュリティガード」として考えてください。NDPはマイクロワットレベルで起きており、ノイズの99.9%をフィルタリングします。高信頼度イベントが検出された場合にのみ、電力を消費するMCUを「起動」させ、システムのエネルギーを高レベルのロジック向けに節約します。
D. 効率の数学
定量化のために、**推論あたりのエネルギー(EI)**メトリクスを使用します:
MCUでは、周辺オーバーヘッドのためPavg(平均電力)が高くなります。NDPでは、必要なニューラルゲートのみが切り替わるため、Pavgが最小化されます。
Syntiant NDPシリコンファミリーアーキテクチャ
eFabric™ エコシステムは、特定のデータタイプと電力予算に合わせた専用**Neural Decision Processors(NDP)**のスイートを活用します。ファミリーのすべてのメンバーが同じ「At-Memory」DNAを共有する一方で、アーキテクチャは単純な「キーワードスポッター」から、複雑なビジョンと振動分析が可能なマルチモーダルエンジンへと進化します。
A. 進化的階層
NDPファミリーはその計算能力とサポートできるニューラルネットワークの複雑さによって分類されます。
| シリーズ | フォーカス | 主要機能 | 電力 |
|---|---|---|---|
| NDP10x | オーディオセンチネル | 全結合ネットワーク(FCN) | < 100µW |
| NDP12x | マルチモーダル | CNNとRNNサポート(オーディオ/IMU) | < 1 mW |
| NDP200 | エッジビジョン | 画像/動画と複雑なセンサーフュージョン | < 5 mW |
-
NDP10xシリーズ(超低電力センチネル): 主に「Always-On」オーディオ向けに設計されています。これらのチップは全結合ネットワークに焦点を当てており、100µW未満を消費しながら特定のキーワードや単純な音響イベント(ガラスの破壊など)を検出するように最適化されています。
-
NDP12xシリーズ(マルチモーダルワークホース): TML120 モジュールのコアです。このアーキテクチャは**CNN(畳み込みニューラルネットワーク)とRNN(再帰型ニューラルネットワーク)**のサポートを導入します。音声、圧力、IMU(モーション)データを同時に処理でき、高度なウェアラブルや産業用センサーの標準となっています。
-
NDP200シリーズ(エッジビジョンスペシャリスト): ファミリーのパワーハウスです。人物検出やジェスチャー認識のための低解像度画像データを処理できる大きなニューラルエンジンを備え、高度な音声と振動分析も行います。
B. 内部アーキテクチャ:3つの柱
モデルに関係なく、すべてのSyntiant NDPは3つのアーキテクチャの柱に基づいて構築されています:
-
ニューラルエンジン: モデルが存在するシリコンゲートの行列です。Int8量子化に最適化されており、浮動小数点ユニットのオーバーヘッドなしに何百万もの8ビット計算を並列で実行できます。
-
統合DSP: データがニューラルエンジンに達する前に、オンチップデジタル信号プロセッサを通過します。このブロックはFFT、メルビニング、フィルタリングなどの「汚れ仕事」を処理し、ニューラルエンジンが「クリーン」な特徴のみを見るようにします。
-
管理コア: 外部世界(SPIやI2C通信など)との「ハンドシェイク」を処理する小さな低電力コントローラーです。検出が行われるまでチップを低電力状態に維持します。
C. アプリケーションに合わせたスケーリング
適切なアーキテクチャの選択はメモリ対インテリジェンスのバランスです。
オーディオアプリケーション: バックグラウンドノイズ抑制(ビームフォーミング)とキーワード検出を同時に処理できるNDP120に焦点を当てます。エンジニアは必要なメモリ数式(Mreq)を使用してモデルパラメータ(P)がシリコンのメモリ容量に収まるかどうかを計算する必要があります:
産業用振動: NDP120の高速SPIインターフェースを使用してリアルタイム異常検出のための高周波アクセロメーターデータを取り込みます。
「NDPを選択する際は「特徴解像度」を考慮してください。NDP101は5つのスペクトルビンで単一のウェイクワードを認識できますが、NDP120は64のメルビンを処理でき、「冷蔵庫のコンプレッサー」と「故障した産業用モーター」の音をはるかに高い精度で区別できます。」
メモリ制約とニューラルネットワーク圧縮
従来のコンピューティングでは、モデルが大きすぎる場合、RAMを追加するかデータをハードドライブにスワップするだけです。NDPのAt-Memoryの世界では、メモリは柔軟なリソースではなく、プロセッサのファブリックの物理的な部分です。これにより厳しい上限が生まれます:モデルはシリコンの固定ウェイトストレージ内に収まらなければ実行できません。圧縮は「インテリジェンス」を失わずに「脳を縮小する」エンジニアリング規律です。
A. 「At-Memory」制限の厳しい現実 NDPはエネルギーを節約するためにウェイトを計算ゲート内に直接保存するため、メモリは静的です。
-
制約: 一般的なエッジデバイスでは、モデル全体のために64KBから1MBのスペースがあります。
-
課題: 標準的な「研究」モデル(ResNetや大型トランスフォーマーなど)は数百メガバイトになります。eFabric™へのデプロイには最大1000倍のサイズ削減が必要です。
B. 圧縮の3つの柱 これらの小さなシリコンフットプリントに最大のインテリジェンスを詰め込むために、eFabric™は3つの主要な数学的戦略を採用します:
1. 量子化(精度削減)
標準的なAIモデルは32ビット浮動小数点数(FP32)を使用します。NDPはInt8量子化に最適化されています。
-
数学: 32ビット10進数の広い範囲を8ビット整数(0〜255または-128〜127)の狭い範囲にマッピングします。
-
結果: これにより、精度の損失を最小限に抑えながら、メモリフットプリントが即座に75%削減されます(4バイトが1バイトに)。
2. 重みプルーニング(スパース性)
ニューラルネットワークのすべての接続が重要なわけではありません。多くの重みは最終的な決定に何も貢献しないほどゼロに近いです。
- プロセス: eFabric™はこれらの「怠惰な」ニューロンを特定して除去します。
- 利点: ネットワークを「間引く」ことで、より重要な特徴のために物理ゲートを解放します。プルーニングされたモデルは高速で小さいですが、同じ「意思決定力」を保持します。
3. 知識蒸留(教師-生徒)
これは究極の圧縮ハックです。強力なGPUで大きな「教師」モデルを訓練し、NDP向けの小さな「生徒」モデルが教師の動作を模倣するように「教え」ます。
- 目標: 生徒モデルは大きなオーバーヘッドを必要とせずに大きなモデルのショートカットとパターンを学習します。
C. フットプリントの計算(Mtotal)
エンジニアはモデルがハードウェアバジェットに収まることを確保する必要があります。必要な総メモリ(Mtotal)とプルーニングの成功(Rp)は次のように計算されます:
- : レイヤー数
- : レイヤー のパラメータ数
- : 量子化ウェイトのサイズ(ビット単位) そして
「eFabric™ ファクトリーでは、「圧縮対精度」*曲線が表示されます。目標は可能な限り小さいモデルではなく、精度が「崖から落ちる」前に目標の精度/再現率メトリクスを満たす最小のモデルです。」*
*「eFabric™での**Quantization-Aware Training(QAT)*で設計を始めてください。これにより、モデルが訓練中に8ビットになることを「学習」し、後から32ビットモデルを変換するよりもはるかに高い最終精度が得られます。」