モデル性能評価
eFabric™ エコシステムでは、モデルの成功は実験室環境のクリーンでキュレートされたデータセットでの性能によって決まりません。むしろ、成功はバックグラウンドノイズが予測不能で、センサーデータがノイジーで、バッテリー寿命が交渉不可能な「実世界」にデプロイされた際の回復力と信頼性によって定義されます。NDPベースのモデルの評価には、統計的精度とハードウェア固有の制約のバランスをとる多次元的アプローチが必要です。
eFabric™の性能評価には、標準的なデータサイエンスのメトリクスから**「システムレベル」メトリクス**へのシフトが必要です。クラウドベースのAIとは異なり、わずかな遅延や誤検知が計算能力のほんの数セントのコストにしかならない場合と違い、エッジではこれらのエラーは物理的な結果をもたらします。バッテリーを消耗させたりユーザーに「通知疲れ」を与えることなく、真のイベントを捕捉するモデルの能力のバランスをとる必要があります。
評価の3次元
Syntiant® NDPでのモデルの挙動を包括的に把握するために、3つの異なる面で評価します:
-
統計的整合性: 精度、再現率、F1スコアなどの従来のメトリクスを使用して、モデルが正しいパターンを「学習」したことを確保します。
-
運用信頼性: モデルが現実世界の「不均衡な」性質をどのように処理するかを理解するために、**偽受理(FAR)と偽拒否(FRR)**を特別にテストします。
-
ハードウェア効率: モデルがAt-Memoryアーキテクチャをどのように利用するかを測定し、定義されたマイクロワット電力予算内に収まりながら推論速度を犠牲にしないことを確保します。
「従来の「精度」(正しい推測の割合)は、多くの場合Always-Onデバイスにとって誤解を招くメトリクスです。年に一度しか発生しない「ガラスの破損」を検出するデバイスでは、常に「ガラス破損なし」と推測するモデルが99.99%の精度を持ちますが、まったく役に立ちません。」