メインコンテンツまでスキップ

タッチレスユーザーエクスペリエンス

Syntiant® NDPの統合により、デバイスが自然なインタラクションを通じてユーザーのニーズを予測する「タッチレス」環境が生まれます。このセクションでは、このエクスペリエンスの2つの主要な柱、すなわち高精度の音声トリガーとモーションベースのキネティックコントロールに焦点を当てます。これらのタスクをNDPに移行することで、汎用CPU上で動作するソフトウェアベースのソリューションでは不可能な「インスタントオン」の感覚を実現します。

  • Always-Onウェイクワード検出: NDPは「ニアフィールド」および「ファーフィールド」の音声トリガーに最適化されています。ディープニューラルネットワークを使用して、ウェイクワード(例:「Hey Syntiant」)の特定の音素を何時間ものバックグラウンドの会話から区別します。システムが敏感で信頼性があることを確保するために、バックグラウンドノイズフロアに対して**トリガー感度(S)**を計算します。

数式:トリガー感度(SS

S=P(TriggerSignal)P(TriggerNoise)S = \frac{P(\text{Trigger} \mid \text{Signal})}{P(\text{Trigger} \mid \text{Noise})}

(ここで高い比率は、騒がしい環境での「誤トリガー」に対してより回復力のあるモデルを示します。)

  • ボイスIDと安全なアクセス: 単純な単語認識を超えて、NDP120は「話者確認」を実行できます。独自の声道特徴を抽出して、許可されたユーザーのみが機密コマンド(例:「ドアを開ける」)をトリガーできるようにします。これはバイオメトリックマッチの**等エラー率(EER)**を測定することで検証されます。

数式:バイオメトリックマッチ距離(DbioD_{\text{bio}}

Dbio=(vuservstored)2D_{\text{bio}} = \sqrt{\sum \left(v_{\text{user}} - v_{\text{stored}}\right)^2}

(ここでvはユーザーの固有のボイスプリントを表す埋め込みベクトルです。)

  • ハンズフリー環境のためのジェスチャーベースのコントロール: 無菌の手術室や騒がしいワークショップなど、音声が理想的でないシナリオでは、NDPが6軸IMU(慣性計測ユニット)からのデータを処理して、空中での「ダブルタップ」や「手首のフリック」などのジェスチャーを認識します。

  • タッチレスジェスチャー認識: システムはキネティックエネルギーパターンを特定のUIアクションにマッピングします。スムーズな遷移を確保するために、**動的時間伸縮(DTW)**距離を計算してリアルタイムのジェスチャーを参照動作のライブラリと照合します。

数式:ジェスチャーマッチング(GmatchG_{\text{match}}

Gmatch=mink=1Kd(wk)G_{\text{match}} = \min \sum_{k=1}^{K} d(w_k)

(ここでd(wk)はユーザーの動きの時間シーケンスをジェスチャーテンプレートと整合させるコストを表します。)

💡 ジェスチャーの***「ヒステリシス」ロジック***

「ジェスチャーを実装する際、常に少量の「時間的ヒステリシス」を含めてください。手の振りの最初のフレームでアクションをトリガーするのではなく、NDPが3〜4連続ウィンドウで動きを確認するまで待ってください。これにより、自然な体の動きからの誤トリガーを避けることができます。」