音声分類
チップ
| チップの値 | 説明 |
|---|---|
| ndp120_b0 | NDP120シリーズB0 — すべての標準的な音声デプロイメントの主要ターゲット |
モデルアーキテクチャ
| アーキテクチャ | 推奨ユースケース |
|---|---|
| mlpnet | シンプルなキーワードスポッティング、小規模な語彙、非常に低いレイテンシ(デフォルト) |
| convnet | ノイズの多い環境でのフレーズ検出、複数語コマンド |
| expandedconvnet | より高い精度、または大規模な語彙 |
| edgenet | 超低消費電力、常時オンのリスニング |
| recurrent | 連続的または時間依存の音声パターン |
| temporal_convolution_resnet | 長いフレーズと頑健な時間モデリング |
| custom | ネットワーク設計の完全なコントロール |
ネットワークレイヤー(読み取り専用)
選択されたチップとアーキテクチャから自動生成されます。Input → Conv2D → Flatten → Dense → Softmaxと、各レイヤーでの出力形状が表示されます。
注意
ネットワークトポロジーは自動計算され、読み取り専用です。アーキテクチャを変更するには、「モデルアーキテクチャ」ドロップダウンを使用してください。
オーディオ特徴量設定 — ユーザー入力
| パラメータ | 説明 |
|---|---|
| 入力行列(特徴量) | フィルタバンクの周波数ビン数(nfilters) |
| 入力行列(時間) | 連続する時間フレームの数(wincount) |
| ウィンドウ長(秒) | 時間フレームがカバーする合計時間(秒) |
| ウィンドウステップ | 連続する短時間ウィンドウ間のオーディオサンプル数(ホップサイズ) |
| プリエンファシス係数 | 高周波強調フィルタの係数。標準値:0.96875 |
| パワーオフセット | 対数フィルタバンクエネルギーを計算する前の対数オフセット。標準値:52 |
| データオーグメンテーションを有効にする | クラスごとに追加の合成フィルタバンクサンプルを生成する |
| クラスごとのオーグメンテーション済みフィルタバンク数 | クラスごとに生成するオーグメンテーション済みサンプルの数 |
ndp120_b0の推奨パラメータ
| パラメータ | 値 |
|---|---|
| 入力行列(特徴量) | 40 |
| 入力行列(時間) | 40 |
| ウィンドウ長(秒) | 1.000 |
| ウィンドウステップ | 384 |
| プリエンファシス係数 | 0.96875 |
| パワーオフセット | 52 |
| ウィンドウ長(計算値) | 512 |
| 特徴量抽出器(計算値) | log-bin |
| ニューラルネットワークへのサンプル数(計算値) | 1600 |
| サンプリングレート(計算値) | 16000.00 |
注意
特に変更する理由がない限り、これらのデフォルト値を使用してください。
ラベル選択
| 項目 | 説明 |
|---|---|
| ターゲットワード | モデルが検出すべきキーワード — それぞれが個別のクラスとなる |
| オープンセットワード | 検出をトリガーしてはならない単語 — すべて1つの非ターゲットクラスにまとめられる |
| クラス数 | 自動計算:ターゲットワード数 + 1(オープンセットクラス) — 読み取り専用 |
特徴量生成出力
- チップとモデルアーキテクチャを選択する
- ユーザー入力コンポーネントを設定する
- 計算済みコンポーネント(ニューラルネットワークへのサンプル数、サンプリングレート、行列の次元)を確認する
- 必要に応じてデータオーグメンテーションを有効にし、クラスごとのオーグメンテーション済みフィルタバンク数を設定する
- ラベル選択でターゲットワードとオープンセット項目を割り当てる
- **「特徴量を生成」**をクリックする — 出力ファイル:
X_train.npy、X_test.npy、y_train.npy、y_test.npy
データエクスプローラータブ
教師なしクラスタリングを使用した、音声サンプルの類似性のインタラクティブな可視化です。ラベル付けが不十分なデータ、クラスの重複、外れ値を特定します。KNNおよびSVM分類器をサポートします。