メインコンテンツまでスキップ

音声分類

チップ

チップの値説明
ndp120_b0NDP120シリーズB0 — すべての標準的な音声デプロイメントの主要ターゲット

モデルアーキテクチャ

アーキテクチャ推奨ユースケース
mlpnetシンプルなキーワードスポッティング、小規模な語彙、非常に低いレイテンシ(デフォルト)
convnetノイズの多い環境でのフレーズ検出、複数語コマンド
expandedconvnetより高い精度、または大規模な語彙
edgenet超低消費電力、常時オンのリスニング
recurrent連続的または時間依存の音声パターン
temporal_convolution_resnet長いフレーズと頑健な時間モデリング
customネットワーク設計の完全なコントロール

ネットワークレイヤー(読み取り専用)

選択されたチップとアーキテクチャから自動生成されます。Input → Conv2D → Flatten → Dense → Softmaxと、各レイヤーでの出力形状が表示されます。

注意

ネットワークトポロジーは自動計算され、読み取り専用です。アーキテクチャを変更するには、「モデルアーキテクチャ」ドロップダウンを使用してください。

オーディオ特徴量設定 — ユーザー入力

パラメータ説明
入力行列(特徴量)フィルタバンクの周波数ビン数(nfilters)
入力行列(時間)連続する時間フレームの数(wincount)
ウィンドウ長(秒)時間フレームがカバーする合計時間(秒)
ウィンドウステップ連続する短時間ウィンドウ間のオーディオサンプル数(ホップサイズ)
プリエンファシス係数高周波強調フィルタの係数。標準値:0.96875
パワーオフセット対数フィルタバンクエネルギーを計算する前の対数オフセット。標準値:52
データオーグメンテーションを有効にするクラスごとに追加の合成フィルタバンクサンプルを生成する
クラスごとのオーグメンテーション済みフィルタバンク数クラスごとに生成するオーグメンテーション済みサンプルの数

ndp120_b0の推奨パラメータ

パラメータ
入力行列(特徴量)40
入力行列(時間)40
ウィンドウ長(秒)1.000
ウィンドウステップ384
プリエンファシス係数0.96875
パワーオフセット52
ウィンドウ長(計算値)512
特徴量抽出器(計算値)log-bin
ニューラルネットワークへのサンプル数(計算値)1600
サンプリングレート(計算値)16000.00
注意

特に変更する理由がない限り、これらのデフォルト値を使用してください。

ラベル選択

項目説明
ターゲットワードモデルが検出すべきキーワード — それぞれが個別のクラスとなる
オープンセットワード検出をトリガーしてはならない単語 — すべて1つの非ターゲットクラスにまとめられる
クラス数自動計算:ターゲットワード数 + 1(オープンセットクラス) — 読み取り専用

特徴量生成出力

  1. チップとモデルアーキテクチャを選択する
  2. ユーザー入力コンポーネントを設定する
  3. 計算済みコンポーネント(ニューラルネットワークへのサンプル数、サンプリングレート、行列の次元)を確認する
  4. 必要に応じてデータオーグメンテーションを有効にし、クラスごとのオーグメンテーション済みフィルタバンク数を設定する
  5. ラベル選択でターゲットワードとオープンセット項目を割り当てる
  6. **「特徴量を生成」**をクリックする — 出力ファイル:X_train.npyX_test.npyy_train.npyy_test.npy

データエクスプローラータブ

教師なしクラスタリングを使用した、音声サンプルの類似性のインタラクティブな可視化です。ラベル付けが不十分なデータ、クラスの重複、外れ値を特定します。KNNおよびSVM分類器をサポートします。