音声分類

チップの値	説明
ndp120_b0	NDP120シリーズB0 — すべての標準的な音声デプロイメントの主要ターゲット

アーキテクチャ	推奨ユースケース
mlpnet	シンプルなキーワードスポッティング、小規模な語彙、非常に低いレイテンシ（デフォルト）
convnet	ノイズの多い環境でのフレーズ検出、複数語コマンド
expandedconvnet	より高い精度、または大規模な語彙
edgenet	超低消費電力、常時オンのリスニング
recurrent	連続的または時間依存の音声パターン
temporal_convolution_resnet	長いフレーズと頑健な時間モデリング
custom	ネットワーク設計の完全なコントロール

選択されたチップとアーキテクチャから自動生成されます。Input → Conv2D → Flatten → Dense → Softmaxと、各レイヤーでの出力形状が表示されます。

注意

ネットワークトポロジーは自動計算され、読み取り専用です。アーキテクチャを変更するには、「モデルアーキテクチャ」ドロップダウンを使用してください。

パラメータ	説明
入力行列（特徴量）	フィルタバンクの周波数ビン数（nfilters）
入力行列（時間）	連続する時間フレームの数（wincount）
ウィンドウ長（秒）	時間フレームがカバーする合計時間（秒）
ウィンドウステップ	連続する短時間ウィンドウ間のオーディオサンプル数（ホップサイズ）
プリエンファシス係数	高周波強調フィルタの係数。標準値：0.96875
パワーオフセット	対数フィルタバンクエネルギーを計算する前の対数オフセット。標準値：52
データオーグメンテーションを有効にする	クラスごとに追加の合成フィルタバンクサンプルを生成する
クラスごとのオーグメンテーション済みフィルタバンク数	クラスごとに生成するオーグメンテーション済みサンプルの数

注意

特に変更する理由がない限り、これらのデフォルト値を使用してください。

項目	説明
ターゲットワード	モデルが検出すべきキーワード — それぞれが個別のクラスとなる
オープンセットワード	検出をトリガーしてはならない単語 — すべて1つの非ターゲットクラスにまとめられる
クラス数	自動計算：ターゲットワード数 + 1（オープンセットクラス） — 読み取り専用

チップとモデルアーキテクチャを選択する
ユーザー入力コンポーネントを設定する
計算済みコンポーネント（ニューラルネットワークへのサンプル数、サンプリングレート、行列の次元）を確認する
必要に応じてデータオーグメンテーションを有効にし、クラスごとのオーグメンテーション済みフィルタバンク数を設定する
ラベル選択でターゲットワードとオープンセット項目を割り当てる
**「特徴量を生成」**をクリックする — 出力ファイル：X_train.npy、X_test.npy、y_train.npy、y_test.npy

教師なしクラスタリングを使用した、音声サンプルの類似性のインタラクティブな可視化です。ラベル付けが不十分なデータ、クラスの重複、外れ値を特定します。KNNおよびSVM分類器をサポートします。