声優向け声マップ、音声解析とAIの組み合わせ01
- 駆動良
- 2025年11月30日
- 読了時間: 4分
更新日:2025年12月16日
※この記事で掲載している解析・講評は、本サービス開発者本人のサンプル検証用です。
AI講評文は、個別の文脈を前提とした内容であり、通常の利用における全文公開は推奨していません。
🎙【音声解析レポート】
駆動良の“ハスキー寄りナレーション”をAI分析してみた
— 声質・息・明るさのバランスはどう出ているのか?
今回は、私・駆動良が以前に録音した「ハスキー寄りのナレーション」 を、
RMS(声圧)
ZCR(息・摩擦成分)
F0(基本周波数)
スペクトル重心(明るさ)
MFCC(音色の厚み)
という音響特徴量に分解して解析しました。
数値で声を“見える化”すると、自分では分からなかった癖や魅力がはっきり見えてきます。
まずは実際の解析結果:
RMS平均: 0.110
ZCR平均: 0.301
F0平均: 101.8
スペクトル重心平均: 3550
MFCC0平均: -284.7
ここから何が読み取れるのか?専門的に、そして現場の感覚からも分かりやすく整理してみます。
🟥 ① ZCR(息・摩擦成分)が高い → “ハスキー”の根拠が明確
ZCR(Zero Crossing Rate)は、声にどれだけ 息・ささやき・ノイズ が混じっているかを表す指標です。
今回の値は 0.30。
これは典型的なハスキー帯域。
クリア系ナレーション:0.15〜0.22
息混じり/ハスキー:0.25〜0.40
→ 完全に後者の値。
「少しハスキーめに読んだ」という意図が数字としてそのまま出ています。
しかも0.30は“上品なハスキー”の範囲で、過剰なブレスではなく コントロールされた息の混ぜ方 になっています。
🟧 ② RMS(声圧)は必要量だけ“抜いている”
RMS = 声の強さ(音圧)
今回の 0.110 は、ハスキー演技としては理想的な強さ。
声を強く出しすぎるとハスキー成分が消えてしまうため、このくらいの“軽い圧”がちょうど良い。
息を感じられる
ノイズ感を殺さない
それでいて芯は残す
=技術的に計算された音圧
🟦 ③ F0(声の高さ)101Hz → 低音の説得力を維持
F0は声の高さ。ハスキーに寄せようとすると無意識にF0が上がる人も多いですが、
今回の 101Hz は非常に安定した低音帯。
これは、
「地声の芯を残したまま、息だけを足している」
というプロの作り方になっています。
🟩 ④ スペクトル重心(明るさ)3550Hz → “抜けの良さ”の証拠
スペクトル重心は声の“明るさ”“抜け”を示す指標。
普通の男性ナレーションはおよそ 2000〜3000Hz のことが多いですが、今回は 3550Hz とかなり明るめ。
これはハスキー特有の高域摩擦成分が増えた結果 です。
同時に、低音ベース(F0)は保ったままなので、
重くなりすぎない
くもらない
抜けるのに落ち着いている
という“ハイブリッドな音色”になっています。
🟪 ⑤ MFCC0(音色の厚み)-284 → ハスキーなのに“太さ”が死んでいない
MFCC0は声の厚みや深さを示す指標。
過剰に息を混ぜると、この値は -240〜-260 付近まで上がり(薄くなり)やすいのですが、
今回の -284 はしっかり“太さ”を維持しています。
つまり、
ハスキー寄りなのに、駆動良の声のコアは失われていない。
これがナレーターとしての個性でもあります。
🎯 総合評価
「ハスキーに寄せつつ、地声の芯と明るさを両立したナレーション声」
今回の特徴量を整理すると:
息成分はしっかり増加(ZCR高い)
声圧は適度に抜いている(RMS抑えめ)
低音は維持(F0安定)
抜けの良さ(重心高め)
音色の厚みも深い(MFCC0低い)
という、一見矛盾する要素が全部コントロールされています。
「低音 × 息 × 明るさ × 太さ」この4つが同時に成立しているのは、
元の声質と、それを操作する技術が合わさっている証拠。
✍️ おわりに:声は“感覚”だけでなく“データ”でも進化させられる
声は本来、感覚/経験/身体調整に頼りがちな世界ですが、
こうして音響特徴量にしてみると、自分の方向性が立体的に見えてきます。
今後は:
ナチュラル
落ち着いた
激しい
感情テイク
など複数パターンでも比較して、「声マップ」をさらに広げていく予定です。

今回のレーダーチャートはコチラ
必ずしも正五角形がバランスが良いとは限りません。
表現するものによってばらつきが出ます。 特に低音系の方は「F0」の項目がへこみます。




コメント