G検定

2021年第3回G検定 振り返り 第12問(パルス符号変調で行われる処理)

(出典:はいぱーワークブック 情報の理解と活用 18.6.2デジタル・アナログの変換と音声の符号化

シラバス分野:ディープラーニングの手法 音声処理からの出題です。

音声処理

音声処理は、画像、自然言語と並んで、ディープラーニングの代表的な応用分野。

音声は、空気が波動の状態で振動している物理現象です。

コンピュータで扱えるようにするには、数値データに変換する必要があります。

音声処理の応用分野

代表例は、みなさんご存知のアレです。

  • Appleの”Siri”
  • Amazonの"Alexa"

自然言語処理と音声処理の両分野の技術を組み合わせていて、以下の流れでサービスの提供をしています。

ユーザーの質問音声を認識し、それをテキスト化(音声認識、自然言語処理)

適切な応答を判断。対応するテキストを生成(自然言語処理)

応答の音声を生成(音声生成)

音声認識

第1段階として

  • 音声波形から周波数や時間変化の特徴を抽出する

ことになりますが、前処理が必要になります。

音声は、時間に対し連続的に変化するアナログデータ

コンピュータで処理可能な、離散的な数値データに変換(デジタル化

この変換を、文字どおりA-D変換(Analog to Digital Conversion)と呼び、よく使われる手法がパルス符号変調(PCM:Pulse Code Modulation)という手法です。

PCMで行われる処理

  1. 標本化(サンプリング) ⇒ 連続的な音波を一定の時間間隔ごとに切り出す
  2. 量子化 ⇒ 標本値(サンプル)はアナログ信号で連続値なので、これを必要なレベル数のデジタル表現(整数値)に変換する
  3. 符号化 ⇒ 量子化された信号を、4ビットのデジタル値で符号化(数値化)する
  • この記事を書いた人

NISHIBIZ

・JDLA G検定 2021 #3 合格者
・令和3年度 中小企業診断修得者
記事は資格取得情報(ディープラーニング検定と中小企業診断士試験)他、
エンタメ(音楽・アニメ・テレビ)と時事/雑学。
Apple Musicを愛用。NISHIBIZでプレイリスト「私的ベスト」検索。
音楽の嗜好はエレクトロ/エモ

-G検定