G検定

2021年第3回G検定 振り返り 第7問(One-Hotベクトル)

2021年11月29日

シラバス分野:ディープラーニングの手法 自然言語処理で登場するOne-Hotベクトルからの出題です。

One-Hotベクトルとはどういうものか

One-Hotベクトルとは、全要素のうち1つだけが1で、残りはすべて0のベクトル

こんな感じ

One-Hotベクトルに変換するプロセス

One-Hotベクトルに変換するプロセスは次のようになります。

  • トークン化 形態素解析をおこなった後、同じ単語には同じID(トークン)を割り当てる。句点にも1つのIDが割り当てられる。
  • One-Hotベクトルに変換 ベクトルの次元は、文書にあるユニークな単語の数、に等しくする各単語について、IDに対応するインデックスのみ1を、それ以外のすべてのインデックスに0を割り当てる

One-Hotベクトルのデメリット⇒単語の分散表現

One-Hotベクトルのデメリットとして次のものが挙げられ、単語の分散表現が考えられるようになりました。⇒2021 #3 第5問(fastText)

  • 出現する単語の種類だけ次元を増やさなければならず、次元数が膨大になりやすい。⇒計算時間が増えてしまう
  • 単語の追加が難しい
  • 同一単語かどうかの判定はできるが、単語の意味や、単語間の関係性表現できない
  • この記事を書いた人

NISHIBIZ

・JDLA G検定 2021 #3 合格者
・令和3年度 中小企業診断修得者
記事は資格取得情報(ディープラーニング検定と中小企業診断士試験)他、
エンタメ(音楽・アニメ・テレビ)と時事/雑学。
Apple Musicを愛用。NISHIBIZでプレイリスト「私的ベスト」検索。
音楽の嗜好はエレクトロ/エモ

-G検定