G検定

2021年第3回G検定 振り返り 第5問(fastText)

2021年11月27日

シラバス分野:ディープラーニングの手法 自然言語処理からの出題です。

単語の数値化手法 (One-Hotベクトル⇒分散表現)

文書をコンピュータで扱うために、単語の数値化が必要。

まず考えられたのがOne-Hotベクトルでした。

しかし次のような問題点が。

  • 単なるダミー数値であり、同一単語かどうかの判定はできるが、単語の意味や関係性を表現できない(←すべての単語を独立に扱っている)。
  • ベクトルの次元数が膨大(かつスパース)なので計算時間が激増してしまう。

そこで単語を分散表現に変換する手法を2000年に新たに開発

単語分散表現とは、低次元の密(ゼロでない値が多い)な数値ベクトルによる表現のこと。(←適切な変換行列による演算で実現)

単語分散表現は、

  • 各単語はベクトル空間上の点
  • 意味が近い単語同士は、ベクトル空間上で距離の近い場所にある。

という特徴があり、単語の意味や類似性をベクトル演算を通じて表現できるようになりました。

単語をベクトル空間に埋め込むことにちなんで、別名は単語埋め込み(Word Embedding)モデル

しかし、データ処理が複雑で、現実的な計算時間では処理が終了できないという課題が残されていました。

Word2Vec

単語分散表現を計算する2つの手法

  • カウントベース手法
  • 推論ベース手法

カウントベース手法は、コーパスと呼ばれる自然言語処理のための膨大なテキストデータに統計処理を施してから、単語分散表現を計算するもので、計算が長時間になりました。

一方、推論ベース手法は、ニューラルネットワークの効率的な学習法を取り入れているため、現実的な計算時間での単語ベクトル計算が可能に。

Word2Vecの特徴は以下になります。

  • 2013年にトマス・ミコロフ(当時、Googleに在籍)が提案した、推論ベース手法の代表
  • 大規模なテキストデータを用いた学習をはじめて実現
  • 隠れ層の重みの最適化を通じて単語ベクトルを学習

fastText ~Word2Vecの派生モデル

Word2Vecの考案者でもあるトマス・ミコロフが、Word2Vecの派生型モデルfastTextを2013年に発表

発表時期は、GoogleからFacebook社の人工知能研究所Facebook AI Researchに移籍した後のこと。

fastTextの特徴は以下になります。

  • 名前のとおり、学習に要する時間が圧倒的に短くなった。Facebook社公表によると、10億の単語を10分以内で学習50万個の文章を30万のカテゴリに5分以内で分類、が可能
  • 訓練データには存在しないOOV(Out of Vocabulary)の単語埋め込み計算も可能
  • この記事を書いた人

NISHIBIZ

・JDLA G検定 2021 #3 合格者
・令和3年度 中小企業診断修得者
記事は資格取得情報(ディープラーニング検定と中小企業診断士試験)他、
エンタメ(音楽・アニメ・テレビ)と時事/雑学。
Apple Musicを愛用。NISHIBIZでプレイリスト「私的ベスト」検索。
音楽の嗜好はエレクトロ/エモ

-G検定