数理情報第3研輪講
日時 |
2012年4月24日(火), 17:00〜19:00. |
場所 |
東京大学 工学部6号館 235号室. |
講演者 |
飯島 和之 (M1) |
題目 |
分岐エントロピーを用いたオンライン教師なし単語分割に関する研究 |
概要 |
文章を形態素や単語に自動で分割することを、単語分割という。教師ありで単語分割を行う方法は、広く研究されており、非常に高い性能を誇る。しかし、自然言語は多様性をもつため、そのすべてを網羅するように正解コーパスを用意することは困難である。そのため、教師なし単語分割の研究が行われている。しかし、そのほとんどがオフラインの手法であり、オンラインの手法については、まだあまり研究が進められていない。 既存の教師なし単語分割手法のなかには、文書の統計情報から分岐エントロピーという指標を計算して、教師なしで単語分割を行うHarrisの手法がある。本研究では、文書の統計情報を動的に保持する工夫をして、Harrisの手法をオンライン化した。 |