久保 征人 の記事

iNSIGHTBOXの研究開発、エンジニア、テクニカルスタッフを募集中です!

こんにちは、久保です。

久しぶりの投稿となってしまいました。

iNSIGHTBOXチームでは、当サービスに関わる研究開発(の補助)やサービス全般の開発を行っていただける方を募集しています!
詳しい募集要項、および実際の応募はこちら(jREC-IN)を参照ください

当ブログでは、これまで確率・統計や自然言語処理、機械学習、データマイニング、ベイジアンネットワークなどの話題を扱ってきました。
続きを読む...

Stanford大学の自然言語処理講義(1-6) - Sentence Segmentation(文への分割)

久保です。

前回から1ヶ月以上空いてしまいました。
自然言語処理のStanford大学の講座シリーズの続きです。

今回はSentence Segmentation、文章中からどのようにして文を分割して取り出すか、という話です。
講義の映像は下記から見られます。
Sentence Segmentation (5:31)

Sentence Segmentation
ここではどのように文章を文(Sentence)に分けるか、という問題を取り上げます。
続きを読む...

Tagged , , |

Stanford大学の自然言語処理講義(1-5) - Word Normalization and Stemming(単語の正規化と語幹抽出)

久保です。
自然言語処理のStanford大学の講座シリーズの続きです。

前回はWord Tokenazionをやりました。
今回は『Word Normalization and Stemming』、単語の正規化(Normalization)と語幹化(Stemming)です。

講義の映像は下記から見られます。
続きを読む...

Tagged , , |

Stanford大学の自然言語処理講義(1-4) - Word Tokenization(単語のトークン化)

久保です。

自然言語処理のStanford大学の講座シリーズの続きです。

今回は『Word Tokenization』ということで、単語をtokenization(トークン化)します。
重要な用語や定義が頻出します。

講義の映像は下記から見られます。
Word Tokenization (14:26)
Text Normalization
自然言語処理タスクでは、以下のようにテキストの正規化が必要になります。
続きを読む...

Tagged , , |

言語処理学会第19回年次大会(NLP2013)に行って来ました

久保です。

先日名古屋で行われた言語処理学会第19回年次大会(NLP2013)に行って来ました。
今回私は3/13の本会議の聴講のみです。
なお弊社のメンバーは3/14にポスター発表していますので、是非こちらも読んでください!

いくつ印象に残ったセッションの感想を書きたいと思います。
nlp2013のプログラムや論文PDFはこちらから確認できます。
続きを読む...

Tagged , , |