題名:入門自然言語処理
Natural Language Processing with Python
Analyzing Text with the Natural Language Toolkit
2010年11月8日 発行
オライリー・ジャパン
Natural Language Processing with Python (書籍)
人工知能、機械学習、ディープラーニングというと、画像処理関連がやたらに多いが、それ以外の分野もある。
その中でも、自然言語処理は非常に大きな、そして重要な分野である。
ことばをコンピュータで扱おうとすると、画像とは違った、あれこれ面倒なことがいっぱいある。
言葉を対象としている人工知能の本の場合、自然言語処理の部分の説明は非常に短く、いきなり読もうとしても用語が分からない、どんなツールがあるのか、サンプルデータがあるのか、だいたい分からないことだらけになる。
自然言語処理を対象としてAI関連の本で、自著で延々と説明するのは大変なので、読むべき自然言語処理の本が挙げられていることが多いが、そのなかで必ずといってよいくらい紹介されるのが、この『入門自然言語処理』である。
この本は、Pythonを使って、自然言語処理の基本を紹介している。
といっても、原書は英語で、日本語の場合どうなんだろうと思ったら、最終章が「Pythonによる日本語自然言語処理」となっている。
さて、この本、発行が2010年とかなり古く、原書は、2009年になっている。
そのため、Python3ではない。
この本で使われているのが、NLTK(Natural Language Toolkit)という、Pythonのツールキットである。
このツールキットは、アメリカのアイビーリーグの1つ、ペンシルベニア大学にて作られたものだ。
以上は前置きで、これから肝心なことを紹介しよう。
本書はとても古いのだが、Natural Language Toolkit のサイトでは、今も更新が続いており、ちゃんとPython 3 対応になっている。
ソフトだけでなく、書籍の方も、ネット上はちょこちょこと更新されているように見える。
さらに、これらは、オープンであり、自由に使えるので、とても助かる。
本は、文字だけでなく、プログラムや実行例が多数載っており、これらを自身のPython上で確かめるには、オンラインの書籍からコピペをいっぱいすることで、確認ペースも上昇する。
オンライン版は文章の部分は英語であるが、肝心なのはプログラム、実行例などであろう。
それほど大きくは変わっていないようなので、英語をどうしても読みたくない場合には、英語版を見ながら、文章を読むときだけ翻訳書に頼るという方法もある。
でも、結局面倒になるので、全部オンラインだけで済ませるのが効率がよく、かつお金もかからない。
英語を勉強するのではなく、英語で勉強しよう。
金もかからず、技術も身に付き、情報はいっぱい集まる。