書評:『Pythonによるテキストマイニング入門』


2018年 04月 26日

Python_text_mining.jpg
Pythonによる
 
テキストマイニング入門


著者  山内 長承

発行  2017/11

サイズ  A5, 256頁  

ISBN  978-4-274-22141-5

価格  2,500円(本体)  


AI,AIととても騒がしくなり、AIの新刊書が次々と出ているが、その殆どがディープラーニングが対象で、とりわけ画像処理系の本が多い。

しかし、人間のビジネス活動、社会活動、学術活動などを考えると、画像処理関連だけではなく、人間を人間たらしめている言葉、テキストを扱わないわけにはいかない。

自然言語処理、テキストマイニングなどのタイトルの本も、多くはないが、それなりに増えている。

それで、Pythonでテキスト処理の説明をしている本として、本書を入手し、読んでみた。

内容は、

第1章 テキストマイニングの概要
第2章 テキストデータの構造
第3章 Python の概要と実験の準備
第4章 出現頻度の統計の実際
第5章 テキストマイニングの様々な処理例

となっているのだが、第3章までは、Pythonの基本的な説明が中心である。
そして、第4章が統計である。
そして、最後の第5章だけがテキストマイニングになっているのだ。

それでも、統計のために、形態素解析ソフトMeCabを使った例があった。

ということで、テキストマイニング自体の説明は、全体の1/3程度、70ページ位しかないのだった。

第5章の最後に一応Word2Vecの節が設けられており、簡単な説明がされていた。
つまり、やっと話が始まったと思ったら、本が終わってしまったのだ。

巷にはPythonの本が溢れているのだから、Pythonの基本や統計の基本的なことまで載せる必要はないと思う。
それに、ちょこちょこっと載せるだけになるので、とても中途半端なものになってしまう。

ということで、Pythonに慣れていて、統計の基礎も知っていれば、本書は一気に読み飛ばしてしまえる。
まあ、入門書だからそれで良いのかもしれないが、同じページ数で、テキストマイニングについてもっと丁寧な本にして欲しいところだ。