紹介
TF-IDFは、他の文章には少なく、ターゲットの文章には多く含まれている単語に対して、高い数値を返します。つまり、ターゲットの文章独特の単語を調べることができるのです。
工夫した点
CodingTrainでは、JavaScriptのみのプログラムしかなかったので、Processingで実装しました。こちらのサイトによると、idfの値に1を加える方法があるようだったので、offsetの数値で変更できるようにしました。
作り方・コード
CodingTrainのJavaScriptのサンプルの中に含まれているfilesをこのように配置してください。
|-data
| |-files
| |-eclipse.txt
| |...
|-TF_IDF.pde
メインのTF-IDF.pdeのコードはこちらです。