はてブのホッテントリからノイズ(互助会等)を減らす
前回、ちょー適当に機械学習で「はてブ互助会」フィルタをつくってみたのですが、互助会の検出精度がイマイチでした。
しかし、思わぬ発見が2つありました。
1つはブコメがRSSで直接読めると情報収集が効率化できること。
2つめは情報ノイズは減ると予想以上に快適になること。
これまでは脳内フィルタで互助会記事を無意識的にスルーしていたつもりでした。
しかし脳内フィルタは頭のリソースを少なからず消耗することに今更ながら、気が付きました。
というわけで、私が愛読しているホッテントリから情報ノイズを減らす方法を考え直してみました。
結論
機械学習で互助会検出などと、牛刀をもって鶏を裂く対策は不要でした。
ドメインとはてブのタグで十分でした。
互助会サイトのドメインは相互ブクマはてなブロガーリストで公開されているリストを使わせてもらいました。
成果物
ホッテントリから互助会記事、増田(はてな匿名ダイアリ)、Qiita、togetter、ニュース記事をフィルタリングし、それぞれをブコメ付RSSで配信しています。
RSS一覧
使い方
お好きなRSSリーダーに登録してください。
Feedlyに登録しておくと捗ります。
フィードごとにフィルタリングしているので、普段は「はてブ濃縮還元」だけを読み、暇な時はチューハイ片手に互助会記事を眺めるのもオツなものです。
今後
ネットの大海原から面白い記事を発掘するアルファブックマーカーの情報収集力には頭が下がります。
ホッテントリをスクレイピングする際、ユーザIDも時系列で保存しています。
ある程度データが溜まったら、キュレーション力の高いアルファブックマーカーを調べてみたいと思います。
参考
はてな統計 アルファブックマーカーは誰だ2017
お互いのブログにブックマークしあう集団「はてな互助会」のメンバーリスト