ExtractContentJS

本文抽出 JavaScript ライブラリ

やれること

本文抽出
タグおすすめ

ファイル

基本的には以下をこの順に読み込めば動く:

lib/lib.js: 共通するもの
lib/extract-content.js: 本文抽出

リポジトリのルートでmake packageするとこれらを連結した extract-content-all.js が生成される.

実際の使い方を詳しく見たくなったら:

sketch/extract-content.test.js: 本文抽出テスト
lib/scoring-words.js: タグのスコアリング(サンプル)

使い方

本文抽出インタフェース

本文抽出だけしたい/ハンドラを指定したい場合に使う.

ExtractContentJS.LayeredExtractor

var ex = new ExtractContentJS.LayeredExtractor();
//ex.addHandler( ex.factory.getHandler('Description') );
//ex.addHandler( ex.factory.getHandler('Scraper'));
//ex.addHandler( ex.factory.getHandler('GoogleAdsence') );
ex.addHandler( ex.factory.getHandler('Heuristics') );
var res = ex.extract(document);

if (res.isSuccess) {
    res.url;   // URL string
    res.title; // title string
    res.engine; // 抽出に用いたハンドラそのもの
    res.content; // コンテンツクラスのインスタンス(後述)
}

ハンドラはいまのところHeuristicsのみ実装済み.

コンテンツクラス

content.asLeaves(); // 本文だと判定された葉ノードを含む葉クラスインスタンス(後述)の配列を返す
content.asNode(); // すべての葉ノードの共通の祖先のうち最深のものを返す
content.asTextFragment(); // asLeaves()に含まれるノードのテキストを連結したものを返す
content.toString(); // asNode()のtextContentを返す

葉クラス

leaf.node; // 葉ノード
leaf.depth; // ノードのbodyからの深さ

AUTHOR

INA Lintaro

Copryright

Copyright of the original implementation

labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html

LICENCE

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
lib		lib
sketch		sketch
.gitignore		.gitignore
Makefile		Makefile
README.rdoc		README.rdoc

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

ExtractContentJS

やれること

ファイル

使い方

本文抽出インタフェース

ExtractContentJS.LayeredExtractor

コンテンツクラス

葉クラス

AUTHOR

Copryright

Copyright of the original implementation

LICENCE

About

Uh oh!

Releases

Packages

Contributors 3

Uh oh!

Languages

hatena/extract-content-javascript

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Uh oh!

Stars

Watchers

Forks

Uh oh!

Languages