一种基于网站内容用于网站自动分类分析的系统
2020-01-07

一种基于网站内容用于网站自动分类分析的系统

本发明公开了一种基于网站内容用于网站自动分类分析的系统,包括抓取模块、网页文本内容解析模块、分词模块、特征训练提取模块以及网页分类模块;特征训练提取模块通过计算每个候选特征词的重要度、区分度和特征关键词权重,并根据特征关键词权重来排序选取权重最大的若干特征词,对选取的特征词进行归一化处理后,使用特征词权重作为权值,根据已知选取特征词集合及权重集合建立网站类别向量模板;网页分类模块用于根据特征训练提取模块得到的选取特征词集合及权值形成特征空间向量,再计算特征空间向量与待分类站点的特征空间向量相似度来确定站点所属类别。有效的解决目前网络信息杂乱的现象,方便用户准确地查找定位所需的信息。

下面结合实施例对本发明作更进一步的说明。

具体实施方式

下面结合实施例对本发明作更进一步的说明。

表1