发布网友
共1个回答
热心网友
1.使用python+selenium分析dom结构爬取百度|互动百科文本摘要信息;
2.使用jieba结巴分词对文本进行中文分词,同时插入字典关于关键词;
3.scikit-learn对文本内容进行tfidf计算并构造N*M矩阵(N个文档 M个特征词);
4.再使用K-means进行文本聚类(省略特征词过来降维过程);
5.最后对聚类的结果进行简单的文本处理,按类簇归类,也可以计算P/R/F特征值;
6.总结这篇论文及K-means的缺点及知识图谱的一些内容。