发布网友 发布时间:2022-04-24 10:07
共1个回答
热心网友 时间:2023-10-09 20:37
1.使用python+selenium分析dom结构爬取百度|互动百科文本摘要信息;2.使用jieba结巴分词对文本进行中文分词,同时插入字典关于关键词;3.scikit-learn对文本内容进行tfidf计算并构造N*M矩阵(N个文档M个特征词);4.再使用K-means进行文本聚类(省略特征词过来降维过程);5.最后对聚类的结果进行简单的文本处理,按类簇归类,也可以计算P/R/F特征值;6.总结这篇论文及K-means的缺点及知识图谱的一些内容。