作者: 张瑾
关键词: 提取;TF-IDF;位置权值;词跨度值
摘要: 传统的TF-IDF完全基于词频,忽略了词语的其它特征项对关键词的影响。本文提出基于TF-IDF、词位置和词跨度的关键词自动提取的方法。该方法通过在传统的TF-IDF关键词权重计算方法中,加入位置权值及词跨度权值,避免单纯采用TF-IDF算法产生的偏差。实验结果表明,该方法在情报关键词提取中有广泛的应用价值,其准确率、召回率及F1值与传统方法相比有明显提升。
在线下载
基于TF-IDF和jieba分词的交通运输综合执法语音文件和文本文件关联匹配技术TF-IDF-Based Transportation Integrated Law Enforcement Voice File and Text File Association Matching Technology
刘文平, 李艳春, 张 贺, 张宇驰, 丁 鼎, 于 泉, 王传炀 科研立项经费支持
交通技术Vol.12 No.5, 全文下载: PDF HTML XML DOI:10.12677/OJTT.2023.125041, August 31 2023
基于改进的Simhash算法的相似文档识别技术Similar Document Recognition Technology Based on the Improved Simhash Algorithm
张兴兰, 何丹丹 国家自然科学基金支持
计算机科学与应用Vol.10 No.2, 全文下载: PDF HTML XML DOI:10.12677/CSA.2020.102038, February 25 2020
基于文本挖掘技术的农村新能源汽车购买决策影响因素分析Analysis on Influencing Factors of Rural New Energy Vehicles Purchase Decision Based on Text Mining Technology
苗昌盛
金融Vol.14 No.1, 全文下载: PDF HTML XML DOI:10.12677/FIN.2024.141002, January 4 2024
高效朴素贝叶斯Web新闻文本分类模型的简易实现The Simply Implement of Effective Naive Bayes Web News Text Classification Model
吴致晖, 刘洪伟, 陈 丽
统计学与应用Vol.3 No.1, 全文下载: PDF HTML DOI:10.12677/SA.2014.31005, March 28 2014
基于词语动能聚类的社会化媒体热点话题发现建模与优化方法 Modeling and Optimization of Hot Topic Discovery in Social Media Based on Clustering of Word Kinetic Energy
吴应良, 黄开梅 国家自然科学基金支持
电子商务评论Vol.8 No.1, 全文下载: PDF HTML XML DOI:10.12677/ECL.2019.81006, January 28 2019
基于DOM树统计关键词路径的WEB信息提取研究Research on WEB Information Extraction Based on DOM Tree Statistics Keyword Path
赵建视, 梁俊卿, 吕笑琳, 黄学波, 冷 悦, 张在军 科研立项经费支持
计算机科学与应用Vol.9 No.2, 全文下载: PDF HTML XML DOI:10.12677/CSA.2019.92022, January 29 2019