使用sklearn实现tfidf特征计算

2025-07-29 15:51:41

使用sklearn实现tfidf特征计算最近在做一些文本方面的工作，记录一下，方便以后查看。使用sklearn进行tfidf特征提取主要有两种方法：方法一： #method1 from sklearn.feature_extraction.text import CountVectorizer from sklearn.feat

使用sklearn实现tfidf特征计算

最近在做一些文本方面的工作，记录一下，方便以后查看。

使用sklearn进行tfidf特征提取主要有两种方法：

方法一：

#method1
from sklearn.feature_ import CountVectorizer
from sklearn.feature_ import TfidfTransformertag_list = [	青年 吃货 唱歌	,	少年 游戏 叛逆	,	少年 吃货 足球	]
countVectorizer = CountVectorizer()#若要过滤停用词，可在初始化模型时设置
doc_term_matrix = countVectorizer.fit_transform(tag_list)#得到的doc_term_matrix是一个csr的稀疏矩阵
#doc_term_matrix[doc_term_matrix>0]=1 #将出现次数大于0的token置1
#doc_term_()#将稀疏矩阵转化为稠密矩阵
vocabulary = countVectorizer.vocabulary_#得到词汇表tfidf_transformer = TfidfTransformer()
tfidf_matrix = tfidf_transformer.fit_transform(document_term_matrix)#得到的tfidf同样是一个csr的稀疏矩阵

后来在翻看sklearn的用户手册时，发现了CountVectorizer和TfidfTransformer的结合体，没错，就是TfidfVectorizer！针对TfidfVectorizer，官方给出的说明是：Equivalent to CountVectorizer followed by TfidfTransformer.

于是就有了方法二：

#method2
from sklearn.feature_ import TfidfVectorizer
#若要过滤停用词，可在初始化模型时设置
tfidfVecorizer = TfidfVectorizer(analyzer=lambda x:x.split(	 	))#可自己设置解析方法
tfidf_matrix = tfidfVecorizer.fit_transform(tags_list)
#tfidf_()
term2id_dict = tfidfVecorizer.vocabulary_

同样的结果，TfidfVectorizer就会简洁很多。

对tfidf_matrix的处理：
之前自己总是傻傻的直接tfidf_().tolist()，再一行一行取结果，要知道，当数据量很多时，这个矩阵是很大很大很大的，非常占内存。不过还好自己觉悟的快，后来把代码改成了tfidf_matrix[i].todense().tolist()[0]

tag_list的获取：
1、对文本进行分词，首选jieba分词器；
2、 .join(token_list) 对分出来的token连接成字符串，如青年吃货唱歌
、tag_list.append( 青年吃货唱歌 )

如果大家对处理tfidf_matrix还有其他好办法，欢迎留言赐教！

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可，转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址：http://www.dnpztj.cn/shuma/856948.html

推荐阅读

留言与评论（共有 17 条评论）

本站网友合川租房信息	25分钟前发表
对tfidf_matrix的处理：之前自己总是傻傻的直接tfidf_().tolist()，再一行一行取结果，要知道，当数据量很多时，这个矩阵是很大很大很大的，非常占内存
本站网友艾兰	12分钟前发表
x.split( ))#可自己设置解析方法 tfidf_matrix = tfidfVecorizer.fit_transform(tags_list) #tfidf_() term2id_dict = tfidfVecorizer.vocabulary_ 同样的结果，TfidfVectorizer就会简洁很多
本站网友烟台电影院	20分钟前发表
不过还好自己觉悟的快，后来把代码改成了tfidf_matrix[i].todense().tolist()[0] tag_list的获取： 1
本站网友朝源	9分钟前发表
少年游戏叛逆
本站网友沙县小吃节	26分钟前发表
对tfidf_matrix的处理：之前自己总是傻傻的直接tfidf_().tolist()，再一行一行取结果，要知道，当数据量很多时，这个矩阵是很大很大很大的，非常占内存
本站网友清溢和衡	15分钟前发表
.join(token_list) 对分出来的token连接成字符串，如青年吃货唱歌
本站网友小米股价暴跌	28分钟前发表
x.split( ))#可自己设置解析方法 tfidf_matrix = tfidfVecorizer.fit_transform(tags_list) #tfidf_() term2id_dict = tfidfVecorizer.vocabulary_ 同样的结果，TfidfVectorizer就会简洁很多
本站网友专业取名网站	10分钟前发表
.join(token_list) 对分出来的token连接成字符串，如青年吃货唱歌
本站网友凯撒克朗	22分钟前发表
少年吃货足球 ] countVectorizer = CountVectorizer()#若要过滤停用词，可在初始化模型时设置 doc_term_matrix = countVectorizer.fit_transform(tag_list)#得到的doc_term_matrix是一个csr的稀疏矩阵 #doc_term_matrix[doc_term_matrix>0]=1 #将出现次数大于0的token置1 #doc_term_()#将稀疏矩阵转化为稠密矩阵 vocabulary = countVectorizer.vocabulary_#得到词汇表tfidf_transformer = TfidfTransformer() tfidf_matrix = tfidf_transformer.fit_transform(document_term_matrix)#得到的tfidf同样是一个csr的稀疏矩阵后来在翻看sklearn的用户手册时，发现了CountVectorizer和TfidfTransformer的结合体，没错，就是TfidfVectorizer！针对TfidfVectorizer，官方给出的说明是：Equivalent to CountVectorizer followed by TfidfTransformer. 于是就有了方法二： #method2 from sklearn.feature_ import TfidfVectorizer #若要过滤停用词，可在初始化模型时设置 tfidfVecorizer = TfidfVectorizer(analyzer=lambda x
本站网友三星柔性屏幕手机	30分钟前发表
x.split( ))#可自己设置解析方法 tfidf_matrix = tfidfVecorizer.fit_transform(tags_list) #tfidf_() term2id_dict = tfidfVecorizer.vocabulary_ 同样的结果，TfidfVectorizer就会简洁很多
本站网友北京寄宿学校	11分钟前发表
tag_list.append( 青年吃货唱歌 ) 如果大家对处理tfidf_matrix还有其他好办法，欢迎留言赐教！
本站网友刘兰峰	14分钟前发表
少年吃货足球 ] countVectorizer = CountVectorizer()#若要过滤停用词，可在初始化模型时设置 doc_term_matrix = countVectorizer.fit_transform(tag_list)#得到的doc_term_matrix是一个csr的稀疏矩阵 #doc_term_matrix[doc_term_matrix>0]=1 #将出现次数大于0的token置1 #doc_term_()#将稀疏矩阵转化为稠密矩阵 vocabulary = countVectorizer.vocabulary_#得到词汇表tfidf_transformer = TfidfTransformer() tfidf_matrix = tfidf_transformer.fit_transform(document_term_matrix)#得到的tfidf同样是一个csr的稀疏矩阵后来在翻看sklearn的用户手册时，发现了CountVectorizer和TfidfTransformer的结合体，没错，就是TfidfVectorizer！针对TfidfVectorizer，官方给出的说明是：Equivalent to CountVectorizer followed by TfidfTransformer. 于是就有了方法二： #method2 from sklearn.feature_ import TfidfVectorizer #若要过滤停用词，可在初始化模型时设置 tfidfVecorizer = TfidfVectorizer(analyzer=lambda x
本站网友微晶瓷隆鼻	25分钟前发表
tag_list.append( 青年吃货唱歌 ) 如果大家对处理tfidf_matrix还有其他好办法，欢迎留言赐教！
本站网友东君府moma	30分钟前发表
少年游戏叛逆
本站网友护士职业资格考试	8分钟前发表
对文本进行分词，首选jieba分词器； 2
本站网友火树	17分钟前发表
tag_list.append( 青年吃货唱歌 ) 如果大家对处理tfidf_matrix还有其他好办法，欢迎留言赐教！

使用sklearn实现tfidf特征计算

使用sklearn实现tfidf特征计算

如何计算从一个天线到第二个天线的接收功率？

华为模拟器eNSP 1.3.00.100，很多朋友找不到！这里全都有~附带防火墙、CE全部镜像包以及与华三HCL共存方法

R语言在地图上绘制散点饼图可视化

.NET 7 的 AOT 程序是否更容易破解？