设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 7773|回复: 8
打印 上一主题 下一主题

jieba分词的问题

[复制链接]

22

主题

6

好友

242

积分

中级会员

Rank: 3Rank: 3

跳转到指定楼层
楼主
发表于 2018-4-13 10:21:26 |只看该作者 |倒序浏览
结巴分词自定义字典的时候  字典里的 词频是干吗用的 比如
创新办 3 i云计算 5凱特琳 nz台中
这个字典中的词频是干嘛的
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

沙发
发表于 2018-4-13 14:09:05 |只看该作者
词频会影响分词时候的划分。你现在词少不存在这个问题,复杂了之后,同一句话有多种划分方法,这时候是要参考词频的
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

22

主题

6

好友

242

积分

中级会员

Rank: 3Rank: 3

板凳
发表于 2018-4-13 18:45:44 |只看该作者
crossin先生 发表于 2018-4-13 14:09
词频会影响分词时候的划分。你现在词少不存在这个问题,复杂了之后,同一句话有多种划分方法,这时候是要参 ...

crossin你说的词少是指什么啊
我现在用jieba分完词去掉单字去掉特殊符号以及一些我自己选的词 有6000多个词
我是直接用程序里语句筛选的 目前没有用自定义字典 因为没看太懂
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

地板
发表于 2018-4-13 21:48:24 |只看该作者
人工智能 发表于 2018-4-13 18:45
crossin你说的词少是指什么啊
我现在用jieba分完词去掉单字去掉特殊符号以及一些我自己选的词 有6000多个 ...

一般不需要用自定义字典
自定义是在你对它的分词结果不满意的时候,一般是一些专业化强的文章,你可以自己定义下。词频越高,越容易被划分为一个词
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

22

主题

6

好友

242

积分

中级会员

Rank: 3Rank: 3

5#
发表于 2018-4-14 11:10:24 |只看该作者
crossin先生 发表于 2018-4-13 21:48
一般不需要用自定义字典
自定义是在你对它的分词结果不满意的时候,一般是一些专业化强的文章,你可以自 ...

嗯 ,  还有一个问题啊 是云词的问题
我分词后用counter统计的词频 然后去掉了一些没用的词 最后的结果就是 有一个词的词频特别高 达到了70 80
然后紧接着的词频就是 14 16  这样用云词生成图片的时候 感觉差的太多 不好看  有没有什么解决办法呢
回复

使用道具 举报

22

主题

6

好友

242

积分

中级会员

Rank: 3Rank: 3

6#
发表于 2018-4-14 14:40:24 |只看该作者
crossin先生 发表于 2018-4-13 21:48
一般不需要用自定义字典
自定义是在你对它的分词结果不满意的时候,一般是一些专业化强的文章,你可以自 ...

用词云获取图片中的颜色再重写到图片时遇到错误  imagecolorgenerator is smaller than the canvas
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

7#
发表于 2018-4-15 00:12:25 |只看该作者
人工智能 发表于 2018-4-14 11:10
嗯 ,  还有一个问题啊 是云词的问题
我分词后用counter统计的词频 然后去掉了一些没用的词 最后的结果就 ...

词频你可以自己处理下,比如统一开根号或者除以几,缩小差距
报错那个是图片太小
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

22

主题

6

好友

242

积分

中级会员

Rank: 3Rank: 3

8#
发表于 2018-4-16 16:28:25 |只看该作者
crossin先生 发表于 2018-4-15 00:12
词频你可以自己处理下,比如统一开根号或者除以几,缩小差距
报错那个是图片太小 ...

嗯,图片太小是指的图片大小太小? 还是尺寸
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

9#
发表于 2018-4-16 23:02:00 |只看该作者
人工智能 发表于 2018-4-16 16:28
嗯,图片太小是指的图片大小太小? 还是尺寸

取色图片的尺寸不够你词云的大小
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-11-24 21:11 , Processed in 0.032796 second(s), 21 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部