Crossin的编程教室

标题: jieba分词的问题 [打印本页]

作者: 人工智能    时间: 2018-4-13 10:21
标题: jieba分词的问题
结巴分词自定义字典的时候  字典里的 词频是干吗用的 比如
创新办 3 i云计算 5凱特琳 nz台中
这个字典中的词频是干嘛的

作者: crossin先生    时间: 2018-4-13 14:09
词频会影响分词时候的划分。你现在词少不存在这个问题,复杂了之后,同一句话有多种划分方法,这时候是要参考词频的
作者: 人工智能    时间: 2018-4-13 18:45
crossin先生 发表于 2018-4-13 14:09
词频会影响分词时候的划分。你现在词少不存在这个问题,复杂了之后,同一句话有多种划分方法,这时候是要参 ...

crossin你说的词少是指什么啊
我现在用jieba分完词去掉单字去掉特殊符号以及一些我自己选的词 有6000多个词
我是直接用程序里语句筛选的 目前没有用自定义字典 因为没看太懂
作者: crossin先生    时间: 2018-4-13 21:48
人工智能 发表于 2018-4-13 18:45
crossin你说的词少是指什么啊
我现在用jieba分完词去掉单字去掉特殊符号以及一些我自己选的词 有6000多个 ...

一般不需要用自定义字典
自定义是在你对它的分词结果不满意的时候,一般是一些专业化强的文章,你可以自己定义下。词频越高,越容易被划分为一个词
作者: 人工智能    时间: 2018-4-14 11:10
crossin先生 发表于 2018-4-13 21:48
一般不需要用自定义字典
自定义是在你对它的分词结果不满意的时候,一般是一些专业化强的文章,你可以自 ...

嗯 ,  还有一个问题啊 是云词的问题
我分词后用counter统计的词频 然后去掉了一些没用的词 最后的结果就是 有一个词的词频特别高 达到了70 80
然后紧接着的词频就是 14 16  这样用云词生成图片的时候 感觉差的太多 不好看  有没有什么解决办法呢
作者: 人工智能    时间: 2018-4-14 14:40
crossin先生 发表于 2018-4-13 21:48
一般不需要用自定义字典
自定义是在你对它的分词结果不满意的时候,一般是一些专业化强的文章,你可以自 ...

用词云获取图片中的颜色再重写到图片时遇到错误  imagecolorgenerator is smaller than the canvas
作者: crossin先生    时间: 2018-4-15 00:12
人工智能 发表于 2018-4-14 11:10
嗯 ,  还有一个问题啊 是云词的问题
我分词后用counter统计的词频 然后去掉了一些没用的词 最后的结果就 ...

词频你可以自己处理下,比如统一开根号或者除以几,缩小差距
报错那个是图片太小
作者: 人工智能    时间: 2018-4-16 16:28
crossin先生 发表于 2018-4-15 00:12
词频你可以自己处理下,比如统一开根号或者除以几,缩小差距
报错那个是图片太小 ...

嗯,图片太小是指的图片大小太小? 还是尺寸
作者: crossin先生    时间: 2018-4-16 23:02
人工智能 发表于 2018-4-16 16:28
嗯,图片太小是指的图片大小太小? 还是尺寸

取色图片的尺寸不够你词云的大小




欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/) Powered by Discuz! X2.5