LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
查看: 2679|回复: 19

如何扩展小企鹅输入法的词库 更新程序算法2009-04-01

[复制链接]
发表于 2009-3-30 15:06:01 | 显示全部楼层 |阅读模式
如何扩展小企鹅输入法的词库
1.sg2fcitx扩展搜狗细胞词库http://code.google.com/p/sg2fcitx/
http://pinyin.sogou.com/dict/
下载你需要的txt版细胞词库.

  1. sg2fcitx 搜狗细胞词库.txt > fcitx式的文件.txt
  2. cat fcitx式的文件.txt >> pyPhrase.org
复制代码

再用程序noOverlap消除重复的词。
替换fcixt-3.6.0-rc/date/pyPhrase.org,然后重新编译fcitx就可以使用新词库了.
参考链接:http://blog.chinaunix.net/u/30503/showart_1880495.html
http://blog.chinaunix.net/u/30503/showart_1883904.html

2.使用open-phrase的词库
到open-phrase上面下载词库http://code.google.com/p/open-phrase/

  1. # cat phrase_pinyin_freq_sc.txt | sort +2 -3 -r -g | awk '{print $2 " " $1 " " $3}' > try.txt
  2. # uniq try.txt | awk '{print $1 " " $2}' > pyPhrase_op.org
复制代码

替换fcixt-3.6.0-rc/date/pyPhrase.org,然后重新编译fcitx就可以使用新词库了.
这个词库偏大。
参考链接:http://blog.chinaunix.net/u/30503/showart_1884473.html


附则:
noOverlap用法: ./noOverlap
要求:noOverlap当前目录下有pyPhrase.org文件用于消除重复词汇,自动生成tmp.txt文件里没有重复的词汇,即无重复词汇的pyPhrase.org

更新了程序的算法,比以前效率高,也没有bug了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2009-3-30 16:26:10 | 显示全部楼层
好东西,我收藏了。但是我不知道应该下载哪个txt版的词库。我下载了一个搜狗标准大词库,不知道行不行?
回复 支持 反对

使用道具 举报

 楼主| 发表于 2009-3-30 16:33:05 | 显示全部楼层
Post by 7dehao;1967575
好东西,我收藏了。但是我不知道应该下载哪个txt版的词库。
下载可能用到的词库,点进去就有,比如:
http://pinyin.sogou.com/dict/cell.php?id=15097
回复 支持 反对

使用道具 举报

发表于 2009-3-30 19:39:45 | 显示全部楼层
虽然我觉得fcitx 3.6的词库对我来说已经很丰富了,还是感谢楼主的无私分享。
回复 支持 反对

使用道具 举报

发表于 2009-3-30 19:55:17 | 显示全部楼层
upupup,加精!
回复 支持 反对

使用道具 举报

发表于 2009-3-30 19:57:20 | 显示全部楼层
q 我顶。我得顶
回复 支持 反对

使用道具 举报

发表于 2009-3-30 23:09:29 | 显示全部楼层
相当不错,其实不用重新编译了
createPYMB gbkpy.org pyPhrase.org
然后把生成的mb文件覆盖/usr/share/fcitx/data/下的即可。
回复 支持 反对

使用道具 举报

发表于 2009-3-31 09:17:53 | 显示全部楼层
这个真不错。一直认为 sogo 就是牛在了词库大上面。那个 ibus 也是。
回复 支持 反对

使用道具 举报

发表于 2009-3-31 09:26:18 | 显示全部楼层
留名,mark
回复 支持 反对

使用道具 举报

发表于 2009-3-31 12:52:55 | 显示全部楼层
好东西,谢谢楼主分享
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表