LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
楼主: Mie

有能把中文pdf转成txt的软件吗??

[复制链接]
发表于 2009-8-22 19:46:53 | 显示全部楼层
Post by zzwzzw;2019125
新鲜,从没听说过。


看这里:[color="RoyalBlue"]史上最快pdf浏览器诞生记/mupdf编译全记录in lenny way
回复 支持 反对

使用道具 举报

发表于 2009-8-22 19:51:07 | 显示全部楼层
pdftotext 命令
回复 支持 反对

使用道具 举报

发表于 2009-8-22 20:04:27 | 显示全部楼层


恩,我去看看。果然是高级货,开了眼界。这东东需要慢慢折腾。
回复 支持 反对

使用道具 举报

发表于 2009-8-22 21:41:28 | 显示全部楼层
没啥好折腾的,官方有32位二进制包,就一个mupdf文件即可
简单得很
如果想自己改代码的话就比较郁闷,编译依赖估计大多比较少用
回复 支持 反对

使用道具 举报

发表于 2009-8-23 02:14:13 | 显示全部楼层
Post by nonplus;2019204
没啥好折腾的,官方有32位二进制包,就一个mupdf文件即可
简单得很
如果想自己改代码的话就比较郁闷,编译依赖估计大多比较少用


没有找到官方的bin。我就决定自己动手编译,哇,无奈的是为了最后编译出来的只有几M的一个东东,先要装好多包。其中最主要就是为了darcs这个 版本控制的玩意。但一切好像还是值得的,因为最终被我折腾出来了,并且效果令人满意。编译过程还算顺利,他的文档里说明已经支持亚洲字符了。令人印象深刻的是,其运行速度之飞快真是前所未见的惊人。无论打开多大的文件,浏览起来也几乎没有一点延迟感,确实很棒。虽然还有点美中不足的是,有些中文pdf打开后是乱码,可能是由于编码的关系吧。还有就是我没有找到他文档里所宣称的一些功能的操作方法。奇怪,这个软件没有使用说明?不过速度真是太快了。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2009-8-23 03:27:37 | 显示全部楼层
Post by zzwzzw;2019270
没有找到官方的bin。我就决定自己动手编译,哇,无奈的是为了最后编译出来的只有几M的一个东东,先要装好多包。其中最主要就是为了darcs这个 版本控制的玩意。但一切好像还是值得的,因为最终被我折腾出来了,并且效果令人满意。编译过程还算顺利,他的文档里说明已经支持亚洲字符了。令人印象深刻的是,其运行速度之飞快真是前所未见的惊人。无论打开多大的文件,浏览起来也几乎没有一点延迟感,确实很棒。虽然还有点美中不足的是,有些中文pdf打开后是乱码,可能是由于编码的关系吧。还有就是我没有找到他文档里所宣称的一些功能的操作方法。奇怪,这个软件没有使用说明?不过速度真是太快了。


害我也想装一个了..bin啊bin..你在哪?
我可不想编译啊..
回复 支持 反对

使用道具 举报

发表于 2009-8-23 08:43:37 | 显示全部楼层
[color="Blue"]mupdf download

虽然还有点美中不足的是,有些中文pdf打开后是乱码,可能是由于编码的关系吧

没出现过,拿来试试看?
回复 支持 反对

使用道具 举报

发表于 2009-8-23 10:43:05 | 显示全部楼层
Post by Mie;2018887
经常看pdf,可是大部分时间都不在电脑前,
想问下有没有什么软件可以把中文的pdf转成txt的?
我到现在为止只能转英文的pdf~
至于把扫描版图片做成的pdf转成txt,我是不抱希望了..

先谢谢了.

把pdf转成txt,无论是在windows下面还是在Linux下面,都没有很好的软件,这也不是软件的问题,因为这两个格式 差别实在太大了。楼主可以搜一下某一个pdf对应的txt或者word或者chm版本,然后弄成txt,现在很多资料都有不同的版本的。另外如果有银子的话,最好还是专门买一个能阅读pdf的智能手机或者其他阅读工具。
回复 支持 反对

使用道具 举报

发表于 2009-8-23 11:29:29 | 显示全部楼层
Post by nonplus;2019324
[color="Blue"]mupdf download


没出现过,拿来试试看?


你没遇到过乱码?下载了你提供的官网上的一个linux版软件包,解压后发现原来里面还有几个执行文件也是整个软件一部分,他们是提供程序附加功能的。但是,我自己编译后除了一个主文件把其他的都给删了,不甘心决定再编译一次。

试了试用官网程序打开某些中文pdf,效果和我自己编的一样,也是乱码。我还发现那些附加执行文件貌似提供加密,解密功能。用那个pdfdraw可以把pdf文档以纯文字文字形式输出到终端,有趣的是这个时候无论是什么中文pdf,乱码都解决了。这算不算pdf转txt格式。这个软件挺有意思啊,要是能够带注释功能那就天下无敌了。

这回仔细看了下,发现自己编的还多了cmapdump fontdump pdfextract pdfinfo这几个bin.

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

发表于 2009-8-23 11:37:39 | 显示全部楼层
注释,书签好像都不能很好的支持
用它仅仅是快速,乱码也没碰到过(我用的pdf并不是很多,最多就一些教程类而已)
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表