如何提取出PDF图片文字

发布网友发布时间：2022-04-23 22:28

共4个回答

热心网友时间：2022-05-02 06:47

用Office 2003提取图片中的文字

第一步我们需要安装“Microsoft Office Document Imaging”的组件，点“开始→程序”，在 “Microsoft Office 工具” 里点“ Microsoft Office Document Imaging” 即可安装运行。

第二步打开带有文字的图片或电子书籍等，找到你希望提取的页面，按下键盘上的打印屏幕键（PrintScreen）进行屏幕取图。

第三步打开Microsoft Office Word 2003 ，将刚才的屏幕截图粘贴进去；点击“文件”菜单中的“打印”，在安装Microsoft Office Document Imaging组件后，系统会自动安装一个名为“Microsoft Office Document Imaging Writer”的打印机。
“Microsoft Office Document Imaging Writer”打印机，其他选项无须额外设置，点击“确定”按钮后，设定好文件输出的路径及文件名（缺省使用源文件名），然后很快就可以自动生成一个MDI格式的文档了。

打开刚才保存的MDI类型文件（如图3所示），根据你的需要用鼠标选择文字内容（被选中的内容在红色的框内），然后单击鼠标右键，在弹出的快捷菜单中选择“将文本发送到Word”，即可将图片内容自动转换为一个新的Word文档，然后你就可以在Word文档中随心所欲地进行编辑这段文字了。

提示：如果你不想将转换的内容输入到一个新的Word 文档中，而是希望粘贴到一个已经打开的Word 文档，只需在上面的操作中点击右键菜单的“复制”，然后再到指定文档中执行粘贴即可。
offiice2003 确实有这个功能！
自带了Document Imaging 安装office的时候选上
默认是不安装的！

还有很多OCR软件

我使用Document Imaging的时候感觉非常不错！推荐一下

如果公式字母中文混排
任何软件都识别不全的！
用OCR就可以了．
比如Office 2003中也提供了文字识别服务，结合那个Image writer可以很方便将PDF转成WORD。
第一种方法：用SnagIt工具进行文字提取。

首先使用SnagIt的文字捕捉功能将文字提取出来。SnagIt当前版本为7.02，大小为03KB，下载地址可以在http://www.skycn.com/soft/2290.html 找到，汉化补丁可以在http://www.skycn.com/soft/2291.html 找到。启动SnagIt，选择菜单“输入/区域”，选择菜单“工具/文字捕获”，然后我们打开要捕捉的文件窗口，按下捕捉快捷键，选定捕捉区域即可捕捉到文字。

接着用相应工具重排文字。此时我们发现提取的文字可能会有很多空格或段落错乱等现象，而且字号、字体等不合自己的心意。这时我们可以用熟悉的WPS或Word软件进行重新编排。我们以WPSOffice2003为例看看如何对付提取后文章的编排。

用WPSOffice2003打开提取文章；然后选择“工具”菜单下的“文字”/“段落重排”，这时你会看到提取文章重新进行排版；接下来选择“工具”菜单下的“文字”/“删除段首空格”命令，使得文章的每段参差不齐的行首空格被删除；再选择“工具”菜单下的“文字”/“增加段首空格”，文章变为正常的书写格式；提取文章一般都留有空段，为删除这些空段，继续选择“工具”菜单下的“文字”/“删除空段”命令，这时文章完全变为我们所要的形式；用你熟悉的界面任意编辑文章吧。

第二种方法：用屏幕截图然后让OCR软件识别。

打开带有文字的图片或电子书籍，翻到你希望提取的页面，点击键盘上的打印屏幕键（PrintScreen）进行屏幕捕获；打开Windows自带的画图工具，将刚才捕获的屏幕截图，粘贴进去，保存为一个.bmp文件；接着打开刚才保存的文件，在编辑器中进行修正，根据你所要提取的文字进行裁剪，尽量去除不要的部分；最后启动OCR软件，在OCR中打开刚才保存的修改文件，进行文字识别，然后可随心所欲进行编辑。

热心网友时间：2022-05-02 08:21

ADOBE ACROBAT可以将PDF另存为图片格式

如果想识别文字的话只能用OCR软件了(用来识别图片)

但做起来比较麻烦,文件太多的话一个人干不了

热心网友时间：2022-05-02 10:13

可以用PS提到啊！他能打开这个文件！

热心网友时间：2022-05-02 12:21

1）将PDF文件的各页导出为图片
2）用OCR软件将这些图片识别为WORD文档

具体步骤可参见http://zhidao.baidu.com/question/57550.html

全部栏目

如何提取出PDF图片文字