English 简体中文 繁體中文 한국 사람 日本語 Deutsch русский بالعربية TÜRKÇE português คนไทย french
查看: 3|回复: 0

itextpdf 找出PDF中 文字的坐标

[复制链接]
查看: 3|回复: 0

itextpdf 找出PDF中 文字的坐标

[复制链接]
查看: 3|回复: 0

354

主题

0

回帖

1072

积分

金牌会员

积分
1072
qq5464642

354

主题

0

回帖

1072

积分

金牌会员

积分
1072
2025-2-7 00:17:36 | 显示全部楼层 |阅读模式
目录


找到位置,签名的话见:https://www.cnblogs.com/vipsoft/p/18644127
新项目可以尝试一下 iText 7 , 我这边是老项目所以还是继续使用 iText 5,主打够用
iText 5 没有直接提供获取文本精确位置的功能。它只能提取文本内容,而文本位置通常需要通过额外的解析和计算来确定。
思路:在同一行,且一些词是连续的,前后没有空白字符串,即认为是一个词
需要特殊处理:

  • “姓 名:” 中间有空格
  • 读取PDF时,有些肉眼看上去是一行的字,可能会被解析为多个,导致找不到满足条件的关键字

添加引用

<itextpdf.version>5.5.13</itextpdf.version><itext-asian.version>5.2.0</itext-asian.version><dependency>    <groupId>com.itextpdf</groupId>    <artifactId>itextpdf</artifactId>    <version>${itextpdf.version}</version></dependency><!--没有这个的话,添加文字会报错--><dependency>    <groupId>com.itextpdf</groupId>    <artifactId>itext-asian</artifactId>    <version>${itext-asian.version}</version></dependency>添加工具类

package com.vipsoft.web;import cn.hutool.core.util.StrUtil;import com.itextpdf.text.pdf.parser.ImageRenderInfo;import com.itextpdf.text.pdf.parser.RenderListener;import com.itextpdf.text.pdf.parser.TextRenderInfo;import com.itextpdf.awt.geom.Rectangle2D.Float;import java.util.ArrayList;import java.util.List;public class KeyWordPositionListener implements RenderListener {    /**     * 用来存储页面上所有的词     * - 排除连续空格     */    private List<WordItem> allItems = new ArrayList<WordItem>();    /**     * 搜索关键词     */    private String keyWord;    /**     * 是否是新的词     */    private boolean newWord = false;    /**     * 记录上一个字符 -- 用于判断是否是一组词     */    private WordItem prevItem = new WordItem();    /**     * 已找到的词信息     */    private WordItem wordItem;    public WordItem getWordItem() {        return wordItem;    }    public void setKeyWord(String keyWord) {        this.keyWord = keyWord;    }    @Override    public void beginTextBlock() {        // TODO Auto-generated method stub    }    /**     * 方法会在解析文本时被调用,它检查每个文本片段是否包含关键词,并记录其位置。     *     * @param renderInfo     */    @Override    public void renderText(TextRenderInfo renderInfo) {        if (wordItem != null || StrUtil.isEmpty(keyWord)) {            return;        }        // 读取PDF时,有些肉眼看上去是一行的字,可能会被解析为多个,导致找不到满足条件的关键字,这里做了简单的处理        // 即如果一些词是连续的,前后没有空白字符串,即认为是一个词        String content = renderInfo.getText().trim();        Float textRectangle = renderInfo.getBaseline().getBoundingRectange();        if (StrUtil.isEmpty(content)) {            // 当前扫出来的是空字符串,视新一个新的词即将开始            newWord = true;//            System.out.println("扫出空的,跳过  x=" + textRectangle.getX() + " y=" + textRectangle.getY());            return;        }        if (StrUtil.isEmpty(prevItem.getContent())) {            // 这段可以不需要            // prevItem 中还没有存内容的,当前文字也视为新的词            newWord = true;//            System.out.println("prevItem 中还没有存内容的,视为新词");        }        if (StrUtil.isNotEmpty(prevItem.getContent()) && (Math.abs((int) prevItem.getY() - (int) textRectangle.getY()) > 5)) {            //Y 正负2内,视为同一行            System.out.println("不在同一行:prevItem=" + prevItem.getContent() + " x=" + (int) prevItem.getX() + " y=" + (int) prevItem.getY());            System.out.println("不在同一行:content=" + content + " x=" + (int) textRectangle.getX() + " y=" + (int) textRectangle.getY());            System.out.println("当前内容和prevItem 不在同一行,视为新词");            newWord = true;        }        if (newWord) {            //重置            System.out.println("重置 prevItem: " + prevItem.getContent());            prevItem = new WordItem();        }        System.out.println("已扫到字:content=" + content + " x=" + textRectangle.getX() + " y=" + textRectangle.getY());        String preContent = StrUtil.isNotEmpty(prevItem.getContent()) ? prevItem.getContent() : "";        prevItem.setContent(preContent + content);        prevItem.setX(textRectangle.getX());        prevItem.setY(textRectangle.getY());        if (prevItem.getContent().contains(keyWord)) {            //System.out.println("找到了【" + keyWord + "】 " + prevItem.getContent() + " x= " + prevItem.getX() + " y= " + prevItem.getY());            wordItem = prevItem;        }        newWord = false;    }    @Override    public void endTextBlock() {        // TODO Auto-generated method stub    }    @Override    public void renderImage(ImageRenderInfo renderInfo) {        // TODO Auto-generated method stub    }}/** * 存储一个词的信息 */class WordItem {    private String content;    private double x;    private double y;   ... getters and setters ...}调用

@Testvoid searchText() throws Exception {    String filepath = "D:\\Report.pdf";    String keyWord = "审核医生";    int page = 1;    PdfReader pdfReader = new PdfReader(filepath);    //int pageNum = pdfReader.getNumberOfPages(); //循环没页PDF查找    PdfReaderContentParser pdfReaderContentParser = new PdfReaderContentParser(pdfReader);    KeyWordPositionListener renderListener = new KeyWordPositionListener();    renderListener.setKeyWord(keyWord);    pdfReaderContentParser.processContent(page, renderListener);    WordItem wordItem = renderListener.getWordItem();    if (wordItem == null) {        System.out.println("没找到 " + keyWord);        return;    }        pdfReader.close() //记得要关闭,否则文件想做其它操作会报被占用    System.out.println("找到了【" + keyWord + "】 " + wordItem.getContent() + " x= " + wordItem.getX() + " y= " + wordItem.getY());}
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

354

主题

0

回帖

1072

积分

金牌会员

积分
1072

QQ|智能设备 | 粤ICP备2024353841号-1

GMT+8, 2025-3-10 14:50 , Processed in 1.666893 second(s), 30 queries .

Powered by 智能设备

©2025

|网站地图