C#读取pdf文件中的文字内容

本文适用于由 WORD 等文件转成的PDF文件，如果你的 PDF 文件是基于图片的扫描版，那么本文的代码是无法提取到文字的，你需要的是 OCR 技术。

NuGet： https://www.nuget.org/packages/itext7/

通过 NuGet 引入 itext7 组件（官网：https://itextpdf.com/）之后，使用以下代码即可提取 PDF 文件中的文字。

using System.Collections.Generic;
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;
public static class PdfHelper
{
    public static IEnumerable<string> ExtractText(string filename)
    {
        using (var r = new PdfReader(filename))
        using (var doc = new PdfDocument(r))
        {
            for (int i = 1; i < doc.GetNumberOfPages(); i++)
            {
                ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                yield return text;
            }
        }
    }
}

使用方法：

var lines = PdfHelper.ExtractText("{PDF文件路径}").ToList();

C#读取pdf文件中的文字内容

WPF Path表示语法详解（Path之Data属性语法）

C# 截取后台窗口图片的方法

C# 使用 SpeechSynthesizer 类将文本转换为语音

C# 定时器详解

C# 对接微信支付时生成符合 RFC3339 标准的日期时间字符串

使用 ScriptEngine 在 C# 程序中运行 JavaScript \ VBScript 代码

掌握 PHP Attributes:从自定义创建到生产实现

网站右下角弹窗js，兼容移动端，可进行设置。

DeepSeek V3.2正式版发布强化推理与Agent工具调用能力

PHP 8.5 正式发布！

Windows 11 系统右键菜单默认直接显示全部选项的方法

PHP(Laravel) 实现 sm2、sm3、sm4 加密，对接招行薪福通教程

宝塔面板网站图片存在、路径正确但是通过 URL 访问 404 问题的解决方法

scp 命令在终端会话断开后中断的解决办法：scp 命令设置后台运行传输文件方法

相关推荐