gc_ocr - 文档识别服务

📋 支持的文件格式与识别方式

📁 支持的文件格式

格式	扩展名	说明
🖼️ 图片	.jpg, .jpeg, .png, .gif, .bmp, .webp	直接进行 OCR 识别
📄 PDF	.pdf	文字型 PDF 可直接读取，扫描件需 OCR
📝 Word	.docx, .doc	提取文字和表格内容
📊 Excel	.xlsx, .xls	按 Sheet 提取表格数据
📽️ PPT	.pptx, .ppt	按页提取文字和表格

🔧 识别方式说明

方式	适用场景	处理流程
🚀 MarkItDown	Office 文档（推荐）	微软开源工具，转换为 Markdown 格式，保留结构
📖 直接读取	文字型 PDF/Office	直接提取嵌入的文字，速度最快
🔤 Tesseract	图片/扫描件	开源 OCR，CPU 友好，多语言支持
🇨🇳 PaddleOCR	中文文档	百度开源，中文识别效果优秀
🤖 DeepSeek	复杂版面	大模型 OCR，复杂表格/手写体效果好

⚙️ 不同文件的处理流程

文件类型	MarkItDown	直接读取	OCR 识别
图片	❌ 不支持	❌ 不支持	✅ 直接识别
文字型 PDF	✅ 转 Markdown	✅ 提取文字	✅ 转图片后识别
扫描版 PDF	❌ 无法提取	❌ 无法提取	✅ 转图片后识别
Word 文档	✅ 转 Markdown	✅ 提取文字+表格	✅ 转 PDF→图片→识别*
Excel 表格	✅ 转 Markdown	✅ 按 Sheet 提取	✅ 转 PDF→图片→识别*
PPT 演示	✅ 转 Markdown	✅ 按页提取	✅ 转 PDF→图片→识别*

💡 提示：

默认使用 MarkItDown，失败后自动尝试直接读取
* Office 文档 OCR 需要服务器安装 LibreOffice
DeepSeek OCR 需要配置 API Key
使用「全部对比」可同时测试所有识别方式

📁

点击或拖拽文件到此处

支持 PDF、Word、Excel、PPT、图片等格式

识别方式

0

总识别次数

0

成功

0

失败

0

今日

0%

成功率

📋 识别历史

📭

暂无识别记录