📋 支持的文件格式与识别方式
📁 支持的文件格式
| 格式 |
扩展名 |
说明 |
| 🖼️ 图片 |
.jpg, .jpeg, .png, .gif, .bmp, .webp |
直接进行 OCR 识别 |
| 📄 PDF |
.pdf |
文字型 PDF 可直接读取,扫描件需 OCR |
| 📝 Word |
.docx, .doc |
提取文字和表格内容 |
| 📊 Excel |
.xlsx, .xls |
按 Sheet 提取表格数据 |
| 📽️ PPT |
.pptx, .ppt |
按页提取文字和表格 |
🔧 识别方式说明
| 方式 |
适用场景 |
处理流程 |
| 🚀 MarkItDown |
Office 文档(推荐) |
微软开源工具,转换为 Markdown 格式,保留结构 |
| 📖 直接读取 |
文字型 PDF/Office |
直接提取嵌入的文字,速度最快 |
| 🔤 Tesseract |
图片/扫描件 |
开源 OCR,CPU 友好,多语言支持 |
| 🇨🇳 PaddleOCR |
中文文档 |
百度开源,中文识别效果优秀 |
| 🤖 DeepSeek |
复杂版面 |
大模型 OCR,复杂表格/手写体效果好 |
⚙️ 不同文件的处理流程
| 文件类型 |
MarkItDown |
直接读取 |
OCR 识别 |
| 图片 |
❌ 不支持 |
❌ 不支持 |
✅ 直接识别 |
| 文字型 PDF |
✅ 转 Markdown |
✅ 提取文字 |
✅ 转图片后识别 |
| 扫描版 PDF |
❌ 无法提取 |
❌ 无法提取 |
✅ 转图片后识别 |
| Word 文档 |
✅ 转 Markdown |
✅ 提取文字+表格 |
✅ 转 PDF→图片→识别* |
| Excel 表格 |
✅ 转 Markdown |
✅ 按 Sheet 提取 |
✅ 转 PDF→图片→识别* |
| PPT 演示 |
✅ 转 Markdown |
✅ 按页提取 |
✅ 转 PDF→图片→识别* |
💡 提示:
- 默认使用 MarkItDown,失败后自动尝试直接读取
- * Office 文档 OCR 需要服务器安装 LibreOffice
- DeepSeek OCR 需要配置 API Key
- 使用「全部对比」可同时测试所有识别方式