什么是 Umi-OCR?
Umi-OCR 是一款免费、开源、完全离线运行的光学字符识别(OCR)工具,专为从图像中高效提取文字而设计。它无需联网、不上传数据,所有识别过程均在本地完成,充分保障用户隐私。

项目基于 PaddleOCR 和 RapidOCR 引擎开发,支持简体中文、繁体中文、英文、日文等多种语言,适用于 Windows 7 x64 及 Linux x64 系统,解压即用,绿色便携。

Umi-OCR 主界面:多标签页设计,功能一目了然
核心功能一览
截图 OCR:一键识别屏幕文字
只需打开“截图 OCR”标签页,按下快捷键即可截取任意区域,自动识别文字。支持:
- 从截图中直接复制识别结果
- 粘贴外部图片进行识别
- 重复上一次截图操作(方便对比)

截图后自动识别,左侧预览,右侧可编辑文本
文本后处理:智能还原排版
OCR 不只是识别文字,更要“读得懂”排版。Umi-OCR 提供多种排版解析方案,自动处理:
- 多栏布局(如报纸、论文)
- 代码缩进(保留空格与格式)
- 横排/竖排混合文本
- 自然段落换行逻辑
预设方案包括:“多栏-按自然段换行”、“单栏-保留缩进”、“不做处理”等,满足不同场景需求。

多种排版方案可选,适配不同文档类型
批量 OCR:高效处理数百张图片
支持一次性导入 JPG、PNG、WebP、BMP、TIFF 等格式图片,无数量限制。
- 可导出为 TXT、Markdown、JSONL 或 CSV(Excel 兼容)
- 支持任务完成后自动关机或休眠
- 可设置忽略区域,自动排除水印、页眉页脚等干扰内容

批量导入图片,统一设置识别参数
忽略区域:精准排除干扰文字
在批量识别或文档识别中,可手动绘制矩形区域,自动忽略水印、页码、LOGO 等位置的文字。
⚠️ 注意:忽略区域针对的是“完整文本块”,而非单个字符。建议将框画得稍大,确保覆盖所有干扰内容。

黄色矩形为忽略区域,仅内部完整文本块被过滤
文档识别:PDF 扫描件变可搜索文档
支持 PDF、XPS、EPUB、MOBI、CBZ 等电子书/文档格式:
- 对扫描版 PDF 进行 OCR,提取文字
- 生成“双层可搜索 PDF”——既保留原图,又可全文检索
- 同样支持忽略区域,排除页眉页脚干扰

从扫描 PDF 中提取文字,并生成可搜索版本
二维码:扫码 + 生成,一应俱全
- 扫码:支持一图多码,兼容 19 种码制(包括 QRCode、DataMatrix、PDF417、EAN13 等)
- 生成:输入文本即可生成二维码图片,可自定义纠错等级与码制

识别多种条码与二维码

自定义生成二维码,支持多种参数
如何下载与安装?
Umi-OCR 无需安装,解压即用。推荐以下方式获取:
- 国内用户:蓝奏云下载 (免注册、高速)
- 国际用户:GitHub Releases
- Windows 用户(推荐):通过 Scoop 安装
scoop bucket add extrasscoop install extras/umi-ocr # 使用 RapidOCR 引擎
# 或
scoop install extras/umi-ocr-paddle # 使用 PaddleOCR 引擎
首次启动时会自动下载 OCR 模型(约 100MB),之后即可完全离线使用。
全局设置与个性化
在“全局设置”中,你可以:
- 切换界面语言(支持中文、英文、日文等)
- 更换亮色/暗色主题
- 调整字体大小与类型
- 切换 OCR 引擎插件
- 调整渲染器(解决 UI 闪烁或错位问题)

丰富的个性化选项,适配不同使用习惯
适用人群与典型场景
- 学生:快速提取教材、PPT、试卷中的文字,整理笔记
- 办公族:将扫描合同、发票、报告转为可编辑文本
- 开发者:通过 CLI 或 HTTP 接口集成 OCR 能力到项目中
- 隐私敏感用户:避免使用需上传图片的在线 OCR 服务
- 科研人员:处理多栏论文、技术文档,保留原始排版逻辑
为什么选择 Umi-OCR?
- ✅ 完全离线:数据不出本地,安全可靠
- ✅ 功能全面:截图、批量、PDF、二维码、公式识别(实验性)全覆盖
- ✅ 开源免费:代码透明,社区活跃,持续更新
- ✅ 跨平台支持:Windows 与 Linux 均可使用
- ✅ 高度可定制:插件系统、排版方案、忽略区域等灵活配置
资源与支持
- 📦 项目主页:https://github.com/hiroi-sora/Umi-OCR
- 📖 命令行文档:CLI 使用手册
- 🌐 HTTP 接口文档:HTTP API 说明
- 🌍 参与翻译:Weblate 翻译平台
- ❤️ 赞助作者:爱发电
遇到问题?欢迎在 GitHub Issues 提交反馈!
Umi-OCR 正在成为国产离线 OCR 工具的标杆。如果你厌倦了依赖网络、收费或隐私风险高的 OCR 服务,不妨试试这款强大而贴心的开源利器——让文字识别,回归简单与安全。
PaddleOCR 与 RapidOCR 版本有何区别?
Umi-OCR 提供两个主要发行版本:基于 PaddleOCR 引擎的版本(umi-ocr-paddle)和 基于 RapidOCR 引擎的版本(umi-ocr),它们的核心区别在于底层 OCR 引擎不同,从而在识别速度、准确率、兼容性、资源占用等方面有所差异。
以下是根据官方 README 和社区反馈整理的详细对比:
✅ 1. OCR 引擎来源
| 版本 | 引擎 | 项目地址 |
|---|---|---|
umi-ocr | RapidOCR | RapidOCR-json |
umi-ocr-paddle | PaddleOCR | PaddleOCR-json |
两者均由 Umi-OCR 作者封装为 JSON 接口,便于集成。
✅ 2. 识别速度 vs 准确率
| 角度 | PaddleOCR | RapidOCR 版本 |
|---|---|---|
| 识别速度 | ⚡更快(尤其在 CPU 上优化较好) | 稍慢,但差距不大 |
| 中文准确率 | 高,尤其对印刷体、清晰文本 | 略低,但在多数场景下足够用 |
| 模糊/低质量图 | 表现更稳健 | 可能漏识或错识 |
| 多语言支持 | 支持中、英、日、韩等(需加载对应模型) | 同样支持多语言,但模型较小 |
💡 建议:
- 追求速度与高精度 → 选 PaddleOCR 版本
- 追求兼容性与稳定性(如老旧电脑)→ 选 RapidOCR 版本
✅ 3. 兼容性与系统要求
| 项目 | PaddleOCR 版本 | RapidOCR 版本 |
|---|---|---|
| Windows 7 支持 | ✅ 官方测试通过 | ✅ 官方测试通过 |
| 依赖库体积 | 稍大(模型约 100MB+) | 较小(轻量级模型) |
| 内存占用 | 略高 | 略低 |
| 首次启动加载 | 需下载 Paddle 模型 | 需下载 Rapid 模型 |
两者均无需联网运行,首次启动会自动下载对应 OCR 模型。
✅ 4. 功能一致性
⚠️ 重要提示:
两个版本的 Umi-OCR 主程序界面、功能模块(截图/批量/PDF/二维码等)完全一致!
差异仅在于文字识别的底层引擎。
你可以在任一版本中:
- 使用相同的排版解析方案
- 设置忽略区域
- 调用 HTTP/CLI 接口
- 切换主题、语言等
✅ 5. 如何切换引擎?
即使你安装的是 RapidOCR 版本,也可以手动添加 PaddleOCR 插件(反之亦然):
- 下载对应引擎插件包:Umi-OCR_plugins
- 放入
UmiOCR-data/plugins/目录 - 在 全局设置 → OCR 引擎 中切换
🔁 这意味着:你不需要安装两个版本,只需一个主程序 + 多个插件即可自由切换!
✅ 总结:如何选择?
| 使用场景 | 推荐版本 |
|---|---|
| 日常办公、学生笔记、清晰截图 | ✅PaddleOCR 版本(更快更准) |
| 老旧电脑、低配设备、追求轻量 | ✅RapidOCR 版本(更省资源) |
| 想灵活切换引擎 | 安装任意一个 + 手动添加插件 |
📌 Scoop 安装命令参考:
# 安装 RapidOCR 版本(默认)
scoop install extras/umi-ocr
# 安装 PaddleOCR 版本
scoop install extras/umi-ocr-paddle
