跳至正文

HiOCR批量文字识别工具免费下载与说明

一、软件简介


HiOCR 是一款面向新手的傻瓜式批量 OCR(文字识别)工具,专为零基础用户处理大量 PDF 文档和图片设计:Windows系统下,双击exe文件打开界面,拖入文件/文件夹即可自动排队,一键开始后全程可视化进度,识别完成自动导出 Markdown文件,无需学习复杂参数与命令。

本软件完全免费!!!API Key等费用,由各公司收取,和本软件没任何利益关联。

[核心亮点]

  • 开箱即用:适用于Windows 10/11系统,直接双击exe即可运行。
  • 批量处理:支持拖拽文件夹或多个文件,自动队列处理。
  • 多模型支持:集成MinerU(免费)、硅基流动(DeepSeek-OCR、GLM-4.1V-9B-Thinking,二者均免费)、阿里通义千问、字节豆包、Google Gemini等。支持自定义模型ID。
  • 智能识别:利用大模型能力,识别文字、保留表格结构,尤其是部分模型擅长处理中文古籍。
  • 结果导出:自动保存为 Markdown (.md) 格式,方便编辑和阅读。.md文件可以右键使用“记事本”打开,也可以下载安装Typora、MarkText、VS Code等打开。

二、功能详解


  • API 配置
    在配置面板提供多个AI 模型服务商选项。支持“自定义模型”功能:选择下拉列表末尾的“自定义模型”,可输入任意兼容的模型 ID。
  • 参数调整
    支持调整并发线程数(提高速度)、PDF 渲染 DPI(提高清晰度)。
  • 任务管理
    • 添加文件:点击按钮或拖拽文件/文件夹到待识别区域。
    • 进度监控:实时显示总进度、当前文件进度、页数进度。
    • 自动清理:识别成功的文件自动移出列表,失败的文件保留以便重试。
  • 结果查看
    输出到用户自定义目录(默认输出到“D:\OCR输出”)。

三、模型选择指南


不同模型各有千秋,建议根据文档类型选择:

1. MinerU (官方 API),免费

  • [参考地址]: https://mineru.net/apiManage/docs
  • [推荐场景]: 学术图书论文 / 复杂 PDF 布局 / 导出 Markdown。
  • [ 优 点 ]: 免费,每天至少2000页额度;由 OpenDataLab 开发,专为 PDF 版面分析优化,公式与表格提取能力强。
  • [ 缺 点 ]: 中文古籍识别效果较差;单个文件有大小和页码限制:≤200M,≤600页。

2. 硅基流动 (DeepSeek-OCR、GLM-4.1V-9B-Thinking),免费

  • [参考地址]: https://cloud.siliconflow.cn/
  • [推荐场景]: 通用文档 / 代码识别 / 高性价比方案。
  • [ 优 点 ]: 免费额度高,推理速度快。
  • [ 缺 点 ]: 复杂版面还原度稍逊,精确度不高,中文古籍识别效果较差。

3. 字节豆包 (Doubao)

  • [参考地址]: https://www.volcengine.com/docs/82379/1541594?lang=zh
  • [推荐场景]: 中文古籍 / 普通文档和图片 / 快速识别。
  • [ 优 点 ]: 中文语义理解能力强,响应速度快,对常规古籍识别效果良好。
  • [ 缺 点 ]: 有敏感词监测。

4. 阿里通义千问 (Qwen)

  • [参考地址]: https://help.aliyun.com/zh/model-studio/get-api-key?spm=0.0.0.i1
  • [推荐场景]: 综合首选 / 中文古籍 / 复杂排版还原。
  • [ 优 点 ]: 识别率顶尖,对古籍、手写体和竖排文字支持极好,版面还原度最高。
  • [ 缺 点 ]: 监测较严,会拒绝识别带有敏感词的整页内容。

5. 智谱 GLM (ZhipuAI)

  • [参考地址]: https://docs.bigmodel.cn/cn/api/introduction
  • [推荐场景]: 中文古籍 / 普通文档和图片 / 中文长文档处理。
  • [ 优 点 ]: 商用性价比高。
  • [ 缺 点 ]: 在极高分辨率图片的精细识别上,相较于 Qwen3-Max 略有差距。

6. Google Gemini

  • [参考地址]: https://aistudio.google.com/app/api-keys?hl=zh-cn
  • [推荐场景]: 外文文档 / 多语言混合 / 极长文本。
  • [ 优 点 ]: 全球领先多模态能力,多语言支持极佳,支持超长上下文。
  • [ 缺 点 ]: 在国内使用需要特殊的网络环境 (VPN)。

[推荐配置]
* 识别中文古籍:强烈推荐通义千问、豆包。
* 识别普通文档:可以使用MinerU、 DeepSeek-OCR、智谱 GLM。

四、API 申请与配置教程


本软件基于大模型 API,需要您自行申请并填入 API Key。

1. MinerU(官方 API)

  • 1)访问:https://mineru.net/ ,注册并登录。
  • 2)在官网申请 Token(API Token)。
  • 3)将 Token 填入软件的 API Key(或 Token)字段。
  • 4)如软件需要填写鉴权方式,请使用:Authorization: Bearer <Token>
  • 5)注意:如遇失败,请检查文件大小与页数是否超限(例如:200MB、600页等限制)。

2. 硅基流动 (DeepSeek/VLM)

3. 字节豆包

4. 阿里云通义千问 (Qwen)

  • 1)访问:https://bailian.console.aliyun.com/
  • 2)登录并开通“模型服务”。
  • 3)在“API-KEY 管理”中创建新的 API Key。
  • 4)复制 Key 填入软件,Base URL 默认即可。
    默认地址:https://dashscope.aliyuncs.com/compatible-mode/v1

5. 智谱 GLM(ZhipuAI / GLM)

  • 1)访问:https://open.bigmodel.cn/ ,注册并获取 API Key。
  • 2)将 API Key 填入软件。
  • 3)Base URL(OpenAI 兼容方式)填写:https://open.bigmodel.cn/api/paas/v4/

6. Google Gemini

  • 1)访问 Google AI Studio: https://aistudio.google.com/,在“API Keys”页面创建并管理 Gemini API Key。
  • 2)将 Key 填入软件。

五、常见问题 (FAQ)


Q: 如何打开md文档?
右键 ->使用windows系统自带的记事本打开。
或下载 Typora、MarkText、VS Code等打开。

Q: 点击”开始处理”没有反应?
A: 请检查是否添加了文件,且 API Key 是否已正确设置并通过测试。
文件上传和PDF拆分预处理,都需要一定的时间,所以大的PDF文档加载也需要一定的时间,请耐心等待。

Q: 识别结果乱码或为空?
A: 可能是 PDF 每页图片过大导致模型拒识,尝试调低 DPI (如 150)。
此外,有些模型,比如Qwen内嵌有敏感词检测,触发时,也会无法识别,这个和大语言模型有关,无法避免。

Q: 文件名乱码?
A: 本软件全程支持 UTF-8,确保您的系统路径没有特殊偏僻字符。

六、HiOCR v2.3 更新说明

本次更新主要增强了软件的模型扩展能力与视觉识别度,并引入了更多的高性能免费模型。同时,我们重构了多线程逻辑以提升批量处理效率。

✨ 新增功能与外观

  • 自定义 AI 模型支持:不再局限于预设列表,现在您可以手动填入任何兼容的 AI 模型名称。这为您尝试最新的推理模型或自建服务提供了极大的灵活性。
  • 新增软件 Logo:正式上线了应用程序图标(Logo),修复了此前图标缺失的问题,提升了软件在任务栏与桌面的辨识度及整体美观性。

🚀 性能与稳定性

  • 多线程性能优化:对底层的多线程处理机制进行了重构与优化,在处理大量文件时资源调度更合理,显著提升了并发识别的速度与运行稳定性。

🤖 模型生态更新

  • 接入硅基流动(SiliconFlow)新模型
    • 新增免费模型:THUDM/GLM-4.1V-9B-Thinking,不仅免费且具备强大的思维链能力。
    • 新增高阶模型:Qwen/Qwen3-VL-235B-A22B-ThinkingQwen/Qwen3-VL-8B-Instruct,满足不同精度的识别需求。
  • 优化通义千问模型列表:重新梳理了阿里云通义千问的模型选项,移除了过时条目,确保列表整洁且易于选择。

💡 体验改进

  • 文案表达优化:全面校对并优化了界面上的提示文字与功能说明,修正了歧义表述,让操作指引更加清晰易懂。

七、LICENSE 声明(非商业使用许可)


HiOCR 为免费公开软件,但默认不授予商业用途的使用许可。

本项目代码采用 PolyForm Noncommercial License 1.0.0(SPDX: PolyForm-Noncommercial-1.0.0)授权:

1)允许个人/学校/科研/公益等非商业目的:使用、修改与分发。

2)禁止任何商业目的使用(包括但不限于:将本软件/源码集成到收费产品、以本软件提供收费服务、为商业项目交付/代跑/代处理等)。

3)如需商业授权(个人免费 + 企业付费):请联系作者取得书面商业许可。


Copyright © 2025. All Rights Reserved.

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注