利用DeepSeek大模型在个人电脑上搭建个人知识库
今天这篇教程关于:在自己电脑如何使用大模型,搭建“轻量飞速”个人知识库。
1 功能演示
之前文章已有介绍为什么要在本地搭建个人知识库,在此不再展开,简单来说,本地搭建知识库能做到更加安全地管理个人文档、或企业不方便外传的文档等。
这周末开发的桌面软件,咱们先看看界面功能:包括文件上传,知识库管理,关键词查询及结果显示,然后大模型深度思考分析(部分截图):

2 轻量极速免费
以上个人知识库软件,满足以下要求:
1) 轻量。无需向量数据库,对电脑性能要求降到最低;
2) 极速。在保证查询性能、AI回答效果前提下,做到尽可能的快。
3) 免费。方案包括的所有工具全部开源,不用花一分钱。
3 设计方案和效果展示
基于以上三个要求,设计方案如下:
- 查询选型whoosh。之前文章也有介绍,最大特点轻量、开源、性能够好。
- 大模型配置灵活,选择DeepSeek-r1:1.5b,最新发布的推理模型,选择1.5b尺寸,回复极速,回答效果够好。效果下面会有证明。
总结来说:whoosh(本地查询快) + DeepSeek-r1:1.5b(回答极速、效果还有保证)
whoosh(本地查询快) ,快到什么程度,20页的PDF,按关键词查询能在ms级;
DeepSeek-r1:1.5b(回答极速、效果还有保证),极速到什么程度,我的电脑是m1,会话第一次拿到回复秒(s)级。
下面是GIF动画,受限公众号GIF帧数限制,只能录制有限帧,整个动画无任何加速,全部原始速度,大家重点看下回复延时,是否在秒级以内:

当输入关键词,并点击搜索后,会先从自己的知识库中搜索匹配文件,然后打包命中处的上下文,自动发送到Deepseek-r1:1.5b.
下图是回复完成后的部分截图,deepseek-r1:1.5b的回复效果很不错,回复包括两部分:思考过程+正式回答,如下两个红色文本框所示:

这两天我主要对之前已实现代码,做了如下改进:
1)whoosh查询逻辑优化升级,对中文查询输入更加友好;
2) 调整为DeepSeek-r1:1.5b模型及实现逻辑;
3)调整PDF读取方案及对应逻辑;
4) 调整为纯本地执行的桌面软件
下一步软件开发功能包括:
1) 支持任意网页抓取到本地+自动大模型分析
2)whoosh查询逻辑之分词组合配置查询
目前此软件全部开源,在下面公众号回复:知识库,获取软件代码:
再介绍下最近DeepSeek-r1模型,得分上看300多b的r1模型推理已超越o1,推理代表大模型的聪明程度,所以在社区内引起广泛关注:

它是怎么做到的?有哪些创新?主要三点:
1)冷启动数据与多阶段训练。使用冷启动数据(设计良好的长链式思维数据)对基础模型进行初步微调,为后续的强化学习(RL)奠定更稳定的基础。
2)强化学习驱动的推理优化。应用以目标为导向的 RL(如语言一致性奖励)增强推理能力,通过规则化奖励机制避免奖励黑箱问题,提升任务准确率和用户体验 。
3)蒸馏技术扩展能力。将大型模型的推理能力高效蒸馏到小型稠密模型上,实现高性能与计算效率的平衡。
最后总结
本地搭建个人知识库方案基于 Whoosh(本地查询极速)和 DeepSeek-r1:1.5b(回答迅速效果好),实现轻量、极速、免费。具体以下三点:
1)轻量高效:基于 Whoosh 实现毫秒级关键词查询,无需向量数据库,适合本地运行。
2)极速响应:结合 DeepSeek-r1:1.5b 大模型,实现秒级 AI 回复,兼顾速度与效果。
3)免费开源:所有工具均为开源软件,无需额外费用,适合个人和企业本地知识管理。
热门API
- 1. AI文本生成
- 2. AI图片生成_文生图
- 3. AI图片生成_图生图
- 4. AI图像编辑
- 5. AI视频生成_文生视频
- 6. AI视频生成_图生视频
- 7. AI语音合成_文生语音
- 8. AI文本生成(中国)
最新文章
- 解析2024年Gartner® API保护市场指南
- Cursor 2025指南:自定义API密钥配置与最佳实践
- 如何在Java、Python、PHP中使用会员短信API?
- Python调用IP地址API查询国家信息
- 如何利用搜索分析API提高用户参与度和投资回报率
- 解决REST API常见问题:问题清单及解答一览
- OpenAI的API有哪些功能?
- SpringBoot中REST API的错误异常处理设计
- 利用 Instagram API 开展业务的 11 种方法
- 使用Python进行API调用:面向开发人员的分步指南
- Go工程化(五) API 设计下: 基于 protobuf 自动生成 gin 代码
- Python调用股票API获取实时数据