试用的五个 AI 深度研究工具
- 秘塔 AI ,研究模式 + DeepSeek-R1 + 先想后搜 + 学术库;
- Grok,DeeperSearch;
- Gemini,DeepResearch;
- 智谱清言,AutoGLM 沉思 + Chrome + AutoGLM 扩展;
- 智谱清言,ChatGLM,沉思模式;
- Perplexity,深度研究。(20250408 测试)
测试提示词
秘塔 AI、Grok、Gemini、ChatGLM 自身具备搜索功能,提示词如下:
| |
AutoGLM 采用操作浏览器进行网页搜索、阅读的办法,所以提示词添加了目标信源,如下。
| |
各家 AI 深度研究报告对比
智谱的 AutoGLM 沉思运行不太稳定,试了两次都是未完成就结束运行了,所以没有结果。
其他四个都出了完整研究报告。
测试日期为 20250401。
| 项目 | 秘塔 AI | Grok | Gemini | ChatGLM | Perplexity |
|---|---|---|---|---|---|
| 总字数 | 1297 | 2212 | 7074 | 4904 | 3184 |
| 知识点广度 | 还行,相关知识点都有 | 还行,少了电石灰渣组分,多了技术对比 | 较丰富,相关知识点都有,且划分更细 | 丰富,比其他还多了社会经济影响 | 较丰富,相关知识点都有 |
| 知识点深度 | 一般,论述简洁 | 一般,论述较简洁 | 深入,论述较详细 | 一般,非技术部分套话较多 | 一般,论述较简洁 |
| 结构合理度 | 合理 | 合理 | 合理 | 合理 | 合理 |
| 知识准确度 | 一般,有明显偏离主题的内容 | 较好,大致一看无明显错误 | 较好,大致一看无明显错误 | 较好,大致一看无明显错误 | 较好,大致一看无明显错误 |
| 参考文献量 | 127 | 搜索了 31 个,但只引用了 3 个 | 搜索到 156 个,引用 96 个 | 搜索到至少 45个,引用 11 个 | 引用 35 个 |
| 排版美观度 | 好,图文并茂 | 好,有表格 | 好,纯文字 | 好,纯文字 | 好,纯文字 |
| 导出格式 | 复制 Markdown,导出Docx、PDF,作为网页分享 | 复制 Markdown | 复制 Markdown,导出至 Google 文档中可进一步导出其他格式 | 复制 Markdown | 复制 Markdown,导出 Markdown、PDF、Docx,作为网页分享 |
各家 AI 深度研究功能使用体验
| AI 深度研究 | 是否可在浏览器运行 | 是否需要特殊网络条件 | 是否免费 | 特点 | 不足 |
|---|---|---|---|---|---|
| 秘塔 AI | 是 | 否 | 是,限量 100次/天 | 可指定搜索文献库而不是互联网,保证参考资料的质量。 先想后搜模式会先规划好报告大纲,然后搜索资料,再写报告。 | 幻觉稍微有点多,即使用 DS-R1。 |
| Grok | 是 | 是 | 是,限量 5 次/天 | 模型本身中文能力很强,且自我审查少。 思考与搜资料交替进行,互相影响,逐步完善内容。 | 测试中可能提示词主题与某一篇资料强相关,大部分内容引用该资料,导致找到了很多资料但引用的只有几个。 思考过程有点信马由缰,容易被某一个信息点带偏。 |
| Gemini | 是 | 是 | 是,限量 5 次/月 | Google 本行干搜索,在获取资料方面非常强。 思考与搜资料交替进行,互相影响,逐步完善内容。 | 免费次数少。 最终生成的报告是英文的,但思考过程是中文。 |
| AutoGLM 沉思 | 否,需要桌面应用+Chrome 扩展 | 否,但访问某些网站需要 | 是,目前不限量 | 可以操作浏览器,能干的事就不只搜资料写报告了。 思考与搜资料交替进行,互相影响,逐步完善内容。 | 运行不稳定,试用了两次都没最终生成报告。 目前只能用 Chrome 浏览器。 底层推理模型弱于其他。 |
| ChatGLM | 是 | 否 | 是,目前不限量 | 思考与搜资料交替进行,互相影响,逐步完善内容。 | 搜索及获取资料能力较弱。 底层推理模型弱于其他。 |
| Perplexity | 是 | 是 | 是,限量 3 次/天 | 本身做 AI 搜索业务,服务在国外,获取资料能力较强。 思考与搜资料交替进行,互相影响,逐步完善内容。 | 免费版底层模型感觉能力差点,思考过程中生成的搜索关键词都比较片面,可能导致无法找到更专业详细的资料。 类似 Grok,测试中可能提示词主题与某一篇资料强相关,大部分内容引用该资料。 |
总结
针对测试案例,Gemini 生成的深度研究报告各方面总体最好,其次 ChatGLM 和 Grok 稍差,秘塔 AI 采用学术库生成的基本算大纲简介,还不到一份报告的程度。
获取高质量资料的能力对 AI 深度研究十分重要。 打个比方,智力差不多的研究生写综述论文,参考中英文 SCI 文献的,肯定比参考中文核心的,写出来的质量高。
资料检索获取方面,Google 有先天优势。因此,有条件优先推荐 Gemini 做深度研究。
智谱的 AutoGLM 沉思需要配合使用桌面端应用和 Chrome 扩展,软件安装对于大部分玩惯手机的用户可能门槛有点高。并且测试中运行不稳定,未生成报告。但运行过程挺惊艳的,看着浏览器自动打开网页搜索,感觉真得有个 AI 帮你干活。AutoGLM 应该是朝着通用 AI Agent 发展,所以功能不只写报告。
智谱的 ChatGLM 『沉思』功能就是深度研究,底层推理模型应该是 GLM-Zero,随比不上 DeepSeek-R1,效果比智谱之前好得多。DeepSeek-R1 出世之前,最常用智谱。智谱被老美制裁,希望不要影响以后的模型发展。
以上测试结果,仅针对单一案例的个人体验,不一定全面准确。 实际选择工具,推荐先根据自我需求测试下。或者每个都用,选生成结果最好的。
据说 ChatGPT 的深度研究也很厉害。我是免费用户,目前用不了,以后有机会测。