以 ChatGPT 和 Claude 为代表的面向普通用户的生成式 AI 都面临一个类似的问题:它足够智能,但仍然不好用。
(资料图片)
这个问题直白,却是一个相当终极的问题。大模型在一次次整体性的预训练中瞬间被灌入新的知识,但每两次预训练之间,限于训练成本等因素,总有一段不短的时间间隔。在这段时间里,新知识就变旧了。
于是虽然这些出色的大语言模型有极强的知识结构化能力,但对于更即时性的问题,以及大量的长尾知识,它们仍然一筹莫展。
持续进行预训练是大模型未来的一个进化方向,一个更大参数量级的模型在想象中可以更有效率的触及到长尾知识。但这两者似乎天然存在着成本与规模之间的矛盾。
不考虑成本,硅谷的工程师们已经在讨论怎么把 1000 万颗 GPU 联在一块做模型架构了。但这在目前仍然不是一条现实道路。
当下 GPT-4 的训练规模是 2 万颗,而要凑足 1000 万颗 GPU,英伟达需要心无旁骛的苦干 10 年。
王小川在 6 月中旬 Baichuan-7B 发布的隔日去了美国,得知了 "1000 万颗 GPU 相连 " 的畅想,可能也更明确了百川智能在国内的前景。
大模型中的长尾知识与即时性,现阶段反而是看起来已经陈旧的传统搜索的机会。
重新出山的王小川一直在努力定义自己做大模型的正当性。他频繁强调自己和百川的搜索基因,并且在不同场合多次提到同一个故事:
" 很多人说我特别适合做大模型,(但)我做了 20 年搜索,从来没一个人说过我特别适合做搜索。"
在王小川看来,搜索裹挟在移动互联网的大背景下,一刻慢处处慢,何况是和百度之间 4 年的差距。但来到大模型的战场,突然间过往皆为序章。搜索与大语言模型在技术有不少重叠处,但相比搜索,大模型更吸引人,也处处是新的。
从 7 月发布 Baichuan-13B-Chat,短短一个月时间 Baichuan-13B-Chat 在 Hugging Face 上已经有了超过百万的下载量。而从 4 月公司名字官宣,到两款开源大模型的发布,四个月内百川智能已经在一些场合与智谱 AI、MiniMax 这些在大模型领域积累了超过两年的公司同样受人瞩目。
" 现在 103 人了 ",王小川透露," 差不多一天招一个人的速度。"
这是百川智能现在的规模。
在百川智能目前超过百人的团队里,有超过 30% 的人来自搜狗,这个王小川的旧事业。这个团队中最新加入的是洪涛,这位原来搜狗的首席营销官在未来将会负责百川智能的商业化业务。他在自己的朋友圈公布了这个消息,也预示百川智能的商业化即将开始。
百川智能在 8 月 8 日发布的第三个大模型似乎也在印证这一点。在 7B 和 13B 两个开源大模型后,百川智能发布 Baichuan-53B,后者在参数量上相比之前大了数倍,并且这次的 Baichuan-53B 是一个闭源大模型。
在技术迭代上,Baichuan-53B 开始 " 回归 " 搜索。
这里的 " 搜索 " 或许用 " 检索增强 " 来定义更加准确,简单来说就是给大模型外接一个通往互联网世界的路径,在接收到超出预训练范围内的提问时,模型会接入搜索引擎或知识库来进行具体的搜索,寻找答案。
2023 年年初 Google 在 AI 顶级会议 ICML2023 发表的论文《Large Language Models Struggle to Learn Long-Tail Knowledge》曾对检索增强大语言模型有过系统的论述。
研究证明了大语言模型回答问题的能力与预训练期间看到的与该问题相关的文档数量之间有很强的依赖性。当模型变大或者见到相关问题越多的情况下,模型回答问题的能力越强。但当一个问题如果只在预训练阶段出现过 10 次以内,大语言模型回答正确的概率趋近于零——这点无论在 Bloom 或者 GPT-3 身上表现都相似。
但改进方法中,增加收集数据的规模或丰富程度对结果的影响微弱,而如果要扩大模型参数,Google 团队的预测是一个千万亿参数级别的 Bloom 模型才能达到人类大脑对于长尾问题的准确率。相对来说,增加一个辅助检索模块是更有前景的方式。
最新鲜的例子就是 ChatGPT Plugins。但由于 OpenAI 本身跟微软是两个独立的实体,搜索对于 OpenAI 来说 " 相当于一个黑盒 "。
王小川表示相比其他大模型的检索增强,"(Baichuan-53B 中)搜索跟模型的结合从非常底层的地方就开始去融合了 "。他给百川智能的检索增强下了一个 " 搜索增强 " 的定义。
图源:百川智能
Baichuan-53B 中的搜索增强系统融合了包括指令意图理解、智能搜索和结果增强等关键组件的多个模块。
在指令意图理解阶段, 首先指令任务被细化为 16 个独立类别,分别以 Prompt 增强技术——即通过构造特定的输入提示来引导模型生成期望的输出——进行了个性化的设计和优化;而对于超参数的设定对模型在训练和生成过程中的性能影响,动态超参数调整技术,baichuan-53B 采用了动态超参数调整技术来根据任务类型的特性自动调整和优化超参数。
在搜索结果环节,Baichuan-53B 中包含一个搜索结果相关性模型,该模型会对从搜索内容和知识库中获取的信息进行相关性评分。 该相关性模型也可以作为奖励模型,用于在强化学习训练阶段进一步优化意图理解模型,提高其对人类指令的对齐度,并更高效地调用搜索引擎;RLHF 技术也将用于搜索结果的训练和优化,使得回答结果更准确并且人性化。
但在核心的 " 如何辨别这个问题是否需要调用搜索引擎或知识库 " 的决策上,百川智能称其 " 采用了一种灵活的策略 " 来生成精确响应,并未透露太多技术细节。对于接入的是哪一家搜索引擎,王小川表示目前还不便公开。
王小川表示,模型尺寸变大导致部署成本增加,是 Baichuan-53B 决定转向闭源的原因。但这个闭源的时间点仍然显得敏感。
此前 Baichuan-7B 以及 Baichuan-13B 曾经被质疑有 C-eval 测试集泄漏的问题,而有开发者表示 Baichuan 系列大模型的架构与 Llama 极度相似。等到开源的 Llama 2 在 7 月下旬推出,时间点在 Baichuan-13B 之后。相比 LLaMA,花了四个月迭代出的 LLaMA 2 在预训练模型架构上几乎没有变化。
LLaMA 在模型架构本身的优化上看起来开始停滞,这是否是形态可能也十分接近 LLaMA 的 Baichuan-53B 不再需要开源的原因?
对于这个问题,王小川表示 LLaMA2 比 LLaMA1 所新增的 9 个技术创新点基本都在 Transformer 框架层面,其中有 6 个在在百川自己研发的模型里已经做到了。" 剩下两个没想到,有一个试完觉得不太行 "。
而对于模型架构靠近 LLaMA,王小川表示是出于生态兼容的考虑。
" 开源之后,生态会围绕 LLaMA 去构建,在国外有很多开源项目是跟着 LLaMA 去推动的,(这也是)我们的结构为什么跟 LLaMA 更加接近。"
对于王小川和百川智能来说,搜索与大模型的融合将成为未来百川系列大模型稳定的亮点,Baichuan-53B 的 API 也会在下个月开放。而按照设想,在这个 50B 的大模型发布后,百川智能将在 Q4 发布一个 175B 的的千亿大模型。除此之外,王小川透露,百川智能面向 C 端的 " 超级应用 " 也已经开始部署,并且不只一款。
一切都在紧凑的推进。而首先," 年底做出中国最好的大模型 " 这句话的兑现时刻已在眼前。
关键词: