【观点】建议个人和小团队不要碰大模型训练

ailabx

哪些人是例外？
如果你还没有毕业，为了发论文尽快毕业，那该练还是得练，还要变着花样练。
如果你是全栈的超级个体，能解决数据、模型、推理和资金等全链路，那么请勇敢冲浪。 AI时代缺你真的不行，因为这样的团队我周围也见过好几个，比如Doc2x和Simpletex。

除此之外，我想象不到个人和小团队还有什么理由去训练大模型。

2. 不训练大模型怎么办？
这里有以下几个常见问题：

2.1 企业的一些私有数据，不能调用外部的API，不训练怎么办？

答：做好开源LLM+RAG的部署。

在没有触及RAG的性能边界之前，不要微调模型（这个观点有争议，先抛出来供批判）。

现在的开源LLM只有权重，没有数据。你做领域微调的时候，由于没有配比原始数据，微调之后的结果，极有可能比原本的更差。

但稍微良心一点的开源LLM，对RAG的支持都还是可以的，你只需要把RAG的信息提前找好就可以了。

常见的一个方案就是，对一些图片or PDF文件做好OCR，转为Markdown，不管是graphRAG也好，还是传统的ES搜索，在每次问答前，将需要的上下文，塞给LLM，拿到的结果就不会太有问题。

再次重申一个冷知识：如何让LLM输出正确答案？在输入的时候告诉它。

此外，RAG自带在线持续学习的特性，非常适合业务场景。目前很难让LLM的权重随着业务场景的变化而实时更新，但知识库可以实现这一点。

2.2 开源LLM对一些特定领域的效果非常差，怎么办？

这个问题其实我没有接触过，但上次和群友讨论的时候，有朋友提到了这个质疑，也许真的存在。这种情况下，我感觉还是得先试试RAG，不行就试试In-context Learning，在上下文中，教LLM一些领域知识。

而我自己的体会是，我自认为的一些特殊的场景，LLM仍然是可以理解的，真的不能小瞧它们的通用知识。

这里还分享一个我个人的体会：128K的上下文长度非常关键！这个可以降低你RAG的门槛，以及提高LLM对领域知识的掌握。

我真的很难想象，现在还有什么特殊的领域，LLM一点办法都没有，欢迎大家在评论区补充。

2.3 有推荐的方案么？

根据上面的描述，如果你能调用外部的API，那么就根据你的业务要求，选择性价比最高的一款API。

能不自己部署模型，就不自己部署。自己部署的硬件成本和维护成本，对于小团队来说，很可能是压垮骆驼的一座大山。

而你选择调用API的时候，你就会发现，全世界最聪明的人和最听话的AI，都在抢着为你服务。你完全可以不用管有几台服务器，你可以在任意时间，随便拉高并发量。可以随心随意切换更强的模型，或者更便宜的模型。

具体来说：

将最需要脑子的任务交给o1系列模型，它唯一的缺点就是非常贵。我只说一个概念，它的输入是128K，有效输出长度可以高达2K行，这个可以用来干什么大家自行探索，有些经验我实在不舍得分享出去，哈哈。
比较需要脑子的任务，交给4o，sonnet3.5这一梯队的模型，价格也比较贵，但基本上比多数人的脑子都好。
一些通用任务，可以交给4o-mini和gemini-flash这样的模型，尤其是gemini-1.5-flash-002，性价比高到爆。
这里对任务的划分，就需要一个agent自动编排框架。但是，我目前还没有找到合适的方案，仍然靠着最基础的if-else逻辑，还没能实现全自动化，欢迎大家推荐相关的方案！

如果你的业务在上面的方案中都跑不通，那么自己训练模型大概率也是白瞎。

结语：
看过我之前关于如何吃到行业的低垂果子？帖子的朋友应该知道，我最近一直思考目标选择的问题。

我认为关键因素的突然出现，会给版本带来一些不一样的变化。大家的认知如果能够预知一些变化的下一步影响，那么就可以提前一步，拿到低垂果实。

而大模型时代，基础模型能力的每一次提升，都算是一次版本更新。

距离大厂基座模型团队之外的AI人，需要先了解现有LLM的性能边界，敏锐的分辨出现有模型能力和过去方案的差异，能否给当前的业务带来新的变化，然后快速解决现有业务的难题。

不要在低收益的赛道上无意义的投入，错位竞争，降维打击，也许更有效。

AI量化投资实验室-社区&知识库

【观点】建议个人和小团队不要碰大模型训练