量化投资行业为什么普遍采用人工挖因子再组合因子...

ailabx · 发表于 2024-8-15 09:28:28

量化投资行业为什么普遍采用人工挖因子再组合因子这一特征工程方式，而不直接用端到端学习构建策略？
————这是一个非常关键的问题！

从传统机器学习到深度学习的同学都知道，尤其在图像识领域，最大的飞跃，就是终于不需要做特征工程了。
NLP现在也是一样，如何做特征工程，就相当于分词，词性标注，NER，三元组。。。等等。每一个环节损耗很大。
连起来就基本不可用了。

很自然地，在金融量化，为何不端到端直接输出股票权重？

1.信噪比这么低的数据如果没有特别的经验性的trick，直接end to end学出来都是噪音。绝大多数都在纯浪费算力拟合噪音。先别说end to end 了，很多公司/个人整天白盒调参跑回测的那也都是在学噪音，浪费能源。

2.e2e基本意味着底层风险暴露解释性差/出问题难以及时调整，这意味着你们家的风控基本算是完了。

3.懂行的金主问你投资方法/为什么回撤，你用e2e的黑盒来搪塞，人基本会立刻拒投/撤资。

真正懂行的是看你首先如何控风险，这基础上才有锦上添花的机会。

数据的信噪比较低，样本量又没那么充足，再加上特征本身还一直在演化。所以纯数据去学习太容易过拟合，没办法的办法，因子本身需要有逻辑来支撑，才能保证一定的泛化能力。

私募从业者 · 发表于 2024-8-15 09:32:42

两条路线都做过全流程的来答一下

1. 从收益端来说，以收益率为标签end2end学习出来的东西其实还是个生成式的因子，而且你深度学习的loss要可导，但是决定一个策略好不好的metric很多是不可导的，这导致模型很难全面地学到东西（不是不能学哦）。所以一个好的semi-end2end，其实也是在做因子，只是用了更fancy的方式罢了。

2. 从风险端来说，归因困难，如果你的主模型的input过于简单，做了很多模型端的工作，没有做因子的工作（手工也好机器也罢），只是一个大的end2end黑箱。那么当遇到历史最大超额回撤的时候你咋办，不停地重新训模型吗？你这是把希望交给新的数据和新的梯度下降的随机性上，而且也是默认你的system泛化性不够强，不能处理时变的场景，只能用算力去下赌注。我知道业内很多一日一训的做法，但是把赚钱的可能性交给不可控的随机性不是个好的做法，即使它回测从各方面看起来无懈可击。

3. end2end否定了很多人在交易上的先验经验。很多先验经验是明显有效的，但是在调模型上很难去加进去；妄想一个model在没有足够多先验的情况下，在time-variance和噪音极大的数据中取得很好的效果干死做因子的同业，比买彩票概率还小。然后你模型中好的因子够多（好的先验够多），那咱要不要看看你做了个啥，又回到了多因子！

4. 过拟合的这个定义很有意思，可以是模型太烂从当前的sample就没学到东西，也可以是新来的市场行情属于的分布本身就是时变的，模型就是会间歇性的失效/永久失效。然后你在实盘中，也没办法区分这几种情况，所以放弃这条路吧，去做一个你能掌控的、更鲁棒的system。

干来干去其实就会发现，现在量化私募大家都在用的这套批量机器挖因子框架（这套并不是端到端哦，肯定要有人工的参与），其实就是最鲁棒的，不仅仅是股票预测，在任何一个时序/时空的任务都能用，可泛化性极强。为什么单截面不用，大家可以想想，单截面没有时变问题，直接用各种trick暴力拟合和ensemble就行了（看看各种kaggle赛，基本上就是重复这个过程）。多因子最重要的就是能驯化分布、处理时变，让你对整个system的掌控力更强。

量化小助手 · 发表于 2024-8-15 09:36:49

可能就是因为涉及到钱了以后，人们更相信自己吧。

咱就说这个AI能做到什么？一开始深度学习，想要达到了目的是识别一张图片对不对？人们很好判断一张图片到底是猴子还是是猫还是狗，我们知道他是什么。所以呢？机器做错了，我们很容易识别。换句话说，我们搭建这类监督学习模型的成本非常低。

但是在量化投资领域，不管你的频率是高还是低，最终里面对的都是一个不确定性非常大，且每一个决定都涉及到真金实银涨跌的环境。

所以如果说之前的AI模型的训练的损失函数是纸面上的数字的话，那么量化模型的损失函数就是人民币或者美金。如果再考虑到我们经常说的实盘和回测的差距，那么这种真金白银的损失几乎是不可避免的。所以从调教模型的角度来讲，训练一个端到端量化AI模型的成本是非常高的。

但即使我们专注在怎么训练一个AI模型上，完全使用端到端的方式也未必是最优的。之前特斯拉搞端到端自动驾驶的时候不就有很多人说吗，如果出现了问题都可能不知道怎么解决，因为这完全是一个黑盒子。

所以如果把之前的特斯拉对于自动驾驶的设计看作是含有domain knowledge限制的AI模型，那么目前的量化投资使用人工挖掘因子的办法，其实就是特斯拉自动驾驶目前的路径。

而端到端的AI交易模型与端道端的自动驾驶会面临一样的问题：一旦市场出现了以前没有见过的情况，该如何应对？考虑到自动驾驶面临的其实是确定性比较强的问题，而股票市场面临的可能是从来没有遇见过的问题，比如说一个政策的更改或者一个地缘政治事件的发生，投资者是否可以放心的将自己的资金放入这样的端到端的AI交易模型？如果出台一个新的政策，或者发生了一个黑天鹅事件，我们是否要完全停掉这个黑盒子模型？

所以不论是从量化基金的角度，还是从投资人的角度，还是从监管和风控部门的角度来讲，使用黑盒子都是不太现实的。

量化小助手 · 发表于 2024-8-15 09:40:32

综合一下大家的观点：
1、金融数据信噪比低，端到端基本就是过拟合。
2、端到端黑盒不可解释，不可控。

因子再组合是不得已而为之，可以融合人工筛选环节。
可以这么理解，机器学习使用筛选的因子，未必是ic高的。但ic高的，人工可解释的，让模型来组合至少是可控的。

也正因为如此，不用担心算法大神来抢饭碗了，金融还是金融。
基于对金融的理解，机器学习可以做体力活，就是海量去挖掘（构造）因子，然后人工来筛选。——这就是方向！

		自动登录	找回密码
密码			免费注册