有同学问，遗传算法因子挖掘，到底是Deap好，还是gplearn好？

ailabx · 发表于 2024-8-2 09:57:29

有同学问，遗传算法因子挖掘，到底是Deap好，还是gplearn好？

这里说明一下，大家看研报或者网上有些课程，讲因子挖掘，都是围绕gplearn。
有一个原因，gplearn的api更接近sklearn，所以大家感觉很熟悉。
gplearn.fit(X,y)这样的形式。

但原生的gplearn其实直接是不可用的。
1、这里的X没法区分多个symbol（因为它没有维度信息），因些只能挖掘单支股票的时序因子。
2、gplearn的符号生成不支持常量，比如roc(close,20)，这个20它必须hard code进去，不支持说，你从【1，2，5，10，20，40】里随机选择一下。
因此，如果需要用gplearn，接近于重写这个框架。——这些缺点，正是由于它为了兼容sklearn的api形式而引入的。因子挖掘的时候，并不需要传入X,y，我们只为生成符号，而不需要进行计算，计算是在fitness的时候进行，而fitness完成是我们自主定义，我就可以在这个环节对多个symbol进行计算。

但Deap不用，Deap原生就支持。

基于Deap遗传算法在全量可转债上做因子挖掘（附python代码及全量因子数据）

		自动登录	找回密码
密码			免费注册