Quantlab代码结构讲解：datafeed数据加载与因子表达式。

ailabx · 发表于 2024-7-28 08:26:56

dataloader从本地目录读取csv集合，并使用因子表达式引擎计算。
[color=rgba(0, 0, 0, 0.9)]

读csv的逻辑比较好理解，重点讲一下：calc_expr，计算因子表达式，表达式是fields传入的，比如['roc(close,20)'], names是字段名，与fields对应，比如['']

def calc_expr(df: pd.DataFrame, fields, names):
cols = []
count = 0
df.set_index([df.index, 'symbol'], inplace=True)
for field, name in tqdm(zip(fields, names)):
se = calc_expr(df, field)
count += 1
if count < 10:
df[name] = se
else:
se.name = name
cols.append(se)
if len(cols):
df_cols = pd.concat(cols, axis=1)
df = pd.concat([df, df_cols], axis=1)
# df_all = df.loc[self.start_date: self.end_date].copy()
# print(df_all.index.levels[0])
df['symbol'] = df.index.droplevel(0)
# df_all['symbol'] = df_all.index.levels[0]
df.index = df.index.droplevel(1)
return df

复制代码

每一个dataframe，循环调用 calc_expr

def calc_expr(df: pd.DataFrame, expr: str): # correlation(rank(open),rank(volume))
# 列若存在，就直接返回
if expr in list(df.columns):
return df[expr]
expr = expr_transform(df, expr)
# try:
se = eval(expr)
return se
# except:
# import traceback
# traceback.print_exc()
# raise NameError('{}——eval异常'.format(expr))
# shift(close,1) -> shift(df['close'],1)
return None

复制代码

注意这里的 eval(expr)，就是使用python的eval函数，来执行 “roc(close,20)”这样的表达式。
重点来的，roc在哪里定义？

from .expr_unary import *
from .expr_binary import *
from .expr_unary_rolling import *
from .expr_binary_rolling import *
from .expr_funcs_talib import *

复制代码

这里导入所有的函数：（roc函数定义就在expr_unary_rolling，即一元滑动窗口函数）

@calc_by_symbol
def roc(se: pd.Series, N):
return se / shift(se, N) - 1

复制代码

18898757577 · 发表于 2024-8-17 19:37:21

本帖最后由 18898757577 于 2024-8-17 19:42 编辑

请问一下这里初始化的这个因子表达式的中文在哪里加载的呢？@calc_by_symboldef ts_pct_change(se: pd.Series, N):
return se / se.shift(N) - 1
比如这里定义的是两个参数，但是在那里加载的缺指定了需要的中文字段名称，这个是怎么做的对应呢？在哪里做的？

ailabx · 发表于 2024-8-19 09:22:02

18898757577 发表于 2024-8-17 19:37
请问一下这里初始化的这个因子表达式的中文在哪里加载的呢？@calc_by_symboldef ts_pct_change(se: pd.Seri ...

调用的时候，我们是使用 ts_pct_change(close, 5)，就是5日收益率。
ts_pct_change(open, 5)就是使用开盘价。

18898757577 · 发表于 2024-8-19 09:38:55

ailabx 发表于 2024-8-19 09:22
调用的时候，我们是使用 ts_pct_change(close, 5)，就是5日收益率。
ts_pct_change(open, 5)就是使用开 ...

我的意思是想问您，这些是在哪里调用的。比如： ts_pct_change(close, 5) 这个字符串在哪里加载进去的。我看到代码初始化的时候是invalid_ind这个参数，但是没理解到在哪里把这些expr_functions中的表达式加载到invalid_ind这个参数集里面的。因为expr_functions里面都是正常的表达式，其实invalid_ind里面其实是字符串是通过evl()把这些字符串转换成表达式的，我想知道这个中间是在哪里做的对应加载的。谢谢。

ailabx · 发表于 2024-8-19 09:39:47

eval这个python函数是关键。

ailabx · 发表于 2024-8-19 09:42:40

datafeed 目录 > expr.py > calc_expr > eval

18898757577 · 发表于 2024-8-19 09:48:38

ailabx 发表于 2024-8-19 09:42
datafeed 目录 > expr.py > calc_expr > eval

不是这个问题，是初始化的时候。deap_mgr.py 中的def：map_exprs(里面的参数invalid_ind中这个参数的值从哪里初始化的。我看初始化了很多字符串的表达式，后面通过eval蒋字符串转换成表达式，我现在就是不知道这些字符串从哪里初始化到这个参数的。)

ailabx · 发表于 2024-8-19 09:54:55

18898757577 发表于 2024-8-19 09:48
不是这个问题，是初始化的时候。deap_mgr.py 中的def：map_exprs(里面的参数invalid_ind中这个参数的值从 ...

这是遗传算法生成的。

18898757577 · 发表于 2024-8-19 10:14:22

ailabx 发表于 2024-8-19 09:54
这是遗传算法生成的。

pset.addPrimitive(dummy, [Expr, Expr], Expr, name='fadd')
pset.addPrimitive(dummy, [Expr, Expr], Expr, name='fsub')
pset.addPrimitive(dummy, [Expr, Expr], Expr, name='fmul')
pset.addPrimitive(dummy, [Expr, Expr], Expr, name='fdiv')

麻烦问下这些基础算子的是什么意思？这些名字代表什么计算方式？我看后面基本没用到计算。

18898757577 · 发表于 2024-8-19 11:02:05

本帖最后由 18898757577 于 2024-8-19 11:06 编辑

111111111

		自动登录	找回密码
密码			免费注册

Quantlab代码结构讲解：datafeed数据加载与因子表达式。

本帖子中包含更多资源

本帖子中包含更多资源

无无无