分布估计下的主动买入占比,桃子姐的因子居然在这本书中提到过!

分布估计下的主动买入占比因子复现!覃川桃老师研报原理解析,T分布/正态分布/置信正态分布/均匀分布四种计算方式,代码实现与IC分析、分层回测全解析,探究高频因子有效性。

分布估计下的主动买入占比

这个因子,笔者第一次看到是在长江证券首席分析师覃川桃老师的研报《基础因子研究(十二)——高频因子(七):分布估计下的主动成交占比》中看到的。这篇研报发表于2020年8月10日。

最近,又在《Active Equity Management》这本书中看到了类似的思想。

关于这个因子,笔者在最古早的文章中复现了一半,而且是用日频数据复现的,就不贴出来献丑了。

这次,再次复现这个因子主要是有两点考虑。

第一点,在更高频的数据上看看效果。

第二点,在《Active Equity Management》这本书中有一个因子吸引了笔者的兴趣,但是复现需要用到主动买入和主动卖出的划分,所以先来复现一下主动买入占比这个因子。

计算公式和代码

这个因子的计算思想是这样的,根据收益率的分布情况推算主动买入的概率,再用主动买入的概率乘上成交额求和,最后计算主动买入的金额与总成交额的比值。

1

计算公式

在研报中,一共有四种计算方式。

第一种,T分布主动占比因子。

第二种,正态分布主动占比因子。

第三种,置信正态分布主动占比因子。

第四种,均匀分布主动占比因子。

这个因子有两点需要注意。

第一点,分子中的减号应该换成加号。A股大部分标的的涨停幅度是10%,此时代入公式计算主动买入金额为0,显然是不科学的。所以,需要将减号换成加号。

第二点,科创板和创业板现在的涨停是20厘米,理论上来说这个因子应该按照不同板块来计算。在这里,笔者为了简单快速的计算因子,直接对计算结果进行了限制,使其符合逻辑。

第五种,朴素主动占比因子。

这个因子,笔者是根据资金流向因子改的。认为收益率大于0的时刻对应的金额都是主动买入的。

2

代码

def process_single_day(self, idx):

代码基本上都是按照公式来的。

第18行,计算的是第五种因子。

第20-24行,计算的是第一种因子。

第26-34行,计算的是第二种和第三种因子。

第36-37行,计算的是第四种因子。

这里需要注意的是第12-15行,这里是为了获取前一个交易日的收盘价而设计的。通过last_close这个属性,保留了前一个交易日的收盘价。

同时,为了避免复权因子的影响,在第7-9行获取了复权因子。

因子评价

从相关性来看,这一系列因子可以分成三类。均匀分布和置信正态分布的相关性很高,正态分布和t分布的相关性很高,剩下的一个独自一类。

至于因子评价结果,可以说是一言难尽啊!

用标准差合成的月度因子,IC高一点点,但是分层回测结果并不是很好。用均值合成的月度因子,t分布和正态分布计算的因子分层回测表现好,但是IC就差了很多了。朴素主动占比因子的IC高了很多(有三年超过0.06,其中两年超过了0.08),但是分层回测就差了。

01

IC分析

这个IC确实表现不好,有三年低于0.01,还有两年也就刚刚超过了0.01,最高的一年都没能超过0.035。

02

回归分析

03

换手率分析

04

收益分析

不过,从分层回测来看却是一个看起来还行的因子。

在整个回测区间中,它表现出了很好的单调性。同时,因子值最小的两组从2020年开始就远落后于其他三组了。

那么问题来了,这个因子到底算好还是不好呢?