您的位置 首页 基金知识

意会+大数据看《量化投资——西蒙斯用公式打败市场的故事》

一、意会+大数据 看《量化投资——西蒙斯用公式打败市场的故事》,看到的两点我觉得对量化投资的作用有一个比较清晰…

一、意会+大数据

看《量化投资——西蒙斯用公式打败市场的故事》,看到的两点我觉得对量化投资的作用有一个比较清晰的阐明。首先,不能说有了量化的技术,所有的东西都不需要人来参与了,或者你就说人在投资上已经是可有可无了,所有的事情都交给机器去自动处理,这是一个很大的误区。起码有两点是想错了的,第一,就如书中所说的那样,不管多么复杂的电脑模型,都是需要人去设计、编程、维护和控制的,西蒙斯所说的,没有一个长期不变能赚钱的模型。模型必须要不断更新,而模型的更新,起码在现阶段来看,不可能靠机器来完成自我完善甚至自我突变或突破。第二,市场环境的变化复杂和突然,就如你不可能把世界的所有事情都想象为完全遵守正态分布,肥尾现象现实存在,突然走个“黑天鹅”是很正常的现象,而机器现在还是比较注重给予某一序列(例如时间序列)的连续变化来做依据去判断、预测之后的变化(简单说就是基于以前的数据来预测未来)。所以,你说量化就是神话,那是不现实的,顶多可以说借助量化的方法去达到某些人所不能做好或者比较难做好的事情,这里可能最大的帮助就是数据处理和依照策略给出答案。根据丹尼尔卡尼曼的研究,人们在对待赚钱机会的时候,人们一般会避开风险,而对待赔钱的时候,却又主动寻求风险,在投资转中就表现为“过早止盈,退出交易;在赔钱时,却不肯止损”。这就是人性!而量化投资在这里可以用“灭人欲”来形容,因为量化的模型就是按照规则来交易的,因而不受类似于人那样受心理因素影响,机器没有七情六欲,模型是冷酷的,是完全接受命令的。另外在量化的时候,借助于大数据,能处理人不可能处理过来的、大量的数据,而且这里还有一个根本性的区别,那就是——速度!哪怕最好的头脑的计算量也不可能比得过一台普通的、可运算的电脑。还有就是只要数据不是错误的,电脑不会出现例如抄写错误、翻译错误等低级错误。

这里总结一下,为什么要用量化技术来进行投资,而且必成为以后投资领域的一个主流。我认为,这是意会+大数据所产生的化学反应,能够将人类头脑里对未来的研判结果,通过设定规则和大量数据的提供,来去除人的缺陷,从而实现不断逼近真相的主观判断。意思就是说,主观观点通过规整、死板的程序去一步一步的企图逼近客观现实(当然这里肯定是带有主观偏见和在一个有限定的周期范围内有效的)。但无论如何,意会加大数据,我认为还算是比较高级的打法了,这个如果研究的好,不仅仅用于投资,对于生活的方方面面还是能产生深刻的影响与改变的。

二、策略基础

在使用量化手段之前,我们要先了解策略,而了解策略之前我们要先了解策略的基础是什么。我认为,关于应用在量化手段上的,可被执行的策略,首先第一点要满足的是时间序列问题。可以说,在现今存在的大部分关于量化的策略都是由一些列的时间,每个时间所包含的分项组成的。分项可以有无穷无尽的子因素,比如收盘价、PE、宏观因子等,但时间是唯一的,是不可缺的。在时间序列里,存在维度的问题,也就是你是按天、时、分、秒、毫秒、千分之几毫秒等来对时间序列进行划分,据我所了解,达到毫秒级别以上可以算是高频交易,而国内的机构投资现在使用的一般是毫秒之间的交易频率,国外的都达到千分之几毫秒级别。时间越短,对于运算量和所使用的模型、软件类型等的要求越高。

其次,需要有你希望运用在模型上面的因子,也就是各类或各种的技术指标,上面所描述的其实一般可以分几类。比如价格类的,开盘、收盘价、价差、还有就是交易量等,比如财务指标类的,PE、PB、ROE等,比如宏观因子,CPI、PPI、MII等,还有其他什么动量因子、移动平均线突破因子、RSI信号灯、分析师预测信号、沪深L2、中金L1,可以说由不同的因子组成在你所设定的模型里。但这里要注意的是,不是说因子越多、模型越复杂就好,往往因子之间都会存在相关性,完全无相关的因子比较难找到我认为。所以因子过多可能会造成模型失效、出现拟合过度、甚至自相矛盾等情况,所以其实可以用简单、有效并且执行效率高的因子来创建模型是最好的,也是量化的威力、魅力所在。

最后,还有一些其他的因素。比如你将模型使用在哪里,也就是你将会吸取哪里的数据,这里一般专业一点的机构或大户,会选择使用Wind和彭博之类,收费的大型数据网站,如果是像我这样的屌丝,现阶段的选择一般是优矿。还有一些国外的网站,可以用于做外国投资的量化模型使用。对于数据,我现在可能还未入门,觉得只要是找到自己想要的因子,只要准确(准确是最基本的要求了),其他可能也不算太重要了。

除了要设计策略使用的时间序列、因子和数据意外。你要设计好一个数据处理和回测的框架,以及模型退出策略的问题。数据的处理可以通过软件进行,例如使用python,还有它所使用的插件,比如numpy,pandas等来进行。处理有排序、挑选、清洗、处理无效数据等方法,或者还有加减乘除、平方、对数之类的元素级运算,还有求期望值、方差、协方差等统计学的运算等。经过处理后的数据,才可能有使用的价值。此外,经过处理的数据,通过图形软件还可以输出结果的图像,方便主观地去判断。

回测框架是必须要做好的。也就是说,你设计好的量化模型,必须通过实际的数据进行测试,测试模型的计算是否成立,而且是不是与你的预期相符合,而且能有获利的机会。最后,就是策略的退出问题。也就是你的模型在什么情况下,是要退出不在运算的,这里有止损退出策略、动态止盈止损策略、时间退出策略等方法。可以说,你光有运行的方法是不够全面的。还必须要有回测的框架和退出的考虑才是完整的。

最后,说下量化的局限性和注意点,最大的问题是策略的流动性问题,最好将策略运用在流动性比较强的市场或者品种上,例如HS300的股票、大宗商品和一些可以实现随时进入和退出的衍生品、汇率市场等流动性比较好的地方。不然,就算到了模型发出信号的时候,但由于流动性的问题,导致你的模型不能实际运行,就会很麻烦。还有一些涨、跌停板,停牌,除权等股票,也是要做好相应的处理。

在设计模型的时候,存在的一个最大的局限就是很多时候,模型都很难避免各种各样的偏差,例如幸存者偏差、过度拟合等,这会造成模型在某些时间或某些类型的交易品种有效,而其他的可能无效;还有就是因子衰减问题,也就有很多因子在一段时间内是有效的,但过后可能就慢慢变得无效或完全无作用了,原因可能是该因子使用的人多了,或者市场环境的变化等,其余的局限包括你的模型成交量太大以至于影响交易通道的顺畅、卖空效应的非对称性意向,还有就是“黑天鹅”事件导致的异常值处理等等,都可能让模型无效。

所以我们在设计模型的时候,不能光想好处,而必须做出每一步选择之后都要倒回来,看看模型的各种指标是否成立或者联想一下因子有没有出现偏差和过度使用等问题。这里因子权重分配等问题,都是需要我们在设计过程中要特别注意和了解的。

三、策略种类(一)

关于策略的种类,在用于量化投资的角度来说,只要是能归化为因素的元素,其实都可以用于实现量化的模型当中。说到底,量化,只不过就是把一切能被计算机理解的数据和规则,将其通过元素运算(这里的元素是广义的含义)来得出结果的一个过程。而我在学习过程中,老师所讲的都是当今投资界常用的一些范畴,一些特立独行的模型因素可能不在这里。我的理解能力的范畴,将其分为约五大类型,每一种类型当中也可以介绍一下用的比较多的模型。这四种类型,分别属于技术类型、基本面类型、商品CTA策略、套利及衍生品类、AI类的。

首先可以说下,用于传统投资品方面的,这个传统指的是股票和债券。传统投资品一般用的比较多的是技术分析和基本面分析,而对应于量化投资来说,就是技术类模型和基本面类模型。先说下技术类,技术分析自从道氏理论后一直盛行,其基本概念就是过往趋势在没有外力的作用下会一直延续下去。而用于量化模型当中,首先要考虑的就是择时的问题,是在一段时间内的一段走势的判断。而对于择时的判断依据(维度)有很多参照系,可以是股票交易指标、经济指标、投资者情绪指标、市场波动率等。

在这些参照系当中,可能简单但有效的首选SMA均线模型,就是根据两条(一条是短线,例如5天均线,一条是长线,例如30天均线)均线的发展过程中发出的信号,来进行交易的方法,这个只要接触过股票的一般都比较清楚。我这里着重说说,用于模型的可以优化的方法,也就是设置过滤器尽量避免受到噪音的影响而过度交易。比如,需要达到一定的SD点位之后才能实行、要在半年线(250天)上方,确定牛市区间做多、附加额外套件,比如今天的移动的均值要大于昨天的。在胜率(意思就是10次有6次胜,胜率就是60%)和赔率(盈利比率),比如10次里只赢3次,但每次都是大赢,均线模型,属于胜率低、赔率高的策略模型。

四、策略种类(二)

根据学习到的策略种类,我之前只是简单的列举了一种投资普遍使用的策略,这个事可以归类在择时策略中。我这里列举一下当今用的比较多的、作用在量化中的几种策略。包括:量化择时、动量及反转策略、基金结构套利、宏观择时及行业轮动策略、相对价值策略、多空alpha策略、多因子策略、事件驱动策略、商品CTA策略、统计套利、衍生品低风险套利、大数据及舆情分析、机器学习量化策略、高频交易策略、期权交易策略、其他策略。

量化择时:之前举了一SMA均线模型,这里可以再细分为普通日线均线交易策略、高频均线交易策略(1、5分钟级别),均线也可以是两均线或者3均线,比如10,20,120均线(120均线在这里的作用是判别牛市还是熊市),这里可以对模型进行修正,之前有说就不重复了。除了均线模型,还有KDJ模型,策略的原理是,当j上穿0轴,买入,J值下跌低于100卖出,第一次出现买入信号时买入,出现新的买入信号时不再买入,直到出现卖出信号。这个指标的特点是能给出最高点和最低点,但是有很多无效指标;与SMA模型对比,该模型胜率较高,但是比较难抓住大趋势;在震荡市时比较有效。对于该策略的改进,可以配合与均线模型的买入信号同时出现时才进行买入,从而过滤掉无效信号。

五、策略种类(三)

第三种要说的择时策略就是技术指标背离,就是所谓的利用背驰现象所发出的信号进行买卖操作,背驰一般可以表现为量价的背离,也可以表现为价格走势与技术指标背离。举个例子,我们用股价与MACD的比较来说明,一段价格走完了上升、下跌到上涨的阶段后,价格又下跌而且创新低,但这是MACD的绿柱面积没有像之前那样扩大(相反与之前的绿柱面积相比非常小),而且MACD的两条线段没有各种股价新低而创新低。这种情况就是表现出很强烈的底背驰信号。第四种要介绍的类型叫HANS123策略,这种策略最早是在外汇市场广为流传的一种趋势突破。其核心交易思想是,先计算出开盘一段时间(Hans)的最高、低价,作为判别后续走势的上轨和下轨,形成一个水平区间,而当之后价格走势如果突破区间的上轨或下轨时,就分别建立多仓和空仓,最后收盘前,平仓。当然,在这基础上可以添加一些警报器之类的辅助指标对模型进行改良,这在后面会说到。第五种择时策略,叫多项式回归,原理就是对交易段上某段时间的时间序列进行线性拟合(一阶多项式拟合)而得到的连续函数(y = at + b),利用函数可以得到因应模型变化而出现的结果,根据结果判断交易方向。通过一阶导数(就是斜率)判断该段时间价格的趋势,当dy/dt>0时,价格为上涨趋势;dy/dt

六、策略种类(四)

动量与反转策略。动量策略的思想就是,过去涨势好(收益好)的,将来也会涨得好,是强者恒强。而这里要注意的是,第一,过去是指多长的时间,是多少天,而将来是以多长的时间,也就是你打算持有多少天;第二,涨得好的标准是什么?是回报(或回报率)大于零,创历史新高,还是均线突破等等。而反转的思想策略呢?恰恰与动量策略相反,就是过去涨的好的将会下跌,过去跌得多的会上涨,而内在的思想就是认为价格向价值回归,也就是涨的多了或者跌得多了,就会回归本来的价值,也就是价格总会围绕着某一均值进行波动。这里也要注意,除了上面所提到的标准外,还有就是波动率的问题,就是波动的范围是如何界定的,另外就是价值是如何衡量的。这样看来,反转比动量的观察指标更多、需要设定的边界也就更负责了。

这里举一个均值反转的实战例子。一个行业共有60支股票,我们认为大盘对其影响应该是一致的,行业对其影响也是一致的,而对其有不同影响的只是各自公司本身的一些内在因素。而如果有些公司最近的表现特别好,而有些公司的表现特别差的话,撇除内在因素影响外,我们认为:表现好的公司会回调一下,而表现差的公司会反弹一下,所以我们的根据反转策略就应该做出好公司卖空,差公司买入的动作。

反转策略最大的一个问题,就是反转的周期不可预测,具有不确定性。老师给出的解决办法就是,对各个周期进行不同尝试:用短周期(5-10天)、长周期(100天以上),而在各种周期里面,都排一个ranking排列,排列是为了看看每个周期里有没有重复出现在表现特别好和表现特别差的公司股票,如果有就可以锁定这些表现的股票进行操作。当然虽然解决了选股在各种周期的问题,但其实对于几时会出现反转这个问题还是不能精准把握,可能还是需要配合其他策略或者辅助指标来进行一定程度的优化改良。

动量与反转策略,其实与择时策略是能很好的作为配合使用的,在择时策略给出范围趋势的变化基础上,对于短期信号的抓取采取反转策略进行操作,大概率上应该是能获得赔率高,而胜率也不低的结果。但这里可能存在的问题,就是如何选操作标的的问题了。

七、策略种类(五)

基金套利策略,套利的思想源于同一种或者同一类的资产,在理论上价格应该是一致的。若价格不一致,就存在套利的空隙(spread)。这里可以用于量化的套利策略,有分级基金套利、夸产品套利、跨境套利。

分级基金套利思想就是通过AB子基金合并为母基金,或者讲母基金通过拆分来获得溢价。跨产品的套利,举一个例子,就是可口可乐和百事可乐,两个公司的股票一定存在一定的协整关系,什么叫协整关系呢?比如说在河里面放了两条船,让两条船在宽阔的河面上随机的往下游流动,而这时这两条船的距离肯定是随机的,但如果你在放船的时候就已经把两条船用一条绳连起来,这两条船就具备了相关性,虽然他们在流动的过程中两条船的距离还是随机,但由于有一条绳,我们就可以看这条绳的距离的随机数据,由于绳的距离是有最大最小数,最大的就是绳的最长长度,最小的就是零,也就是两条船碰撞在一起。这是,我们就可以说这两条船通过绳,有了一个协整关系。百事可乐和可口可乐就是这样的一个协整关系,我们通过两个股票的价格走势比较,可以计算出它们的最远价差,而根据这个尺度就可以设定套利的空间是多少,然后在空间比较大的情况下进行套利操作。

跨境套利的意思,就是对同一种产品,由于它在不同的交易所上市交易,理论上它们的价格应该是一致的,但种种原因它们几乎不可能在同一价位上,这就存在了套利空间。还有一种套利就是ETF指数套利,ETF价格和组成ETF的股票的价格之间是肯定满足协整关系的,但由于“两种”资产无论是交易时间,还是数量上都不重叠,所以有可能会背离,从而就会有套利机会。由于存在协整关系,若果背离越大,短期回归的可能性就越大。当然ETF本身也是可以进行套利的,具体就是先找两个时间序列,一个是资产净值的隔夜差的时间序列;另一个是ETF交易价格开盘和收盘的价差的时间序列。两个时间序列,长期来看应该是符合协整关系的。所以如果出现价差,只要足够大,理论上也是可以进行套利。

八、策略种类(六)

宏观择时及行业轮动策略,我们常用宏观择时方法就是“逐项回归法”,方法是这样的,首先,选取多个宏观经济变量,比如PMI、CPI、M1和M2的增速差等,然后,将这些变量作为备选自变量,而使用上证综指为因变量,进行逐项回归测试,找出几个能显著与大盘具备协整关系的指标来,作为预测下月大盘走势的自变量来进行动态模拟,最后根据模拟结果做出投资决策。这里简单介绍一下宏观经济指标体系,可以分为七大类。一、工业与固定资产投资,比如工业增加值、工业企业应收利润、固定资产投资额、发电量等;二、消费与价格指数,CPI、PPI、消费品零售总额、猪肉价格等;三、货币政策与银行类,现金投放量、M0/M1/M2、存贷款余额;四、利率与利差,债券利率、信用利差、期限利差、理财收益率等;五、景气度,PMI、宏观景气指数、波罗的海指数、消费者信息指数、OECD指标等;六、权益市场,PE/PB、股息率、股权风险溢价;七、海外市场,美债、美元指数、原油指数、汇率、新增非农就业人数等。除了宏观择时外,还有行业轮动可以对具体不同行业之间的轮动效应作出区分,行业轮动可以有四个不同层面的分析。一、模式识别,可以使用涨跌排名相似性、轮动顺序相似性、决策树等;二、板块联动,这里利用的可以有行业羊群效应、上下游驱动关系等方法;三、截面分析,行业风格极值、大单资金监控等手段;四、事件驱动,可以分析政策事件、宏观事件、行业事件等事件发生所预估会出现的市场驱动效应来作出判断。

相对价格策略,意识是把股票排名最好的20%积极做多,把最差的的20%做空。这里可以举一下外国的例子,在海外就有基金公司是专门做多PE值低的股票,而年化收益可以达到10%,而做多PE值最低的,同时又做空PE值最高的策略,也就是相对价格策略,年化收益率可以去到20%。这里还有很多例子,例如在年报公布之后,股息率高的全部做多,股息率低的全部做空;做多低估值的公司股票,做空高估值公司的股票;做多低负债/低财务费用公司股票,做空高负债/高财务费用公司的股票;利用可交换债来进行,原理就是公开发行的债券波动率比较符合实际,而非公开发行发行的波动率定价一般会偏低,所以可以利用对call定价的偏差来进行套利;利用商誉(goodwill)与股东权益的比重为划定,比如比值大于1,属于高商誉公司可以做空,低于1属于低可以做多,这里面的划定标准还可以是其他,例如cash flow、股息率等。

九、策略种类(七)

多空alpha策略,alpha因子,指的是在额外收益中与贝塔因子相对的,与整个市场无关的投资获益率,简单地可以理解为投机所得(贝塔可以理解为投资所得)额外风险收益。这里一个经典的策略,叫市场中性策略。策略的原理,就是通过多因子模型选股确定多头股票组合,同时用空头股指期货等量对冲多头股票组合。策略里面,可以通过多空的组合,将贝塔对冲——多头中产生的正贝塔和空头股指中的副贝塔,然后就是剩余组合当中的alpha了。因为资产组合的风险比较低,很多基金为了取得更大的收益,往往还会采取加杠杆的策略来增大获利回报,将alpha放大。还有,这个策略的一个好处就是,无论市场是涨还是跌,都可以操作,因为alpha在理论上是没有正负,只要多头的资产与空头资产之间产生差价(距离),这个spread就是alpha。但这个策略有一个坑,举例就是在2014-15年的时候,大盘但涨的都是银行其实大市是没有涨幅的,但造成了假象,而在卖空股指期货这边,却又是一路亏钱,小股票(就是创业板)狂跌也是亏钱,那就变成了整体都亏钱,不存在alpha。但话说回来,那次是股灾属于黑天鹅,这个策略明显不适用这个极端情况。而且策略还是需要适时更新和调整的。

十、策略种类(八)

多因子策略,大概的意思就是将各个可以量化及统一标准的因子,通过配比不同的权重,利用模型计算的公式套入因子,从而得到计算的结果做出投资决策。虽然投资的因子据统计可能超过2000个,但是赚钱的因子非常少。而使用多因子策略时,因子都是具有时效性的,在这段时间这个因子比较有效,比如前段时间的中小股估值,但现在因为使用的人多了就变得无效了,又或者这个因子在发展中国家比较好用,但在发达成熟的国家又不一定了。所以,我们首先必须要储备足够多的因子,才能在不同的市场上用不同的因子,或者等因子失效了,要更换因子使得收益率保持稳定。另外,我们还要考虑频繁度的问题,意思就是这个因子踩中有效点位的次数,越频繁密集越好,这样策略才是有用的。相反,比如你使用的是金融危机这种因子就肯定是不能用的了,因为你根本不可能预测是否会发生以及几时发生。

这里可以介绍一个阿尔法因子来源及组合,这是个传统多因子模型,超过2000个因子追踪组合表现,这里有个未来函数的概念必须要理解,意思就是以后出现的情况(假设为B)可能是收到现在的情况(假设为A)的影响而发生改变的,也就是说A是B的未来函数。要消除未来函数,这里需要使用“时态数据库”的管理来对每段时间的数据进行分割与保持独立性,避免出现未来函数的情况。这里大类因子有(1)绝对价值、相对价值、规模;(2)盈利能力、成长能力、财务状况;(3)分析师预测;(4)价格动量;(5)其他,每一种大类因子里面又包括自己独特的因子,比如盈利能力里包括大家熟悉的ROE、ROA、毛利率、税负资产周转率等,分析师预测里包括动态P/E、EPS、自由现金流等,这些因子之间的组合构成了稳定的“因子集合”。总结一下,利用市场中性阿尔法策略,就是在两个维度来给出不同因子的相组合,横轴是周期,周期可以分中长期和中短期,纵轴是多因子的种类,可以分为技术类和基本面类,一般基本面类为中长期因子,技术类为中短期。技术类包括盈利类、波动类、残差类、市场类,基本面类包括分析师类、盈利类、估值类、成长类、运营类等。

十一、策略种类(九)

本质上来说,事件驱动型的意思就是你需要通过不断的监控这个市场所发生的一切事情,这些事情可以有很多种,比如CEO/CFO的变更,公司业绩公布,股东大会召开,派息、拆股、回购、限售股解禁、定增、期权到期、税收优惠、停牌、指数成分股调整策略、大股东增持等。虽然这里有非常多的事件能够让因子分析提供了低相关度投资组合的机会,但是研究成本过高(特殊数据库、相关研究框架)阻碍了此前此类事件的研究。但随着大数据等应用的普及,这些信息获取的便利性有了很大的提高,但同时有效性也在不断下降。这里可以举个大股东增持的例子,首先要考虑的是策略的设定条件,比如大股东持股数量占公司流通股的比例不低于0.01%,并且所涉及股票的市值不低于100万,持有时间为12个月以上,市盈率在25倍以下,市净率在3.3倍以下,流通股数量在3.1亿股以下,大股东增持后的持股比例在20%-50%之间,股票所在的行业是在非银行金融类、建筑装饰、汽车、建筑材料、家用电器、交通运输、房地产、纺织服装和公用事业。运用策略需要思考对超额收益率的影响,这里考虑的是,持股时间、不同股东类型、自由流通股数量、增持后大股东持股比例、行业、市盈率、市净率等对超额收益的影响。比如考虑增持主体,如果增持的高管那就会对超额收益有显著影响,增持比例多少、是不是连续增持,还有就是增持的时机等等。

本文来自网络,不代表星辰财经立场,转载请注明出处:https://www.ysfxc.com/n/1538.html

作者: 星辰财经

联系我们

联系我们

0898-88881688

在线咨询: QQ交谈

邮箱: email@wangzhan.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部