电子报
微信公众号

期货日报官方微信公众号

扫描上方二维码关注
微信公众号

微博圈

期货日报官方微博号

扫描上方二维码
关注微博号

实盘赛

大赛官方APP_赢家在线

扫码下载报名参赛

投教
排排网

期货实战排排网微信公众号

扫描上方二维码关注
微信公众号

您所在的位置: 首页>快讯>正文

机器学习在期货投资中的应用研究

2021-02-07 20:42:21   来源:   作者:王力纬

弥补传统思维模式的单一性,提升数据挖掘的深度和广度

  由于硬件技术和计算机技术的进步,人工智能在发展过程中所遇到的瓶颈逐渐被解决。近几年,人工智能异常火热,而作为人工智能的核心基础——机器学习开始被越来越多地应用于量化交易中。本文简要介绍机器学习的主流类别及算法,并就其在期货投资中可能遇到的问题进行讨论。

A    机器学习的类别和算法

期货相较其他金融投资产品,具有其自身特点:区域市场间联动性较强,结算模式灵活,产生了容量巨大、动态变化的金融数据。随着市场容量的不断增大,期货行业积累的海量数据对交易员的数据处理和知识获取能力提出了更高的要求,也为我们挖掘行情运行规律提供了研究素材。可以说,期货交易员的核心竞争力很大程度上取决于从大量数据中提取信息和知识从而为金融决策提供支持的速度和能力。

机器学习是一门建立在统计学与数学基础上的学科,能够快速对海量数据进行分析、拟合,进而辅助人类进行智能决策,是当前数据分析领域最热门的研究方向之一。由于基本思想的不同,机器学习可以大致分为符号主义、联结主义、进化主义、贝叶斯主义和类推主义,并在此基础上发展出不同的算法,适用于不同的应用场景。

符号学派起源于哲学、逻辑学和心理学,认为学习是逆向演绎。符号主义在20世纪80年代占据机器学习的主流地位,解决问题的方法是使用预先存在的知识来填补空白,使用符号、规则和逻辑表征知识与进化逻辑进行推理,主算法是决策树。决策树的工作过程是使用不同分类标准,不断对数据集进行分类,适用于“是否”“好坏”等二分类任务,进而得到问题结论,即最终决策。符号主义的规则与结果相互对应,模型易于理解,但也因此限制了算法的适用范围。有学者将其使用于金融实战,预测行情涨跌、开盘价高于或低于收盘价等,但由于期货的保证金交易特性,仅了解二分变量信息而没有具体点位的支持,无法得到较好的投资结果,实用性受到限制。

贝叶斯学派兴起于20世纪90年代,该学派起源于统计学,核心思想是主观概率估计,利用事件发生的概率大小进行计算,主算法是朴素贝叶斯算法。相比决策树,贝叶斯算法扩展了比较或者对比任务。这些模型试图穷尽所有的相关因素,进而依赖于加权、概率和理性逻辑进行决策,使得决策模型庞杂繁冗。应用这种基于概率分析的模型进行投资决策,存在一个缺陷:模型概率依赖的是经验的归纳,分析的是“什么”的问题而不是“为什么”的问题,其难以应对无法用概率描述的不确定性事件。

进入21世纪,联结主义一度成为机器学习的主导思想。联结学派的核心是:学习是大脑的工作,机器学习本质上是对大脑进行仿真。具体来说,就是使用概率矩阵和加权神经元动态地识别和归纳模式进行逆向演绎,主算法是反向传播学习算法,如人工神经网络,但神经网络结构中的隐藏层导致该算法的不可控性提升,给模型解释和调整增加了难度。目前,联结学派最受瞩目的研究是开发具有自我意识和进化创造力的机器人。

进化主义学者将目光从人类大脑投向更广阔的自然选择视角。进化学派的基本思想源于生物进化学,包括达尔文物竞天择观和遗传学三大定律。其通过生成变化,再根据特定目标获取最优者,在算法中实现对自然的模仿,主算法是基因编程,如遗传算法。遗传算法通过结构优化,努力避开问题的局部最优,试图寻找全局最优,类似选择育种,通过模拟点突变和染色体交叉过程生成变化,引入适应度函数给程序和目标的契合度打分,利用适应度函数和选择函数剔除次优解,再借助“交叉重组”及“变异”方法生成新的解,直到群体适应度不再上升,对计算机程序自身进行进化。

上述机器学习类别存在一个共同的缺陷,那就是需要大量数据进行训练,但是类推学派却可以仅从小数据中进行学习。类推学派源于心理学,核心思想是从新旧知识间的相似性入手推导出其他关系。类推主义学者根据约束条件优化函数,找出需被记忆的经历,并弄清其间的结合关系,实现在新场景的迁移,主算法是支持向量机。类推学派遵循“最近邻”原理进行研究。各种电子商务网站(如购物网站、视频网站、音乐网站预测用户喜好,并进行产品推送)是类推方法最常见的应用场景。

B    机器学习与传统量化研究的差异

近年来随着机器学习和人工智能的迅猛发展,国内外很多期货量化投资团队对新兴计算机技术表现出了极大热情,不断尝试将机器学习与经典统计理论结合,完成对行情的预测,并期待能因此获得稳定增长的超额收益。

传统的期货量化投资是一个自上而下的过程,投资者先拥有一定的策略思维,再利用编程来解决实际工作中遇到的问题。也就是说,使用计算机语言来告诉计算机如何操作,从而将人从繁重的数据挖掘、策略执行工作中解脱出来,并弥补人工交易在速度、精确性上的不足,帮助投资者降低心理因素对策略执行的限制。传统的期货投资策略建立在金融学、数学的理论模型上,试图挖掘出市场运行规律,而这些模型存在传统学科条件预设的弊端,挖掘效率有限。

机器学习则可以看成一个自下而上的过程,使用训练数据集进行分类,调节特定的算法实现目标分类,计算机会学习识别数据中的关系、趋势和模式,投资者只需要对识别出的模式进行分析、解释,进而调整。机器学习,特别是人工智能,可以弥补传统思维模式的单一性,提高计算效率,提升数据挖掘的深度和广度。

C    机器学习应用中需要考虑的问题

由于机器学习与传统量化研究的差异,不少投资者在将机器学习应用于实战的过程中遇到了很多问题。笔者认为,这些问题的根源在于使用者对期货投资和机器学习的底层逻辑的理解存在一定偏差。

机器学习是一种工具,在不同的应用场景下,首要问题是工具和场景的底层逻辑是否可以契合、在多大程度上可以契合。如果不能深刻理解这一点,那么再高端的工具都是无用的。工具没有好坏,使用者的理解程度却有高低,投资业绩也必然有所区别。算法只能实现对数据模式的学习,帮助我们去探寻大量数据中隐藏的内在逻辑,无法直接揭示未来行情转化的真正原因,研究人员需要解释:对于模型评价的理由和依据是什么、如何利用从机器学习方法中得到的知识来建立更好的模型、如何理解那些过于复杂而无法建模的部分。综合来看,投资者可能会遇到下面几方面的问题:

市场的随机性问题

从事投资需要回答的问题是:市场数据是不是随机的、在多大程度上是随机的。在金融学领域,随机游走是指基于过去的表现,无法预测将来的发展步骤和方向。对于市场数据随机性的理解是所有分析的关键,随机变量的基本特性必须能在包括未来阶段的一个长时期里维持不变,这是行情预测的基本假设——时间序列的平稳性假设。只有基于平稳时间序列的预测才是有效的。如果数据非平稳,那么作为大样本下统计推断基础的“一致性”要求便被破坏,基于非平稳时间序列的预测也就失效了。换言之,否定了走势的可预测性,意味着所有分析流派、分析工具都是无用的。对于本就没有规则的数据进行学习,就像在没有答案的世界里寻找答案。

根据传统的有效市场假说理论,在完全有效市场,行情完全随机游走,不可预测。而在非有效市场下,市场有不可预测的随机游走部分,获得这部分收益的唯一方式就是靠运气。不过,市场依然有可预测的部分,那就是依靠非公开信息来获得超额收益。如果行情数据完全反映了所有市场信息,那么普通投资者想要获得超额收益,就需要通过数据挖掘的技术方法,从公开的投资历史数据中挖掘出一些有价值的非公开信息,从而找到一定的规律。

“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据绝不是原始数据,而是由原始数据经过特征工程转变为模型的训练数据。特征工程在机器学习中占有非常重要的作用,而特征构建、提取和选择很大程度上都取决于训练者的经验和理解。比如,我们有一堆人类脸部信息数据,需要进行学习并建立算法,实现对于新面孔的性别识别,若选取的是瞳孔颜色这个数据,则计算机自然也能基于训练数据找出这批数据的“规律”,但在面对新面孔的时候,迁移效果无疑比学习“头发长短”“骨骼比例”这类数据的算法学习效果差。这不是算法的问题,而是数据选择的问题。

相关和因果的问题

“相关”和“因果”的关系是期货投资者常常混淆的问题,很多科研论文中也对此表述得不甚清晰。大卫·休谟曾说:“我们无从得知因果之间的关系,只能得知某些事物总是会连结在一起,而这些事物在过去的经验里又是从不曾分开过的。我们并不能看透连结这些事物背后的理性为何,我们只能观察到这些事物的本身,并且发现这些事物总是透过一种经常的连结而被我们在想象中归类。”在逻辑上,两个变量A和B具有相关性,是它们具有因果关系(A→B或者B→A)的前提,如果A和B都是由于同样的原因C引发的C→A并且C→B,那么A和B也会表现出明显的相关性,但并不能推导出A→B或者B→A。在情况变化时,如出现一个对A有强烈影响但对B没有什么影响的因素D,则A和B之间的相关关系可能就会消失。例如,在美国中西部的一个小镇,地方警察局局长发现冰激凌消费量越多,犯罪率就越高,冰激凌消费量和犯罪率呈正相关,但这并不意味着冰激凌消费量的增多导致了犯罪率的上升,更不可能通过减少冰激凌销售量来降低犯罪率。如果冰激凌原料涨价导致其消费量降低,那么原本的相关关系就消失了。甚至有时候,数据的相关关系可能只是“普遍的偶然”——巧合导致的虚假相关。

然而,数据样本量的增加,可能导致统计检验的虚假阳性。由于其强大的数据处理能力,任何数据集合,计算机几乎都能挖掘出其“规律”,其中有多少是基于“噪音”,有多少是基于“信号”,这需要使用者利用自身对于行情的理解和投资经验进行甄别。机器学习对历史数据“噪音”的过度拟合,即模型与参数过度地拟合了样本内的数据,或许把很多“噪音”数据也拟合了,而这些并不能反映数据总体的本质特征,以至于在样本外的数据中拟合效果很差,在量化投资中称为“参数高原”。过度拟合会带来严重后果,这也是为什么有些算法对于历史数据拟合得非常完美,而在实战中的表现却不尽如人意,因为拟合的信息很多都是历史“噪音”,而未来的走势并不是“噪音”决定的。我们能够获取的在统计学意义上互相独立的金融数据非常有限,并很容易出现数据迁就问题。模型的参数越多,策略的规则越多,就越有可能发生过度拟合。解决这个问题的方法是正则化,本质上是牺牲样本内的拟合精度,换取样本外的拟合精度。正则化操作是对于投资者自身经验和投资思想的重大考验,要求投资者对于行情的阶段性、影响因子有深刻理解。否则,正则化会增加实际工作难度,导致拟合程度提升,盈利率却没有提升。笔者认为,正则化的关键是让模型尽量简单。实践证明,真正有效的预测模型,往往都是简单的。

归纳是逆向演绎吗

机器学习和金融技术分析有一个共同的基本假设:归纳是逆向演绎,即通过对于数据(现象)的挖掘,能够发现一般性的规律。也就是说,我们假定规律是存在的。

从逻辑学上来说,演绎需要预先设定规律,再根据逻辑链条推导出结论的必然性,这是一个纯粹理性的过程。请注意,这里所指的规律,它的存在性在于人为假定,甚至可以说“演绎与现实毫无关联,只有当我们相信现实是在一定程度上与这个理想世界相一致的时候,这个演绎推理才可以说是具有现实意义的”。大卫·休谟断言:“运用归纳法的正当性永远不可能从理性上被证明。”从这个意义上来说,机器学习和金融技术分析的基石就是非理性的。

在笔者看来,归纳与演绎的差异在于“规律的确定性”。从现象学归纳出的规律,永远会受到系统外数据(黑天鹅)的影响,而演绎法的规律多建立在已知的数学或者物理学的基础上,一般性较高,确定性可能较归纳法得出的规律高一些,但归根结底,数学、统计学、物理学这些看似牢不可破的规律,也是人为设定的规则,受到人类认识水平的限制,远非“真理”。这就引出了更加底层的逻辑问题:行情是可以被认识的吗?

越过不可知论的绝壁

根据哥德尔定理:在任何一个包含了自然数的形式系统中,一定有不可判定的命题。从这个意义上来说,基于人类规则的一切方法,都无法完全认识事物的本质,因为数字是无限的,“完全”本身就是一种无法达到的理想化状态。因此,康德用不可知的“自在之物”否定本体论的认知可能。也就是说,无论世界的本质是物质的还是精神的,人类终究不可能得到答案。

这样的话,不可知论无疑是横亘在所有科学研究之前的绝壁,因为“相信世界在本质上是有秩序的和可认识的这一信念,是一切科学工作的基础”。要解决这个问题,我们需要明确科学到底是什么。科学的核心在于可证伪性,且科学理论并不等同于真理。人类通过实践,能够创造出不断拓展的认识工具,以弥补人的感觉器官之不足,在有限的观察基础上,通过不断实践形成和发展起来的人的思维活动,具有客观、逻辑、实证、可重复检验等特性。在科学理论的适用范围内,新出现的情况总是不断地验证它的正确性,它本身具有可以在将来被证伪的途径,而一旦被证伪,该理论就被推翻或者加以条件范围进行修正。科学理论不一定永远正确,但它是人类可以依赖的最可靠的知识。

不仅仅是机器学习,在使用任何一种方法进行投资时,行情是高度不确定的,任何理论、方法都是相对的,投资工作的最终目标就是尽力降低这些不确定性,但预测的不确定性是无法被完全抹杀的。机器学习本质上是人类认识世界的一种方法和手段,是我们利用科学技术拓展感官、搭建人类意识与外部客观存在的桥梁,不断用实践试图缩减知觉与行情本性之间的鸿沟,最终创造出某一过程,并使它为我们的目的服务,进而不断缩减我们对这一过程的理解与现象本质之间的差距。至此,康德的不可捉摸的“自在之物”就完结了。此时,这些“自在之物”就变成了“为我之物”。行情研究成功的核心是对市场的深度理解,在这个基础上,才能借助各种人造的认知手段去发现规律,提出有一定现实意义的模型,进而去验证规律。另外,也正是由于承认人类的认知能力有限、个人知识有限、规律不是真理、例外永远会发生,在不断试错的过程中,人们才会懂得尊重和接受其他人的判断和研究,并在此基础上不断优化自己根据已知现象所做出的结论。(作者单位:华安期货)

 

 

 
责任编辑: 马宁
分享到 

期货日报网声明:任何单位和个人,凡在互联网上以商业目的传播《期货日报》社有限公司所属系列媒体相关内容的,必须事先获得《期货日报》社有限公司书面授权,方可使用。

扫描二维码添加《期货日报》官方微信公众号(qhrb168)。提供市场新闻、品种知识干货、高手故事及实盘经验分享……每日发布,全年不休。

关于我们| 广告服务| 发行业务| 联系我们| 版权声明| 合作伙伴| 网站地图

本网站提供之资料或信息,仅供投资者参考,不构成投资建议。
豫公网安备 41010702002005号, 豫ICP备13022189号-1
《期货日报》社有限公司版权所有,未经书面授权禁止使用, Copyright © www.qhrb.com.cn All Rights Reserved 。

返回顶部