电子报
微信公众号

期货日报官方微信公众号

扫描上方二维码关注
微信公众号

微博圈

期货日报官方微博号

扫描上方二维码
关注微博号

实盘赛

大赛官方APP_赢家在线

扫码下载报名参赛

投教
排排网

期货实战排排网微信公众号

扫描上方二维码关注
微信公众号

您所在的位置: 首页>正文

大语言模型在我国商品期货市场的应用

2024-02-04 22:26:05   来源:   作者:张翔 田明祥 胡惟杰 董小千

决策者应综合考虑模型的效果、复杂度等因素

早在20世纪90年代,文本分析技术就已经在金融领域应用,如盈利预测、风险评估等效能,所使用的方法一般是基于分词这类词汇的方法,如词频、主题分类模型、朴素贝叶斯算法等。而其中历史渊源最悠久、最经典的方法便是“词典”方法,Loughran-McDonald词典方法通过使用预先定义的与金融相关的词汇列表,来对文本数据进行分类、计数、评分等操作,从而提取文本中有价值的信息。不过,Loughran-McDonald词典方法的使用存在某些限制,以情绪分析为例,由于这些词典是根据不同预期应用制定的,所以在其他特定领域直接使用时可能会出现不精确的情感评分。

下面基于Huetal.(2023)的文章,我们对大语言模型在我国商品期货市场的应用分析提出以下几点思考:

第一,大语言模型,比如BERT家族或者GPT,更适合中文非结构化数据,特别是文本数据的处理。

大模型是对文字的语义进行学习,预训练与微调分离这种特性使它可以处理不同的文本任务,如分类、阅读理解、生成等一系列任务。现如今,已有大量学者开始探索这些大模型在各自领域应用的可能性,如社会科学、医学科学、专利分类和语言研究等广泛领域。大模型还用于金融子主题,如回报预测、审计、财务数据分析和区块链。

特别是在金融领域的文本情绪方面,与依赖词典的传统方法相比,BERT有诸多优点。首先,BERT可以捕获文本内完整的语义信息,包括多个句子之间的关系和依赖关系,从而更好地理解文本的语义和情感。其次,从媒体中提取与商品相关的情感不依赖于预定的情感词典,并且可以合并相邻(上部和下部)句子中存在的一些语义细微差别,这使得我们构建的情绪模型可以具有更好的可伸缩性和鲁棒性,从而可以有效分析全市场的大体量数据。最后,使用BERT模型进行文本向量化,通过将高维离散向量映射到低维密集空间,从而提取上下文相关信息,有助于防止降维过程中的信息丢失,使我们所得到的信息更加接近原意。

第二,需要对现有网络文本进行一个相对合理科学的抽样方案。

大语言模型说到底是一个机器学习模型,而对机器学习模型的训练与应用,都离不开合理的抽样数据。结合研究经验,我们认为,国内金融衍生品市场文本数据的采样,建议考虑以下几个因素:

一是各媒体网站的发展程度。需同时考量门户网站的新闻发布量与流量问题,以流量为例,我们基于站长之家(权值:百度、移动、搜狗、必应、360、神马)与similarweb两个流量网站,综合考量了各主流网站的流量情况,从而进行相关的采样。

二是新闻的时效性。新闻是具有时效性的,在抽样过程中,应当从今往前,按比例逐年减少,使抽样数据更符合现实要素。

三是新闻所含的信息量。不同类型的新闻所包含的信息量是不同的,以我们所研究的情绪为例,期货日报这一类垂直性网站在新闻的价值上,会比报价性网站更具有信息量,应当给予更高的权重。

四是文本的复杂度。文本的复杂度,是指文本的长度等因素给模型训练带来的压力,如100字的摘要会比1000字的全文来得更有意义。

在实际应用中,综合考量以上因素,可得到一个相对合理科学的抽样方案。

第三,对大模型而言,虽然需要必要的“赛马”,但更重要的是比较不同预训练方法与数据训练的成效。

以中文场景下开源的BERT家族为例,通过不同的数据与方法训练出来的模型也是不同的,这里简单介绍几种Huggingface(大模型领域开源网站)上开源的BERT家族模型。

Bert-base-chinese:该模型是huggingface团队开源的中文语料下按照BERT论文预训练的模型,采用Transformer(一种基于自注意力机制的深度神经网络模型)网络来建立双向预训练模型。

Chinese-roberta-wwm-ext:该模型是哈工大与科大讯飞研究院联合实验室开源在中文语料下采用全词遮掩(Whole Word Masking,WWM)方法进行掩码的稳健优化的BERT模型(A Robustly Optimized BERT RoBERTa)。相比于BERT,除了训练数据与时间的不一样,RoBERTa还去掉了BERT的下一句预测(Next Sentence Prediction,NSP)任务,认为这个任务对语言理解的贡献不大,而且负样本的构造过于简单,容易让模型学习到无关的信息。

Albert-large-chinese-cluecorpussmall:该模型是huggingface上开源的基于UER-py(Universal Encoder Representations)训练的中文场景下的轻量级BERT(A Lite BERT,ALBERT)模型,ALBERT旨在以更小的模型达到和BERT相同的效果,其加入了参数共享机制与嵌入参数因子化来减少模型参数的数量。

Bart-base-chinese:该模型是复旦大学自然语言处理实验室开源的中文语料下训练的兼有双向语言建模和自回归机制的Transformer模型(Bidirectional and Auto-Regressive Transformers,BART)。相对来说,BART其实并不是一个新的模型,因为它使用的结构还是传统的序列到序列(Seq2seq)的Transformer,它是一种针对生成任务而设计的预训练方法,BART的预训练任务是在原始文本序列上加入不同类型的噪声,然后让模型从噪声序列重建原始序列,而BERT的预训练任务是在原始文本序列上随机掩盖一些词,然后让模型预测被掩盖的词。

Chinese-macbert-base:该模型是哈工大与科大讯飞研究院联合实验室开源的中文语料下训练的基于文本纠错的BERT模型(Masked Language Model as correction BERT, MacBERT)。MacBERT是一种改进的BERT,以新颖的纠错型掩码语言模型(Masked Language Model,MLM)作为校正预训练任务,即用相似词或随机词替换原始文本中的一些词,然后让模型从替换后的文本恢复原始文本,减轻了预训练和微调的差异。

Chinese-electra-180g-small-ex-discriminator:该模型是哈工大与科大讯飞研究院联合实验室开源的中文语料下训练的对Encoder高效学习的模型(Ef?ciently Learning an Encoder that Classi?es Token Replacements Accurately, ELECTRA), ELECTRA是谷歌和斯坦福大学发布的一种新预训练模型,与BERT及其变体相比,该模型具有紧凑得多的模型尺寸,ELECTRA使用了替换词检测(Replaced Token Detection,RTD)任务,即用一个掩码语言模型(Masked Language Model,MLM)生成器对输入文本中的一些词进行替换,然后用一个判别器来判断哪些词被替换过,哪些词没有被替换。

我们使用期货市场的新闻作为训练数据,以“新闻情绪分类”为主题,人工标注了4600条样本,进行了相关模型的对比。

图为各模型F1值对比

注1:我们使用F1值作为评分指标。

注2:此处结果仅代表我们当前数据下各个模型的效果。

目前大模型的发展日新月异,仅以BERT为例,便引申出许多不一样的模型,而从实际商品期货市场的文本分析落地上来说,对于这些模型的选择应当从多个方面综合考虑,主要是模型效果、复杂度等方面。因此,我们提出以下几点意见:

一是在模型效果方面,对于商品期货市场的文本分析,更多时候需要一个分类模型,其中最常用的指标是精度、召回率、F1值。F1值是一种用来衡量分类模型精确度的指标,它同时兼顾了分类模型的精确率和召回率,精确率又称查准率,代表了分正类的准确性,召回率又称查全率,代表了所有真实的正例中,我们有多少把握可以预测正确。

二是在模型复杂度方面,一方面要看重模型的微调/训练成本。更大的参数量、更多的训练数据、更多的训练批次等,都意味着更高的训练成本,而在微调时是否采用、怎样采用一定的蒸馏技术,对决策者而言也是一种选择。除了微调,在预训练方面,成本更是高昂。按照最初的BERT论文来计算,简单训练一次BERT模型的价格会在2.5万美元左右(原论文用了64块TPU训练了4天,TPU谷歌云定价为4.2美元/小时),而现今更大的模型意味着更高昂的成本,如2023年7月,Meta公司开源的LLAMA2模型拥有70亿—700亿参数量,在对话场景被公认为效果卓越的代表。不过,落实到金融衍生品市场,市场文本数据具有来源多样化、数据体量大、时频高的特点,且大多为简单文本分类的任务,类似LLAMA2等超大参数量的模型确实具有较优的分类表现,但其成本代价与收益或不成正比。另一方面要看重在模型训练好之后的推理阶段。相比于训练阶段,模型的推理在经济成本和时间成本上相对较低,但比传统词频的方法高出数倍,而推理应用就意味着大数据和普遍性,比如有些文本分析需求对即时性有着很高的要求,这就要求决策者根据最终的任务综合选择合适的模型应用。(作者单位:西南财经大学)

 
责任编辑: 孙亚宁
分享到 

期货日报网声明:任何单位和个人,凡在互联网上以商业目的传播《期货日报》社有限公司所属系列媒体相关内容的,必须事先获得《期货日报》社有限公司书面授权,方可使用。

扫描二维码添加《期货日报》官方微信公众号(qhrb168)。提供市场新闻、品种知识干货、高手故事及实盘经验分享……每日发布,全年不休。

关于我们| 广告服务| 发行业务| 联系我们| 版权声明| 合作伙伴| 网站地图

本网站提供之资料或信息,仅供投资者参考,不构成投资建议。
豫公网安备 41010702002005号, 豫ICP备13022189号-1
《期货日报》社有限公司版权所有,未经书面授权禁止使用, Copyright © www.qhrb.com.cn All Rights Reserved 。

返回顶部