伍治坚：ChatGPT能战胜市场么？

2023-04-28 05:39:47互联网人工智能投资炒股

如果用ChatGPT去炒股，能不能帮我们获得更好的投资回报，甚至战胜市场？

文丨伍治坚

在过去几个月中，人工智能和ChatGPT成为互联网上最热门的话题之一。很多人都在讨论ChatGPT会颠覆哪些行业，让多少人失业。很自然的，也有不少人会想到：如果用ChatGPT去炒股，能不能帮我们获得更好的投资回报，甚至战胜市场？用人工智能来提高投资的胜率，并不是什么新鲜的想法，事实上早在几十年前就已经开始。在对冲基金行业，有不少公司和基金经理专注于量化投资。量化投资领域里，有一些基金基于机器学习（Machine Learning）设计投资策略。机器学习就是一种典型的人工智能，并且已经在投资领域被实践多年。举例来说，2017年年底，创新工场创始人李开复在其主题演讲《人工智能四波浪潮与机会》中说道：有了人工智能以后，它可以去计算哪些中国股票搭配起来跟哪些欧洲、美国股票应该是可以对冲的，它可以判断任何市场有任何不平衡的地方，它可以利用现在人民币换美金的交易障碍，来做更好的对冲，或者它可以判断怎么样能够最优化你该买什么样的股票。过去两年其实我已经没有做任何的个人投资了，我也不把钱交给人了，我现在所有新生产出来的钱都交给机器处理，人已经不能再管理我的钱了，因为人打不过机器，这是非常明确的事情，我们个人投资的这些基金不太好意思分享回报率，回报是不低的，然后是零风险的，它每一天晚上结帐，我可以看到钱全部都卖掉回来了。那么问题来了，以人工智能算法为核心的基金，是否真能做到像李开复所说的：零风险，日结账，高回报呢？要回答这个问题，我们首先要搞清楚，什么是机器学习？大致来讲，机器学习可以被分为两种：有人管的机器学习（Supervised Machine Learning）和没人管的机器学习（Unsupervised Machine Learning）。有人管的机器学习，是指工程师来定义研究的变量。这种“机器学习”，其实和传统意义上的量化交易策略研究没有多大区别。很多这样的机器学习，用的还是最小二乘法（OLS）和主成分分析（PCA）这样的统计方法，而这些统计方法至少已经被用了几十年。这样的“机器学习”被放上“人工智能”的标签，主要就是为了追求一个噱头，在营销上让人产生高科技的错觉。真正有技术含量的，是没人管的机器学习。在这种机器学习中，电脑程序自己选择最优的变量进行分析和计算。这是真正尖端的人工智能领域，对数据处理和计算能力要求非常高，目前仅在高频交易领域有一些尝试性的应用。为什么仅在高频交易领域有初步的应用呢？这是因为，人工智能在任何领域应用的一大前提，就是有海量数据。在同一个演讲中，李开复谈到：AI其实特别关键的就是大量的数据，有了数据...就都可以做了，没有数据是不可能的。为什么需要海量数据？这是因为，人工智能和机器学习的本质，就是数据挖掘。数据挖掘的意思，就是基于海量的数据，去找出一些不为大家所知的规律，并且期望该规律在未来继续管用。如果没有海量的数据，你还去挖掘什么？没东西可挖呀。用科学的语言来讲，如果数据量不够，那么总结出来的任何规律，都是基于小样本的特殊情况，未来继续重复管用的可能性不大。和其他行业相比，金融市场的数据量，恰恰少得可怜。以全世界数据量最丰富的美国市场为例。比较高质量的美国股市价格历史数据，也就60年左右。再往前推，数据质量就残缺不全或者准确性不够。假设以月回报为单位进行研究的话，60年历史一共就700多个数据样本，显然太少。即使把研究单位改到日回报，一共也就15,000个左右的数据样本。我们再看上市公司的财报数据。美国有差不多4000个上市公司。假设每个公司都有高质量的季报，往回走60年，数据量大约是 4000 X 60 X 4 = 96万。这样的样本量，还是离人工智能的要求差远了。与之相对比，ChatGPT覆盖的数据量，大约为1750亿个变量，涵盖了过去几十年，甚至是百年的文本和资料。两相比较之下，我们就能看到将相同的人工智能技术用于投资的挑战之一。有些人会说，我可以拿每天/每小时/每分钟的数据，这样数据量就大了。或者我横向增加测试的变量，这样也能增加样本量。话虽不错，但问题在于数据的频度越高，噪音也越大。变量之间的交叉度越高，相关系数也越高，因此得出的结论，也越不可靠。在量化金融研究中，码农最容易犯的错误，就是忽略经济逻辑去做数据挖掘。在一大堆没有意义的数据中，你不断折腾，总能找出个貌似有用的投资策略来。但如果背后没有符合逻辑的经济原因去支撑，那这种发现就毫无意义。举例来说，有美国学者（Chordia et al, 2017）在检验了210万个不同的股票投资策略后，发现其中只有17个策略通过了统计检验标准，显示其可能有效。在这个例子中，发现真正有效的投资策略的概率，为17/210万=0.0008%！换句话说，在210万个投资策略中，超过209.99万个都是无效的。除了数据样本量不够之外，人工智能应用于投资的第二个挑战在于，金融市场里信息和回报之间的因果关系并不是那么清晰和容易分辨。举例来说，某一只股票在过去三个月里上涨了20%，那么导致其股价上涨的原因有哪些呢？可能有公司的盈利变化、公司所在行业的供需变化、公司所在国家的宏观政策、公司所在国家的货币汇率、整个股市的投资者情绪、其他国家的央行政策等等。其中每个因素都可能对股价产生影响，也可能未必产生影响。或者其中一些因素，在某个时点某个场合，确实对股价产生实质性影响，属于有效信息。但在另外一个时间点，却对股价毫无影响，属于噪音。那么我们如何让机器去学习分辨，在什么样的场合下，哪些是有效信息，哪些是噪音？这恰恰是把人工智能运用于投资的最难点。如果不能把这个问题解决，那么这样的机器就不够智能，因此也无法持续给投资者带来超额回报。第三个挑战在于，金融市场说到底是由人组成的，其本质是人的心理和行为。金融市场上的那些股价或者债券价格，只是一个数字表象，背后反映的其实是人们对于股权、房地产或者债权的期望回报。因此对于金融市场的预测，本质上是对众人行为和心理的预测。问题在于，众人的行为模式可预测么？比如假设我们再发生以此类似于2008年的次贷危机，各国政府和众央行还会以相同的方式来应对危机么？股票和债券市场中的投资者们还会以相同的态度做出反应么？事实上我们几乎可以断定，因为人类有记忆，自命不凡，对自己的能力过分自信，但同时经常受到贪婪和恐惧的情绪影响，因此我们经常会做出连自己都觉得不可思议的非理性决策，这也使得由人组成的市场缺乏一致性，因此而变幻莫测，难以预料。综合以上几点，要想把ChatGPT为代表的人工智能用于投资来获得持续的超额回报，还有很长一段路要走。当然，这并不意味着投资和计算机决策互不兼容。事实上即使是最老派的基本面基金经理，也会大量用到量化和数据模型来提高自己决策的质量。但这和完全摆脱人，让机器代替人做所有的投资决策，并且做到零风险和高回报还是很不一样的。未来能否做到这一点，值得我们继续关注。

参考资料：

Chordia, Tarun, Amit Goyal, and Alessio Saretto, p-Hacking: Evidence from Two Million Trading Strategies. Swiss Finance Institute Research Paper No. 17-37, 2017.Robert Arnott, Campbell Harvey, and Harry Markowitz, A Backtesting Protocol in the Era of Machine Learning, Nov 2018.

本文仅代表作者观点

作者系新加坡五福资本CEO

文章来源：FT中文网

上一篇：浙江义乌是如何富起来的？

下一篇：崂山可乐魏华磊：做可乐品类艰难，欢迎有更多口味给消费者选择

伍治坚：ChatGPT能战胜市场么？

相关推荐

相关内容