路孚特王海明:利用新兴技术与系统工具提升量化投资策略

来源:私募排排网 2019-03-28 08:42:56

摘要
为了探讨新时代新背景下中国私募基金行业发展面临的新机遇新挑战,由深圳市私募基金协会、私募排排网与易方达基金联袂主办第十三届中国(深圳)私募基金高峰论坛于2019年3月21-23日在深圳五洲宾馆隆重举行,本届高峰论坛以“与时进·稳中行·焕新生”为主题,集结诸多国内各类顶尖资产管理机构掌门人及业内知名大

为了探讨新时代新背景下中国私募基金行业发展面临的新机遇新挑战,由深圳市私募基金协会、私募排排网与易方达基金联袂主办第十三届中国(深圳)私募基金高峰论坛于2019年3月21-23日在深圳五洲宾馆隆重举行,本届高峰论坛以“与时进·稳中行·焕新生”为主题,集结诸多国内各类顶尖资产管理机构掌门人及业内知名大咖、资深研究人士共赴盛宴!

路孚特王海明:利用新兴技术与系统工具提升量化投资策略

(路孚特中国区财富管理业务市场开发总监王海明)

会上,路孚特中国区财富管理业务市场开发总监王海明先生发表了精彩演讲,以下为演讲实录:

谢谢主持人,感谢主办方邀请我今天给大家分享。在座各位都是挖金人,我们是帮各位提供工具的,我们作为全球最大的智能信息提供商之一,接下来我给大家做一些介绍,希望有些内容对大家有所启示。

今天我主要讲四块:一是关于我们自己的介绍。二是量化投资的流程与挑战。三是新兴技术的应用和探索。四是另类数据的应用例子。我准备了很多内容,根据大家脸上的表情决定哪些可以快速的略过,哪些详细的解释。

路孚特对大家比较陌生,金融行业应该很熟悉,我们的前身是汤森路透,再之前是路透,之前汤姆森和路透合并成为汤森路透,去年我们被黑石收购55%的股权,现在的股东结构是黑石55%,汤森路透是45%。

我们公司整体的业务主要是做什么?我们在外汇交易是最大的交易平台,超过一半以上的市场份额,每天在我们平台上交易的外汇量日均超过4700亿美元。我们也是全球最大的外汇交易网络,同样也拓展其他领域比如说债券的交易,另外是金融市场、投资、合规、风险、反洗钱等业务。

另外几个点,我们的平台在管理和提供实时、低延时数据方面有领先的优势,记得在英国脱欧和特朗普当选时,我们的聊天系统里传递的信息接近800亿条,我们每天管理的不光是市场数据还有非结构化的数据。

这是我们大概的业务分类,我们独立以后分为五个业务单元:交易、投资与咨询、风险管理、财富管理以及企业级的平台服务。简单介绍一下我们的历史,我们现在可以称为我们是最早的FinTech公司,从1850年开始,我们的创始人开始用飞鸽传递股价,后来随着电缆的发展,我们通过电缆传递股价,我们发布了第一台能在电脑上显示的报价系统,到现在为止大家在电脑和手机上看股票的报价、交易很平常,最早是由于我们发明了StockMaster的系统。这些年我们在这个行业不断的发展和创新,作为独立的公司,我们把自己作为160多年的初创公司的心态继续不断的保持创新和为金融行业提供服务。

第二,我介绍一下新技术领域在金融行业的应用,比如说人工智能、机器学习方面的探索与创新,最早我们投入这方面的投资、研发以及革新的时候,人工智能这个词没有这么火,更多的时候是分项的技术应用。我们最大的驱动来源是我们的客户,客户遇到什么样的挑战,我们通过创新帮我们的客户解决。另外我们通过这些年的人工智能方面投入,我们主要基于现在的这四类技术,首先是机器学习、自然语言处理、知识图谱的构建、文本分析、文本上下供应链上的分析等,帮助我们的客户解决在非结构化数据方面的需求。

因为我们传统上在结构化数据方面有很大的优势,最早在2008年之前,我们收购了一家公司,从事于人工智能、机器学习方面的应用。2009年以后到现在,我们不断通过收购、激发自己内部的创新能力在新技术应用方面做一些创新以及帮助我们的客户提升他们的应用。

我们最终的目的是把路孚特变成一家智能的公司,同样我们给客户提供智能的产品,我们也提供开放式的平台,帮我们的客户变得更智能。我们主要是交易、财富管理、投资咨询以及合规等方面。刚才说了很多自然语言和机器学习的应用,我们首先来看一个趋势,为什么我们要这么做?这是我们和第三方咨询公司和资产管理公司做的调查。

目前来说,大部分的资产管理公司的投资都已经引入了另类数据的应用,我们除了提供传统结构化的数据,现在我们也提供另类数据,帮助我们的用户做投资决策。首先根据调查,排在第一位的是网上抓取的数据应用最高。二是搜索的趋势,举个例子,去年最新款的iPhone新产品发布,利用Google搜索的频次可以预测iPhone最近一代的产品比上一代的产品查询、感兴趣的人群减少了很多,可以预测新款iPhone的销量也不比上一代。根据目前的调查,目前有一半的公司已经采取了另类数据的应用,还有20%计划在12个月内引入另类数据的应用。

同样我们通过系统的比对和调查结合发现了一些有意思的地方,并不是所有的另类数据对所有的投资标的都起作用,从股票上来说,其实有些另类数据是对某些特定的股票起作用。举个例子说,市场的情绪指数,对一些消费品是比较有用的。市场情绪在耐克这只股票的表现比较明显。交通、地理位置和网络流量的观测,可以发现交通和特斯拉的股价有关系,网络的流量与奈飞的股价有联系。

讲了这些技术和应用离不开我们要讲的智能标签系统,智能标签系统在我们公司内部应用了十几年,它的主要作用是把非结构化的文本类信息转化为结构化的信息。比如说PDF或是新闻里的文章,通过打智能标签抽取出关键的信息,分析出上下游的关联关系。比如说公司、人物、事件、地点等信息。与传统数据库结构化的数据结合起来形成关联关系。

路孚特正在新品牌的转换过程中,现在很产品多还是延续汤森路透的名字。每个标的都是唯一的,不管金融产品、公司、地点、事件都有唯一的ID,上市公司的高管也有唯一的ID在这里,在中国不常见,国外有些上市公司的CEO已经把Perm ID印在名片上,一扫就可以知道相关的信息。

这是智能标签体系里涉及到独有的专利,通过这个图大家可以了解,我们通过若干的算法和关联关系、语义分析找出他们真正的关联,和原有结构化数据的关联关系。我们有做可视化在我们的终端产品上有应用,符合知识图谱标准语言的应用可以对接用户的系统,可以处理的文档包括新闻、研究报告、会议的文稿包括上市公司的申报以及客户自有的内容。

这里是一个简单的例子,我们怎么样通过实时的新闻、文件、申报等传统的非结构化的文档分析以后预测未来发生并购可能性的公司以及机会。

这是另外一个例子,通过大量的文本分析可以找出盖茨与巴菲特之间的关联关系,他们之间有哪些公司、哪些标的有直接的关系。

我们所做的知识图谱区别于传统上其他公司的知识图谱,比如说Facebook,他更关注社交层面的网络结构,用户会发他旅游的照片,做了一个很好的菜的照片,分享的都是朋友、同学。领英是基于网络职业的关系,我们做的是基于金融行业的关系、知识图谱。比如说上市公司以及标的和关键人物、事件等。

简单来说,我们所做的知识图谱是这样的结构,我们通过文本分析,分析出结构形成大量的积累知识图谱,新的事件、新闻出现的时候很容易可以触发未来可以和哪些标的、金融产品有关系,价格影响由于机器学习会预测到对价格影响的范围。

比如说税率的涨跌直接影响某些公司产品的价格,进而影响到公司产品的利润,有可能影响到股价。比如说法律诉讼、新产品的发明专利等,也与这个有直接的关系,基于知识图谱的积累很容易找到关联关系,会很容易的在标的金融资产上布局。

这是一个例子,基于我们的机器学习、知识图谱形成我们的价值链、供应链,可以很方便的找到上下游公司的关联关系,而且他们的依赖程度。前段时间美国制裁中国的一家科技公司,同时另外一家美国的上市公司是提供传感器,他的2/3收入是来自于这家公司,也是深圳的一家公司。开盘的时候,美国制裁发生在周末,周一开盘的时候,收入2/3是来自于这家公司,当天因为制裁的原因,股价下跌了64%,可以发现这种关联关系是很精确的。

对于我们来说,我们是创建一个生态体系,我们通过把非结构化的数据通过智能标签体系分析,转化成结构化的数据,用Perm ID形成知识图谱,和结构化的数据做关联形成更深层的关联关系。另外基于我们的知识图谱和客户自己的知识图谱会形成专有的知识图谱,方便用户在量化和投资方面做决策。

这个是我们预测未来并购机会的简单模型示意图,上层是根据若干个公司的事件以及新闻、申报、分析师的研究报告等,这些输入分析以后,根据我们原来历史上以前发生并购的公司、行业的模式预测未来的可能性。我们这里有三类,有价值型的,当时的新闻集团收购道琼斯,还有未来增长性的Oracle收购SUN系统公司。还有不良资产型的摩根大通当时收购贝尔斯登,这些都是不同的类型,通过不同的风格分析可以基于现在发生的事件预测未来可能的并购模式。目前全球每天都会有更新关注2.5万多家上市公司,未来并购的可能性进行预估。

我再简单说一下,通过News、事件怎么发现它的价值?举个例子说,我们从结构化、非结构化是怎么关联的?这是简单的示意图。我们可以举一个例子,invenseuse这家公司的并购新闻,2016年12月9日Reuters News,是路透独家发了新闻以后,随着三条新闻的更新,他的股价不断跳涨的过程。

我们输出的是这种格式,跟做量化和高频交易系统可以直接对接,里面有精确的机器和计算机可以识别的语言,比如说里面有时间点、有涉及到的公司,公司的RIC(路透代码)、股票代码以及发生的事件,路透独家的新闻,发生的事件是一个并购等。

再举一个最近的例子,2018年11月29日,也是我们结构化的新闻输出的效果,我们输出的格式是这样,和前面的例子一样,这家公司的名称、代码,标示是不是路透独家的新闻,谁并购谁之间的关联关系。通过对新闻有一些结构化的分析,输出一些结构化的机器可识别、系统可识别的应用。我们2003年开始做这块业务,若干年来我们不断发展人工智能方面的应用。

这是架构分析的结构图,基本上输出的格式是这样,根据我们的历史库里的表现,分析以后出来的影响和分值,这样可以作为量化模型因子的输入,可以很方便的使用。这是另外一个例子,怎样用机器学习分析文本语言的文件,转化成对公司的信用评分的过程。同样我们可以通过更多的输入综合成一个信用违约、评级风险。这里举一个例子,因为年代比较久远,以前经常拿的例子是雷曼,通过文本挖掘极早的对他信用风险做了向下的提示。这是以前的一个例子,这家公司同样也是在一个月前通过文本分析就能发现它的信用变化,同时评级机构在一个月以后对他的信用做了下调,调成垃圾级别,目前基本上用这几种模型做了分析以后预测一些信用风险,在交易的过程中避免踩到一些雷。

接下来我再举一些例子,我们在市场情绪方面的应用,我们的合作公司,双方一起合作,MarketPsych Indices,他们应用这些数据讲的一些表现,对他们来说带来了更高的收益,时间的关系简单过一下。这是应用在标普500,通过MACD的技术分析。这是布伦特原油上的应用。创始人理查德,皮特森在2016还出了一本书《Trading on Sentiment》,去年年底也出版了中文版,中文名字是《情绪交易密码》,2016年的书中就用市场情绪做原油交易的案例,2018年的时候,这个应用仍然有效,这也是让他很吃惊的一点,一般公开以后都很多类似的因子应用就逐渐失效了,但这个仍然有效。作者5月份会来上海、北京,在北京可能举办见面活动,大家感兴趣的话,基于大数据、市场情绪方面的应用想交流可以留意我们的安排,大概5月中下旬。

这是我们正在跟一些量化的公司,比如像Worldquant 以及AQR在做的合作,帮他们做的一些创新应用方面的尝试,比如通过识别,分析师电话会议CEO怎么回答的,分析师怎么问的,分析出未来潜在的趋势,以及研究报告和结构化文本里可能包含哪些信息。

这是我们非结构化数据方面的提供方式,包括刚才提到的新闻分析,社交媒体的应用、市场情绪、知识图谱等。除了我们非结构化的另类数据,我们有全链的结构化数据提供。所有我们做的创新和应用、在座各位节省你们的时间,提高你们的效率,量化投资70%的时间都是花在数据方面,通过我们的创新、新技术的应用提供结构化的数据、工具帮您节省时间,产品方面我们可以提供全数据源的产品、平台的产品,比如说QAD,数据源和有界面的QA Point,选产品取决于用户的应用场景以及选择。

时点数据,很多数据起效果是在那个时间点,如果后面修正了,修正后的指标没有起到那样的作用,反回去要做策略的回撤用时点数据更能知道数据的有效性,我们提供全套的时点数据。由于时间关系,如果大家感兴趣想了解更多可以跟我交流。

这是我们在全球对不同类型的对冲基金提供不同类型的解决方案,从资金募集到交易前、交易中、交易后,应用到我们和合作伙伴的方案。

由于时间关系,我今天就讲这些,希望对大家有些启发。没有详细讲解的,有什么问题可以跟我私下交流,谢谢大家。


关键字: