四海资讯
首页 > 财经资讯 > 基金证券

爬虫基金:比CEO还先知道上市公司数据

时间:2018-07-28 18:37:26

全球股票市场正在演化为一个数据战场。

如我们所知,在股票市场中,谁有数据信息优势,谁就具备收获超额收益的可能。

问题是,该如何提前获得数据呢?恐怕多数人首先想到的是内幕信息。

殊不知,通过对公开数据的收集和加工,并应用于投资,也是可以获得这种优势的。

迄今,在以华尔街为中心的全球股票市场中,机构投资者通过网络爬虫技术获取领先数据,进而赢得收益战争的现象已越来越普遍。

就中国市场而言,通过药师的走访调研得知,中国私募机构们运用爬虫技术的现象亦正日趋增多。其中主力,则多为那些此前率先涉事量化交易的私募机构们。

这类爬虫私募是如何运作的,药师这就为你揭示。

爬虫:我只是信息的搬运工

所谓爬虫,是一种能自动获取网页内容,并可以按照指定规则提取相应内容的程序。

用大白话来说,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,把看到的信息背回来。

作为一种常用的收集数据手段,爬虫往往会被数据采集公司,用来搜索出现在公共网站、社交媒体、在线社区、邮件插件上可能有价值的信息。

例如从应用程序和用户评论的下载,到航空公司和酒店通过票务网站接收预订的信息。

爬虫可以跟踪很多东西,从杂货到汽车销售的价格趋势。爬虫可以跟踪很多东西,从杂货到汽车销售的价格趋势。

分析师可以通过抓取消费者网站上产品的评论,来评估新产品的推出和产品生命周期。

下图展示的一家数据公司,不仅提供多家在美上市公司的领先数据,还提供相关的投资分析服务。

包括特斯拉(NASDAQ:TSLA)的库存数据,以及各社交网络上和用户的交互数据。

包括特斯拉(NASDAQ:TSLA)的库存数据,以及各社交网络上和用户的交互数据。

以及,不久前在香港上市的小米(HK:01810)的社交网站的数据。

以及,不久前在香港上市的小米(HK:01810)的社交网站的数据。

当然,这是免费版的界面,相信付费版中提供的内容会更加丰富。当然,这是免费版的界面,相信付费版中提供的内容会更加丰富。

下面这家数据分析公司,更是覆盖多家已经上市的中概股,其中就包括刚刚登陆美股的拼多多(NASDAQ:PDD)的数据。

在一位匿名业内人士看来:“对于爬虫技术而言,难点主要在于反抓取上,被爬取方可能会针对IP、频次、请求习惯等方面做一些分析和限制,也会有图形验证码等人机验证手段防止爬取。”在一位匿名业内人士看来:“对于爬虫技术而言,难点主要在于反抓取上,被爬取方可能会针对IP、频次、请求习惯等方面做一些分析和限制,也会有图形验证码等人机验证手段防止爬取。”

他进一步表示:“其次的难点就不是爬虫的问题了,而在于庞大数据的分析和清洗上,怎么从看似杂乱的数据中分析出自己想要的内容,也是很需要技术含量的。”

比CEO更了解企业运营状况

作为国内较早将爬虫技术应用于投资领域的保银投资,近年来的投资可谓稳扎稳打,收益方面也是节节攀升。

究竟是如何做到上述这些的?基金经理李墨给出了答案。

“为了有效紧密跟踪交易性机会,充分寻找上市公司各类蛛丝马迹,目的是做到比CEO更了解财务状况,也比CFO更了解运营情况。首先要做的,就是设置互联网爬虫系统紧密各类数据和信息。”保银投资基金经理李墨表示。

具体来看,观察产品价格背后的供需情况,以酒店为例,经济型酒店房价处于动态变化,经营者根据入住情况不断调整价格。因此,可以从线上预定网站或线下渠道,了解客源情况,并做进一步微观信息挖掘,深度了解运营能力。

通过类似这样的数据分析,就容易找到行业内公司间的差异性,通过运用股票多空策略,就可以实现较为稳健的获利。

“比如说做多招行(SH:600036)做空农行(SH:601288),那么只要招行比农行跌的少,我就能赚钱。招行比工行农行涨得多也赚钱,招行比农行好这件事情大概率是比较确定的。”保银投资副总裁马表示。

类似的例子,还有做多吉利汽车(HK:00175),做空长城汽车(601633,股吧)(HK:02333)。

超额收益的来源:政策和情绪

超额收益的来源:政策和情绪

“对于具有典型政策市特征的中国股市而言,通过对官媒信息的有效分析,有助于判断国家政策变化。”某量化私募人士透露。

“以计划生育政策为例,通过对独生子女政策在官媒上出现频率的跟踪,有助于预测政策变化。”上述人士进一步表示。

“另外,个人投资者情绪的准确捕捉,对投资中国A股市场也至关重要。对社交媒体的有效分析,是获得中国A股超额收益的关键,因为个人投资者占据了A股市场很大一部分的交易量。”上述人士透露。“另外,个人投资者情绪的准确捕捉,对投资中国A股市场也至关重要。对社交媒体的有效分析,是获得中国A股超额收益的关键,因为个人投资者占据了A股市场很大一部分的交易量。”上述人士透露。

他进一步表示:“我们每月都会通过爬虫抓取超过200万篇的股评文章,从‘股吧’中每天读取约10万个帖子信息,用于观察个人投资者情绪。发现个人投资者在网络上所发布的相关股票信息,可用于对相关股票未来收益的预测。”

“具体来看,高度活跃的股票信息交流,通常预示着相反的市场走势;持续一致的积极观点,预示着潜在的市场高预期表现。”上述量化私募人士解释道。

爬虫:私募超额收益的下一个来源

华尔街对于超额收益的追求从来没有停下过脚步,在过去的150年中,超额收益的来源平均每10至20年就要变化一次。华尔街对于超额收益的追求从来没有停下过脚步,在过去的150年中,超额收益的来源平均每10至20年就要变化一次。

在20世纪50年代,最初的对冲基金发明了股票多空策略;

在20世纪80年代,数学和计算机比手持式计算器更具优势;

在21世纪初,超额收益来源于高频交易。

这些策略或工具,一度让那些能够首先使用它们的人比其他人更有优势。

但随着它们变得越来越普遍,它们的优势消失了,投资者不得不寻找新的策略工具。

目前看来,“爬虫”当道的今天,使用那些由海量数据掩盖下的独特、领先信息,或将成为私募超额收益的下一个来源。

本文首发于微信公众号:阿尔法工场。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

  • 上一篇:基金周评:基金超八成上涨 本周再现混基净值暴涨
  • 下一篇:二季度整体亏损近475亿元 公募“喝酒吃药”抱团取暖