主题:回覆本嘉明兄:對台灣現況與民情的分析 -- aiguille
大数据,从零开始,一下子成为国家级产业项目
大数据的硬件基础是GPU、多核cpu,国内非常不靠谱,目前连486、z80都做不出,前几天天河二号不是爆出40%的负载事件.
软件,并行程序设计,全世界都刚起步,完全黑暗期,
大数据的核心是数据分析,基于人工智能、机器数据的智能化数据分析
说白了,就是AI人工智能技术,AI这块,美国从六七十年代起步,日本九十年代纳入国家战略
至今,美国在人工智能方面的持续研究,超过了六十年,日本也超过了三十年,可是还是处于v0.1版,黑暗期
以国内目前的IT技术水准,零基础,想一下子超过别人几十年的研究,就是全体人员集体吃伟哥,也没有用,
赶英超美,理想是好的,现实真心太残酷
不要说大数据、AI人工智能,这些高大上的东西
就连最基本的linux,100%开源的,有全部源程序,国内真心能够看懂核心模块的专家,不会超过一百人
就连带军方背景、实力最强的麒麟系统,不过也就是ubuntu的汉化版而已
新核能源,中国至少是全球五强,国内才16个(??)试点,
大数据,要做,政府搞几家、甚至几十家企业就可以了,作为国家级项目,真心“亚历山大”
国内玩大数据,最好的是阿里淘宝,因为他们有源数据,
余额宝的收益,早期,不过是因为阿里数据源不开放、其他基金嫌麻烦,再加上互联网企业贴本吆喝、花钱买客户的传统,表面收益貌似蛮高。
等行业稳定下来,目前余额宝的收益,也和行业其他基金差不多,
至于所谓的提前半年,一年,根据阿里大数据,布局股市,获得70-80%的高额收益,这种案例纯是扯淡
从职业操守而言,不过是内幕交易,
完全不需要大数据,哪些三线城市、乡政府的官员,根据规划局的预案,强行拆迁买卖房产,收益比这个高N倍,百度一下案例大把
天河二号事件,虽然与技术无关,但反映出的问题是,相关产业链非常不靠谱。
如果当年,还是邓小平时代,讲银河作为国家核心产业扶持,也许,天河这块可以与核弹并驾,其他产业可能还是一清二白。
天河从银河开始,做了几十年,产业化还是这个水准,
大数据,从零开始,什么都没有,就作为国家级产业,凭什么?
大数据、趋势与黑天鹅
大数据的核心是关联算法,抓主流,分析趋势,一般取95%的置信度,
问题是,真正有价值的恰恰是哪些5%,我们在实际分析时发现:黑天鹅才是新常态
现在(2015) 黑天鹅才是新常态
看看:石油价格 瑞士法郎 日元升值 光大砸盘黄金狂跌
全部没节操 没下限
参见《大数据与黑天鹅等》
07年我就开始做舆情,而且采用的是智能语义分析模式,应该是国内最早的,
基本是原创代码,后来检索资料,发现政府招标,并且有总参参与,就主动放弃了
也接触一些机构,包括广东省宣传部相关人员和深圳专业的舆情分析公司(类似香港的第三方民间评估机构)
因为这块太敏感,而且个人不喜欢与政府机构合作,政府部门往往多破坏,少建设
后信息时代,创意经济,个人的主动性非常重要,甚至是第一位的,
这个才是欧美目前真正的核心竞争力,国内政府必须认真解决这块,才能提升全体国民、企业的竞争力
参见《当代TG人的“异化”》链接出处
黑天鹅才是新常态
真正做大数据分析,和看报告是不同的,做研究,尽量使用第一手的资料和数据,转手越多,数据污染越严重。
目前大数据用的比较成熟的有三块:互联网广告分析、机器翻译、量化投资
因为项目需要,早期我做过原创的ocr代码,这个图像分析、模式匹配、人工智能是基本功
早在99年,就开始用语句库、统计模式做英语翻译软件,比谷歌还早几年,素材是电影的双语字幕,当时就有百万级的语料库,国内同期的北师大等项目,不过几十万,
后来因为资源和课题发现,没做这块,附带出版了一套《魔鬼英语》教材,
对于普通人而言,想把握目前大数据、人工智能的发展程度,看看百度、谷歌的中英翻译网页就可以,随便找段英文,机器翻译下,
这个翻译水平,降低一个数量级,差不多就是当前大数据、人工智能的实际水平
这几年,做量化投资方面的数据分析,越做越发现:黑天鹅才是新常态
为什么混沌理论,是量化投资的基础理论?
因为市场是双向的,任何机构、个人,通过数据分析,进行决策,参与市场
对市场是会有干扰的,人少还好办,人一多,整个市场就乱套了
在所有的股票数据中,早期,macd是比较科学的,也是非常有效的
当大家都用macd指标,作为投资参考,
完蛋了,不是一只蝴蝶,而是所有人都成为了蝴蝶
整个市场数据,完全被污染,macd也成为无效指标
所以说:人人都大数据,就人人都没数据
现在的投行标配,全部是交易员自己写代码,将策略直接程序化,
尽管如此,即使100%保密,因为每家头行都以亿美元为起点,对市场影响也是超级“蝴蝶效应”,造成很多策略都是一次性的
大数据与死数据
据说,汶川地震,药物管理问题,刺激了政府大数据战略,这个实际上,是有很大问题的
首先,这个模式类似macd指标,有效性,是建立在数据库封闭基础上的,只有政府和少数关联企业可以使用,普通企业、个人,没有权限使用这个数据库的,
如果大家都能使用这个数据库,百度一下,分析汶川缺少板蓝根,大小老板、甚至个人投资者,全体板蓝根,几天后,汶川会成为全国、甚至地球上板蓝根密度最高的地区,
这个“姜你军”要涨价,“蒜你狠”不折腾,已经有过案例,
资本的力量是无法阻挡的,即使政府限制,关系企业,有关人士,也会拿到相关权限,这个毕竟只是商业数据,保密权限不可能很高,“SSS”级,和二炮一个级别
淘宝余额宝,也是一个类似的案例,早期,阿里数据源不开放、其他基金嫌麻烦,再加上互联网企业贴本吆喝、花钱买客户的传统,表面收益貌似蛮高。
等行业稳定下来,目前余额宝的收益,也和行业其他基金差不多,
这种趋势,不过是价格二元化,在大数据行业的复制,与政府改革开放的出发点是相悖的
互联网的基础是:open(开放)+free(免费),基于互联网的大数据产业,如果违背这个基础,只能是空中楼阁
这种管制模式的大数据产业,越发展,对整体经济损伤越大。
首先,少数权贵部门和企业,从资本、原料等方面的垄断,会延伸到数据方面的垄断,获得不当利益,
而广大普通企业、个人,却因为受限于数据,无法进行正确的商业决策、个人投资,社会的二元化分割更加严重,
这个,看看现在的房屋数据库,始终无法进行全民查询
这里多说一句,政府与其,梦想通过大数据,建立2.0版本的1984社会,不如管好全国四百个城市的局级以上官员,毕竟这个才几十万数量级
如果连几十万数量级的中高官员,而且绝大部分是党员,都无法有效管理,希望利用大数据,来管理十亿级的民众,只能是。。。。。。
其次,数据与资本、原料、设备不同,一个邮件,一张U盘,就可以将涉及全体国民的数据暴露给国外敌对机构
发达国家的模式是,除极少数敏感数据库外,普通数据基本免费开放,全民共享,这样才能全体国民受益,减少数据事故,减少数据意外事故,对普通企业、个人的冲击
更多参见《大数据与死数据》
200万亿数据只是小case
政府主打的阿里健康,起点是汶川药品管理,数据库据说有200万亿条纪录
这个数据规模大吗?
实际上很少,药品数据库,不过是名称、价格、厂家等几十个字段,而且基本是结构化数据。
1G大约10亿直接,结构化数据,200万亿,每条50字节,不过是1000G(1T),1T的硬盘,才2-300元。
这个规模,比我们做2000年,做字模时少多了,
国标2级是每套字库6700多个汉字,按256x256像素采样,每个汉字128k(64k x 2)字节数据,一套字模差不多700M(兆)
字模的筛选率是百分之一,每套合格字模,需要处理70G的数据。
可能,黑天鹅算法最早的灵感和萌芽,就是不经意间源自这里。
2000年,我们做“千禧版”版权登记,共一千套字体,数据总量超过1000x70G=70T,是阿里健康的七十倍。
当时没有超算,没有GPU,我们是几台电脑,每天24小时运算,差不多半年才做完。
其实,早在92年,我们180款的字模,数据量就差不多20T,是阿里健康的二十倍。
那时候dvd刚问世,刚开始只有视频dvd,没有电脑的,我还特意去广州海印xx公司看过了dvd演示效果
在大数据领域,200万亿数据,只是小case
吓唬外行有用,一线的,再多数据,不过是多几个索引表而已,而且现代k-v表,全部采用hash算法,与数据规模关系不大。
与百度、新浪微博、微信、淘宝等机构,建立实时的API数据接口,进行元数据搜索,作为一个参照维度。
摘自《大数据和高频量化交易》
可惜,这些因为公司利益,政策等原因,在国内目前基本无法操作
而国外,基于社会化数据的投资策略,已经出现N多模式
更多参见《大数据与死数据》
大数据与数据干扰
政府大数据项目的一个“G点”,是舆情监控
通过QQ纪录、微信关键词的确,可以进行一定程度的舆情监控,公共事件管理
但是,真正的破坏者,例如敌方,恐怖分子,异议者,可以用很低的成本干扰数据源
《机器之心》里面,杀手采用口红大小喷剂,就可以屏蔽摄像头的人脸拍摄
《大数据与史上最强网络推广个案:hp笔记本》链接出处
也提到,如何通过软件,提升关键词比重10%-50%,这个很多seo教材都有
关键是,这个成本很低,稍微在网络下载一些hack教材,只需要一台笔记本,就可以控制成千上万台肉鸡,进行干扰信息发布
hack违法,没关系,买套群发软件,买几台二手电脑(五百元的主机级ok),一根网线,几千元,就可以搭建全部硬件
验证码,没关系,云打码,完全人工识别,准确率99%
IP限制,没关系,vpn每个月十块钱,上千个IP地址,全世界都有
......
- 相关回复 上下关系8
压缩 4 层
🙂谢谢 2 larryxin 字296 2015-05-29 09:24:42
🙂基于大数据的量化投资、股市系统,验收标准, zw 字204 2015-05-26 04:04:04
🙂多谢! 格瑞斯华尔德 字0 2015-05-25 15:23:01
🙂真心不看好大数据产业化,吃伟哥都没用
🙂大数据、趋势与黑天鹅 4 zw 字6798 2015-05-26 13:45:36
🙂对某些人能证券化多圈钱就是胜利 迷途笨狼 字0 2015-05-25 11:01:42
🙂【天河二号不是爆出……负载事件】 你是怎么理解这句话的? 5 真理 字628 2015-05-23 20:21:15
🙂天河二号事件,虽然与技术无关,但反映出的问题是,相关产业 1 zw 字34 2015-05-24 03:37:41