近期网站停站换新具体说明
按以上说明时间，延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间

主题：回覆本嘉明兄:對台灣現況與民情的分析 -- aiguille

共:💬561 🌺6169 🌵19

老大河待整

分页树展主题 · 全看首页上页下页末页

- - - - 复葡萄不用想那么多
        家园 宝推科技狗
      - 复数字化
        家园 想拜读您“根据大数据提取的分析思路应用在股市收益那篇
        想拜读您《根据阿里大数据工作流程教材中提取的分析思路应用在股市收益》那篇，但是在下才拙，居然没找到。恳请您分享一下那篇的链接。
        复想拜读您“根据大数据提取的分析思路应用在股市收益那篇
        家园 不神秘
        教材本身很简单。但是打动我的是矩阵图，说清楚了从数据采样，到模式识别，到数据挖掘最后数据分析的量化中权重关系。你有心，不妨在流程中哪怕改变这四者关系的先后秩序，得到结果也会很不一样。更别说对工作效率的改变了。
        具体案例分析，恰好有茶馆高手根据我在证经板块红包帖子一文中对我的散落在楼中碎片分析进行模式识别。看到他精彩分析，我提供了最近两周的基于他大体分析出来的模式识别架构中挖掘信息并做数据分析的操作思路，样本与操作方式。（注意具体写的操盘有特定条件约束只以最近两周为限制，因为相当激进未必适合以后时间段。如果简单照搬，短期震荡调整里很难不出问题）对比我的回复，毕竟我是新手半桶水水平，那个对我进行模式识别分析的人更老练与实用。你可以多请教他。这后一段是基于流程的案例考虑来提供的。相关讨论，在45和46页的样子。希望可以对你有所帮助。
        复不神秘
        家园 找不到连接啊
        被删了吗，我也想看下，这个思路很不错
        用大数据分析股市的模式识别
        能在发下吗
        复找不到连接啊
        家园 最近两周操作特点
        总结在茶馆，一个标题有发红包的帖子里。你倒过来看，关于模式识别的在46页面可以看到。(手机版本不一样)一家之言，新手总结复盘，未必正确。留下那些心得是让讨论的人体会，数据分析流程的我的实践。我希望由此可以改变很多人在工作学习上的流程安排，早日契合我确定不可避免到来的大数据社会重组的到来并以此获得自己工作生活改变的机会。在这里，不同步类似信息是因为这里多数自负的理科生还确定他们眼里的世界不会改变甚至没有改变。然后，让时间来检验，也许我对也许他们正确。每个人都有自己选择的权力不是么。
        通宝推：muqi,
        复最近两周操作特点
        家园谢谢
        学习了
        从2年前我就开始研究这一块，至于国内的搜索到的资料大概从7,8年前就有相关的资料了，基本原理就是根据以往的运行模式来预测今后的走势，要编程实现的，消息驱动也是当中的一块，具体有谁在做不知道，听说在国内市场策略已经进化好几轮了，很多公司都在研究这一块，现在就是快鱼吃慢鱼了，国内应该叫量化投资吧
        复不神秘
        家园 基于大数据的量化投资、股市系统，验收标准，
        基于大数据的量化投资、股市系统，验收标准，
        摘自QQ对话
        注意下盈利参数V，其他都是技术细节
        目前大盘整体波动大，要和大盘平均指数比，不然没有意义
        另外，注意稳定性，取2-3个月的周平均指数，看看系统模型有没有bug
        复不神秘
        家园 多谢！
      - 复数字化
        家园 真心不看好大数据产业化，吃伟哥都没用
        大数据，从零开始，一下子成为国家级产业项目
        大数据的硬件基础是GPU、多核cpu，国内非常不靠谱，目前连486、z80都做不出，前几天天河二号不是爆出40%的负载事件.
        软件，并行程序设计，全世界都刚起步，完全黑暗期，
        大数据的核心是数据分析，基于人工智能、机器数据的智能化数据分析
        说白了，就是AI人工智能技术，AI这块，美国从六七十年代起步，日本九十年代纳入国家战略
        至今，美国在人工智能方面的持续研究，超过了六十年，日本也超过了三十年，可是还是处于v0.1版，黑暗期
        以国内目前的IT技术水准，零基础，想一下子超过别人几十年的研究，就是全体人员集体吃伟哥，也没有用，
        赶英超美，理想是好的，现实真心太残酷
        不要说大数据、AI人工智能，这些高大上的东西
        就连最基本的linux，100%开源的，有全部源程序，国内真心能够看懂核心模块的专家，不会超过一百人
        就连带军方背景、实力最强的麒麟系统，不过也就是ubuntu的汉化版而已
        新核能源，中国至少是全球五强，国内才16个（？？）试点，
        大数据，要做，政府搞几家、甚至几十家企业就可以了，作为国家级项目，真心“亚历山大”
        国内玩大数据，最好的是阿里淘宝，因为他们有源数据，
        余额宝的收益，早期，不过是因为阿里数据源不开放、其他基金嫌麻烦，再加上互联网企业贴本吆喝、花钱买客户的传统，表面收益貌似蛮高。
        等行业稳定下来，目前余额宝的收益，也和行业其他基金差不多，
        至于所谓的提前半年，一年，根据阿里大数据，布局股市，获得70-80%的高额收益，这种案例纯是扯淡
        从职业操守而言，不过是内幕交易，
        完全不需要大数据，哪些三线城市、乡政府的官员，根据规划局的预案，强行拆迁买卖房产，收益比这个高N倍，百度一下案例大把
        至于国内政府大数据的小九九，不过是：什么黑客帝国、1984之类的，
        这个解决好《当代TG人的“异化”》，再谈大数据吧
        链接出处
        摘自《人工智能永远差500年》链接出处
        天河二号事件，虽然与技术无关，但反映出的问题是，相关产业链非常不靠谱。
        如果当年，还是邓小平时代，讲银河作为国家核心产业扶持，也许，天河这块可以与核弹并驾，其他产业可能还是一清二白。
        天河从银河开始，做了几十年，产业化还是这个水准，
        大数据，从零开始，什么都没有，就作为国家级产业，凭什么？
        大数据、趋势与黑天鹅
        大数据的核心是关联算法，抓主流，分析趋势，一般取95%的置信度，
        问题是，真正有价值的恰恰是哪些5%，我们在实际分析时发现：黑天鹅才是新常态
        金融市场大家都是大数据会反向干扰态势的
        现在（2015）黑天鹅才是新常态
        看看：石油价格瑞士法郎日元升值光大砸盘黄金狂跌
        全部没节操没下限
        参见《大数据与黑天鹅等》
        外链出处
        07年我就开始做舆情，而且采用的是智能语义分析模式，应该是国内最早的，
        基本是原创代码，后来检索资料，发现政府招标，并且有总参参与，就主动放弃了
        也接触一些机构，包括广东省宣传部相关人员和深圳专业的舆情分析公司（类似香港的第三方民间评估机构）
        因为这块太敏感，而且个人不喜欢与政府机构合作，政府部门往往多破坏，少建设
        后信息时代，创意经济，个人的主动性非常重要，甚至是第一位的，
        这个才是欧美目前真正的核心竞争力，国内政府必须认真解决这块，才能提升全体国民、企业的竞争力
        参见《当代TG人的“异化”》链接出处
        黑天鹅才是新常态
        真正做大数据分析，和看报告是不同的，做研究，尽量使用第一手的资料和数据，转手越多，数据污染越严重。
        目前大数据用的比较成熟的有三块：互联网广告分析、机器翻译、量化投资
        因为项目需要，早期我做过原创的ocr代码，这个图像分析、模式匹配、人工智能是基本功
        早在99年，就开始用语句库、统计模式做英语翻译软件，比谷歌还早几年，素材是电影的双语字幕，当时就有百万级的语料库，国内同期的北师大等项目，不过几十万，
        后来因为资源和课题发现，没做这块，附带出版了一套《魔鬼英语》教材，
        对于普通人而言，想把握目前大数据、人工智能的发展程度，看看百度、谷歌的中英翻译网页就可以，随便找段英文，机器翻译下，
        这个翻译水平，降低一个数量级，差不多就是当前大数据、人工智能的实际水平
        这几年，做量化投资方面的数据分析，越做越发现：黑天鹅才是新常态
        为什么混沌理论，是量化投资的基础理论？
        因为市场是双向的，任何机构、个人，通过数据分析，进行决策，参与市场
        对市场是会有干扰的，人少还好办，人一多，整个市场就乱套了
        在所有的股票数据中，早期，macd是比较科学的，也是非常有效的
        当大家都用macd指标，作为投资参考，
        完蛋了，不是一只蝴蝶，而是所有人都成为了蝴蝶
        整个市场数据，完全被污染，macd也成为无效指标
        所以说：人人都大数据，就人人都没数据
        现在的投行标配，全部是交易员自己写代码，将策略直接程序化，
        尽管如此，即使100%保密，因为每家头行都以亿美元为起点，对市场影响也是超级“蝴蝶效应”，造成很多策略都是一次性的
        大数据与死数据
        据说，汶川地震，药物管理问题，刺激了政府大数据战略，这个实际上，是有很大问题的
        首先，这个模式类似macd指标，有效性，是建立在数据库封闭基础上的，只有政府和少数关联企业可以使用，普通企业、个人，没有权限使用这个数据库的，
        如果大家都能使用这个数据库，百度一下，分析汶川缺少板蓝根，大小老板、甚至个人投资者，全体板蓝根，几天后，汶川会成为全国、甚至地球上板蓝根密度最高的地区，
        这个“姜你军”要涨价,“蒜你狠”不折腾，已经有过案例，
        资本的力量是无法阻挡的，即使政府限制，关系企业，有关人士，也会拿到相关权限，这个毕竟只是商业数据，保密权限不可能很高，“SSS”级，和二炮一个级别
        淘宝余额宝，也是一个类似的案例，早期，阿里数据源不开放、其他基金嫌麻烦，再加上互联网企业贴本吆喝、花钱买客户的传统，表面收益貌似蛮高。
        等行业稳定下来，目前余额宝的收益，也和行业其他基金差不多，
        这种趋势，不过是价格二元化，在大数据行业的复制，与政府改革开放的出发点是相悖的
        互联网的基础是：open（开放）+free（免费），基于互联网的大数据产业，如果违背这个基础，只能是空中楼阁
        这种管制模式的大数据产业，越发展，对整体经济损伤越大。
        首先，少数权贵部门和企业，从资本、原料等方面的垄断，会延伸到数据方面的垄断，获得不当利益，
        而广大普通企业、个人，却因为受限于数据，无法进行正确的商业决策、个人投资，社会的二元化分割更加严重，
        这个，看看现在的房屋数据库，始终无法进行全民查询
        这里多说一句，政府与其，梦想通过大数据，建立2.0版本的1984社会，不如管好全国四百个城市的局级以上官员，毕竟这个才几十万数量级
        如果连几十万数量级的中高官员，而且绝大部分是党员，都无法有效管理，希望利用大数据，来管理十亿级的民众，只能是。。。。。。
        其次，数据与资本、原料、设备不同，一个邮件，一张U盘，就可以将涉及全体国民的数据暴露给国外敌对机构
        发达国家的模式是，除极少数敏感数据库外，普通数据基本免费开放，全民共享，这样才能全体国民受益，减少数据事故，减少数据意外事故，对普通企业、个人的冲击
        更多参见《大数据与死数据》
        外链出处
        200万亿数据只是小case
        政府主打的阿里健康，起点是汶川药品管理，数据库据说有200万亿条纪录
        这个数据规模大吗？
        实际上很少，药品数据库，不过是名称、价格、厂家等几十个字段，而且基本是结构化数据。
        1G大约10亿直接，结构化数据，200万亿，每条50字节，不过是1000G（1T），1T的硬盘，才2-300元。
        这个规模，比我们做2000年，做字模时少多了，
        国标2级是每套字库6700多个汉字，按256x256像素采样，每个汉字128k（64k x 2）字节数据,一套字模差不多700M（兆）
        字模的筛选率是百分之一，每套合格字模，需要处理70G的数据。
        可能，黑天鹅算法最早的灵感和萌芽，就是不经意间源自这里。
        2000年,我们做“千禧版”版权登记，共一千套字体，数据总量超过1000x70G=70T，是阿里健康的七十倍。
        当时没有超算，没有GPU，我们是几台电脑，每天24小时运算，差不多半年才做完。
        其实，早在92年，我们180款的字模，数据量就差不多20T，是阿里健康的二十倍。
        那时候dvd刚问世，刚开始只有视频dvd，没有电脑的，我还特意去广州海印xx公司看过了dvd演示效果
        在大数据领域，200万亿数据，只是小case
        吓唬外行有用，一线的，再多数据，不过是多几个索引表而已，而且现代k-v表，全部采用hash算法，与数据规模关系不大。
        比数据规模更重要的是，数据的实时性：
        与百度、新浪微博、微信、淘宝等机构，建立实时的API数据接口，进行元数据搜索，作为一个参照维度。
        摘自《大数据和高频量化交易》
        外链出处
        可惜，这些因为公司利益，政策等原因，在国内目前基本无法操作
        而国外，基于社会化数据的投资策略，已经出现N多模式
        更多参见《大数据与死数据》
        外链出处
        大数据与数据干扰
        政府大数据项目的一个“G点”，是舆情监控
        通过QQ纪录、微信关键词的确，可以进行一定程度的舆情监控，公共事件管理
        但是，真正的破坏者，例如敌方，恐怖分子，异议者，可以用很低的成本干扰数据源
        《机器之心》里面，杀手采用口红大小喷剂，就可以屏蔽摄像头的人脸拍摄
        《大数据与史上最强网络推广个案:hp笔记本》链接出处
        也提到，如何通过软件，提升关键词比重10%-50%，这个很多seo教材都有
        关键是，这个成本很低，稍微在网络下载一些hack教材，只需要一台笔记本，就可以控制成千上万台肉鸡，进行干扰信息发布
        hack违法，没关系，买套群发软件，买几台二手电脑（五百元的主机级ok），一根网线，几千元，就可以搭建全部硬件
        验证码，没关系，云打码，完全人工识别，准确率99%
        IP限制，没关系，vpn每个月十块钱，上千个IP地址，全世界都有
        ......
        通宝推：muqi,盲人摸象,
        复真心不看好大数据产业化，吃伟哥都没用
        家园 大数据、趋势与黑天鹅
        大数据、趋势与黑天鹅
        大数据的核心是关联算法，抓主流，分析趋势，一般取95%的置信度，
        问题是，真正有价值的恰恰是哪些5%，我们在实际分析时发现：黑天鹅才是新常态
        金融市场大家都是大数据会反向干扰态势的
        现在（2015）黑天鹅才是新常态
        看看：石油价格瑞士法郎日元升值光大砸盘黄金狂跌
        全部没节操没下限
        参见《大数据与黑天鹅等》
        外链出处
        07年我就开始做舆情，而且采用的是智能语义分析模式，应该是国内最早的，
        基本是原创代码，后来检索资料，发现政府招标，并且有总参参与，就主动放弃了
        也接触一些机构，包括广东省宣传部相关人员和深圳专业的舆情分析公司（类似香港的第三方民间评估机构）
        因为这块太敏感，而且个人不喜欢与政府机构合作，政府部门往往多破坏，少建设
        后信息时代，创意经济，个人的主动性非常重要，甚至是第一位的，
        这个才是欧美目前真正的核心竞争力，国内政府必须认真解决这块，才能提升全体国民、企业的竞争力
        参见《当代TG人的“异化”》链接出处
        黑天鹅才是新常态
        真正做大数据分析，和看报告是不同的，做研究，尽量使用第一手的资料和数据，转手越多，数据污染越严重。
        目前大数据用的比较成熟的有三块：互联网广告分析、机器翻译、量化投资
        因为项目需要，早期我做过原创的ocr代码，这块，图像分析、模式匹配、人工智能是基本功
        早在99年，就开始用语句库、统计模式做英语翻译软件，比谷歌还早几年，素材是电影的双语字幕，当时就有百万级的语料库，国内同期的北师大等项目，不过几十万，
        后来因为资源和课题方向，没做这块，附带出版了一套《魔鬼英语》教材，
        对于普通人而言，想把握目前大数据、人工智能的发展程度，看看百度、谷歌的中英翻译网页就可以，随便找段英文，机器翻译下，
        这个翻译水平，降低一个数量级，差不多就是当前大数据、人工智能的实际水平
        这几年，做量化投资方面的数据分析，越做越发现：黑天鹅才是新常态
        为什么混沌理论，是量化投资的基础理论？
        因为市场是双向的，任何机构、个人，通过数据分析，进行决策，参与市场
        对市场是会有干扰的，人少还好办，人一多，整个市场就乱套了
        在所有的股票数据中，早期，macd是比较科学的，也是非常有效的
        当大家都用macd指标，作为投资参考，
        完蛋了，不是一只蝴蝶，而是所有人都成为了蝴蝶
        整个市场数据，完全被污染，macd也成为无效指标
        所以说：人人都大数据，就人人都没数据
        现在的投行标配，全部是交易员自己写代码，将策略直接程序化，
        尽管如此，即使100%保密，因为每家投行都以亿美元为起点，对市场影响也是超级“蝴蝶效应”，造成很多策略都是一次性的
        大数据与死数据
        据说，汶川地震，药物管理问题，刺激了政府大数据战略，这个实际上，是有很大问题的
        首先，这个模式类似macd指标，有效性，是建立在数据库封闭基础上的，只有政府和少数关联企业可以使用，普通企业、个人，没有权限使用这个数据库的，
        如果大家都能使用这个数据库，百度一下，分析汶川缺少板蓝根，大小老板、甚至个人投资者，全体板蓝根，几天后，汶川会成为全国、甚至地球上板蓝根密度最高的地区，
        这个“姜你军”要涨价,“蒜你狠”不折腾，已经有过案例，
        资本的力量是无法阻挡的，即使政府限制，关系企业，有关人士，也会拿到相关权限，这个毕竟只是商业数据，保密权限不可能很高，“SSS”级，和二炮一个级别
        淘宝余额宝，也是一个类似的案例，早期，阿里数据源不开放、其他基金嫌麻烦，再加上互联网企业贴本吆喝、花钱买客户的传统，表面收益貌似蛮高。
        等行业稳定下来，目前余额宝的收益，也和行业其他基金差不多，
        这种趋势，不过是价格二元化，在大数据行业的复制，与政府改革开放的出发点是相悖的
        互联网的基础是：open（开放）+free（免费），基于互联网的大数据产业，如果违背这个基础，只能是空中楼阁
        这种管制模式的大数据产业，越发展，对整体经济损伤越大。
        首先，少数权贵部门和企业，从资本、原料等方面的垄断，会延伸到数据方面的垄断，获得不当利益，
        而广大普通企业、个人，却因为受限于数据，无法进行正确的商业决策、个人投资，社会的二元化分割更加严重，
        这个，看看现在的房屋数据库，始终无法进行全民查询
        这里多说一句，政府与其，梦想通过大数据，建立2.0版本的1984社会，不如管好全国四百个城市的局级以上官员，毕竟这个才几十万数量级
        如果连几十万数量级的中高官员，而且绝大部分是党员，都无法有效管理，希望利用大数据，来管理十亿级的民众，只能是。。。。。。
        其次，数据与资本、原料、设备不同，一个邮件，一张U盘，就可以将涉及全体国民的数据暴露给国外敌对机构
        发达国家的模式是，除极少数敏感数据库外，普通数据基本免费开放，全民共享，这样才能全体国民受益，减少数据意外事故，对普通企业、个人的冲击
        更多参见《大数据与死数据》
        外链出处
        200万亿数据只是小case
        政府主打的阿里健康，起点是汶川药品管理，数据库据说有200万亿条纪录
        这个数据规模大吗？
        实际上很少，药品数据库，不过是名称、价格、厂家等几十个字段，而且基本是结构化数据。
        1G大约10亿字节，结构化数据，200万亿，每条50字节，不过是1000G（1T），1T的硬盘，才2-300元。
        这个规模，比我们2000年，做字模时少多了，
        国标2级是每套字库6700多个汉字，按256x256像素采样，每个汉字128k（64k x 2）字节数据,一套字模差不多700M（兆）
        字模的筛选率是百分之一，每套合格字模，需要处理70G的数据。
        可能，黑天鹅算法最早的灵感和萌芽，就是不经意间源自这里。
        2000年,我们做“千禧版”版权登记，共一千套字体，数据总量超过1000x70G=70T，是阿里健康的七十倍。
        当时没有超算，没有GPU，我们是几台电脑，每天24小时运算，差不多半年才做完。
        其实，早在92年，我们180款的字模，数据量就差不多20T，是阿里健康的二十倍。
        那时候dvd刚问世，刚开始只有视频dvd，没有电脑的，我还特意去广州海印xx公司看过了dvd演示效果
        在大数据领域，200万亿数据，只是小case
        吓唬外行有用，一线的，再多数据，不过是多几个索引表而已，而且现代k-v表，全部采用hash算法，与数据规模关系不大。
        比数据规模更重要的是，数据的实时性：
        与百度、新浪微博、微信、淘宝等机构，建立实时的API数据接口，进行元数据搜索，作为一个参照维度。
        摘自《大数据和高频量化交易》
        外链出处
        可惜，这些因为公司利益，政策等原因，在国内目前基本无法操作
        而国外，基于社会化数据的投资策略，已经出现N多模式
        更多参见《大数据与死数据》
        外链出处
        大数据与数据干扰
        政府大数据项目的一个“G点”，是舆情监控
        通过QQ纪录、微信关键词，的确，可以进行一定程度的舆情监控，公共事件管理
        但是，真正的破坏者，例如敌方，恐怖分子，异议者，可以用很低的成本干扰数据源
        《机器之心》里面，杀手采用口红大小喷剂，就可以屏蔽摄像头的人脸拍摄
        《大数据与史上最强网络推广个案:hp笔记本》链接出处
        也提到，如何通过软件，提升关键词比重到10%-50%，这个很多seo教材都有
        关键是，这个成本很低，稍微在网络下载一些hack教材，只需要一台笔记本，就可以控制成千上万台肉鸡，进行干扰信息发布
        hack违法，没关系，买套群发软件，买几台二手电脑（五百元的主机级ok），一根网线，几千元，就可以搭建全部硬件
        验证码，没关系，云打码，完全人工识别，准确率99%
        IP限制，没关系，vpn每个月十块钱，上千个IP地址，全世界都有
        ......
        又一只天鹅，所以，说：大数据，黑天鹅才是新常态
        蓝翔又赢了 [ 迅哥 ] 于:2015-05-28 09:06:11 复:4111499
        “支付宝大面积瘫痪，因为杭州的一根光缆被挖断了。不要再迷恋互联网＋、工业4.0、大数据了，都顶不住一铲子！据说这是一次预谋已久的传统行业对互联网的绝地反击，原以为需要多少资本运作模式创新，原来找几个农民挖坑就够了。今天轮到携程了。。。”线上再牛逼，也怕线下挖掘机……蓝翔又赢了！据美国中央情报局调查，此次袭击和蓝翔无关，但据参与袭击的挖掘机手交待，该挖掘机手在蓝翔学习了袭击的本领。
        复真心不看好大数据产业化，吃伟哥都没用
        家园 对某些人能证券化多圈钱就是胜利
        复真心不看好大数据产业化，吃伟哥都没用
        家园 【天河二号不是爆出……负载事件】你是怎么理解这句话的？
        大数据的硬件基础是GPU、多核cpu，国内非常不靠谱，目前连486、z80都做不出，前几天天河二号不是爆出40%的负载事件.
        这一段文字摆在一起，像是在说天河二号坏了一样。然而实际上是，
        新快报讯天河二号超级计算机连续四次蝉联世界500强第一名,但目前只有40%的利用率。昨日上午,中国工程院院士考察了国家超级计算广州中心,中心主任袁学锋直喊“吃不饱”!……“天河二号的利用率基本稳定在40%左右,还有60%还等着别人用,现在我们正在联系企业,希望他们能进来。”袁学锋很着急。
        至于芯片的来源问题，天河二号也并不着急
        “天河二号”主任设计师：我们不怕限购
        你到底是怎么理解“负载”这个词的？多说几句？
        复【天河二号不是爆出……负载事件】你是怎么理解这句话的？
        家园 天河二号事件，虽然与技术无关，但反映出的问题是，相关产业
        这么贵的投资项目，居然有40%的空载
        复【天河二号不是爆出……负载事件】你是怎么理解这句话的？
        家园恩
        如果你真关心大数据有关内容，我知道的信息比较同步说的基本在茶馆论坛老槐的帖子，大数据一和大数据二上面。这里因为过去的3D打印与石墨烯有关讨论，被很多自诩的理科生斩钉截铁的自负弄的无所适从了。不好意思。
        我就说我自己接触的一部分事例吧，两条线。一个是我老师的老师的，一个是我自己做的。
        一.我老师的老师一开始是给阿里做后台数据分析工作，不是替阿里干是合作关系。我第一次听他们的讲课，讲他们做的算法是2012年上海信息协会年会介绍他们进展。其中一组数据我记忆犹新，他说原本他们做的检索需要2分半，当时已经可以做到56秒，之后速度会更快，去年初已经在20秒内了。什么数据，基于药监码一物一码的检索，数据库的数据是200万亿条代码。这是很初期合作的一部分。我也提过有关部门一开始就介入，什么部门，其中之一是总参。起码启动资金是总参投的，说到这个很多可能奇怪，为什么药监码阿里项目总参会投入。起因很实际，汶川地震。汶川地震后，部队在运输过程中发现一个问题，部队发现他们运送到当地很多物资实际当地都有，或者灾区临近的区域储备充足，因此导致的运力浪费某种算法得出的结论，因数据混乱导致占用特别通道的浪费相关空运能力的百分之40，浪费运力重灾区就是药品。造成药品纯粹数据混乱的原因，有几部分。这里简述其中两部分。
        1.地方数据库与中央数据库彼此之间是一个个信息孤岛，信息库彼此隔绝。
        2.药监码出处有四个部门，商检部门，卫生部门，工商管理部门以及生产监管部门，各自为政。
        这个就是今天被叫做阿里健康的项目，开始启动的原因。这后面有很详尽的国家步骤与配套，具体同步信息基本发布在茶馆的讨论中。怎么评价你的权力，我态度是起码你要知道中国在这个领域实际已经做到了什么。
        二.我们自己的项目，表面工作是给一个相关职能部门做职业招聘网站与职业培训网站。实际后台信息分析的是，根据点击信息激活沉睡数据。根据数据对比，查询有关人在激活信息与沉睡数据之间的状态。结合，他的个人消费记录，结合他的住房信息，结合他的叫他交通违章记录以及个人医保社保信息。来判断这个人的实际生活状态，比较正式的叫法是舆情分析一部分。这个比较少见公开新闻，多数人恐怕对舆情分析，还多从网络爬虫的工作角度看即时分析这一块。实际，即时数据与沉睡数据的比照权重也相当重要。从今年开始，个别地区这样的数据比较已经可以扩展到QQ聊天记录，微博记录，部分论坛聊天记录，以及手机语音记录。不久前上线的，国家预警信息中心正式启动就是与此有关的配套。如果你觉得这一段有点玄乎，我说说工作流程。比如，为了预防上海类似的踩踏事件的发生。在可预见出现大级别人流的时间节点，同步各种信息节点的信息，如果在比较集中的时间段出现同一关键词。比如手机论坛与QQ 通信中有出现外滩与人民广场，城隍庙，新天地，徐家汇，世博园之类的字样。根据历年统计数据比照，一旦相关数据到达警戒位置，那么相关地点的地铁以及公交系统就要启动分流限流措施。警察，也要进入疏导的状态。而不是路踩踏事故发生的时候，依靠视频头数人头的预警方式，当然这种手段才开始积累数据样本。这种预警方式，是早期预警的一部分范畴。相关大数据应用，早期难免还会有瑕疵，随着数据样本的完善，改善可期。我这里只是说一部分应用的节点及其运作方式。
        以上仅供参考。
        还有人工智能与人工智慧是很大的风水岭。很多人说大数据容易混淆这些，相关讨论我在邀请相关工作的专业人士在茶馆讨论的，你有兴趣关注哪里吧。最近忙，肠胃崩溃了，系统的写东西分不了心。说点实际工作中的经历还是可以间接说明一点现状的。
        复恩
        家园 说实话，大数据也罢，物联网也罢，不要太热心
        经历过两个所谓的大数据项目了，一个每天产生200W+的数据，然后对用户行为进行数据分析，生成曲线什么的；一个每天单点数据在80M左右，然后对这些数据进行故障分析和预测(通信基站)。做完了以后，说实话不清楚现在行业里面说的大数据到底是什么。个人认为大数据应该分为BI和AI两个层面，BI就是将数据建模统计分析，形成图表和告警，AI是自我学习，回归耦合，扩充或者细化现有的公式。很遗憾的是现在行业内的大数据仅仅是BI，就是数据保存，然后用的时候按照不同维度将数据呈现出来。
        所以对国内的大数据，实际上是悲观的。这些项目存在的意义仅仅是换个名词将SAP当年做的东西重新做一次。如果大数据不基于机器学习来实现，统统都是XX
        通宝推：朱红明,

分页树展主题 · 全看首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明