主题:回覆本嘉明兄:對台灣現況與民情的分析 -- aiguille
如果你真关心大数据有关内容,我知道的信息比较同步说的基本在茶馆论坛老槐的帖子,大数据一和大数据二上面。这里因为过去的3D打印与石墨烯有关讨论,被很多自诩的理科生斩钉截铁的自负弄的无所适从了。不好意思。
我就说我自己接触的一部分事例吧,两条线。一个是我老师的老师的,一个是我自己做的。
一.我老师的老师一开始是给阿里做后台数据分析工作,不是替阿里干是合作关系。我第一次听他们的讲课,讲他们做的算法是2012年上海信息协会年会介绍他们进展。其中一组数据我记忆犹新,他说原本他们做的检索需要2分半,当时已经可以做到56秒,之后速度会更快,去年初已经在20秒内了。什么数据,基于药监码一物一码的检索,数据库的数据是200万亿条代码。这是很初期合作的一部分。我也提过有关部门一开始就介入,什么部门,其中之一是总参。起码启动资金是总参投的,说到这个很多可能奇怪,为什么药监码阿里项目总参会投入。起因很实际,汶川地震。汶川地震后,部队在运输过程中发现一个问题,部队发现他们运送到当地很多物资实际当地都有,或者灾区临近的区域储备充足,因此导致的运力浪费某种算法得出的结论,因数据混乱导致占用特别通道的浪费相关空运能力的百分之40,浪费运力重灾区就是药品。造成药品纯粹数据混乱的原因,有几部分。这里简述其中两部分。
1.地方数据库与中央数据库彼此之间是一个个信息孤岛,信息库彼此隔绝。
2.药监码出处有四个部门,商检部门,卫生部门,工商管理部门以及生产监管部门,各自为政。
这个就是今天被叫做阿里健康的项目,开始启动的原因。这后面有很详尽的国家步骤与配套,具体同步信息基本发布在茶馆的讨论中。怎么评价你的权力,我态度是起码你要知道中国在这个领域实际已经做到了什么。
二.我们自己的项目,表面工作是给一个相关职能部门做职业招聘网站与职业培训网站。实际后台信息分析的是,根据点击信息激活沉睡数据。根据数据对比,查询有关人在激活信息与沉睡数据之间的状态。结合,他的个人消费记录,结合他的住房信息,结合他的叫他交通违章记录以及个人医保社保信息。来判断这个人的实际生活状态,比较正式的叫法是舆情分析一部分。这个比较少见公开新闻,多数人恐怕对舆情分析,还多从网络爬虫的工作角度看即时分析这一块。实际,即时数据与沉睡数据的比照权重也相当重要。从今年开始,个别地区这样的数据比较已经可以扩展到QQ聊天记录,微博记录,部分论坛聊天记录,以及手机语音记录。不久前上线的,国家预警信息中心正式启动就是与此有关的配套。如果你觉得这一段有点玄乎,我说说工作流程。比如,为了预防上海类似的踩踏事件的发生。在可预见出现大级别人流的时间节点,同步各种信息节点的信息,如果在比较集中的时间段出现同一关键词。比如手机论坛与QQ 通信中有出现外滩与人民广场,城隍庙,新天地,徐家汇,世博园之类的字样。根据历年统计数据比照,一旦相关数据到达警戒位置,那么相关地点的地铁以及公交系统就要启动分流限流措施。警察,也要进入疏导的状态。而不是路踩踏事故发生的时候,依靠视频头数人头的预警方式,当然这种手段才开始积累数据样本。这种预警方式,是早期预警的一部分范畴。相关大数据应用,早期难免还会有瑕疵,随着数据样本的完善,改善可期。我这里只是说一部分应用的节点及其运作方式。
以上仅供参考。
还有人工智能与人工智慧是很大的风水岭。很多人说大数据容易混淆这些,相关讨论我在邀请相关工作的专业人士在茶馆讨论的,你有兴趣关注哪里吧。最近忙,肠胃崩溃了,系统的写东西分不了心。说点实际工作中的经历还是可以间接说明一点现状的。
- 相关回复 上下关系8
压缩 5 层
🙂对某些人能证券化多圈钱就是胜利 迷途笨狼 字0 2015-05-25 11:01:42
🙂【天河二号不是爆出……负载事件】 你是怎么理解这句话的? 5 真理 字628 2015-05-23 20:21:15
🙂天河二号事件,虽然与技术无关,但反映出的问题是,相关产业 1 zw 字34 2015-05-24 03:37:41
🙂恩
🙂说实话,大数据也罢,物联网也罢,不要太热心 11 fhqiolj 字588 2015-05-27 01:35:44
🙂别的不知道,国家预警信息中心没那么玄乎 5 风云故事 字626 2015-05-26 04:03:59
🙂大数据、趋势与黑天鹅 8 zw 字4836 2015-05-26 04:03:18
🙂第一步还是信息孤岛的问题,这个解决了。算法才有用武之地。 4 一沙一世界 字344 2015-05-24 22:10:56