主题:我所了解的中国“棱镜”情况 -- 汴梁牛二
共:💬146 🌺1539 🌵8
这个量对大数据体系来说倒不是很大,我现在给用户搭的一个实验系统,已经过了10亿的测试,正在做百亿的测试,当然不是每天的量。每天大概是几个亿吧。
重点是后面的解码、关联、分析。要考虑时效性和具体要执行的操作。如果在分钟级或者更长的粒度上,或者是批处理型任务,解决方案还是比较多的。有很多用hadoop做前端ETL的,效果不错。至于关联分析,这个概念现在炒的比较多,但不少都是基于查询、统计的,再加上一些行业数据建模等,这个很多都是基于M/R来作的,现在也有在尝试MPP的。其实主要看时效和任务类型吧。真正要秒级或者多维查询等,还是要下些功夫的。真正的分析,包括预测等,现在需求很多,但做的好的,特别是行业应用做的好的,还真不太多。个人认为,主要是行业know-how大家都是空白,这个需要数据分析师、算法工程师等一起努力了。至于工具,其实反倒不少。
- 相关回复 上下关系8
🙂NSA的数据处理存储容量按Yottabyte级别的 3 OldBadBug 字424 2013-06-24 00:18:56
🙂原始数据被就近存入有简单索引功能的海量分布式文件系统 10 uphere 字398 2013-06-23 15:01:56
🙂老兄看起来是大数据分析的行家啊 2 汴梁牛二 字149 2013-06-23 20:11:46
🙂一天一亿条
🙂股市? 桥上 字0 2013-06-24 09:07:23
🙂如果之前没有技术积累的话,上hadoop就可以了。 季侯 字32 2013-06-24 05:20:02
🙂都是销售会议和面试上听来的 uphere 字99 2013-06-23 20:49:07
🙂我所了解的中国“棱镜”情况(二) 258 汴梁牛二 字2998 2013-06-23 00:48:39