近期网站停站换新具体说明
按以上说明时间，延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间

主题：【原创】闲话Google集群 [1] 引子 -- 邓侃

共:💬33 🌺147

信息技术

分页树展主题 · 全看首页上页下页末页

- 复【原创】闲话Google集群 [1] 引子
  家园 先谢过，慢慢参加讨论中
  恭喜：你意外获得【通宝】一枚
  鲜花已经成功送出。
  此次送花为【有效送花赞扬，涨乐善、声望】
- 复【原创】闲话Google集群 [1] 引子
  家园
  闲话Google集群 [2] 存在的理由
  [1] 引子链接出处
  [2] 存在的理由链接出处
  [2] 存在的理由
  早期的搜索引擎，基本原理是关键词匹配。
  譬如用户输入关键词"奥运会"，搜索引擎的任务是查找与奥运会相关的网页。如果恰好有一篇网页，内容无他，"奥运会，奥运会，。。。"，连说100遍。早期的搜索引擎肯定把这个网页放在结果的首页，说不定还置顶，因为， 1. 网页内容中，"奥运会"这个关键词出现的频率非常高，2. 没有出现与奥运会不相干的内容。
  早期搜索引擎的问题很明显，但是如何解决，却是仁者见仁智者见智。
  1996年，刚刚入学Stanford计算机系的Larry Page和Sergey Brin哥俩儿觉得，提高搜索引擎的准确性，或许可以从网页与网页之间的相互链接入手。譬如，网页A中提到奥运会时，给了一个链接，指向网页甲，那么网页甲的内容很可能与奥运会相关。如果不仅网页A有这样的链接，而且网页B，C，D等等，都有类似的链接，那么网页甲的内容与奥运会相关的可能性就极高。
  批评者说，这不是三人成虎吗？Larry心里也没谱，就跑去问他的导师，Terry Winograd。
  导师外形很像爱因斯坦，想了一想，说，"先把Stanford校园网内所有网页收集下来，验证一下你们的想法。然后扩大到更大范围，再验证一下。如果验证的结果不错，就把全世界互联网的所有网页，统统收集下来，做一个搜索引擎，上线，让全世界的人用，让全世界的人都来验证你们的猜想。"
  两年后，1998年，Google上线了，三人成虎的猜想被实践证明是行之有效的。
  Terry导师大手一挥，"把全世界互联网的所有网页，统统收集下来"，可把Larry和Sergey哥俩儿忙坏了。互联网上有多少网页，统统收集下来，需要占用多少硬盘空间？Larry和Sergey当时是博士班一年级学生，囊中羞涩，买不起那么多设备，没办法，开始四处讨钱。
  托了七大姑八大姨，拐弯抹角找到了一个大款，名叫Andy Bechtolsheim。此公早年在CMU拿了EE的硕士后，跑到Stanford读CS/EE博士。没来得及拿到博士学位，就伙同Scott McNealy和Vinod Khosla，下海开公司去了，这个公司就是大名鼎鼎的SUN Microsystems。 Scott McNealy任SUN的CEO长达20多年，而Andy Bechtolsheim功成身退，跳出SUN自己开了一个小公司，后来这个小公司卖给了Cisco。
  坊间传说，Larry和Sergey拜访Andy的时候，Andy正在电话上。冗长的电话，Larry和Sergey两个小伙子血气方刚，哪里耐得住这份性子，抬腿告辞。因为是朋友介绍，Andy有点过不去，就追到门口。问，"二位上门，有何需求？"
  Larry和Sergey铁青着脸，说，"也没什么大事，就是想找点钱，做一个大规模文件系统。"
  Andy问，"多大规模呢？存储什么数据？"
  Larry和Sergey，"打算把互联网上所有网页都下载，然后建一个搜索索引。"
  Andy，"把互联网上所有网页统统下载？！需要多大空间？几个Giga不行吧，几个Tera也不行吧，几个Peta，几个Zetta？。。。嗯，我看几个Googol也许才能撑得住。知道Googol吗？就是10的100次方，就是一个1后面拖100个0！"
  Larry和Sergey，"是的，我们的确就是打算处理海量数据。"
  Andy，"你们打算怎么做？买个EMC？那玩意儿很贵的哟，我可没那么多钱让你们烧。"
  Larry和Sergey，"我们打算自己动手，用一堆PC做一个分布式集群。"
  Andy，"PC？死机了怎么办？干嘛不用工作站，干嘛不用NFS？"
  Larry和Sergey，"工作站比PC贵太多，NFS的不是很切合我们的需要。。。"
  Andy挤出一点笑容，"好吧，小伙子们，给朋友一个面子，而且年轻人探险也是值得鼓励的。给你们10万吧，省着点花啊！"
  Andy掏出支票本，一边签名一边问，"你们的公司叫什么？"
  Larry和Sergey面面相觑，那时候他们还没来得及给公司取名。"要不就叫Googol吧？"，"Googol不太好拼写，要不改一改，叫Google吧。" Google这个名字从此诞生。
  。。。
  以上是传说，但是有几点倒是有价值的。
  1. 以Andy的身价，10万美元实在是九牛一毛。1998年10万美元的投资，到了2004年Google上市时，值多少钱？现在又增长到多少钱？不忍心计算，估计Andy后悔得肠子都青了。
  2. 如果需要10个Tera byte，也就是1万个Giga的硬盘的空间，或许1个EMC服务器就够了。但是同样空间，却需要10个PC。从价钱看，10个PC大致是5千美元，而一个硬盘空间相似的EMC服务器要价1.5万美元左右。当硬盘空间的规模大幅度增长的时候，购买EMC高端设备的花费，将远远超过购买众多低端PC的成本。
  3. 用廉价的PC，就必须想办法保障稳定性。换句话说，少数PC死机了，不能影响整个集群的正常工作。
  4. 处理海量数据，内存和IO速度是生死劫。廉价的PC，内存有限，IO接口速度也有限。如何解决？
  5. 应付海量数据的存储技术很多，EMC，NFS（Network File System），AFS（Andrew File System），RAID（Redundant Array of Inexpensive Disks），还有SAN（Storage Area Network）和NAS（Network Attached Storage）等等。Google的两位创始人，为什么不沿用现成的技术，而是选择了另辟蹊径，莫非自讨苦吃？
  欲知答案，且听下回分解。
  关键词(Tags): #操作系统，#互联网，#Google，#系统架构设计，
  
  本帖一共被 2 帖引用 (帖内工具实现)
  - 闲话Google集群 [2] 存在的理由
  - 【原创】闲话Google集群 [1] 引子
  - 复闲话Google集群 [2] 存在的理由
    家园 请教，这个没看明白
    1. 以Andy的身价，10万美元实在是九牛一毛。1998年10万美元的投资，到了2004年Google上市时，值多少钱？现在又增长到多少钱？不忍心计算，估计Andy后悔得肠子都青了
    前面不是说已经签支票了吗？为何又说Andy后悔了？
    - 复请教，这个没看明白
      家园 Andy给钱给得太少了。
      “怎么当初只给了10万，唉，如果当时给了1千万，甚至几个亿，现在会多赚多少钱?”
      估计Andy现在会这么想.
    - 复请教，这个没看明白
      家园 当然后悔！
      后悔投得太少了！
  - 复闲话Google集群 [2] 存在的理由
    家园 Google的分布集群
    Google的分布集群技术没用过，但是不敢苟同。其他存储技术倒是经常用CIFS, NFS, Nas, iSCSI, FCP...
    这里边么FCP SAN是最快的了， NFS么就不怎么样，跑数据库那是经常被锁。
    大家不知道发现没，大约3个月前，有家网上购物网站的图片显示非常的慢。为什么呢？就是他们开始用了google的集群技术了。
    - 复 Google的分布集群
      家园 没看懂
      你说的是哪家网站？
    - 复 Google的分布集群
      家园 这两个是不能在一起比的
      google的集群实质是一堆山寨机，硬件上基本没什么高技术（除了那个交换机是特殊的）。
      你提到的CIFS, NFS, Nas, iSCSI, FCP，对google而言是阳春白雪了。
      所以，如果一秒钟有1000次访问，google的性能是很差的。但如果一秒内有1000000000次访问，这些阳春白雪就要“咣铛”了，而google却还是能挺住。
      所谓各擅胜场而已，关键在满足业务需求，这才是系统架构的王道！
      - 复这两个是不能在一起比的
        家园 说得在点!
        如题.
  - 复闲话Google集群 [2] 存在的理由
    家园 好文好文，实在是长知识
  - 复闲话Google集群 [2] 存在的理由
    家园 这和搜索的静态信息的特点有关
  - 复闲话Google集群 [2] 存在的理由
    家园花个
  - 复闲话Google集群 [2] 存在的理由
    家园 花待！
  - 复闲话Google集群 [2] 存在的理由
    家园 花一个，正好最近在研究分布式计算/存储/文件系统
    正在看hadoop源码，觉得Map／Reducer模式还是存在很大的局限性，呵呵。
    - 复花一个，正好最近在研究分布式计算/存储/文件系统
      家园 MapReduce稍后会谈到
      MapReduce 解决的是如何把众多任务平行分发。
      以后的章节会谈到，先把Google File System说完吧。

分页树展主题 · 全看首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明