主题:【原创】云里雾里的云计算 [1] -- 邓侃
共:💬620 🌺1262
搜索引擎之所以能搜索关键词,是因为其内部建了一个倒排索引(inverted index)。
譬如在一堆文档中,有一个编号为101的文档。某个关键词“西西河”,在它的第230字节处,第339字节处等等位置出现过。
当用户搜索“西西河”,搜索引擎在倒排索引中一查,发现在101文档中,出现过“西西河”这个词,于是返回给用户101文档的URL。
假设,我们预先对101文档加了密,那么建倒排索引的时候,怎样才能知道第230字节处,第339字节处等等位置出现过“西西河”这个词呢?
现在没有办法解决这个问题。
进一步讲,除非对倒排索引的数据结构,以及搜索引擎查询的算法做大手术,否则,即便有办法解决上述问题,也是不能用的。为什么呢?
如果倒排索引能够知道在加了密的101文档中,每个字节处是什么单词,那么就不难复原,加了密的101文档的原始内容。换句话说,对101文档加密,就变得毫无意义了。
- 相关回复 上下关系8
压缩 6 层
🙂机器托管? 1 邓侃 字99 2009-01-18 06:43:00
🙂不托管也会死机啊,哈哈 投入 字0 2009-01-18 20:17:59
🙂加密与检索解决方案三:结合加密算法(可能根本行不通) 投入 字1945 2009-01-17 21:59:19
🙂对加了密的文档,搜索引擎内部的倒排索引目前无法建
🙂加密与检索解决方案二:分段解决方案 投入 字739 2009-01-17 20:47:48
🙂技术可行,但是运行起来很麻烦。 邓侃 字187 2009-01-18 07:01:03
🙂这个确实是重点 投入 字49 2009-01-18 20:20:04
🙂加密与检索解决方案一:市场定位,先取无加密需求的。 投入 字231 2009-01-17 20:44:46