淘客熙熙

主题:问一个搜索引擎的问题 -- 大明湖

共:💬27 🌺5
全看树展主题 · 分页首页 上页
/ 2
下页 末页
家园 问一个搜索引擎的问题

象什么google,等网站,只能基于文字来搜索。那么可不可能实现基于图片的搜索?

比方说我上传一幅图片,希望找到它的处处。能不能作到?

多谢指教!

家园 猜测一下

基于文字搜索,是搜索那些含有关键词的页面,然后把照片提出来,因为含有照片的页面往往附有照片的介绍。

理论上基于图片的搜索是有可能的,有算法可以对比照片的相似程度。但电脑工作量太大,恐怕实现不了。

家园 索引成大问题。

估计得到机器理解图片有突破了这种搜索才有可能。

家园 Thanks
家园 哈哈,我正在做这方面的工作

正打算推出自己的网站呢,如果有兴趣的话我们可以探讨探讨。

家园 愿闻高论!
家园 同意.即使是衣服简单的图片,信息量也远大于文字.

所以理论上是可能,但现在计算机的能力还达不到.

家园 等我回家以后把URL给Post 上来

现在数据库中大概有150million页面,2.5million图片信息,可能很多图片查不到。不过俺自己测试了一下,基本上能够定位到图片。 Google 有8000*100million页面, that make the biggest difference.

至于算法,可以私下交流,涉及到俺的商业机密,嗬嗬。就不再这里详述了。

家园 谢谢了先!
家园 期待中
家园 刚到家

对不起,久等了

http://67.184.79.81/

速度会较慢,一周不在家,MySQL Crash,这台机器正在同时修复数据库,所以速度比较慢,抱歉.

我的email是[email protected], 有什么建议或者问题,敬请告知.

家园 Tried 3 times, one error, two sorries!
Not Found

The requested URL /hello was not found on this server.
Apache/2.0.54 (Win32) mod_jk2/2.0.4 mod_perl/1.999.21 Perl/v5.8.7 Server at 67.184.79.81 Port 80
Sorry, we havn't reached that far, please try later
家园 懒橱说的接近

我想补充几点。

google目前是根据图片的alt属性(附加于网页图片的说明文字,有时候你看图片时,鼠标划过图片时显示的那中文字)和图片的url中含有的文字部分来定位图片的。这就是他们的image搜索的原理。进一步的根据包含图片的网页的上下文来定位的技术,据我所知还没有投入应用。

当然图片还可能有其他的属性,例如建立/修改时间、图片尺寸,索引图(某些格式的图片是支持内嵌那么一张索引图的)、作者、数字水印等,都可能被应用来定位图片。

再比如,若要直接对图片建立索引,可以采用把图片建立一个(缩放到)一定尺寸的小索引图,例如30点*30点,这个数据量就是有限的。忽略掉颜色信息,这个索引图可以按照一定的特征(公式)被归纳成简单的数字或字符串。这个并不困难。然后,我们就有了图象的直接索引了,检索这个索引文件那是一点问题没有。

在计算机能理解图片之前,肯定可以在这些基础上建立起折中的、俺估计效果还不错的图片搜索功能。俺上面说的,都是现在立马就能或已经实现的东西。当然随着算法的改进,其搜索效果可以越来越好。并且我认为主要是算法和数学模型的改进问题,硬件问题不是主要的瓶颈。

元宝推荐:Highway,

本帖一共被 1 帖 引用 (帖内工具实现)
家园 我没理解错的话,150m=1.5亿

150m*1kb=150G for the text part & database index fields,

2.5m*10kb(avg image size)=25G

Here, let me point out that 1KB for 1 page is assumed text (plus index) size only. Basically I dont think it can reach this low.

个人搞的有这么多么?特别是“准备搞”的。

有一点点迷惑。

家园 数据库太小

第一个问题是因为您上传的要么不是图片,要么我的系统还识别不了这种格式。

第二个主要是因为:

1。您要找的图片我的WWW收集器还没能收集到。

2。我的数据库url table不能访问

全看树展主题 · 分页首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河