巴萨青年 » 日志 » Google工程师谈google爬虫如何收录flash中的内容
Google工程师谈google爬虫如何收录flash中的内容
巴萨青年 发表于 2008-01-12 00:53:23
过去几年,站长们一直在讨论如何合理的在站点上放置flash,之前我问过google 的工程师,他说google会查看 noscript 标签标注 的内容,但是他建议小心处理用noscript标记的flash,避免被googlebot当成了cloaking作弊行为。
最近一次采访matt cutts,也就是google反作弊小组的领导,我问了google能否从flash中读取文本信息的问题,他是这么回复的。
这是个好问题。我们做了很多努力来读取动画中的文字内容。flash中的内容是二进制的,你可以用字节来定义,也应该可以让它们看起来像正常的文本。但是并不是真正的文字,所以从flash中提取文字有一定难度。以前google有自己的代码来抓取flash中的文字,但是现在我们使用了adobe/macromedia公司提供的search engine sdk 工具,所以我觉得大多数搜苏引擎都会逐渐采sdk这个工具来收录flash中的内容。想知道你的flash被搜索引擎读出来是什么样,你可以用sdk自己试一下就好了。
Matt cutts还确认google会和adobe一起努力完善SDK。所以如果你在网站上使用了flash,为什么不试试Search Engine SDK tool 看看google眼中的flash是什么样的呢。
原文http://blogs.cnet.com/8301-13530_1-9834708-28.html
参考资料 interview with Google's Matt Cutts at Pubcon listen to the Matt Cutts at Pubcon interview podcast (31 minutes, 3.8 MB).
相关日志:
收藏:
QQ书签
del.icio.us
订阅:
Google
抓虾
