网上那么多相似的文章到底谁抄谁的——话语权应该掌握在谁手中与实际上掌握在谁手中
读了月光博客的文章,我感慨良多,这篇文章说得的是,如果有人把你的文章改编一下,发到大的门户网站,那么搜索引擎可能就认为是你抄的大门户网站的文章,而不是人家抄了你的。
因为大的门户网站权重高,点击量大。
当然,个人博客也有自己的对策,就是要求门户网站删除复制的文章,但通常会浪费巨大的时间和精力,当被复制的文章累计到成千上万的时候,完成这种工作量通常是不可能的任务。
这不仅使我感觉到一点悲哀,在科技如此发达的情况下,民众的话语表达方式如此广泛,信息传递的深度、广度与速度有了极大的提高,可是仍然无法从主流手中夺回自己的话语权。
下面大家自己看原文吧:
也谈Google搜索引擎对原创内容的识别
从 月光博客 作者:webmaster@williamlong.dot.info (williamlong)
Google中文网站管理员博客在《由抄袭造成的重复内容》文章中提到:“鉴别内容的原创来源是Google所擅长的,在大多数情况下原创内容源都能被正确地识别出来,从而不会给发布真正原创内容的网站带来任何负面影响……当有人剽窃了您网站中的内容,并将其展示在其他网站上牟利。Google在不同网站遇到相同内容的时候,会基于许多不同的依据来判断究竟哪个网站才是原创,而这样的判断通常是准确的。”
根据我的观察,Google识别原创内容源的能力有时候比较准,但有时候不太准,不准的情况主要是在中文网站上,因为Google无法用简单的链接权重来平衡门户网站和个人博客之间的孰是孰非。
目前的中国互联网仍然是主流门户网站的天下,个人博客的生存环境异常艰辛,个人辛辛苦苦的写作往往得不到回报,产生的内容却因为种种原因无法给个人带来应该得到的回报,所有的流量都逐步流向主流门户网站。通常情况下,Google给予门户网站的权值和网站权威度都非常高,当一篇完全相同的文章同时出现在门户网站和个人博客上的时候,Google往往认为原创者是门户网站,除非个人博客的权值非常大。
门户网站为了内容的大量更新而雇佣了不少“网站编辑”,“网站编辑”通过人肉筛选的方法从个人博客上挑选出优秀的文章,并将这些文章复制到门户网站,复制内容的同时通常会删除原始文章的作者和文章中的链接地址,同时小幅修改文章的标题,经过这一番“处理”,Google通常很难判断出到底哪个文章是原创,当一个原创个人博客的文章被大量门户网站复制之后,Google搜索引擎可能会惩罚这个原创博客,不再索引上面的文章。
这里我举一个例子,我在今年三月份曾经写了一篇文章《十个常用网络密码的安全保护措施》,然而相当长的一段时间里,我在Google中搜索这篇文章的标题时,却看不到来自我的博客的一点踪影,我看到的是什么呢?这篇文章被21CN,中关村在线,新浪网,硅谷动力,计算机世界,瑞星科技等等无数大型门户或专业网站非法转载,最具讽刺意味的是,国家违法和不良信息举报中心这样的国家政府机关的网站竟然也非法进行了转载,通常情况下政府网站在搜索引擎中的权威度是非常高的。
结果是,我的原始文章被搜索引擎惩罚了,至今在百度上找不到我的文章地址了,而Google前几天才重新索引了我这篇文章,其余时间网站的排名都被上面那些主流门户网站抢走了。
从内容上说,个人博客的内容远远无法和主流门户网站相比,主流门户网站拥有自己的编辑团队和营销团队,具有足够的资源和能力输出更好的内容,而个人博客要写一篇好文章需要酝酿很长时间,每周能写一篇好文章已经算不错了,这就注定了个人博客是竞争不过门户网站的。
当然,个人博客也有自己的对策,就是要求门户网站删除复制的文章,但通常会浪费巨大的时间和精力,当被复制的文章累计到成千上万的时候,完成这种工作量通常是不可能的任务。
因此,Google要想在中文的互联网环境下实现对于原创内容识别的准确性,需要考虑使用专门针对中国特殊国情的特殊算法,否则,中国原创的博客群落将会逐渐被门户网站边缘化,走向自生自灭的可悲下场,最为可悲的是,中国最大的搜索引擎百度对于原创内容的识别几乎是一片空白,这也使得当前中国的互联网的环境显得异常恶劣。
由抄袭造成的重复内容
2008年7月6日 上午 11:37:00
发表者:Sven Naumann,搜索质量组
原文:Duplicate content due to scrapers
发表于:2008年6月9日星期一,上午3:40
重复内容一直是网站管理员们热议的话题之一,我们觉得很有必要对在各种会议上和网站管理员支持论坛中我们被问及的常见问题作以下统一解答。
在做深入探讨之前,我想先简要谈谈网站管理员们经常担忧的一个问题:在大多数情况下,网站管理员往往对擅自抄袭和传播自己内容的第三方无能为力。我们知道这并不能归咎于网站管理员们,这也就意味着同一内容出现在许多不同网站其本身并不理所当然地被认为是违反了网站管理员指南。这仅仅导致了Google必须增加一个额外步骤,即鉴别内容的原创来源,而这正是Google所擅长的,在大多数情况下原创内容源都能被正确地识别出来,从而不会给发布真正原创内容的网站带来任何负面影响。
一般而言,我们把网站内容雷同问题主要分为两种情况:
站内内容重复,比如同一内容(经常是无意识地)在您的网站内重复出现。
站间内容重复,比如您网站的内容(同样,经常也是无意识地)在其他网站重复出现。
对于第一种情况,您可以亲自动手解决Google对您网站上的重复内容进行索引的问题。您可以阅读 Adam Lasnik 发表的Deftly dealing with duplicate content以及Vanessa Fox 发表的Duplicate content summit at SMX Advanced。这两篇文章都提供了一些很好的建议,帮助您解决站内内容重复的问题。这里还有一个特别的建议帮助您避免站内内容被重复索引:您可以将您希望被抓取的URL序列包含在您的站点地图文件中。遇到包含同一内容的不同网页时,这么做有助于我们准确收录您真正想提供给用户的那部分内容。其他有关于站内内容重复的信息您可以参阅讨论此主题的有关“帮助中心文章”。
第二种情形可能是有人剽窃了您网站中的内容,并将其展示在其他网站上牟利。同时,网络代理服务器也经常抓取通过代理方式访问的网站的部分内容。当在不同网站遇到相同内容的时候,我们会基于许多不同的依据来判断究竟哪个网站才是原创,而这样的判断通常是准确的。这也意味着,当您发现有人剽窃了您的内容时,您大可不必过分担心它对您的网站在谷歌搜索排名上的负面影响。
如果您将自己网站的内容与他人分享, 但同时还希望自己的网站被识别为原创来源的话,您需要请合作伙伴在其网站内容上添加指向您原创内容的链接。您也可以在Vanessa Fox最近发表的文章Ranking as the original source for content you syndicate找到其他有关处理这一问题的建议。
有些网站管理员会有这样的疑问: 什么原因会导致有时候抄袭内容反而比原创内容的排名还要高呢?这应该是个特例,但如果您真的遇到这种情况,请您务必做到:
检查一下您的内容是否能被我们抓取。您可能无意间在 robots.txt文件中阻止了部分内容被正常访问。
您可以检查一下Sitemap文件,看看您自己是否改动过那些被抄袭的特定内容。
检查您的网站是否符合网站管理员指南。
最后我想指出的是,在绝大多数情况下,含有雷同重复内容并不会对您的网站在谷歌搜索上的排名有负面影响。这些内容可能已经被过滤出去了。如果您参照上述提到的一些建议,您会了解到怎样才能更精确地控制搜索引擎抓取的内容以及出现在索引中的内容版本。只有被确认为蓄意或恶意抄袭时,雷同重复内容才有可能会被视为违反了网站管理员指南。
如果您想更深入地讨论这一话题,请浏览我们的网站管理员支持论坛。