百度目前对原创文章识别机制及应对方法

青岛茶山的冰瀑布

美图欣赏:青岛茶山的冰瀑布

  百度官方搜索运营团队一再重申“原创”,只有对用户有用的内容才能得到百度给予排名的推荐,将优质内容展示给用户。作为百度搜索展示的内容供应商,我 们所有站长必须为其百度用户输送新鲜血液,以“为用户创造价值”为己任,这才是站长朋友们发展的方向与动力,同时是为百度搜索引擎提供新的源泉,继而成就 百度搜索引入了流量间接也成就了自己,为此百度搜索为整个原生态系统平衡启用了原创星火计划,以打击采集类网站。首批对象是受邀的新闻源网站,作为我们中 小站长而言看到了一丝希望,百度正努力改善原创文章识别机制,识别中还存在有很多不足之处,快速反应及识别原创面临着很大的挑战,整个网络中数以千万计的 文章暂时无法做到百分百精确,百度官方也积极表示原创是生态问题,需要长期改善,让我们拭目以待。下面就谈下平度网及之前运行的一系列个人博客、企业营销网站所观察到的一些相关数据进行了分析总结,现将我对百度目前对原创文章识别机制的一些观点(请注意,只是我个人观点)分享给大家,希望能为新站站长带来 一点帮助。

参考因素一、首次爬取确认时间

 

网站日志图
图片说明:上面是18日的访问日志,红框内1是百度蜘蛛来访IP段220.181.108.171,2是来访问的时间2013-8-18 04:09:08,3是爬取的相关路径根目录下的/seo/350.html。
 

百度蜘蛛首次爬行网站原创文章的URL路径时间(如图1),百度蜘蛛来访问时间是2013-8-18 04:09:08此时蜘蛛爬取了路径为/seo/350.html这篇文章,并将爬取的文章内空发送回网页分析系统,至于何时放出这就要看你网站的权重及 可信度,此时百度网页分析系统将文章进行初次筛选并存入到网页爬取数据总库,同时记录下爬取时间、类似文章对比排序编号、文章title标签等信息等,以 便以后对类似信息对行对比筛选归类,这里可以作为是考察属于首次原创信息的基本因素之一,因为蜘蛛对各个网站的爬取时间不一,有些低权重站可能发一篇文章 要几天后或更久才会被蜘蛛所爬取,在此期间或被其它高权重站所转载或又没有保留作者版权,而易被误认为是转载方,对原创作者不公平也无法维持原创生态发 展,转载方却冒充原创坐享其成,百度绝不允许这种事情发生,并将严力打击这种行为;

 

百度蜘蛛爬取时间2013-08-19 00:07:55,在此篇文章发布后20分钟左右被爬取。

图片1说明:百度蜘蛛爬取时间2013-08-19 00:07:55,在此篇文章发布后20分钟左右被爬取。

  作者支招:新站或权重低的网站,在网站上发布了一篇原创文章时,多预备一篇文章在权重高的网站进行发布,并保留自 己网站上的原创文章URL路径,当这篇文章被百度爬取时会顺着网页内容上的网址去爬取原创的URL网址,不一定非要留锚文本,只要百度能识到是网址,且是 在百度索引库中未存在的网址都会在短期内都去爬一次。站长朋友们就可利用这点来引导蜘蛛对原创URL路径的爬取,虽然不一定是放出来,只要搜索引擎爬取了 至会认定你这篇文章的原创因素会大一 点,如有可查看网页日志的朋友查询日志便可知晓百度蜘蛛是否来爬取过(如图2),只要保持每天更新一篇原创文章,百度蜘蛛会百常喜欢来的,就本文而言发布 刚好在20分钟左右就被百度爬取回去,此时在被其它网站转载也无防,给百度的第一印象,本篇文章是本站的原创性较大。

 

参考因素二、链接的指向关系

链接指向,语义结构及内链等

图片2说明:链接指向,语义结构及内链等
 

百度在爬取网页内容时,根据内容关键词、语义、图片等信息分析进行综合计算后与所在目录标签、网站关键词类型、内链结构关系等进行技术分析对比,判断 出文章原创价值系数(如图2),各种内链指向对应关系以同种色彩表示,与其它文章建设内应关系;内容语义与标签都是同个类目,文章关键词,描述等以搜索优 化为主,符合网站主题,那么本文章对于我的网站首推网而言,百度判定文章原创系数到少为中等,首推网符合原创本篇文章的对应要求。通过链接指向判断基本可 确定为原创信息的基本因素之二。

作者支招:原创文章需做好网站的内链,将关键词指向到对应类似的文章,并且原创的文章必须符合自己网站的主题,图 片方面必须通过自己的网站上传,可得到自己网站的路径信息,并加注ALT标签,如若在其它权重高的网站发布能图文类的信息,图片最好采用远程URL路径加 图(即图片URL路径为原创网站的),有些人转载文章图方便直接复制过去,图片路径仍保留原网站的,这点百度系统足以判断文章系转载。

 

参考因素三、文章特征关键词

首先我要说下百度为每个网站所建立特征信息编码,一般百度收录到一个新的网站后都会建立属于该网站独一无二的特征编码,以备对文章原性质进行识别判 断。文章特征关键词也称内容特定关键词,类似于人的特征信息,如相貌,言行举止等,若作为文章来讲,比如说作者署名、编辑名及特定的名称,如作者的网站 “平度网”,这个就可做为网站独有的特征关键词,百度首先经过词库判断选出文章的特征词一个或多个然后通过数据对比分析库判定文章的特征词在当前网站中所 使用的频率,文章中的特征词与当前网站对比,计算出该文章的特定词与网站特征库对比获取的概率高,将会列入作为原创基本因素之三的特征。

 

作者支招:在原创文章中尽量合理地穿插自己网站的名称、作者名称或网站所常用且较为独特的词语(可参考本篇文章,关键是合理,能让阅读顺畅,切不可盲目乱加,否则适得其反)。

 

参考因素四、转发的轨迹

转发的轨迹就不用我多说了吧,我只说下百度判断原理,之前我们说过,百度每收取一个页面都会将页面中所有的网址或属于具有网址特征如后缀 为.com、.cn的域名等等,都将会纳入到链接选取系统进行分析获取转发的轨迹次数,文章版权所留的网址或所标名的来源网址在百度所爬取的信息中存在最 多的,且指向的是同一个网页URL来源,那么百度基本可以确定其文章的归属。这就是百度作为原创文章考虑的第四个因素。但现在的个别站长动机不纯,将文章 转载过去后去除头尾,甚至打乱段落排序进行二次原创,俗称伪原创,在以前还可以,但现在的百度完全可以识别,进行二次加工实属多余,百度官方明确表示将加 大力度打击该类文章和全部用软件采集类的文章,鼓励原创,还明确指出转载文章需保持文章的完整性,也至于不影响用户的正常阅读,降低用户体验。

 

作者支招:文章作为二次首发,介意把稿件推荐到知名站点,如站长类网站,A5或chinaz等知名站点,优质文章还是有很多网站转载,并保留了作者版 权信息,在此借此平台像这类站长编辑表时感谢(如:919站长站、易得米、红黑联盟、海内、站长百科、看客网等等,由于文章限制不一一说明),尊重作者版权,尊重别人的劳动果实,相信更多站长会像你们一样,互联网圈将会有更好的发展氛围,更多的原创作品面市。

 

参考因素五、站点的历史原创情况

百度将会考虑网站的历史原创信息,将网站以往发的原创文章放入到文章原创库,并建立网站原创评分系统,这也是百度对网站的搜索排名权重考评的一个机制 系统,你网站的原创评分系数高说明网站原创文章丰富,所发布的新文章给的权重相对也较高,不管是否原创,这类网站只要一发出新文章百分百是会被收录并且放 在第一页,然后根据系统分析识别到是转载他人的文章后适当降降权,文章也不会被K掉,被这类网站所转载一般都保留了版权信息,对文章原创作者无害反而间接 推荐了作者网站。作为新网站十天半个月都发出不了一篇原创文章,甚至更本就没有写过原创文章,突然放出一篇原创,百度也很难判定文章是你的网站所出,因为 你网站的历史原创系数为零,内容基本靠转载或都采集而来,这就相当于狼来了的故事,一次上当了,二次上当了,三次肯定不会在上当了,百度蜘蛛也是一样,作 为刚上线的新站百度蜘蛛会天天来,来了却没有收获久而久之就不来了,因为百度蜘蛛很忙,偶尔不声不响地放个屁出来百度也不敢相信是你放的,所以文章原创重 在坚持,掌握百度蜘蛛来访习惯,来时一定不要让她空手而归,再差的东西也要让她拿点回去,当然东西还得是自己写出来的,长期以往你网站的原创评分系数在不 知不觉中便提高了,若不受其它因素影响你的网站权重提升也会很快。关于文章的历史原创评分这点作者也没有什么好招可支,作为新站必须原创一点新内容,相信 只要坚持原创,持之以恒,滴水穿石,终将会有回报。

 

百度站长平台官方关于原创星火计划的说明

 图片3说明:百度站长平台官方关于原创星火计划的说明

 

关于文章原创的判断据百度发言人Lee通报,原创星火计划所涉及各项判断达100余项(如图3),原文可在百度站长资讯中可搜索到,有兴趣的朋友可以 去看一下,作者认为上面说到的5个因素百度肯定是考虑在其中了的。另在百度站长聚会中也探讨了百度搜索引擎对于文章原创机制识别的讨论,但Lee总是含糊 其词,不作正面回答,当然这涉及到了企业商业机密,在三大巨头竞争激烈的今天,谁能为用户推荐出优质的资源谁便可以占领更多市场。在根据百度站长官方的回 答,其中作者信息,发布时间,版权链接信息等都是可以由转载方自由更改,用这个来作为判断因素肯定是不靠谱的,但可作为识别机制里的一点小小补充。另补充 一点,上文中有提到伪原创问题,关于伪原创的识别,相信很多站长都用过伪原创工具,就是采用软件将文章段落打乱,部份词用同义词替换,这种机械性的动作建 意大家少用为佳,你都能通过伪原创软件创出来,难道百度就不能在把文章给你“伪”回原行,当然这个过程肯定比创造伪原创的过程难,但现在百度蜘蛛已经很智 能了,并且百度关键词字库中已搜集了海量的关键词并进行了大量的归类处理。如果实在无法原创出来,那就拿一篇文章来,按照文章的意思自己在构思一次写出 来,这肯定是原创,百度在智能也无法真正理解文章的含意,毕竟再怎么智能也是人发明出来的一台机器而也,虽然运算快,反应快但终究无法超越聪明的人。

网站内容可以说是网站的灵魂,优质的文章带来的不仅是流量和排名,更多的是服务客户,为客户提供方便。无论是从SEO角度角度来说,内容都很重要,激烈竞争的今天,天天发文章是网编和SEO的工作,然而他们也天天担心没文章发,今天青岛友浩SEO根据百度目前对原创文章识别机制的分析,就来分享一下编辑一篇高度原创性的文章的经验,仅供大家参考。

1:视频记录

打开搜索引擎的视频,搜索相关名词,我们准备好战斗,记录视频讲座的重点名词,并列举相关列表,用自己的话总结,尽量的简单明了,这样浏览者浏览起来,也不太吃力,对网站的可阅读性大大的加分了。

2:巧用SE

说到搜索引擎,除了百度,我们都知道谷歌,搜搜,搜狗,有道等,这些国内知名的搜索引擎。例如搜搜有特定的博客搜索,这样我们可以搜索百度不收录的QQ空间;谷歌的英文和繁体搜索然后翻译成中文简体;搜狗的搜索下拉,可以看出关键词的热度,来写我们文章的标题等。

3:总结精华

这是广大站长经常用到的,就是摘抄每篇文章的精华部分,我们可以加以修饰,例如替换同义词,标点符号,颠倒段落,顺畅插入自己的文字等。总结文 章精粹之处,一定要做到层次分明,以列表的形式展示,让用户感觉到条理性。例如换词技术:“合肥技术学校哪个好”改成“好的安徽合肥学技能地学校”,这样 一句话的修改,用到了加形容词,同义词的替换,名词倒置,句型更改。只要我们的中心思量不变,就可以以不变应万变。

4:整合资源

例如我们可以整合我们QQ群技术交流的聊天记录,淘宝网原创文章,名师讲座的知识名词,微薄简短的知识语录的总结,都是很好方法,关键是我们怎么把文章合理的整合在一起,使他们变得通顺,可阅读,这需要我们长时间的锻炼和学习。

5:插入感情

我们在发表一篇优秀的文章的时候,我们可以有感情的插入一段笑话,一段经典名句,个人的感想等,这都会对我们的浏览用户感觉到亲切,虽然相关性不大,但是对增加网站黏性,分享网站内容有很大的帮助。

6:QQ聊天记录
QQ的聊天记录是一个很好的文章采集点,但是很多站长容易忽视它,因为聊天记录基本上每天都有,但是相对来说问题散而不集中,从而不会引起注意,我们可以把聊天的记录进行收集下!然后这就是一篇很好的原创文章。

7:拼凑法
拼凑法的用法很简单,就是收索到内容相近的文章,然后选取其中精华部分集中的进行拼接就可以了,这个方法需要站长注意的就是文章的拼接处要用连接词作引渡,做到承上启下的作用,这样的文章才通顺。

8:读后感白文法
读后感白文法是要各位站长们多读文章然后把看过文章的感受用白话记录下来,这一点我建议新站长优先选择,因为作为新站长多读文章可以帮你你的学习,从而做到一举两得的效果。

9:近义同义词转换法
近义同义词转换法是我们做长尾词时候也会用到的。这个是我们在做伪原创文章的时候可以用的到。比如“二手车”我们就可以把它改为“旧车”文字改掉虽说意思没变,但是蜘蛛是不会发现它们就是同一个意思的。

10:新闻提取法
在互联网待久的 朋友都知道新闻是一个十分具有时效性的资讯,作为一位站长如果能够很好的利用新闻去写文章、带来的流量还是挺可观的。新闻提取就是当某一个事件出来的时 候;我们可以去抓取某一个小细节来做深度的剖析、我自已作为一个每天都看新闻的屌丝来说:除了看新闻知道、是关于某个事件地报道之外,会把更多的精力用来 看人们对于此事地评论;因为我觉得这样的文章十分具有可阅读性,新闻只是了解某个事件的发生、所以停留在上面的时间比较短,如果这个时候你的新闻深度剖析 能够第一时间出现,那对你网站权重、流量等等都是一个提升。
温馨提示:每个行业都有相关新闻;所以请保持新闻文章和你网站内容的相关性。
11:论坛精华版
论 坛是一个互动性比较强的交流场所,很多喜欢去分享第一时间在哪里所发生的事情,还有就是论坛里面的一些热门帖子、精华帖子等。我们写原创文章的时候,可以 去引用他的某一个中心、观点来丰富自已的文章内容。复制+粘贴这种事情是我们很多做伪原创站长所做的事情,这样一来我们只需要开头写点东西、结尾写点看 法;中心部分直接引用论坛相关帖子的中心内容进行相关地延伸。
12:百度知道提示
用过百度知道的朋友都知道,当我们在生活、学习中遇到问题,就会很不自觉的去百度知道提问,这些问题对于我们写文章是很有帮助的;原因是我可以去了解 用户需求、有哪些问题还没有解决、da安不完整。稀缺性大家都不陌生吧!百度喜欢互联网没有东西、喜欢帮用户解决问题的内容出现在搜索结果中。另外,关于 百度知道后面 回复地da安也是很具有参考价值的;可以用一句话、一个段落把他们串起来。

写原创文章的方法还有很多,比如:微博、百度百科、百度经验、站长之家等等;都是我们写原创的过程中、十分具有参考意义的内容;就我自已总结了写原创门道:借鉴、吸取、整合、创新。网站的核心也就是内容,内容原创独特是关键,原创只是相对而言,没有价值的原创是失败的原创,内容是网站的基础也是关键词,看过这篇文章之后,希望可以提示您一点灵感,创新才是王道。

 

未经允许不得转载:友浩SEO » 百度目前对原创文章识别机制及应对方法

赞 (0) 打赏

评论 0

评论前必须登录!

登陆 注册

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏