Tagged: Baidu Toggle Comment Threads | 键盘快捷键

  • Jason Lin 9:20 am on August 15, 2015 链接地址 | 回复
    Tags: Baidu,   

    如何布局您的PC站和移动站,并表达两者之间内容的对应关系 

    目前较流量的PC站与移动站配置方式有三种,百度站在搜索引擎角度将这三种分别称为跳转适配、代码适配和自适应,以下为这三种配置方式的名词解释及异同对比。

    1,跳转适配:该方法会利用单独的网址向每种设备提供不同的代码。这种配置会尝试检测用户所使用的设备或ua,然后使用 HTTP 重定向和 Vary HTTP标头重定向到相应的页面。

    2,代码适配:该方法使用相同的网址(不考虑用户所使用的设备),但会根据服务器对用户所用浏览器的了解(ua),针对不同设备类型生成不同版本的HTML

    3,自适应:通过同一网址提供相同 HTML 代码的网站设计方法。该方法不考虑用户所使用的设备(pc、平板电脑、移动设备),但可以根据屏幕尺寸以不同方式呈现(即适应)显示屏。

    PC、移动网址是否一致 PC、移动网页代码是否一致
    跳转适配
    代码适配
    自适应

    1,跳转适配

    在pc版网页(http://www.example.com/page-1) 上,添加:
      
    
    而在移动版网页(http://m.example.com/page-1) 上,所需的注释应为:
       
    

    2,代码适配

    并且在pc的响应的head中添加
      
      在移动的响应的包头中添加
      
      
    

    3,自适应

    自适应设计有其一般原则:在head添加以下代码并且使用元素处理自适应图片:
      
    
    自适应页面还应该在head中标识:
      
      表示页面同时适合在移动设备和PC上进行浏览。
    

     

    关于移动配置,百度不建议的做法

      1,单一域名下请使用同一种配置方式(跳转适配、代码适配、自适应),例如,不要把移动站的页面作为pc站网址中的一个子目录来配置。
      2,如果使用跳转适配的方式,请不要使用JS对ua进行适配跳转。这种方式存在两个缺点:
    a) 对用户:会加大由重定向的客户端造成的延迟;这是因为客户端需要先下载网页,接着解析并执行 JavaScript,然后才能触发重定向。301或302则不会有这个延迟。
    b) 对搜索:爬虫也需要使用支持JS渲染的爬虫,才能发现此重定向。
     
  • Jason Lin 8:13 pm on August 13, 2014 链接地址 | 回复
    Tags: Baidu   

    谈谈Canonical标签 

      前几天站长社区有站长朋友谈了一下对Canonical标签的看法,认为这是一个与301类似、解决网站内重复页面的好办法。那么我们来谈谈这两者有什么区别,使用Canonical标签时又该注意些什么。

    【Canonical标签与301的区别】
    1,在几个网页内容完全相同(或高度相似)的时候,如果希望两个网页都可以被用户正常访问到,就使用Canonical标签;如果仅让用户访问其中的一个,直接使用301跳转更方便。
    2,使用Canonical 标签的前提是几个网页一定是完全相同(或高度相似)的,而301则没有这个限制。

    【使用Canonical 标签时要特别注意的两点】
    1,百度虽然支持Canonical标签,但并不保证完全遵守该标签。请站长注意,最好在完全相同的网页中使用Canonical标签——这样可以提升Canonical标签的使用效果。
    *之前的帮助文档中的确提到高度相似的网页也可以使用Canonical标签,但在实际过程中我们发现,相似网页使用Canonical标签的成功率较低。
    2,还有一点非常非常重要,请各位站长在设置Canonical标签前,仔细检查两个网页是否真的完全相同——一旦百度发现其中一个Canonical标签有问题,会不信任该站点的所有Canonical标签

     
  • Jason Lin 9:35 am on August 12, 2014 链接地址 | 回复
    Tags: Baidu,   

    为什么必须保护Robots协议? 

    Robots协议

    一、从Spider程序到Robots协议

    即使不是工程狮,关注互联网的人也很少不知道Robots协议。百度和360从2012年起展开的一场屏蔽与反屏蔽战把原本程序猿才知道的Robots协议变成媒体热词。北京一中院8月7日对3B搜索不正当竞争纠纷案(3B案)刚刚作出的一审判决让Robots协议在新闻里又火了一把。Robots协议的法律地位或法律效力问题是3B案一系列法律问题中最大的争点,分析这个问题就必须先了解Robots协议的内容和意义。

    Robots协议和搜索引擎的爬虫程序(Spider)其实是一对同胞兄弟。

    1994年之前,AltaVista、Infoseek等代表的搜索引擎在互联网可以通过Spider直入网站管理后台,把所有网页信息系数收录。除了涉及隐私外,爬虫程序的反复收录在20年前对网站带宽也是不小的负载。荷兰工程师Martin Koster深感互联网丛林之乱,提出通过设立名为Robots规范的网站访问限制政策(Access Policy)方式在整个互联网统一解决Spider无所不在所带来的威胁。Robots协议在技术实现上并不复杂,网站管理员只要按规则在网站根目录下创建Robots.txt的文本文件就可以禁止搜索爬虫收录指定网页内容。从早期的AltaVista、Infoseek到后来居上的Google 、Yahoo和美国以外的Baidu等各大搜索引擎都群体接受了Robots协议,避免和内容网站为Spider陷入一场危机。

    二、Robots规则可以受法律保护

    反对3B案一审判决的理由集中对Robots协议法律效力的否定上。Robots协议并不是法律,也没有被IETF、ITU和W3C等国际标准组织接纳。但国际标准也不是法律,逻辑上成为国际标准不等于自动享有法律保护。法律和规则并不是同一个概念,法律属于规则,而规则远远大于法律。百度是以不正当竞争为案由起诉360,反不正当竞争法本身就是通过列举加兜底的方式,在少数明确规定的违法行为外以原则性规定了根据不正当竞争行为的判断标准。司法者的权限并不局限于寻找包含Robots协议内容的具体法条,而是可以根据实际案情裁量违反Robots协议是否就违反了反不正当竞争法第二条对经营者应当遵循自愿、平等、公平、诚实信用和公认商业道德的强制性规定。认定违法并不需要将Robots协议上升为法律作为前提,违反规则就可能导致违反法律的结果。况且3B案发生背景之一,是被告奇虎360本身就通过签署《互联网搜索引擎服务自律公约》承诺“遵守机器人协议(Robots协议)”和“限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为”。360在明确承认Robots协议约束力后又规避了协议,既是违法又构成违约。

    法律之外的规则受法律承认和保护是普遍现象。

    合同不是法律而是当事人自由达成的一致意思表示,但依法成立的合同当然受法律保护。《合同法》第八条即规定:“依法成立的合同,对当事人具有法律约束力。…依法成立的合同,受法律保护。”被互联网广泛采用的Robots协议属于行业惯例,仅《合同法》就在第二十二条、第二十六条、第六十条、第六十一条、第九十二条等九个条款承认交易习惯的效力,如第九十二条就规定:“合同的权利义务终止后,当事人应当遵循诚实信用原则,根据交易习惯履行通知、协助、保密等义务”。《物权法》第八十五条也规定:“法律、法规对处理相邻关系有规定的,依照其规定;法律、法规没有规定的,可以按照当地习惯”。根据法理及以上法条的规定,惯例完全有可能获得法定效力及执行力。3B案判决认可Robots协议的效力是法官依职权对Robots协议合法性进行认知的过程,并不存在法官造法或逾越职权创造新权利。

    百度在360推出网络搜索后迅速启用Robots协议,在百度旗下的知道、贴吧、文库、百科等产品屏蔽了360爬虫。百度屏蔽360的产品基本属于用户创造内容(UGC)类型的上传平台。百度对平台内容并不直接享有著作权,360因此质疑百度无权拒绝收录。但UGC平台身份也无碍百度根据《著作权法》第十四条对相关内容享有作为汇编者的权利。在百度主张反不正当竞争保护情况下,举证责任更简化到证明原告合法投入因被告竞争行为受到实际损害及被告竞争行为违反诚实信用或商业道德,而360强行利用百度网站内容已构成搭便车的不正当竞争行为。

    三、互联网拒绝丛林法则

    360在3B案中以百度滥用Robots协议作为抗辩,但换个角度看真正容易被滥用的倒是Spider程序。互联与分享是网络的基本性格,而信息的多元化也决定了很多情况下网络传播必须受到控制。不受Robots协议限制的Spider程序必然使互联网陷入严重混乱,网站后台隐私无法保护,网页更新的旧信息必须完全删除而不能仅仅屏蔽,音乐、视频等内容的收费盈利模式遭到毁灭打击。互联网经过长期博弈逐步摆脱无序状态,难道只因搜索爬虫失控又将回到比拼技术暴力的暗黑丛林?这种情景绝非法治下的互联网可以接受的。

    Robots协议自成立以来在全球受到严格遵守,利用Robots协议屏蔽搜索的案例举不胜举。Facebook和Twitter长期屏蔽谷歌,后者除了发牢骚不敢采取任何规避手段;默多克的新闻集团一度全面屏蔽谷歌,谷歌一直忍到……忍到默多克自己忍不住投降;搜索屏蔽360的除了百度各网站还有腾讯的QQ空间,更有意思的是QQ空间屏蔽360爬虫却在2012年后对百度和Google开放,360甚至都没有为此指责腾讯歧视;腾讯尽管向百度开放QQ空间却将腾讯微博的内容屏蔽至今,新浪微博也一度加入屏蔽百度的队列;电商领域可能是互相屏蔽的高地,淘宝从2008年起一直屏蔽百度搜索,京东、苏宁、当当网等也屏蔽了阿里旗下一淘搜索的爬虫。

    各国法院承认Robots协议效力的判决同样不胜枚举。美国联邦法院早在2000年就在eBay诉BE(Bedder’s Edge)案 中就通过禁令支持了eBay屏蔽BE爬虫的主张。内华达法院2006年审理的Field v. Google 案 也明确认可Robots协议是有效保护网站权利的通行标准。北京一中院同样于2006年在审理著名的浙江泛亚诉百度著作权侵权案 判决书中认定原告有权利用设置Robots.txt文件拒绝百度收录。上述通过Robots协议屏蔽搜索爬虫的互联网实例和认可Robots协议法律效力的中外法院判决,都证明Robots协议的效力并不是在3B案中才成为争点,也证明Robots协议在产业实践和司法实践中都一直得到认可和尊重。

     
  • Jason Lin 10:31 pm on June 23, 2014 链接地址 | 回复
    Tags: Baidu   

    世上本没有百度pagerank和权重 

    百度站长平台的同学在与站长交流中,经常被问“去哪里查百度pagerank”“百度权重是怎么算的”诸如此类的问题。

    针对此,百度站长平台正式发出公告:百度pagerank、百度权值是不存在的!

    那么,百度通过什么来判断网站价值呢?百度搜索引擎认为同一网站在不同场景、不同需求时所体现的价值是不同的,用一个固定的数值去体现网站价值既不科技也不严谨。百度搜索引擎的确有一套衡量网站价值的打分体系,由近百种策略组成,但分值是动态的,即同一网站在不同场景、不同需求下获得的分值不尽相同。

    另外提醒广大站长,不要相信任何第三方机构或个人提供的所谓网站在百度的权重信息。正如上所述,百度搜索引擎对网站价值的衡量打分是动态的,任何机构或个人提供的分值都仅仅是针对单一场景、需求计算估约得出,对网站运营工作没有实际指导意义。

     
c
Compose new post
j
Next post/Next comment
k
Previous post/Previous comment
r
回复
e
编辑
o
Show/Hide comments
t
Go to top
l
Go to login
h
Show/Hide help
shift + esc
取消