首先马克一下,以前理解的一个叫crawl path的概念是错的
Find unreachable pages
1.半年为单位,GA导出去重后的URL对比蜘蛛访问URL
2.数据库导出URL,对比蜘蛛访问URL
3.遵照robots协议用工具爬出的URL,对比蜘蛛访问的URL,对比不遵照robots协议爬出的URL
一些维度
首先马克一下,以前理解的一个叫crawl path的概念是错的
Find unreachable pages
1.半年为单位,GA导出去重后的URL对比蜘蛛访问URL
2.数据库导出URL,对比蜘蛛访问URL
3.遵照robots协议用工具爬出的URL,对比蜘蛛访问的URL,对比不遵照robots协议爬出的URL
一些维度
早就下下来了,上传到优酷一次,被优酷说侵犯版权屏蔽了
以前看matt视频出现not 100% sure觉得matt老师是故意不把话说透,有点人民日报的文风 的意思,现在感觉有些地方可能matt真是not 100% sure。
感觉提问的观众有点电台卖药的托儿吧,怎么多年以后matt还在回答多会pr更新,还是matt老师故意挑这个问题的。
后边一笔带过的俄罗斯js方法搜了半天没有线索
最后关于XXcookie的故事不要看了,和SEO无关,他们反垃圾小组的一个故事,没听懂
Hi,我是 Maile Ohye.
我已经在谷歌工作了六年,从事搜索部门和站长管理员工具的工作。
欢迎来到我家,我们聊一聊翻页的SEO。
为了开始这个话题,我们先看看一些关于翻页内容的例子。
然后我们看一些翻页导航的效果并且知道作为站长怎么处理翻页而不降低索引效果,同时还能给用户带来好的体验。
然后我们来讨论你的设置,分为两部分讨论。
一部分是对于那些有查看全部页面的网站的分页,一部分对于网站上没查看全部页面功能的情况。
因此今天将有两种分页设置要讨论,然后我们再谈一下google是怎么帮助用户和站长来解决分页问题的。
最后要说的,对于你已有的设置,不论你的网站有没有查看全部页面的功能,我们都会看那些分页页面。
好的,我们来看一些分页设置的例子。分页内容贯穿于网络,我将具体讲解两个最普遍的案例。
一种是文章的分页
让我们去你最喜欢的内容站点,点击你最具有爆炸性的新闻。《新研究发现曲奇饼干比蔬菜更有营养》,确实是个爆炸新闻。
但是这个站点可能不会把所有内容都放在一个页面上,而是分散地做成几个零碎页面。
现在这个例子是被分成了三个页面,这就是一个典型的文章分页页面(门户新闻页面)。
另一种分页案例出现于产品分类,就像你在你最喜爱的网店里看到的。
我们说说这个卖模具的网站,他们卖六种不同的模具。但是他们没有把所有商品放在了一个页面上,而是分开制作了两个页面。两个页面上都设置了分页。 (更多…)
去年看过一次,今天又找见,自己大概翻一下做个记号,括号里是回忆和新做的一些小标记。一路趟着往下翻,也不管顺不顺了。
《Large Web site design theory and crawl management》
爬取涉及到搜索引蜘蛛擎爬取的方方面面,包括:
PS:(这里crawl指的是网站爬取方面的状况,crawling指的是蜘蛛的 爬行)
1.爬取率(既定时间内网站被蜘蛛获取的页面数量)
2.爬取频率(搜索引擎多久对网站发起一次新的爬行)
3.爬取深度(一个蜘蛛从开始位置可以点击到多深)
4.爬取饱和度(唯一页面被获取的数量)
5.爬取优先(那些页面最常作为蜘蛛的入口)
6.爬取冗余度(网站一般被多少蜘蛛同时爬取)
7.爬取mapping(蜘蛛爬取路径还原) (更多…)
SOPA是Stop Online Piracy Act的缩写,又称為H.R. 3261。根据美国国会资料库的资料显示,其中H.R.表示House Bill或是House Of Representatives,是法案的一种类型,3261是SOPA法案的编号。
SOPA和PIPA会如何影响google,twitter,维基百科,其中有一种类似连带责任(SOPA与PIPA法案:常见问题)的规定,首先网站本身要检视自己的链接对象(只是链接就需要自我审查),其次,甚至自己链接引用对象触规都有机会使本站关闭。
google已经更新了服务条款,当前google隐私政策和新的隐私政策,在“执行”一栏删除了“安全港口”条款,换为了“自我监管档案”,法规还未通过,算是未雨稠缪、委婉的抗议么?关于这两点可看文章底部延伸阅读阮一峰老师的文章。
youtube也在3月1日将开始关闭一些视频。
今天上youtube看东西,才感受到,据说有大段采样的音乐是属于被审查对象,好可怜的hiphop爱好者。
不过,细想了一下,我们不是对审查不够敏感,实是已经对审查没有了感觉,起码我在豆瓣上这几年的感觉是这样的(并非敏感信息的审查)。