2023年6月28日星期三

WordPress设置robots.txt的最佳方法

很久以前我就设置了博客的robots.txt,想让搜索引擎只抓取网站中关键的内容,不抓取后台的文件和页面。这样做的原因如下:

搜索机器人对每个网站都有一个爬网配额,这意味着它们在爬网会话期间对一定数量的网页进行爬网。如果他们没有完成对您网站上所有网页的抓取,那么它们将在下一个会话中返回并恢复抓取。这可能会减慢网站索引的速度。

您可以通过禁止搜索机器人尝试抓取不必要的页面(如 WordPress 管理页面、插件文件和主题文件夹)来解决此问题。通过禁止不必要的网页,可以节省搜索引擎爬网配额。这有助于搜索引擎抓取网站上的更多页面并尽快将其编入索引。

我在网上各处寻找robots.txt的设置方法,取各家之长最终将robots.txt设置如下(注意现在这个方法已经过时了):

User-agent: *Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/Disallow: /trackback/Disallow: /comments/Disallow: /attachment/Disallow: /comments/feedDisallow: /feedDisallow: /*/feedDisallow: /*/comment-page-*Disallow: /*?replytocom=*Disallow: /*/trackbackDisallow: /?s=*Disallow: /*/?s=*\Disallow: /wp-*.php

最近我才知道这样设置robots.txt已经是不对的(过时了),因为搜索引擎在不断进步,上面那样设置robots.txt反而不利于搜索引擎索引。而且即使一个页面被robots.txt阻止了,它可能仍会被编入索引,如果不想让它被搜索引擎索引,最好的方法是在页面上放置noindex元标记。

因为WordPress已经自动阻止索引某些敏感文件和URL,例如WordPress管理区域,所以,对于WordPress,设置robots.txt最好的示例如下(对于所有爬虫程序不受限制地自由抓取这个网站):

User-Agent: *Disallow:Sitemap: https://www.example.com/sitemap_index.xml

以下内容来源自:https://yoast.com/ultimate-guide-robots-txt/

robots.txt优点:管理爬网预算

通常可以理解,搜索蜘蛛到达一个网站时,会预先确定它将抓取多少页面(或它将花费多少资源/时间,基于网站的权威/大小/声誉,以及服务器的响应效率)。SEO称之为爬行预算。

如果您认为您的网站存在抓取预算问题,阻止搜索引擎将精力「浪费」在网站的不重要部分可能意味着专注于重要的部分。

有时阻止搜索引擎抓取您网站有问题的部分可能是有益的,尤其是在必须进行大量 SEO 清理的网站上。整理好东西后,您可以让它们重新进入。

robots.txt缺点:不从搜索结果中删除页面

即使您可以使用robots.txt文件告诉爬虫它不能在您的网站上的位置,您也不能使用它向搜索引擎说哪些URL不会显示在搜索结果中。换句话说,阻止它不会阻止它被索引。如果搜索引擎找到足够的指向该 URL 的链接,它将包含它;它只是不知道该页面上的内容。

如果您想可靠地阻止网页出现在搜索结果中,请使用noindex元标记。这意味着要找到该标记,搜索引擎必须能够访问该页面,因此不要用robots.txt阻止它。 

使用 noindex 阻止搜索引擎编入索引(https://developers.google.cn/search/docs/crawling-indexing/block-indexing?hl=zh-cn)

noindex 是一个包含 <meta> 标记或 HTTP 响应标头的规则集,用于防止支持 noindex 规则的搜索引擎(例如 Google)将内容编入索引。当 Googlebot 抓取该网页并发现该标记或标头时,Google 就会完全阻止该网页出现在 Google 搜索结果中,不论是否有其他网站链接到该网页。

不要在robots.txt中阻止CSS和JS文件

自2015年以来,Google Search Console警告网站所有者不要阻止CSS和JS文件。多年来,我们一直告诉你同样的事情:不要在你的robots.txt中阻止CSS和JS文件。让我们解释一下为什么您不应该阻止Googlebot的这些特定文件。

通过阻止CSS和JavaScript文件,您可以阻止Google检查您的网站是否正常运行。如果您屏蔽了文件中的 CSS 和 JavaScript 文件,Google 将无法按预期呈现您的网站。现在,谷歌无法理解您的网站,这可能会导致排名降低。此外,甚至像 Ahrefs 这样的工具也会渲染网页并执行 JavaScript。所以,如果你想让你最喜欢的SEO工具工作,不要阻止JavaScript。

这与谷歌变得更加「人性化」的普遍假设完全一致。谷歌希望像人类访问者一样查看您的网站,以便它可以区分主要元素和附加元素。谷歌想知道JavaScript是增强了用户体验还是破坏了用户体验。

robots.txt缺点:不传播链接值

如果搜索引擎无法抓取网页,则无法将链接值分布在该网页上的链接中。当你在robots.txt中阻止了一个页面时,这是一个死胡同。任何可能流向(和流经)该页面的链接值都将丢失。

传统上,WordPress喜欢阻止对wp-admin和wp-include目录的访问。 但是,这已经不再被视为最佳实践。

以下内容来源自:https://kinsta.com/blog/wordpress-robots-txt/#what-to-put-in-your-robotstxt-file

robots.txt并不是控制搜索引擎索引哪些页面的万无一失的方法。如果您的主要目标是阻止某些页面包含在搜索引擎结果中,正确的方法是使用noindex元标记或密码保护。

这是因为你的robots.txt并没有直接告诉搜索引擎不要索引内容——它只是告诉他们不要抓取它。虽然 Google 不会从您的网站内部抓取标记区域,谷歌自己声明如果外部网站链接到您使用 robots.txt 文件排除的网页,Google 仍可能会将该网页编入索引。

谷歌网站管理员分析师约翰·穆勒(John Mueller)也证实,如果一个页面有指向它的链接,即使它被 robots.txt阻止了,可能仍会被编入索引。

以下内容来源自:https://yoast.com/wordpress-robots-txt-example/

搜索引擎不断改进他们抓取网络和索引内容的方式。这意味着几年前曾经是最佳实践的东西可能不再有效,甚至可能损害您的网站。

如今,最佳实践意味着尽可能少地依赖robots.txt文件。只有当您遇到复杂的技术挑战(例如,具有分面导航的大型电子商务网站)或没有其他选择时,才真正需要robots.txt文件中的URL。

通过robots.txt阻止URL是一种“蛮力”方法,可能会导致比解决更多的问题。

对于大多数WordPress网站,以下示例是最佳实践:

User-Agent: *Disallow:Sitemap: https://www.example.com/sitemap_index.xml

这段代码有什么作用?

  1. User-agent: * 该指令指出,以下任何说明适用于所有爬网程序。
  2. Disallow: 该指令没有进一步的说明,所以我们说,所有爬虫都可以不受限制地自由抓取这个网站。
  3. 在robots.txt文件中,我们还链接到XML站点地图的位置,使Google,Bing和其他搜索引擎更容易找到它。
  4. 我们还为查看文件的人提供了一些信息(链接到此页面),以便他们了解我们为什么以这种方式设置文件。

WordPress和Yoast SEO已经自动阻止索引某些敏感文件和URL,例如WordPress管理区域(通过x-robots HTTP标头)。

robots.txt创造死胡同

搜索引擎需要发现、抓取和索引您的页面,然后您才能在搜索结果中争夺可见性。如果您通过 robots.txt 阻止了特定网址,搜索引擎将无法再抓取这些页面以发现其他网址。这可能意味着关键页面不会被发现。

robots.txt否认其价值

SEO的基本规则之一是来自其他页面的链接会影响您的表现。如果某个网址被阻止,搜索引擎不仅不会抓取它,而且还可能不会分发指向该网址或通过该网址网站上其他页面的任何“链接值”。

谷歌完全呈现您的网站

人们过去常常阻止对CSS和JavaScript文件的访问,以使搜索引擎专注于那些最重要的内容页面。如今,谷歌获取你所有的样式和JavaScript,并完全呈现你的页面。了解页面的布局和呈现方式是评估质量的关键部分。所以谷歌不喜欢你拒绝它访问你的CSS或JavaScript文件。

以前阻止访问您的目录和插件目录的最佳实践不再有效,这就是为什么我们与 WordPress 合作删除了 4.0 版的默认禁止规则。

链接到您的 XML 站点地图有助于发现

robots.txt 标准支持将指向 XML 站点地图的链接添加到文件中。这有助于搜索引擎发现您网站的位置和内容。

这可能感觉是多余的,因为您应该已经将站点地图添加到Google Search Console和Bing网站管理员工具帐户中,以访问分析和性能数据。但是,在robots.txt 中拥有该链接为爬虫提供了一种万无一失的方式来发现您的站点地图。

2023年6月26日星期一

《毒舌律师/毒舌大状》观后感

看过《还是觉得你最好》感觉还不错,接着就出来了《毒舌律师》,同样是黄子华主演,而且评分也很高,于是很想看一看。看过之后却很失望,我觉得连及格分都达不到。

过于明显的套路

刚开始男主玩世不恭,不小心害了人又悔恨不已,痛定思痛后重新做人,最后东山再起翻盘取胜。像极了早期周星驰电影的套路。

太多煽情的情节

男主自暴自弃到处招惹人挨打,低声下气找女主出山,遭当事人拒绝后义正言辞感化她,为了内心的正义被黑社会围攻不怕流血,在法庭上试图感动陪审团。我不喜欢看太煽情的桥段,感觉不真实,太假了。

破绽过多的案情

在证据不足的情况下,受害人就被定罪,全凭证人空口白说。一直不能重审,两年后居然又可以重审。男主两年后才痛下决心寻找证据,没想到两年前的案发地点一点变化都没有,像几天前发生过的似的,他可以轻易而举地找到关键的证据。法庭上男主也是空口无凭地自说自话地夸张表演,试图感动陪审团,在没有证据的情况下通过心理战让对方证人露出马脚。死者晕过去了还能喝两瓶水,之后也没有解剖尸体查明死亡原因。

整个法庭上不见证据,都是煽情的口述自嗨,一个劲儿把富人当作只手遮天的批斗对象,完全用情绪来辩论。整部电影除了男主,其他人都像纸片一样脸谱化,几乎不用表演,完全可以坐在那里脸上贴个名字就行了。

2023年6月22日星期四

电动牙刷初体验

我很晚才知道巴氏刷牙法,才懂得正确刷牙,之后就一直用这种刷牙的方法,但是牙结石还是会存在。后来才知道巴氏刷牙法很难彻底贯彻执行,很少有人能真正做到,因为巴氏刷牙法要求牙刷的刷头在牙龈处画圆圈,手动刷牙操作起来很困难,所以最好用电动牙刷。今年洗牙的时候,牙医说我有牙周炎,要半年洗一次牙,让我用牙线和电动牙刷。

买什么电动牙刷我也不懂,后来看了评价说用的多是欧乐B和飞利浦,我看中的是欧乐B的旋转刷头刷牙的方式,有人说太用力了受不了,我倒觉得正合我意,我平时刷牙习惯用力刷牙,不然觉得刷不干净。于是趁着618做活动买了一款欧乐B的P4000。

刚开始用电动牙刷不太习惯,刷牙的时候泡沫少,总觉得没刷干净,而且不知道什么时候该挪动牙刷的刷头,我查了资料,结合自己的实际操作,总结下电动牙刷的刷牙方法。

牙齿分为4个区域,分别是左上、左下、右上、右下。每个区域又分为3个面,外面、上面、里面。

1.挤牙膏,把牙刷刷头放到嘴的最里面,我习惯放在左下的外面。

2.启动按钮。

3.开始刷牙,用巴氏刷牙法,牙刷和牙齿呈45度角,关键刷牙龈,因为牙斑菌主要在那里。每颗牙2秒钟,一个面10秒钟,一个区域30秒钟。4个区域刷完正好2分钟。

我一般先刷左下,再刷左上,再刷右上,最后右下。

4.关机。用流水冲洗刷头和刷柄,垂直立在桌子上(不要放在杯子里)晾干。

电动牙刷和手动牙刷最大的区别是刷头自己会动,刷牙时只需把刷头放在牙齿上就行,不用手动在牙齿上画圈,而且因为刷头是高速旋转,刷牙的时间比手动刷牙用时短。

刷牙后有个明显的感觉是,当舌头碰到下门牙内侧可以感受到不平滑,这说明牙齿缝隙也被刷干净了,之前只有洗牙后才会有这种感觉。

用了几天发现门牙间的牙结石也不见了,看来电动牙刷刷的还是很干净,花点钱能更好地保护牙齿很值得。

2023年6月19日星期一

2023年618购物小记

每年的618和双11是全民网上购物的狂欢节,当然我没能免俗,在这段时间买东西确实可以便宜一些,既然没法儿多赚钱也只能省钱了,为了省钱花了不少的时间,不过穷人的时间不值钱。

我大概从5月二十几日开始关注618的相关活动,每天不定时打开「值得买」APP,生怕特价商品从指缝间溜走而痛恨不已。一直持续到6月18日,近一个月的时间。活动结束了,我轻松了好多,不用精神紧张地领券、凑单、计算价格了。

今年618总体感觉不管是商家还是买家都平淡了好多,商品的价钱也只是比平时便宜了一点而已,没有像以往一样降价太多搞促销了。

我买的生活必需品有,米面油、鸡翅、牛腩、牛腱子、卷纸、洗洁精,这些都必不可少,趁着活动买了一些,其中米、油和卷纸的价钱还是很高,比两年前贵了不少。同时又买了一些之前一直想买的东西,帐篷、松下台灯、电动牙刷、电风扇。