前方高能——本篇文章是攻城獅們根據(jù)日常收到的case整理而來,親自編寫,希望站長親們給個好評哦!
平臺攻城獅近日接到了百度內(nèi)部用戶的反饋,說lvshi.baidu.com站點(diǎn)的收錄情況比較差,希望協(xié)助追查原因。
攻城獅追查的過程如下:
首先通過site語法檢索,發(fā)現(xiàn)收錄量確實(shí)比較少,只有11條,而且還發(fā)現(xiàn)一部分是死鏈數(shù)據(jù)。
然后根據(jù)用戶反饋的部分url,檢測發(fā)現(xiàn)這批鏈接在2016年12月26日當(dāng)天已經(jīng)就已經(jīng)抓取回來了,首次抓取上是沒有問題;緊接著發(fā)現(xiàn)這批網(wǎng)頁都被百度爬蟲判定為空短頁面,從網(wǎng)頁庫中獲取當(dāng)時的抓取頁面,檢查發(fā)現(xiàn)這些頁面抓取回來的內(nèi)容是一樣的,都是提示讓輸入邀請碼。
被百度爬蟲判斷為空短頁面,肯定是不能被百度搜索收錄的。
有站長可能會問,那等網(wǎng)站全部開放后,是不是就可以收錄了呢?對于百度爬蟲來說,當(dāng)對一個網(wǎng)站抓取后發(fā)現(xiàn)大面積都是低值的空短頁面時,爬蟲會認(rèn)為這個站點(diǎn)的整體價值比較低,那么在后面的抓取流量分布上會降低,導(dǎo)致針對該站點(diǎn)的頁面更新會比較慢,進(jìn)而收錄也會比較慢。這里學(xué)院君再次強(qiáng)調(diào)一下,不要讓爬蟲給站點(diǎn)畫上不優(yōu)質(zhì)的標(biāo)簽哦,后果很嚴(yán)重!
那么該如何避免呢?方法其實(shí)比較簡單,網(wǎng)站在邀請測試階段使用robots封禁就可以。
掃一掃在手機(jī)上閱讀本文章