為促進搜索內容生態(tài)健康發(fā)展,,保障用戶的瀏覽體驗,,搜狗搜索將于6月17日推出石破算法。該算法旨在對包含惡劣采集行為的鏈接、網站進行識別,根據(jù)網站作弊程度落實相應的清洗打壓措施。惡劣采集標準解讀與示例如下,,煩請合作方自查并于算法上線前完成全面整改。
1. 內容邏輯混亂:采集不同文章進行拼湊或相同文章的重復片段堆疊成一篇文章,,文章前后無邏輯關系,,致使用戶理解困難;
圖1.1 正文內無相關關系
圖1.2 內容重復堆疊
2. 內容結構混亂:采集后未進行編輯導致的文章排版混亂,、無關信息冗雜,、功能丟失等問題,難以為用戶提供有效信息,;
圖2.1 缺少問答結構
3. 網站由大量采集內容構成:網站缺少原創(chuàng)/獨有內容,,即多為批量采集并未進行編輯整理的內容,整體內容質量較低 ,;
圖3.1 相同采集內容反復應用
圖3.2 批量生成文章配圖
4. 跨領域采集:網站采集大量與主要經營領域無關內容用以獲取流量的行為也會被判定為惡劣采集,;