SEO名人好文章系列,是本人收集前辈们分享过的精华,听听大牛的思考,对自己做SEO帮助很大。今天分享的是GoGo闯的好文章:SEO如何处理采集内容(3)
有基友留言说“没图你说个屁”,本渣渣想哪里没留图了,一看上篇结尾还真没把图片加上。因为文章我用markdown排版,图片引用七牛的图床,在微信编辑器转成富文本的时候正常显示,一发布的时候就漏掉了,微信公众号的图片不能引用外部链接
采集内容上线逻辑
有基友问采集的内容怎么分类,抓取的词怎么分类。其实很简单,做个小网站就都明白了,本渣渣在此科普下
采集内容清洗后是要入库的,入库就得有逻辑,所以在采集一开始就得想到这点,并设计采集到上线的流程
每个站点情况都不一样,但最最基础的模式类似下面这种:
- 确定要做的主题,从这个主题里选几个词根,一个词根或几个词根就代表一个内容分类
- 用词跟去扩展,挖出要做的流量词
- 挖出来的词,依次去抓取对应的内容
如上图,比方说我设定1个词根,从这个词根挖出10个扩展词,每个扩展词分别抓20篇内容,那么在这个词根(内容主题)下,我有100篇内容可以上线。那要上线的页面一般分两个:
- 详情页面
- 聚合页面
那么,详情页面就是抓过来的100篇内容;聚合页面就是由词根挖出来的10个扩展词,每个扩展词生成一个列表页或其他形式的聚合页面,页面内容就是对应这个词采集的20篇内容。
数据表格式
所以,上线起码要有3个表,用mysql举例,要是用mongodb啥的非关系型数据库自己转化一下~~~
词根表
频道 | 频道id |
---|---|
a | 1 |
b | 2 |
c | 3 |
… | … |
扩展词表
关键词 | 关键词id | 所属频道id | 优先级 | 相关词 |
---|---|---|---|---|
word1 | 1 | 1 | s | kw1,kw2,kw3.. |
word2 | 2 | 1 | s | kw1,kw2,kw3.. |
word3 | 3 | 2 | a | kw1,kw2,kw3.. |
word4 | 4 | 2 | a | kw1,kw2,kw3.. |
word5 | 5 | 2 | a | kw1,kw2,kw3.. |
word6 | 6 | 3 | a | kw1,kw2,kw3.. |
word7 | 7 | 3 | a | kw1,kw2,kw3.. |
word8 | 8 | 3 | a | kw1,kw2,kw3.. |
… | … | … | … | … |
每个扩展词都标记所属频道的id,这样上线的时候就可以做同频道扩展词的相互推荐
另外可以对每个扩展词,通过竞争度、搜索量、挖词渠道质量、收录、排名等指标设定这个词的优先级,优先级高的词在站内给予更多的链接支持
这个字段可以弄成动态的,比方说上线后每周查一遍排名,凡是在第二页、第三页的关键词优先级都调整到最高,提供更多的链接支持冲到第一页去…
相关词就是这类词的同义词,或者干脆抓这个词的相关搜索,把这些词嵌入到页面中,万一被用户搜索命中就能跑到首页呢…
其他根据具体需求设置调整扩展词表的字段,全靠创新,没固定的套路
详情内容表
标题 | 正文 | 文章id | 所属扩展词id | 所属频道id |
---|---|---|---|---|
title1 | content1 | 1 | 1 | 1 |
title2 | content2 | 1 | 1 | 1 |
title3 | content3 | 1 | 1 | 1 |
title4 | content4 | 2 | 1 | 1 |
title5 | content5 | 2 | 1 | 1 |
title6 | content6 | 2 | 1 | 1 |
title7 | content7 | 3 | 2 | 1 |
title8 | content8 | 3 | 2 | 1 |
title9 | content9 | 3 | 2 | 1 |
… | … | … | … | … |
每个文章都映射所属扩展词id和所属频道
举个实例
以上是个最简单的模式,可以用这个模式根据网站本身的情况去套,比方说我有个卖音乐设备的站,网站主要内容就是围绕产品或品牌的产品信息。
音乐设备行业固定搜索词不多,但深挖的话有能找到不少个性化的搜索词,比如“XX鼓简单曲子” “xxx和什么搭配好”…这种搜索行为只能基于某个产品或某个品牌才会产生这种搜索,不能像“XX价格”、“XX测评”适用于所有产品和品牌,可以批量上页面的。
但又想拿到这些个性化搜索词的流量怎么办?没办法通过改现有页面标题来覆盖,那就只能每个词生成新页面来覆盖了,而网站主要内容是产品信息,无法覆盖这种个性化搜索词,那就只能去采集喽
那么根据上图的套路,那么词根就是每个产品和品牌,用这些词去各种渠道找流量词,找到流量词再去大平台抓对应的内容。
到了上线阶段,理想情况下是每个扩展词采集20篇内容,这样生成的聚合页都有20条信息(Zero大神测试过,列表页信息条数在20条的时候,获得首页排名的概率比其他条数要高),但理想很美好,现实很残酷,并不可能所有的扩展词都能抓到20条内容,那么怎么办?
每个扩展词都有所属词根的,而每个所属词根在站内都是有产品信息内容的,所以一个词根下的扩展词,在数据库内除了有采集过来的内容,也有原先就有的产品信息内容,这些两类内容虽然说得不是一个词,但是都在同一个主题下,都是属于某个品牌或产品的。一个扩展词只采集到3条内容,生成新页面则是个空短页面,不会被收录,那么可以再调用这个扩展词所属词根的产品信息来补全,以此来提升页面质量
GoGo闯个人介绍:
流量贩子,91年4月生。做过SEO,搞过站群,熟悉python、linux、mysql、mongodb等。好运动,一礼拜不骑行、跑步、举铁就浑身难受。果粉、黑色脑残粉。希望 ‘成为一个有趣的人,拥有保持独立人格和独立思考能力’。好折腾,连续写一天代码不头疼,连续学一年新语言不怵头。好户外,已骑行川藏线、滇藏线、环津京翼。
个人博客:http://www.kaopuseo.com/ (探讨SEO、黑帽、黑色产业、互联网流量引入、流量转化与变现的观点、想法及技巧)。微信公众号:流量贩子。
西安SEO总结:
(1)采集内容上线逻辑:1个词根、10个扩展词、20篇内容。搭配好详情页和聚合页。
(2)三个重要表格:词根表、扩展词表、详情内容表。后续的数据分析优化都会根据表格来做。
(3)优先级这个字段可以弄成动态的,比方说上线后每周查一遍排名,凡是在第二页、第三页的关键词优先级都调整到最高,提供更多的链接支持冲到第一页去…