很久没更新了,之前老根在卖个电子书的时候,我就对他这本书进行了猜测,核心的价值就是怎么样整原创文章,或者换句话说就是怎么样整让谷歌觉得你是原创内容的文章!拿到这本电子书,果然不出我所料,现把里面我认为核心的东东摘抄如下:
原创内容的意义:原创内容并不一定等于排名,对于竞争不是很高的关键词,内容原创对于排名的提升有很大的帮助。原创内容更大的意义是在于培育网站的基础,持续原创的内容,对于网站权重的提升有很大的帮助。
Google 怎么样判断原创,目前国内外公认的一些算法:
TF/IDF算法
TF-IDF 算法在两个方面都有重要的作用:1. 提取文章的关键字词2. 根据关键词检索出相关度高的文本。
TF-IDF 的主要意思是说:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
TF 词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。
IDF 反文档频率(Inverse Document Frequency)指的是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。
当一篇文章根据TF/IDF 进行计算后,形成了一个多维的向量,这个向量就是这篇文章的内容特征向量,当两篇文章的特征向量趋于一致的时候,我们认为这两篇文章的内容接近,如果一致则说明是重复的。
TFIDF 的理论依据及不足之处
1.TFIDF 算法是建立在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF 词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,TFIDF 法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF 的概念,以TF 和IDF 的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF 的调整,调整权值的目的在于突出重要单词,抑制次要单词。但是在本质上IDF 是一种试图抑制噪音的加权,并且单纯地认为文本频数小的单词就越重要,文本频数大的单词就越无用,显然这并不是完全正确的。IDF 的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TFIDF 法的精度并不是很高。
此外,在TFIDF 算法中并没有体现出单词的位置信息,对于Web 文档而言,权重的计算方法应该体现出HTML 的结构特征。特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同。因此应该对于处于网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果。
因此关键词替换操作,调换段落等伪原创操作,已经基本上无效。
http://zh.wikipedia.org/wiki/TF-IDF
http://blog.csdn.net/andrew659/article/details/5289612
http://baike.baidu.com/view/1228847.htm
指纹算法
在SEO 应用方面比较多的是数据指纹:基于文章的指纹特征,判断标点符号规则。假设世界上的文字标点符号是唯一的,因此每一篇文章都应该是不重复的。所以关键词替换操作,是能被检查到是伪原创。
代码噪音
搜索引擎为减少代码分析负担,会对网站头部,底部,固定区域进行代码过滤,从而得到内容部分。通过降噪之后得到的内容部分,用TF-IDF 算法、指纹算法等进行分析,判断页面内容是否为原创。
判断原创的方法还是有很多,上面提到的仅仅是其中3 个很小的部分。但是我们将上面3 个算法的核心理解,进而想出对策,也基本上能符合原创内容要求。
4. 基本应对方法
通过模板设计,将随机,上下,推荐等内容调入内容区域,阻碍搜索引擎判断,写入一个div 架构增加代码噪音。这个能基本上阻碍Google 的基础判断,但是这不是长久之策,因此我们需要添加更多的应对操作。
目前流行的一个说法:30%以上内容是独一无二的,基本上可以判断内容原创。
每个页面有网络上独一无二的内容
1.每个产品都有自己的专有属性,这个是我们组合重写相关内容的一个重要要素。通过对这些要素的重写,去完成一段独一无二的内容
一个简单例子:
产品名file belonging to XX 公司Company XX 软件software.The 产品名error is
usually caused by missing file or corrupted file.The size is 软件大小.Official introduction:介绍
信息
- For 系统
2.不管我们是做网赚站,正品站,还是仿牌站,总有一些需要引导的内容文案,增加信任度内容文案。因此,这部分内容将是我们组合成原创内容的一个特别要素。
一个简单例子:
1.如何保养(产品关键词)
保养方法1
保养方法2
保养方法3
…….
2.如何购买(产品关键词)
第一步
第二步
……..
3.每个产品都应该有一个系列,都会有相关产品。怎么互相推荐,互相关联,不仅是我们的考虑,也是我们制作原创内容的一个素材。
一个简单例子:
小米1 相关的产品:小米1,小米1S,小米2
上面3 点可以看成是3 个元素,通过将不同的元素组合到模板里面,自动生成一篇新的、可读性高的原创内容页面。(元素不仅仅是上面提到的,也可以是一些产品参数,也可以是句子,品牌名,品牌介绍,使用方式,操作方式等)
简单组合例子:
Title:Cheap 产品名online shop,buy cheap 产品名,产品名outlets
<div>
产品名file belonging to XX 公司Company XX 软件software.The 产品名error is
usually caused by missing file or corrupted file.The size is 软件大小.Official introduction:介绍
信息
<ul>
<li>For 系统</li>
<li>小米1 相关的产品:小米1,小米1S,小米2</li>
<li>
<ul>
<ul>1.如何保养(产品关键词)</ul>
</ul>
<ul>
<ul>保养方法1</ul>
</ul>
<ul>
<ul>保养方法2</ul>
</ul>
<ul>
<ul>保养方法3</ul>
</ul>
<ul>…….</ul>
<ul>
<ul>2.如何购买(产品关键词)</ul>
</ul>
<ul>
<ul>第一步</ul>
</ul>
<ul>
<ul>第二步</ul>
</ul>
<ul>……..</ul>
底部调用类似淘宝的相关产品20 个</li>
</ul>
</div>
每一套网站模板,都应该有一个独立的元素写法,多增加一个元素,原创率将会越高。
每一个产品的属性基本上可以第一为不同,介绍信息也不同。介绍信息里面也会有一些标点符号,组合而成的段落,就完全可以过Google 的指纹算法。有自己的独立元素,就能达到原创要求。将可用的信息调入同一个div 框架,既增加了干扰,也增加了内部链接的权重。
此方法适合:产品,软件等拥有相对多属性的网站,例如Amazon,shareware,正品复制站等
本来,电子书已经上传上来了,但是考虑到,老根还没卖几份,就暂时不公开下载了!要的朋友,订阅博客,然后给我发邮件即可!已经订阅的,直接给我发邮件!我会在周末统一发给大家!或者等两周之后,再公开下载地址!
下载地址:SEM9卖8000的无外链做流量电子书
虽然在sem9混了很久,但昨天才知道他在卖电子书。太想要了,能整我一份吗
支持楼主 博主高手
是啊你很久都没有更新了,博主是不是为了赚大钱,忙的都没时间更新了,希望能多看到你博文 。会来关注的,那个老根的书早看了呵呵。
已经更新在这篇文章的底部了!
可惜了SEM9,应为这本书废了个好论坛!