插入多条测试数据
> for(i=1;i<=1000;i++){
… db.blog.insert({“title”:i,”content”:”mongodb测试文章。”,”name”:”刘”+i});
… }
db.blog.[......]
插入多条测试数据
> for(i=1;i<=1000;i++){
… db.blog.insert({“title”:i,”content”:”mongodb测试文章。”,”name”:”刘”+i});
… }
db.blog.[......]
java格式化数字DecimalFormat
在输出数字时,有时需要给数字配上单位,有时需要数字具有一定的精度,也有时需要用科学计数法表示数字。
关键技术剖析:
v java.text.DecimalFormat类专门用于格式化数字。
v 需要为DecimalFormat提供格式化模式P[......]
列表、集合与数组之间的转化
数组和List、Set都可以存放多个元素,数组的特点是长度固定,访问速度非常快,元素类型单一;List的特点是长度可以动态增加,能够维护元素的次序,存入的所有元素都当做Object,允许元素重复;Set的特点是长度可以动态增加,能够保证元素不重复,存入的所有元素都当[......]
Java 生产者消费者问题
在JAVA中,一共有四种方法支持同步,其中三个是同步方法,一个是管道方法。
1. 方法wait()/notify()
2. 方法await()/signal()
3. 阻塞队列方法BlockingQueue
4. 管道方法PipedInputStream/P[......]
Hadoop MapReduce 减小数据倾斜的性能损失
常见的数据倾斜有以下几类:
数据频率倾斜——某一个区域的数据量要远远大于其他区域。
数据大小倾斜——部分记录的大小远远大于平均值。
在map端和reduce端都有可能发生数据倾斜。在map端的数据倾斜会让多样化的数据集的处理效率更[......]
PageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。
Google[......]
数据挖掘十大经典算法(7) AdaBoost
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次[......]
数据挖掘十大经典算法(8) kNN: k-nearest neighbor classification
k-Nearest Neighbor algorithm
右图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三[......]
数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes
贝叶斯分类器
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive B[......]
数据挖掘十大经典算法(10) CART: 分类与回归树
如果一个人必须去选择在很大范围的情形下性能都好的、同时不需要应用开发者付出很多的努力并且易于被终端用户理解的分类技术的话,那么Brieman, Friedman, Olshen和Stone(1984)提出的分类树方法是一个强有力的竞争者。[......]