大数据处理算法.docx
- 文档编号:4369618
- 上传时间:2022-12-01
- 格式:DOCX
- 页数:15
- 大小:71.32KB
大数据处理算法.docx
《大数据处理算法.docx》由会员分享,可在线阅读,更多相关《大数据处理算法.docx(15页珍藏版)》请在冰豆网上搜索。
大数据处理算法
大数据处理算法
目录
大数据处理算法一:
Bitmap算法2
大数据处理算法二:
BloomFilter算法5
大数据处理算法三:
分而治之/hash映射+hash统计+堆/快速/归并排序11
标签:
算法,大数据,编程,面试题,腾讯
大数据处理算法一:
Bitmap算法
腾讯面试题:
给20亿个不重复的unsignedint的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中并且所耗内存尽可能的少?
解析:
bitmap算法就好办多了
所谓bitmap,就是用每一位来存放某种状态,适用于大规模数据,但数据状态又不是很多的情况。
通常是用来判断某个数据存不存在的。
例如,要判断一千万个人的状态,每个人只有两种状态:
男人,女人,可以用0,1表示。
那么就可以开一个int数组,一个int有32个位,就可以表示32个人。
操作的时候可以使用位操作。
一,申请512M的内存
一个bit位代表一个unsignedint值
读入20亿个数,设置相应的bit位
读入要查询的数,查看相应bit位是否为1,为1表示存在,为0表示不存在
二、使用位图法判断整形数组是否存在重复
判断集合中存在重复是常见编程任务之一,当集合中数据量比较大时我们通常希望少进行几次扫描,这时双重循环法就不可取了。
位图法比较适合于这种情况,它的做法是按照集合中最大元素max创建一个长度为max+1的新数组,然后再次扫描原数组,遇到几就给新数组的第几位置上1,如遇到5就给新数组的第六个元素置1,这样下次再遇到5想置位时发现新数组的第六个元素已经是1了,这说明这次的数据肯定和以前的数据存在着重复。
这种给新数组初始化时置零其后置一的做法类似于位图的处理方法故称位图法。
它的运算次数最坏的情况为2N。
如果已知数组的最大值即能事先给新数组定长的话效率还能提高一倍。
1.importjava.util.BitSet;
2./**
3.*大数据处理算法一,bitmap算法
4.*@authorJYC506
5.*
6.*/
7.publicclassBitmap{
8.
9.byte[]tem;
10.
11.publicBitmap(intlength){
12.this.tem=newbyte[length];
13.}
14.
15.publicvoidadd(intnum){
16.if(num 17.if(tem[num]! =1){ 18.tem[num]=1; 19.} 20.} 21.} 22. 23.publicbooleancontain(intnum){ 24.if(num 25.if(tem[num]==1){ 26.returntrue; 27.} 28.} 29.returnfalse; 30.} 31. 32.publicstaticvoidmain(String[]args){ 33./*运行前内存*/ 34.longbeforeMemory=Runtime.getRuntime().totalMemory(); 35.longstart1=System.currentTimeMillis(); 36.BitSetset=newBitSet(2000000000); 37.for(inti=0;i<2000000000;i++){ 38./*假设898989这个数不在20亿个数里面*/ 39.if(i! =898989){ 40.set.set(i,true); 41.} 42.} 43./*创建20亿个数后所占内存*/ 44.longafterMemory=Runtime.getRuntime().totalMemory(); 45.longend1=System.currentTimeMillis(); 46.System.out.println("总共内存使用: "+(afterMemory-beforeMemory)/1024/1024+"MB"); 47.System.out.println("存入内存耗时: "+(end1-start1)+"毫秒"); 48.longstart2=System.currentTimeMillis(); 49.booleanisExit1=set.get(898989); 50.booleanisExit2=set.get(900000); 51. 52.longend2=System.currentTimeMillis(); 53./*输出在20亿个数中判断898989是否包含在里面*/ 54.System.out.println(isExit1); 55.System.out.println("20个亿中"+(isExit1? "包含": "不包含")+898989); 56.System.out.println("20个亿中"+(isExit2? "包含": "不包含")+900000); 57.System.out.println("查询用时: "+(end2-start2)+"毫秒"); 58.} 59. 60.} 大数据处理算法二: BloomFilter算法 XX面试题: 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? BloomFilter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。 通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一.实例 为了说明BloomFilter存在的重要意义,举一个实例: (实例一),假设要你写一个网络蜘蛛(webcrawler)。 由于网络间的链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”。 为了避免形成“环”,就需要知道蜘蛛已经访问过那些URL。 给一个URL,怎样知道蜘蛛是否已经访问过呢? 稍微想想, (实例二)给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 就会有如下几种方案: 1.将访问过的URL保存到数据库。 2.用HashSet将访问过的URL保存起来。 那只需接近O (1)的代价就可以查到一个URL是否被访问过了。 3.URL经过MD5或SHA-1等单向哈希后再保存到HashSet或数据库。 4.Bit-Map方法。 建立一个BitSet,将每个URL经过一个哈希函数映射到某一位。 方法1~3都是将访问过的URL完整保存,方法4则只标记URL的一个映射位。 以上方法在数据量较小的情况下都能完美解决问题,但是当数据量变得非常庞大时问题就来了。 方法1的缺点: 数据量变得非常庞大后关系型数据库查询的效率会变得很低。 而且每来一个URL就启动一次数据库查询是不是太小题大做了? 方法2的缺点: 太消耗内存。 随着URL的增多,占用的内存会越来越多。 就算只有1亿个URL,每个URL只算50个字符,就需要5GB内存。 方法3: 由于字符串经过MD5处理后的信息摘要长度只有128Bit,SHA-1处理后也只有160Bit,因此方法3比方法2节省了好几倍的内存。 方法4消耗内存是相对较少的,但缺点是单一哈希函数发生冲突的概率太高。 还记得数据结构课上学过的Hash表冲突的各种解决方法么? 若要降低冲突发生的概率到1%,就要将BitSet的长度设置为URL个数的100倍。 实质上上面的算法都忽略了一个重要的隐含条件: 允许小概率的出错,不一定要100%准确! 也就是说少量url实际上没有没网络蜘蛛访问,而将它们错判为已访问的代价是很小的——大不了少抓几个网页呗。 例如有一组字符arr: ”哈哈“,”呵呵“........ 字符串: “哈哈” 哈希算法1处理后: 8 哈希算法2处理后: 1 哈希算法1处理后: 3 插入BitArray后 再处理字符串: “呵呵” 哈希算法1处理后: 2 哈希算法2处理后: 1 哈希算法1处理后: 9 继续插入BitArray后,如果继续游字符串,继续以这种方式插入 判断”在这些字符串是否包含”嘻嘻“ 哈希算法1处理后: 0 哈希算法2处理后: 1 哈希算法1处理后: 7 只要判断下标分别为0,1,7位置的值是否都为1,如下图因为位置0跟位置7的值不为1 所以”嘻嘻“不包含在arr中,反之如果都为1怎包含 java代码实现如下 1.importjava.util.ArrayList; 2.importjava.util.BitSet; 3.importjava.util.List; 4. 5./** 6.*BloomFilter算法 7.* 8.*@authorJYC506 9.* 10.*/ 11.publicclassBloomFilter{ 12./*哈希函数*/ 13.privateList 14./*构造方法*/ 15.publicBloomFilter(){ 16.this.hashFuctionList=newArrayList 17.} 18./*添加哈希函数类*/ 19.publicvoidaddHashFunction(IHashFunctionhashFunction){ 20.this.hashFuctionList.add(hashFunction); 21.} 22./*删除hash函数*/ 23.publicvoidremoveHashFunction(IHashFunctionhashFunction){ 24.this.hashFuctionList.remove(hashFunction); 25.} 26./*判断是否被包含*/ 27.publicbooleancontain(BitSetbitSet,Stringstr){ 28.for(IHashFunctionhash: hashFuctionList){ 29.inthashCode=hash.toHashCode(str); 30.if(hashCode<0){ 31.hashCode=-hashCode; 32.} 33.if(bitSet.get(hashCode)==false){ 34.returnfalse; 35.} 36.} 37.returntrue; 38.} 39./*添加到bitSet*/ 40.publicvoidtoBitSet(BitSetbitSet,Stringstr){ 41.for(IHashFunctionhash: hashFuctionList){ 42.inthashCode=hash.toHashCode(str); 43.if(hashCode<0){ 44.hashCode=-hashCode; 45.} 46.bitSet.set(hashCode,true); 47.} 48.} 49. 50.publicstaticvoidmain(String[]args){ 51.BloomFilterbloomFilter=newBloomFilter(); 52./*添加3个哈希函数*/ 53.bloomFilter.addHashFunction(newJavaHash()); 54.bloomFilter.addHashFunction(newRSHash()); 55.bloomFilter.addHashFunction(newSDBMHash()); 56./*长度为2的24次方*/ 57.BitSetbitSet=newBitSet(1<<25); 58./*判断test1很test2重复的字符串*/ 59.String[]test1=newString[]{"哈哈","我","大家","逗比","有钱人性","小米","Iphone","helloWorld"}; 60.for(Stringstr1: test1){ 61.bloomFilter.toBitSet(bitSet,str1); 62.} 63.String[]test2=newString[]{"哈哈","我的","大家","逗比","有钱的人性","小米","Iphone6s","helloWorld"}; 64.for(Stringstr2: test2){ 65.if(bloomFilter.contain(bitSet,str2)){ 66.System.out.println("'"+str2+"'是重复的"); 67.} 68.} 69. 70.} 71.} 72./*哈希函数接口*/ 73.interfaceIHashFunction{ 74.inttoHashCode(Stringstr); 75.} 76. 77.classJavaHashimplementsIHashFunction{ 78. 79.@Override 80.publicinttoHashCode(Stringstr){ 81.returnstr.hashCode(); 82.} 83. 84.} 85. 86.classRSHashimplementsIHashFunction{ 87. 88.@Override 89.publicinttoHashCode(Stringstr){ 90.intb=378551; 91.inta=63689; 92.inthash=0; 93.for(inti=0;i 94.hash=hash*a+str.charAt(i); 95.a=a*b; 96.} 97.returnhash; 98.} 99. 100.} 101. 102.classSDBMHashimplementsIHashFunction{ 103. 104.@Override 105.publicinttoHashCode(Stringstr){ 106.inthash=0; 107.for(inti=0;i 108.hash=str.charAt(i)+(hash<<6)+(hash<<16)-hash; 109.returnhash; 110.} 111. 112.} 大数据处理算法三: 分而治之/hash映射+hash统计+堆/快速/归并排序 XX面试题1、海量日志数据,提取出某日访问XX次数最多的那个IP。 IP是32位的,最多有个2^32个IP。 同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。 然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。 XX面试题2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。 一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。 ),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 第一步借用hash统计进行预处理: 先对这批海量数据预处理(维护一个Key为Query字串,Value为该Query出现次数,即Hashmap(Query,Value),每次读取一个Query,如果该字串不在Table中,那么加入该字串,并且将Value值设为1;如果该字串在Table中,那么将该字串的计数加一即可。 最终我们在O(N)(N为1千万,因为要遍历整个数组一遍才能统计处每个query出现的次数)的时间复杂度内用Hash表完成了统计; 第二步借用堆排序找出最热门的10个查询串: 时间复杂度为N'*logK。 维护一个K(该题目中是10)大小的小根堆,然后遍历3百万个Query,分别和根元素进行对比(对比value的值),找出10个value值最大的query 最终的时间复杂度是: O(N)+N'*O(logK),(N为1000万,N’为300万) 或者: 采用trie树,关键字域存该查询串出现的次数,没有出现为0。 最后用10个元素的最小推来对出现频率进行排序。 我们先看HashMap实现 1.HashMap的数据结构 数据结构中有数组和链表来实现对数据的存储,但这两者基本上是两个极端。 数组 数组存储区间是连续的,占用内存严重,故空间复杂的很大。 但数组的二分查找时间复杂度小,为O (1);数组的特点是: 寻址容易,插入和删除困难; 链表 链表存储区间离散,占用内存比较宽松,故空间复杂度很小,但时间复杂度很大,达O(N)。 链表的特点是: 寻址困难,插入和删除容易。 哈希表 那么我们能不能综合两者的特性,做出一种寻址容易,插入删除也容易的数据结构? 答案是肯定的,这就是我们要提起的哈希表。 哈希表((Hashtable)既满足了数据的查找方便,同时不占用太多的内容空间,使用也十分方便。 哈希表有多种不同的实现方法,我接下来解释的是最常用的一种方法——拉链法,我们可以理解为“链表的数组” 我用java自己实现了一个HashMap,当然这比较简点,不过能说明大概原理,改有的功能基本上有了 index=hashCode(key)=key%16 哈希算法很多,下面我用了java自带的,当然你也可以用别的 1./** 2.*自定义HashMap 3.*@authorJYC506 4.* 5.*@param 6.*@param 7.*/ 8.publicclassHashMap 9. 10.privatestaticfinalintCAPACTITY=16; 11. 12.transientEntry 13. 14.@SuppressWarnings("unchecked") 15.publicHashMap(){ 16.super(); 17.table=newEntry[CAPACTITY]; 18.} 19. 20./*哈希算法*/ 21.privatefinalinttoHashCode(Objectobj){ 22.inth=0; 23.if(objinstanceofString){ 24.returnStringHash.toHashCode((String)obj); 25.} 26.h^=obj.hashCode(); 27.h^=(h>>>20)^(h>>>12); 28.returnh^(h>>>7)^(h>>>4); 29.} 30./*放入hashMap*/ 31.publicvoidput(Kkey,Vvalue){ 32.inthashCode=this.toHashCode(key); 33.intindex=hashCode%CAPACTITY; 34.if(table[index]==null){ 35.table[index]=newEntry 36.}else{ 37.for(Entry =null;entry=entry.nextEntry){ 38.if(entry.hashCode==hashCode&&(entry.key==key||key.equals(entry.key))){ 39.entry.value=value; 40.return; 41.} 42.} 43.Entry 44.Entry 45.entry3.nextEntry=entry2; 46.table[index]=entry3; 47. 48.} 49.} 50./*获取值*/ 51.publicVget(Kkey){ 52.inthashCode=this.toHashCode(key); 53.intindex=hashCode%CAPACTITY; 54.if(table[index]==null){ 55.returnnull; 56.}else{ 57.for(Entry =null;entry=entry.nextEntry){ 58.if(entry.hashCode==hashCode&&(entry.key==key||key.equals(entry.key))){ 59.returnentry.value; 60.} 61.} 62.returnnull; 63. 64.} 65.} 66./*删除*/ 67.publicvoidremove(Kkey){ 68.inthashCode=this
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据处理 算法