前言

由于想知道hbase和mysql存储同样的一份数据需要的存储是否一样，故做的一下实验。

生成数据

脚本如下：

#!/bin/bash

array_brand=([1]=huawei [2]=apple [3]=xiaomi [4]=honor)
array_color=([1]=green [2]=red [3]=white [4]=black)
array_price=([1]=5000 [2]=4899 [3]=2899 [4]=8999)

function rand(){
    min=$1
    max=$(($2-$min+1))
    num=$(date +%s%N)
    echo $(($num%$max+$min))  
}


for i in `seq 1 100000`
do
        num=$(rand 1 4)
        brand=${array_brand[$num]}
        color=${array_color[$num]}
        price=${array_price[$num]}

        echo "$i,$brand,$color,$price"
done

#执行sh makedata.sh >> hbaseSourceData.txt开始造数据

在linux上的大小为2.2M

转换成hbase能够识别的HFile文件

上传至hdfs

sudo -u hdfs hadoop fs -put hbaseSourceData.txt /tmp/

转换为HFile，表不存在的话会自动创建

hbase  org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator=, -Dimporttsv.columns='HBASE_ROW_KEY,cf:brand,cf:color,cf:price' -Dimporttsv.bulk.output=/tmp/output default:mysqltest /tmp/hbaseSourceData.txt

有点出乎所料，转成HFile竟然需要11.5M的存储，到这里应该就可以看出在hbase存储时的存储空间是多少了，因为hbase就是以HFile的方式存的，不过本着严谨的态度，一条道走到黑，不撞南墙不回头

导入HFile到hbase中

hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /tmp/output/  default:mysqltest

执行过程虽然有点小报错，但是数据还是进去了

查看hbase存储大小，不出所料，就是HFile的大小

ok，接下来导入到mysql中

导入数据到Mysql

#创建mysql对应的表
create table `testhbase`(`rowkey` int,`name` varchar(200),`color` varchar(200),`price` int);

#在mysql交互窗口执行，导入数据
load data local infile '/hbaseSourceData.txt' into table testhbase fields terminated by ',' (rowkey,name,color,price);

#查询表占用的存储空间
select concat(round(sum(DATA_LENGTH/1024/1024),2),'MB') as data  from information_schema.TABLES where table_schema = 'test' and table_name='testhbase';