关于hadoo访问mysql数据库的信息

本文目录一览：

1、Hadoop和Mysql联合查询
2、mysql中数据怎么导入hadoop
3、hadoop和mysql的结合作用方案
4、hadoop可以用mysql作为数据库吗
5、怎么将mysql数据导入hadoop
6、如何将mysql数据导入hadoop

Hadoop和Mysql联合查询

你可以先用hive或者手写map/reduce程序。建议你直接使用hive，hive也像mysql一样可以建表。表里的数据就是对应从本地load到hadoop上的文件，格式自己定。然后用JDBC可以像操作mysql一样操作hive（sql语法稍有不同），把分析出来的数据再insert到mysql中去

mysql中数据怎么导入hadoop

通过Map/Reduce进行批处理递送到Apache

Hadoop仍然是中枢环节。,但随着要从“超思维速度“分析方面获取竞争优势的压力递增，因此Hadoop(分布式文件系统)自身经历重大的发展。科技的发展允许实时查询，如Apache

Drill,Cloudera

Impala和Stinger

Initiative正脱颖而出，新一代的资源管理Apache

YARN

支持这些。

为了支持这种日渐强调实时性操作,发布一个新MySQL

Applier

for

Hadoop(用于Hadoop的MySQL

Applier)组件。它能够把MySQL中变化的事务复制到Hadoop

Hive

HDFS。Applier

组件补充现有基于批处理Apache

Sqoop的连接性。

这个组件(MySQL

Applier

for

Hadoop)的复制是通过连接MySQL主服务，一旦二进制日志被提交，就读取二进制日志事务，并且把它们写到HDFS.

这个组件使用libhdfs提供的API，一个C库操作HDFS中的文件。这库由Hadoop版本预编译生成的。

它连接MySQL主服务读二进制日志，然后提取发生在主服务上的行插入事件，解码事件,提取插入到行的每个字段的数据,并使用满意的处理程序得到被要求的格式数据。把它追加到HDFS

中一个文本文件。

数据库被映射为单独的目录,它们的表映射为子目录，保存在数据仓库目录。每个表的数据被写到Hive/

HDFS中文本文件(称为datafile1.txt)。数据可以用逗号格式分隔;或其他格式,那可用命令行参数来配置的。

hadoop和mysql的结合作用方案

首先你的源数据是想存在mysql里，还是存到hadoop 里。

有一些方案是把最原始的数据，存入hadoop中。定期做清洗和分析，把处理好的数据放到mysql库里，供web应用读取，展示到页面上。

hadoop可以用mysql作为数据库吗

hadoop一般是应用于冷数据处理，对于实时数据，如果非要使用，可以变着方法使用。

方法一：在hadoop上使用hbase数据库，以为hbase是不走Map/Reduce的，所以操作在毫秒级。

方法二：将业务数据用程序分成实时数据和冷数据，实时数据存于关系数据库，冷数据存到hadoop。比如：将最近一个月的数据存到关系数据库，用做实时响应业务处理。将一个月以前的数据存到hadoop，用作历史数据查询以及统计分析，数据挖掘等。

怎么将mysql数据导入hadoop

通过Map/Reduce进行批处理递送到Apache

Drill,Cloudera

Impala和Stinger

Initiative正脱颖而出，新一代的资源管理Apache

YARN

支持这些。

为了支持这种日渐强调实时性操作,发布一个新MySQL

Applier

for

Hadoop(用于Hadoop的MySQL

Applier)组件。它能够把MySQL中变化的事务复制到Hadoop

Hive

HDFS。Applier

组件补充现有基于批处理Apache

Sqoop的连接性。

这个组件(MySQL

Applier

for

Hadoop)的复制是通过连接MySQL主服务，一旦二进制日志被提交，就读取二进制日志事务，并且把它们写到HDFS.

这个组件使用libhdfs提供的API，一个C库操作HDFS中的文件。这库由Hadoop版本预编译生成的。

中一个文本文件。

数据库被映射为单独的目录,它们的表映射为子目录，保存在数据仓库目录。每个表的数据被写到Hive/

HDFS中文本文件(称为datafile1.txt)。数据可以用逗号格式分隔;或其他格式,那可用命令行参数来配置的。

如何将mysql数据导入hadoop

完成sqoop的安装后，可以这样测试是否可以连接到mysql(注意：mysql的jar包要放到 SQOOP_HOME/lib 下)：

sqoop list-databases –connect jdbc:mysql://192.168.1.109:3306/ –username root –password 19891231

结果如下

即说明sqoop已经可以正常使用了。

下面，要将mysql中的数据导入到hadoop中。

我准备的是一个300万条数据的身份证数据表：

先启动hive（使用命令行：hive 即可启动）

然后使用sqoop导入数据到hive：

sqoop import –connect jdbc:mysql://192.168.1.109:3306/hadoop –username root –password 19891231 –table test_sfz –hive-import

sqoop 会启动job来完成导入工作。

完成导入用了2分20秒，还是不错的。

在hive中可以看到刚刚导入的数据表：

我们来一句sql测试一下数据：

select * from test_sfz where id 10;

可以看到，hive完成这个任务用了将近25秒，确实是挺慢的（在mysql中几乎是不费时间），但是要考虑到hive是创建了job在hadoop中跑，时间当然多。

接下来，我们会对这些数据进行复杂查询的测试：

我机子的配置如下：

hadoop 是运行在虚拟机上的伪分布式，虚拟机OS是ubuntu12.04 64位，配置如下：

TEST 1 计算平均年龄

测试数据：300.8 W

1. 计算广东的平均年龄

mysql：select (sum(year(NOW()) – SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz where address like ‘广东%’;

用时： 0.877s

hive：select (sum(year(‘2014-10-01’) – SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz where address like ‘广东%’;

用时：25.012s

2. 对每个城市的的平均年龄进行从高到低的排序

mysql：select

address, (sum(year(NOW()) – SUBSTRING(borth,1,4))/count(*)) as ageAvge

from test_sfz GROUP BY address order by ageAvge desc;

用时：2.949s

hive：select

address, (sum(year(‘2014-10-01’) – SUBSTRING(borth,1,4))/count(*)) as

ageAvge from test_sfz GROUP BY address order by ageAvge desc;

用时：51.29s

可以看到，在耗时上面，hive的增长速度较mysql慢。

TEST 2

测试数据：1200W

mysql 引擎： MyISAM（为了加快查询速度）

导入到hive：

1. 计算广东的平均年龄

mysql：select (sum(year(NOW()) – SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz2 where address like ‘广东%’;

用时： 5.642s

hive：select (sum(year(‘2014-10-01’) – SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz2 where address like ‘广东%’;

用时：168.259s

2. 对每个城市的的平均年龄进行从高到低的排序

mysql：select

address, (sum(year(NOW()) – SUBSTRING(borth,1,4))/count(*)) as ageAvge

from test_sfz2 GROUP BY address order by ageAvge desc;

用时：11.964s

hive：select

address, (sum(year(‘2014-10-01’) – SUBSTRING(borth,1,4))/count(*)) as

ageAvge from test_sfz2 GROUP BY address order by ageAvge desc;

用时：311.714s

原创文章，作者：BALUE，如若转载，请注明出处：https://www.506064.com/n/330784.html

关于hadoo访问mysql数据库的信息

本文目录一览：

Hadoop和Mysql联合查询

mysql中数据怎么导入hadoop

hadoop和mysql的结合作用方案

hadoop可以用mysql作为数据库吗

怎么将mysql数据导入hadoop

如何将mysql数据导入hadoop

相关推荐

发表回复