您现在的位置是:首页 > 数码 > 

八爪鱼数据抓取,智联招聘为例

2025-07-27 01:42:05
八爪鱼数据抓取,智联招聘为例 八爪鱼数据抓取,智联招聘为例 一.八爪鱼抓取智联招聘信息 1.1 打开八爪鱼采集器==》选择快速开始==>新建任务(高级模式)     1.2点击下一步 基本流程如下点击下一步   1.启动单机采集等待数据抓取完毕   1.4导出数据 csv格式     二&#

八爪鱼数据抓取,智联招聘为例

八爪鱼数据抓取,智联招聘为例

一.八爪鱼抓取智联招聘信息

1.1 打开八爪鱼采集器==》选择快速开始==>新建任务(高级模式)

 

 

1.2点击下一步 基本流程如下点击下一步

 

1.启动单机采集等待数据抓取完毕

 

1.4导出数据 csv格式

 

 

二.将信息导入到虚拟机

2.1 因访问外网需要建立socroueCRT映射

 

2.2使用Fz将数据导入虚拟机

 

2.文件格式修改

 iconv -f encoding -t encoding inputfile 比如将一个UTF-8 编码的文件转换成GBK编码

  iconv -f GBK -t UTF-8 file1 -o file2

 

 

三.将信息从虚拟机导入到hdfs

.1 使用命令hadoop fs -put 文件名 路径

Hadoop fs -put /文件路径  /要导入的路径

 

四.将hdfs的csv文件导入到hive表中

4.1 创建表

 

4.2将数据导入

Load data input ‘/hdfs的路径’ into table 数据库名.表名;

 

五.将hive表换成hive中的事物表

5.1创建事物表

 

 

5.2将引号去除

 

5.将工资平均导入新表

 

 

 

六.将salary的取值区间转换成平均值

 

七.分析工资最高的前三名职位

 

八.分析需求量最高的大数据职位前三名

 

九.分析需求量最高的三大行业

 

十.分析结果通过zeppelin展示

 

 

posted @ 2017-08-25 14:4 菜鸟的进击 阅读(...) 评论(...) 编辑 收藏

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址:http://www.dnpztj.cn/shuma/857250.html

相关标签:无
上传时间: 2024-02-10 10:41:49
留言与评论(共有 10 条评论)
本站网友 平顶山人
9分钟前 发表
4 菜鸟的进击 阅读(...) 评论(...) 编辑 收藏
本站网友 商丘导航
23分钟前 发表
4 菜鸟的进击 阅读(...) 评论(...) 编辑 收藏
本站网友 立顿官网
5分钟前 发表
4 菜鸟的进击 阅读(...) 评论(...) 编辑 收藏
本站网友 大鸭梨菜单
4分钟前 发表
智联招聘为例 八爪鱼数据抓取,智联招聘为例 一.八爪鱼抓取智联招聘信息 1.1 打开八爪鱼采集器==》选择快速开始==>新建任务(高级模式)     1.2点击下一步 基本流程如下点击下一步   1.启动单机采集等待数据抓取完毕   1.4导出数据 csv格式     二.将信息导入到虚拟机 2.1 因访问外网需要建立socroueCRT映射   2.2使用Fz将数据导入虚拟机   2.文件格式修改  iconv -f encoding -t encoding inputfile 比如将一个UTF-8 编码的文件转换成GBK编码   iconv -f GBK -t UTF-8 file1 -o file2     三.将信息从虚拟机导入到hdfs .1 使用命令hadoop fs -put 文件名 路径 Hadoop fs -put /文件路径  /要导入的路径   四.将hdfs的csv文件导入到hive表中 4.1 创建表   4.2将数据导入 Load data input ‘/hdfs的路径’ into table 数据库名.表名;   五.将hive表换成hive中的事物表 5.1创建事物表     5.2将引号去除   5.将工资平均导入新表       六.将salary的取值区间转换成平均值   七.分析工资最高的前三名职位   八.分析需求量最高的大数据职位前三名   九.分析需求量最高的三大行业   十.分析结果通过zeppelin展示     posted @ 2017-08-25 14
本站网友 北京建国医院
24分钟前 发表
智联招聘为例 八爪鱼数据抓取,智联招聘为例 一.八爪鱼抓取智联招聘信息 1.1 打开八爪鱼采集器==》选择快速开始==>新建任务(高级模式)     1.2点击下一步 基本流程如下点击下一步   1.启动单机采集等待数据抓取完毕   1.4导出数据 csv格式     二.将信息导入到虚拟机 2.1 因访问外网需要建立socroueCRT映射   2.2使用Fz将数据导入虚拟机   2.文件格式修改  iconv -f encoding -t encoding inputfile 比如将一个UTF-8 编码的文件转换成GBK编码   iconv -f GBK -t UTF-8 file1 -o file2     三.将信息从虚拟机导入到hdfs .1 使用命令hadoop fs -put 文件名 路径 Hadoop fs -put /文件路径  /要导入的路径   四.将hdfs的csv文件导入到hive表中 4.1 创建表   4.2将数据导入 Load data input ‘/hdfs的路径’ into table 数据库名.表名;   五.将hive表换成hive中的事物表 5.1创建事物表     5.2将引号去除   5.将工资平均导入新表       六.将salary的取值区间转换成平均值   七.分析工资最高的前三名职位   八.分析需求量最高的大数据职位前三名   九.分析需求量最高的三大行业   十.分析结果通过zeppelin展示     posted @ 2017-08-25 14
本站网友 大连花园口经济区
9分钟前 发表
智联招聘为例 八爪鱼数据抓取,智联招聘为例 一.八爪鱼抓取智联招聘信息 1.1 打开八爪鱼采集器==》选择快速开始==>新建任务(高级模式)     1.2点击下一步 基本流程如下点击下一步   1.启动单机采集等待数据抓取完毕   1.4导出数据 csv格式     二.将信息导入到虚拟机 2.1 因访问外网需要建立socroueCRT映射   2.2使用Fz将数据导入虚拟机   2.文件格式修改  iconv -f encoding -t encoding inputfile 比如将一个UTF-8 编码的文件转换成GBK编码   iconv -f GBK -t UTF-8 file1 -o file2     三.将信息从虚拟机导入到hdfs .1 使用命令hadoop fs -put 文件名 路径 Hadoop fs -put /文件路径  /要导入的路径   四.将hdfs的csv文件导入到hive表中 4.1 创建表   4.2将数据导入 Load data input ‘/hdfs的路径’ into table 数据库名.表名;   五.将hive表换成hive中的事物表 5.1创建事物表     5.2将引号去除   5.将工资平均导入新表       六.将salary的取值区间转换成平均值   七.分析工资最高的前三名职位   八.分析需求量最高的大数据职位前三名   九.分析需求量最高的三大行业   十.分析结果通过zeppelin展示     posted @ 2017-08-25 14
本站网友 汽车保险价格
3分钟前 发表
4 菜鸟的进击 阅读(...) 评论(...) 编辑 收藏
本站网友 成都婚庆公司
13分钟前 发表
智联招聘为例 八爪鱼数据抓取,智联招聘为例 一.八爪鱼抓取智联招聘信息 1.1 打开八爪鱼采集器==》选择快速开始==>新建任务(高级模式)     1.2点击下一步 基本流程如下点击下一步   1.启动单机采集等待数据抓取完毕   1.4导出数据 csv格式     二.将信息导入到虚拟机 2.1 因访问外网需要建立socroueCRT映射   2.2使用Fz将数据导入虚拟机   2.文件格式修改  iconv -f encoding -t encoding inputfile 比如将一个UTF-8 编码的文件转换成GBK编码   iconv -f GBK -t UTF-8 file1 -o file2     三.将信息从虚拟机导入到hdfs .1 使用命令hadoop fs -put 文件名 路径 Hadoop fs -put /文件路径  /要导入的路径   四.将hdfs的csv文件导入到hive表中 4.1 创建表   4.2将数据导入 Load data input ‘/hdfs的路径’ into table 数据库名.表名;   五.将hive表换成hive中的事物表 5.1创建事物表     5.2将引号去除   5.将工资平均导入新表       六.将salary的取值区间转换成平均值   七.分析工资最高的前三名职位   八.分析需求量最高的大数据职位前三名   九.分析需求量最高的三大行业   十.分析结果通过zeppelin展示     posted @ 2017-08-25 14
本站网友 福瑞博德
18分钟前 发表
4 菜鸟的进击 阅读(...) 评论(...) 编辑 收藏