Centos安装Cloudera Manager 6.3.0和CDH 6.3.2

前言 闲暇之时,羚羊给大家分享一下羚羊在Centos7 下安装Cloudera Manager 6.3.0和cloudera cdh 6.3.2的过程和安装过程中遇到的坑。至于为什么要选择CDH,Cloudera Manager和cdh是什么,之间又是什么关系,在这里羚羊就不做介绍了。 为什么选择CDH6.3.2这个版本,给大家看个Cloudera公司今年初发布的消息 上面大概是说6.3.3版本...

Mr.Zhang 阅读:113 评论:0 2020-07-03 14:00:22

Plink v0.1.0 发布——基于Flink的流处理平台

Plink是一个基于Flink的流处理平台,旨在基于 Apache Flink封装构建上层平台。 提供常见的作业管理功能。如作业的创建,删除,编辑,更新,保存,启动,停止,重启,管理,多作业模板配置等。 Flink SQL 编辑提交功能。如 SQL 的在线开发,智能提示,格式化,语法校验,保存,采样,运行,测试,集成 Kafka 等。 由于项目刚刚启动,未来还有很长的路要走,让我们拭目以待。 ...

Mr.Zhang 阅读:121 评论:0 2020-07-03 14:00:21

ol7.7安装部署4节点hadoop 3.2.1分布式集群学习环境

准备4台虚拟机,安装好ol7.7,分配固定ip192.168.168.11 12 13 14,其中192.168.168.11作为master,其他3个作为slave,主节点也同时作为namenode的同时也是datanode,192.168.168.14作为datanode的同时也作为secondary namenodes 首先修改etchostname将主机名改为master、slave1...

Mr.Zhang 阅读:401 评论:0 2020-07-03 14:00:21

【赵强老师】什么是Spark SQL?

一、Spark SQL简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 为什么要学习Spark SQL?我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spa...

Mr.Zhang 阅读:357 评论:0 2020-07-02 22:00:35

Centos Cloudera Manager 6.3.0和CDH 6.3.2 安装

前言 闲暇之时,羚羊给大家分享一下羚羊在Centos7 下安装Cloudera Manager 6.3.0和cloudera cdh 6.3.2的过程和安装过程中遇到的坑。至于为什么要选择CDH,Cloudera Manager和cdh是什么,之间又是什么关系,在这里羚羊就不做介绍了。 为什么选择CDH6.3.2这个版本,给大家看个Cloudera公司今年初发布的消息 上面大概是说6.3.3版本...

Mr.Zhang 阅读:48 评论:0 2020-07-02 22:00:32

用户画像产品化——从零开始搭建实时用户画像(六)

在开发好用户标签以后,如何将标签应用到实际其实是一个很重要的问题。只有做好产品的设计才能让标签发挥真正的价值,本文将介绍用户画像的产品化过程。 一、标签展示 首先是标签展示功能,这个主要供业务人员和研发人员使用,是为了更直观的看见整个的用户标签体系。 不同的标签体系会有不同的层级,那么这个页面的设计就需要我们展示成树状的结构,方便以后的扩展。 在最后一个层级,比如自然性别,可以设计一个统计页面,在...

Mr.Zhang 阅读:408 评论:0 2020-06-29 14:00:44

海南IT互联网招聘数据简单分析

前两天文章说了海南IT互联网相关数据提到公司数量很多,但招聘的岗位很少的问题,但由于只是简单截图了相关招聘数据做就吐槽招聘数据少。可能数据维度太少、没做横向对比,导致看上去不太不太科学、客观。但该篇文章的结论是否有问题呢? 公司增、税收增、人员不增的说法是否站得住脚,这篇文章将主流招聘网站的数据全部纳入对比,并从中取岗位数量最多的招聘数据进行简单分析 本篇文章抓取了6月24号智联招聘、前程无忧的...

Mr.Zhang 阅读:305 评论:0 2020-06-28 14:00:41

数据库周刊28│开发者最喜爱的数据库是什么?阿里云脱口秀聊程序员转型;MySQL update误操作;PG流复制踩坑;PG异机归档;MySQL架构选型;Oracle技能表;Oracle文件损坏处理……

墨天轮数据库周刊第28期发布啦,每周1次推送本周数据库相关热门资讯、精选文章、干货文档。本周分享 开发者最喜爱的数据库是什么?阿里云脱口秀爆聊程序员转型MySQL update误操作后进行数据库恢复PG流复制踩坑PG异机归档MySQL架构选型案例oracle 技能表Oracle文件损坏处理 热门资讯 1、Stackoverflow 2020年度报告出炉开发者最喜爱的数据库是什么?...

Mr.Zhang 阅读:292 评论:0 2020-06-28 14:00:41

【赵强老师】大数据工作流引擎Oozie

一、什么是工作流? 工作流WorkFlow就是工作流程的计算模型,即将工作流程中的工作如何前后组织在一起的逻辑和规则在计算机中以恰当的模型进行表示并对其实施计算。工作流要解决的主要问题是为实现某个业务目标,在多个参与者之间,利用计算机,按某种预定规则自动传递。下面我们以“员工请假的流程”为例,来为大家介绍什么是工作流。 这个例子包含了一个完整的员工请假流程。从“请假流程开始”,到“员工填写请...

Mr.Zhang 阅读:303 评论:0 2020-06-28 14:00:40

HIVE架构

UI 用于提交查询的客户端,hive自带有CLIcommand line,现在推荐使用beeline DRIVER 1.用于接收客户端提交的SQL,并实现了session控制 2.并提供了jdbcodbc的fetch和execute功能 COMPILER 编译器,负责解析SQL,并从METASTORE那里获取元数据生成执行计划,然后发给DRIVER 执行计划就是一个DAG有向无环图...

Mr.Zhang 阅读:317 评论:0 2020-06-25 14:00:15

支持一下我的小程序