Kylin 新定位:分析型数据仓库

2020 年 3 月,Kylin 社区决定将 Kylin 的标语从Extreme OLAP Engine for Big Data更改为 Analytical Data Warehouse for Big Data,以更加准确地描述 Kylin 的能力和定位,也更容易地让用户通过搜索引擎检索到它,将它推介给更多用户,应用于更多场景中。 亲爱的各位社区朋友 Apache Kylin 在 2...

Mr.Zhang 阅读:76 评论:0 2020-03-29 22:00:49

Elasticsearch 之聚合分析入门

看完这篇还不明白什么是聚合分析,来找我 本文主要介绍 Elasticsearch 的聚合功能,介绍什么是 Bucket 和 Metric 聚合,以及如何实现嵌套的聚合。 首先来看下聚合Aggregation 什么是 Aggregation? 首先举一个生活中的例子,这个是京东的搜索界面,在搜索框中输入“华为”进行搜索,就会得到如上界面,搜索框就是我们常用的搜索功能,而下面这些,比如分类、热...

Mr.Zhang 阅读:408 评论:0 2020-03-23 06:01:06

spark计算模型RDD

RDD介绍 1.RDD概念以及特性 RDDResilient Distributed Dataset叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中,后续的查询能够重用这些数据,这极大地提升了查询速度。A Resil...

Mr.Zhang 阅读:489 评论:0 2020-03-22 22:01:12

ElasticSearch之映射常用操作

Mapping 映射类似关系型数据库中的表的结构定义。我们将数据以 JSON 格式存入到 ElasticSearch 中后,在搜索引擎中 JSON 字段映射对应的类型,这时需要 mapping 来定义内容的类型。 本文案例操作,建议先阅读我之前的文章ElasticSearch之安装及基本操作API Mapping 映射类似关系型数据库中的表的结构定义。我们将数据以 JSON 格式存入到...

Mr.Zhang 阅读:399 评论:0 2020-03-20 14:02:14

Flink设置并行度的方式和执行级别

Flink设置并行度的几种方式 代码中设置setParallelism 全局设置 env.setParallelism3 算子设置部分设置 sum1.setParallelism3 客户端CLI设置 .binflink run p 3 修改配置文件设置confflinkconf.yaml的parallelism.defaul数值 最大并行度设置 全局设置 ...

Mr.Zhang 阅读:168 评论:0 2020-03-18 14:02:27

一文搞懂 Elasticsearch 之 Mapping

作为 Elasticsearch 的“表结构定义”的 Mapping,你可能需要了解下 这篇文章主要介绍 Mapping、Dynamic Mapping 以及 ElasticSearch 是如何自动判断字段的类型,同时介绍 Mapping 的相关参数设置。 首先来看下什么是 Mapping 什么是 Mapping? 在一篇文章带你搞定 ElasticSearch 术语中,我们讲到了 Mappi...

Mr.Zhang 阅读:392 评论:0 2020-03-18 06:01:45

Druid 0.17 入门(3)—— 数据接入指南

在快速开始中,我们演示了接入本地示例数据方式,但Druid其实支持非常丰富的数据接入方式。比如批处理数据的接入和实时流数据的接入。本文我们将介绍这几种数据接入方式。 文件数据接入从文件中加载批处理数据 从Kafka中接入流数据从Kafka中加载流数据 Hadoop数据接入从Hadoop中加载批处理数据 编写自己的数据接入规范自定义新的接入规范 本文主要介绍前两种最常用的数据接入方式。 1、...

Mr.Zhang 阅读:301 评论:0 2020-03-17 14:01:35

数据挖掘篇——特征工程之特征降维

在业界广泛流传着一句话数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 由此可见,数据和特征是多么的重要,而在数据大多数场景下,数据已经就绪,不同人对于同样的数据处理得到的特征却千差万别,最终得到的建模效果也是高低立现。从数据到特征这就要从特征工程说起了... 在业界广泛流传着一句话数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 由此可见,数据和特征是多么...

Mr.Zhang 阅读:476 评论:0 2020-03-15 22:00:26

看完这篇还不会 Elasticsearch 搜索,那我就哭了!

本文主要介绍 ElasticSearch 搜索相关的知识,首先会介绍下 URI Search 和 Request Body Search,同时也会学习什么是搜索的相关性,如何衡量相关性。 Search API 我们可以把 ES 的 Search API 分为两大类,第一类是 URI Search,用 HTTP GET 的方式在 URL 中使用查询参数已达到查询的目的另一类为 Request Bo...

Mr.Zhang 阅读:476 评论:0 2020-03-13 06:00:16

大数据存储技术基础

一、绪论 1.存储的本质 信息跨越空间的传递通讯 信息跨越时间的传递存储 通讯利用具有跨越空间特性的物理现象 声音、光、电 存储利用具有时间稳态的物理现象 物理稳态、磁稳态、半导体稳态 什么是存储? 存储 它是数据临时或长期驻留的物理媒介 它是保证数据完整安全存放的方式或行为。 计算机存储系统 指计算机中由存放程序和数据的各种存储设备介质、控制部件与接口及管理...

Mr.Zhang 阅读:347 评论:0 2020-03-12 22:00:25