整理_搜你所想

Spark面试整理-什么是Spark SQL？

Spark SQL是Apache Spark的一个模块，用于处理结构化数据。它提供了一个编程抽象，称为DataFrame，并作为分布式SQL查询引擎的作用。DataFrame是组织成命名列的数据集。通过将Spark SQL与Spark集成，用户可以使用SQL或DataFrame API在Spark程序中查询结构化数据。这种集成使得SQL查询可以与Spark程序的其他部分无缝地混合，从而提供了一种统一...

(view)

C++之STL的algorithm（6）之排序算法（sort、merge）整理

C++之STL的algorithm（6）之排序算法（sort、merge）整理注：整理一些突然学到的C++知识，随时mark一下例如：忘记的关键字用法，新关键字，新数据结构 C++ 的排序算法整理 C++之STL的algorithm（6）之排序算法（sort、merge）整理一、排序算法1、sort算法2、random_shuffle 随机洗牌算法3、reverse 反转算法4、 merge 合...

(view)

Spark面试整理-Spark中的转换和行动操作有哪些？

在Apache Spark中，操作主要分为两类：转换（Transformations）和行动（Actions）。这些操作定义了如何处理RDD（弹性分布式数据集）。转换操作（Transformations）转换操作是应用于RDD的操作，它们创建一个新的RDD。转换操作是懒惰的，也就是说，它们不会立即计算结果，而是在触发行动操作时才计算。一些常见的转换操作包括： map：对RDD中的每个元素应用一个...

(view)

【MySQL】mysql数据库小功能整理，持续更新~

目录 1、把从数据库中查询出的两个字段拼接 2、自定义新字段 1、把从数据库中查询出的两个字段拼接在ThinkPHP中使用 field 查询数据库字段时，使用数据库自带的CONCAT函数使两个字段拼接成一个新的自定义字段。示例：有两个字段 number 和 filename，其中number数据是1，filename字段数据是软件工程，把查出来的number和filename两个字段拼接成一个新...

(view)

Spark面试整理-Spark如何处理大数据

Apache Spark处理大数据的能力归功于其设计和架构的几个关键方面。以下是Spark处理大数据时采用的主要方法和技术： 1. 分布式计算集群部署：Spark可以在多个节点组成的集群上运行，这些节点可以是物理服务器或虚拟机。并行处理：数据和计算任务在集群中的多个节点之间分布和并行执行，从而提高了处理速度和吞吐量。 2. 弹性分布式数据集（RDD）数据抽象：RDD是Spark中的基本数据结构...

(view)

C++之STL整理（3）之map 用法（创建、赋值、方法）整理

C++之STL整理（3）之map 用法（创建、赋值、方法）整理注：整理一些突然学到的C++知识，随时mark一下例如：忘记的关键字用法，新关键字，新数据结构 C++ 的map用法整理 C++之STL整理（3）之map 用法（创建、赋值、方法）整理一、map的初始化1、 map构造函数2、 map赋值操作（=，swap）3、 map的容量（size、empty）二、map的增删查改1、map插入...

(view)

C++之STL整理（4）之set 用法（创建、赋值、增删查改）详解

C++之STL整理（4）之set 用法（创建、赋值、增删查改）详解注：整理一些突然学到的C++知识，随时mark一下例如：忘记的关键字用法，新关键字，新数据结构 C++ 的map用法整理 C++之STL整理（4）之set 用法（创建、赋值、增删查改）详解一、set的初始化1、set初始化（1）构造函数初始化（2）赋值操作（3）swap函数; 3、大小操作二、set的增删查改1、插入操作inse...

(view)

C++面向对象整理（7）之运算符重载、operator关键字

C++面向对象整理（7）之运算符重载、operator关键字注：整理一些突然学到的C++知识，随时mark一下例如：忘记的关键字用法，新关键字，新数据结构 C++ 的类的运算符重载 C++面向对象整理（7）之运算符重载、operator关键字一、运算符重载1、运算符重载的定义2、加号的重载3、赋值号的重载二、动态分配的内存时赋值`=`的运算符重载总结可以重载的运算符提示：本文为 C++ 中...

(view)

Spark面试整理-解释什么是RDD（弹性分布式数据集）

弹性分布式数据集（RDD，Resilient Distributed Dataset）是Apache Spark的一个核心概念和基本抽象。它代表了一个不可变、分布式的数据集合，可以在集群的多个节点上并行处理。RDD的设计目标是提高大规模数据处理的效率和容错能力。以下是RDD的一些关键特性：不可变性：一旦创建，RDD的数据就不能被修改。任何对数据的转换操作都会产生一个新的RDD。这种特性有助于容错和...

(view)

Spark面试整理-Spark是什么？

Apache Spark是一个开源的分布式计算系统，它提供了一个用于大规模数据处理的快速、通用、易于使用的平台。它最初是在加州大学伯克利分校的AMPLab开发的，并于2010年开源。自那时起，Spark已经成为大数据处理中最受欢迎和广泛使用的框架之一。下面是Spark的一些关键特点：速度：Spark使用了先进的DAG（有向无环图）执行引擎，可以支持循环数据流和内存计算。这使得Spark在数据处理方...

(view)

上一页 1 2 3 4 5 6 7 8 10 下一页