pyspark(一) DataFrame结合jupyter入门

news/2024/7/16 8:53:04 标签: jupyter, 大数据, ide

DataFrame描述

DataFrame是一个二维表结构,包括行、列以及schema(元数据)

在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,是一种特殊的RDD,是一个分布式的表,类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于,前者带有 schema 元信息,即 DataFrame 所表示的二维表数据集的每一列都带有名称和类型。

PySpark DataFrames是延迟求值的。它们是在RDD之上实现的。当Spark转换数据时,它不会立即计算转换,而是计划以后如何计算。当显式调用collect()等操作时,计算就会开始

代码展示

入口以及创建

普通创建

普通创建+schema

 

 根据pandas创建

打印信息 

数据展示

打印元数据信息

展示指定行

展示列名

describe汇总

collet

防止内存溢出,打印指定行行数

toPandas()

返回指定列

返回指定列实例

分配新的列

过滤器 

分组计算示例

写入文件&读取文件&指定压缩格式

csv

parquet

转换SparkSql 

sql运行

UDF函数


http://www.niftyadmin.cn/n/5401200.html

相关文章

【论文阅读】《PRODIGY: Enabling In-context Learning Over Graphs》

文章目录 0、基本介绍1、研究动机2、创新点3、挑战4、准备4.1、图上分类任务4.2、少样本提示4.3、提示图表示4.3.1、Data graph G D \mathcal{G}^D GD4.3.2、task graph G T \mathcal{G}^T GT 5、方法论5.1、提示图上的信息传播架构5.1.1、Data graph Message Passing5.1.2、…

【vscode提取函数快捷键】提取函数,减少大方法的复杂度

在 Visual Studio Code 中,提取函数的快捷键取决于你所使用的编程语言和安装的插件。以下是一些常用的快捷键组合,可以用来在 Visual Studio Code 中提取函数: 执行以下步骤来提取函数: 选中要提取的代码块。右键单击选中的代码…

Linux--Redis 群集

9.1.1 关系型数据库与非关系型数据库 数据库按照其结构可以分为关系型数据库与其他数据库,而这些其他数据库我们将其统称为非 关系型数据库。Redis数据库是一个非关系型数据库。 1、关系型数据库 关系型数据库是一个结构化的数据库,创建在关系模型基础上…

20240301-2-ZooKeeper面试题(二)

11. Chroot 特性 3.2.0 版本后,添加了 Chroot 特性,该特性允许每个客户端为自己设置一个命名空间。如果一个客户端设置了 Chroot,那么该客户端对服务器的任何操作,都将会被限制在其自己的命名空间下。 通过设置 Chroot&#xff…

享元 ( Flyweight ) 模式

享元模式(Flyweight Pattern)是一种结构型设计模式,其主要目的是减少应用程序中相似对象的数量,从而节省内存或提高性能。这一模式的核心思想是共享对象,即将大量的相似对象中可复用的部分抽取出来,以节省系…

【PyTorch][chapter 19][李宏毅深度学习]【无监督学习][ GAN]【理论】

前言: 生成对抗网络(Generative Adversarial Nets,GAN)是一种基于对抗学习的深度生成模型。 2014年,蒙特利尔博士 lan Goodfellow 发表了论文《Generative Adaversarial Networks》, 一经提出便成为了学术…

Swinsian for Mac - 纯享音乐,尽在掌握!

🎵 Swinsian for Mac 是一款强大的音乐播放器,拥有许多突出的特点,让音乐爱好者们沉浸在无限的音乐世界中!🎧🎶 一些 Swinsian for Mac的特点包括: 简洁高效的界面:Swinsian 提供简…

利用FFMPEG 将RTSP流的音频G711 转码为AAC 并 推流到RTMP

之前我们的视频转码项目中 是没有加入音频的 现在 需要加入音频 ,由于RTMP只支持AAC的 音频流 而有的RTSP流的音频编码并不是AAC 大多数都是G711编码 还分为G711A 和G711U 之前用ffmpeg命令行可以直接 完成转码 并推送到RTMP 但是考虑到无法获取更详细的状…