《Keras 3 : 使用迁移学习进行关键点检测》:此文为AI自动翻译

news/2025/2/22 19:20:58

《Keras 3 :使用迁移学习进行关键点检测》

作者:Sayak Paul,由 Muhammad Anas Raza
转换为 Keras 3 创建日期:2021/05/02
最后修改时间:2023/07/19
描述:使用数据增强和迁移学习训练关键点检测器。

(i) 此示例使用 Keras 3

 在 Colab 中查看 

 GitHub 源

关键点检测包括定位关键对象部分。例如,关键部分 的脸包括鼻尖、眉毛、眼角等。这些部件有助于 以功能丰富的方式表示底层对象。关键点检测具有 包括姿势估计、人脸检测等的应用程序。

在此示例中,我们将使用 StanfordExtra 数据集 StanfordExtra 构建一个关键点检测器 使用迁移学习。此示例需要 TensorFlow 2.4 或更高版本, 以及 Imgaug 图书馆, 可以使用以下命令进行安装:

!pip install -q -U imgaug

数据采集

StanfordExtra 数据集包含 12,000 张狗图像以及关键点和 分割图。它是从 Stanford dogs 数据集开发的。 可以使用以下命令下载它:

!wget -q http://vision.stanford.edu/aditya86/ImageNetDogs/images.tar

注释在 StanfordExtra 数据集中以单个 JSON 文件的形式提供,并且需要 填写此表单以访问它。这 作者明确指示用户不要共享 JSON 文件,此示例尊重此愿望: 您应该自己获取 JSON 文件。

JSON 文件应在本地以 .stanfordextra_v12.zip

下载文件后,我们可以提取档案。

!tar xf images.tar
!unzip -qq ~/stanfordextra_v12.zip

进口

from keras import layers
import keras

from imgaug.augmentables.kps import KeypointsOnImage
from imgaug.augmentables.kps import Keypoint
import imgaug.augmenters as iaa

from PIL import Image
from sklearn.model_selection import train_test_split
from matplotlib import pyplot as plt
import pandas as pd
import numpy as np
import json
import os

定义超参数

IMG_SIZE = 224
BATCH_SIZE = 64
EPOCHS = 5
NUM_KEYPOINTS = 24 * 2  # 24 pairs each having x and y coordinates

加载数据

作者还提供了一个元数据文件,该文件指定了有关 关键点,如颜色信息、动物姿势名称等。我们将此文件加载到 DataFrame 中,以提取用于可视化目的的信息。pandas

IMG_DIR = "Images"
JSON = "StanfordExtra_V12/StanfordExtra_v12.json"
KEYPOINT_DEF = (
    "https://github.com/benjiebob/StanfordExtra/raw/master/keypoint_definitions.csv"
)

# Load the ground-truth annotations.
with open(JSON) as infile:
    json_data = json.load(infile)

# Set up a dictionary, mapping all the ground-truth information
# with respect to the path of the image.
json_dict = {
       i["img_path"]: i for i in json_data}

的单个条目如下所示:json_dict

'n02085782-Japanese_spaniel/n02085782_2886.jpg':
{'img_bbox': [205, 20, 116, 201],
 'img_height': 272,
 'img_path': 'n02085782-Japanese_spaniel/n02085782_2886.jpg',
 'img_width': 350,
 'is_multiple_dogs': False,
 'joints': [[108.66666666666667, 252.0, 1],
            [147.66666666666666, 229.0, 1],
            [163.5, 208.5, 1],
            [0, 0, 0],
            [0, 0, 0],
            [0, 0, 0],
            [54.0, 244.0, 1],
            [77.33333333333333, 225.33333333333334, 1],
            [79.0, 196.5, 1],
            [0, 0, 0],
            [0, 0, 0],
            [0, 0, 0],
            [0, 0, 0],
            [0, 0, 0],
            [150.66666666666666, 86.66666666666667, 1],
            [88.66666666666667, 73.0, 1],
            [116.0, 106.33333333333333, 1],
            [109.0, 123.33333333333333, 1],
            [0, 0, 0],
            [0, 0, 0],
            [0, 0, 0],
            [0, 0, 0],
            [0, 0, 0],
            [0, 0, 0]],
 'seg': ...}

在此示例中,我们感兴趣的键是:

  • img_path
  • joints

里面总共有 24 个条目。每个条目有 3 个值:joints

  • x 坐标
  • y 坐标
  • 关键点的可见性标志(1 表示可见性,0 表示不可见)

正如我们所看到的,包含多个条目,这些条目表示这些 关键点没有标记。在此示例中,我们将考虑 non-visible 和 未标记的关键点,以便进行小批量学习。joints[0, 0, 0]

# Load the metdata definition file and preview it.
keypoint_def = pd.read_csv(KEYPOINT_DEF)
keypoint_def.head()

# Extract the colours and labels.
colours = keypoint_def["Hex colour"].values.tolist()
colours = ["#" + colour for colour in colours]
labels = keypoint_def["Name"].values.tolist()


# Utility for reading an image and for getting its annotations.
def get_dog(name

http://www.niftyadmin.cn/n/5862678.html

相关文章

深入浅出:理解闭包在JavaScript中的应用

什么是闭包 闭包(Closure)是 JavaScript 中的一个重要概念,也是函数式编程中的核心特性之一。简单来说,闭包是指一个函数能够访问并记住其词法作用域(Lexical Scope),即使这个函数在其词法作用…

论文解读 | AAAI'25 Cobra:多模态扩展的大型语言模型,以实现高效推理

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 点击 阅读原文 观看作者讲解回放! 个人信息 作者:赵晗,浙江大学-西湖大学联合培养博士生 内容简介 近年来,在各个领域应用多模态大语言模型(MLLMs&…

火语言RPA--Excel插入空行

【组件功能】:在Excel内指定的位置插入空行 配置预览 配置说明 在第n行之前 支持T或# 填写添加插入第n行之前行号。 插入n行 支持T或# 插入多少行。 Sheet页名称 支持T或# Excel表格工作簿名称。 示例 Excel插入空行 描述 在第3行之后插入3行。 配置 输…

数据库-SQLite

目录 1.SQLite介绍 2.SQLite特性 3.SQLite使用 3.1.环境准备 3.2.创建数据库文件 3.3.操作数据库 4.API接口 4.1.封装数据库句柄结构体 4.2.数据库句柄初始化 4.3.连接数据库 4.4.创建表 插入数据 修改数据 删除数据 4.5.执行查询语句 4.6.初始化存储查询结果句柄 …

JavaScript系列(79)--Web Worker 高级应用

Web Worker 高级应用 🔄 Web Worker 为JavaScript提供了真正的多线程能力,让我们能够在后台线程中执行复杂的计算而不阻塞主线程。今天让我们深入探讨Web Worker的高级应用。 Web Worker 概述 🌟 💡 小知识:Web Work…

在PyTorch中使用插值法来优化卷积神经网络(CNN)所需硬件资源

插值法其实就是在已知数据点之间估计未知点的值。通过已知的离散数据点,构造一个连续的曲线函数,预测数据点之间的空缺值是什么并且自动填补上去。 适用场景: 在卷积神经网络(CNN)中的应用场景中,经常遇到计算资源有限,比如显存不够或者处理速度慢,需要用插值来降低计…

设计模式之装饰器设计模式/包装设计模式

装饰器设计模式(Decorator Pattern) 也叫包装设计模式,属于结构型模式,它是作为现有的类的一个包装,允许向一个现有的对象添加新的功能,同时又不改变其结构 给对象增加功能,一般两种方式&#…

软考—系统架构设计(案例 | 论文)

系统设计(案例|论文) 系统设计是系统分析的延伸与拓展。系统分析阶段解决“做什么”的问题,而系统设计阶段解决“怎么做”的问题。 概要设计 系统设计的主要内容包括概要设计和详细设计。概要设计又称为系统总体结构设计&#…