Cendok

Handwritten-Digit-Recognition-System

2026-03-22T00:00:00+00:00

Handwritten-Digit-Recognition-System

附上码源：

Cendok/Handwritten-Digit-Recognition-System

Pycharm中新建虚拟环境

Python3.9(Handwritten-Digit-Recognition-System)

pip install torch
pip install torchvision
pip install flask

pth.py

预先训练好模型，模型参数已上传至GitHub

添加保存模型

def save_model(model, filename):
    torch.save(model.state_dict(), filename)
    print(f"保存模型至 {filename}")

#一块用
save_model(model, './mnist_cnn_model.pth')

图像处理首选卷积神经网络，MNIST数据集压缩包已上传至GitHub

#添加这段、调整后段代码缩进，避免启动Flask同时也启动训练，不必等待训练完10轮再启动网页
if __name__ == "__main__":
    loss_fn = nn.CrossEntropyLoss()#交叉熵损失函数，订正试卷
    optimizer = torch.optim.Adam(model.parameters(),lr = 0.001)
    epochs = 10 #到底选择多少呢？
    for t in range(epochs):
        print(f"Epoch {t+1}\n-------------------------------")
        train(train_dataloader, model, loss_fn, optimizer)
        test(test_dataloader, model, loss_fn)
    save_model(model, './mnist_cnn_model.pth')

    print("Done!")
    test(test_dataloader, model, loss_fn)

app.py

#设置成能找到静态文件的路径，CSS、JavaScript、图像等，static_url_path="/static"
app = Flask(__name__, static_url_path="/static")

# predict()函数必须跟在这段下面
# 路径名称"/predict"必须跟定义的函数一致def predict()
@app.route("/predict", methods=["GET", "POST"])
@torch.no_grad()

def predict():
    info = {}
    try:
        image_file = request.files["file0"]  # 从前端获取文件
        img_bytes = image_file.read()  # 读取文件内容
        image_path = './number/digit1.png'  # 保存路径
        with open(image_path, 'wb') as f:
            f.write(img_bytes)  # 保存图像文件

        # 加载并处理图像
        digit_image = load_digit_image(image_path)
        predicted_digit = predict_digit(digit_image)  # 预测数字

        info["result"] = f"预测的数字是：{predicted_digit}"  # 返回结果
    except Exception as e:
        info["err"] = str(e)
    return jsonify(info)  # 返回json格式结果

if __name__ == '__main__':
    app.run(host="0.0.0.0", port=1235)
#app.run(debug=True, host="0.0.0.0", port=1235)
#关闭调试，否则无限循环训练，无法打开网页

index.html

html模板下载链接：

HTML模板_HTML网页模板下载


改名称

功能模块直接放在内，别套壳

 class="bg-upcoming-events">
             class="container">
                 class="row">
                     class="upcoming-events">
                         class="section-header">
                            😇
                            上传待识别的数字图像，点击预测按钮进行识别


                        
                        
                         class="row">
                             class="col-lg-6">
                                 style="color: black;">待识别图像
                                
                                    
                                     href="javascript:;" class="btn btn-default" tabindex="0" type="file" name="file"
                                           id="file0">

                                    
                                    
                                     src="" id="img0">


                        
                        
                        
                            
                             class="btn btn-default" type="button" id="b0"
                                   onclick="test0()" style="color: #000000"
                                   value="预测">
                            
                             id="out">点击预测获取识别结果

Javascript用模板自带的别改

访问

http://localhost:1235/

默认
http://127.0.0.1:1235/

界面展示

选择number文件夹下的图片识别数字大小

移动端

这样就实现了拍摄数字，识别数字大小的功能

MRS模板匹配

2026-03-16T00:00:00+00:00

Baseline模板匹配

从音频信号中识别出主音系统、主音音高、模式模式和模式类型，自动标注乐曲到对应的五音调式。

librosa库提取色度特征，求和得到十二位色度向量Tensor，不含八度信息。

构建tonggong System模板，循环移动得到其余模板。

System

对于System，提取未知音频的十二位色度向量，与已有的十二给模板比较，计算皮尔森相关系数，系数最大的即匹配程度最高的，就是该乐曲的System。

Tonic

对于Tonic，librosa库提取主音音高特征，十二位色度向量，把最后500帧的色度特征相加就是音高名称。

Pattern

对于Pattern，根据以下推断方法得到。

Pattern推断方法：

t(Tonic),s(System)

当t = s时，为Gong模式。当t比s高2个半音时，它是尚模式。高4个半音为觉式，高7个半音为直式，高9个半音为余式。

Type

Type，模板由0和1构成，识别方法类似System。

实现音频分析的基本步骤，使用librosa包来处理音频数据：

获取色度特征：使用librosa包获取整个音频的色度特征。色度特征是一个十二维向量，表示音频中各个音高的能量分布，不考虑八度信息。
求和色度向量：将获取到的色度特征向量求和，得到一个十二维的色度向量，该向量反映了整个音频中每个音高的总能量。
TongGong体系分类：首先定义C TongGong体系的模板（1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0），其他TongGong体系的模板可以通过循环移动该模板获得。
计算皮尔森相关系数：分别计算色度向量与每个TongGong体系模板之间的皮尔森相关系数，以评估它们之间的匹配程度。
识别TongGong体系：选取具有最大皮尔森相关系数的模板，该模板对应的TongGong体系即为识别结果。
识别主音音高：分析音频的最后500帧的色度特征，按音高求和，最大值对应的音高即视为主音音高。
调式类型识别：根据每种调式对应的音阶，构造由0和1组成的模板。使用与TongGong体系识别类似的方法计算每个模板与色度向量之间的匹配度，以识别调式类型。
得出调式的模式：结合TongGong体系和主音音高的识别结果，最终确定音频的调式模式。

输入

一维音频转换成二维的频谱图，可以传入整个频谱图训练，也可以切割之后传入训练，在组合训练结果。

结果评估

开发了7个精度度量来评估识别结果

ACC1为System的精确值、ACC2为Tonic的精确值、ACC3为Pattern的精确值、ACC4为Tonic和Pattern的精确值的均值、ACC5为Type的精确值、ACC6为Tonic、Pattern和Type精确值的均值

实现

# -*- coding: gb2312 -*-
import os
import librosa
import numpy as np
import pandas as pd
from scipy.stats import pearsonr

def analyze_audio(file_path):
    y, sr = librosa.load(file_path)
    chroma = librosa.feature.chroma_stft(y=y, sr=sr)
    chroma_sum = np.sum(chroma, axis=1)

 # System/Tonic模板
    pitch_names = ['C', 'C#', 'D', 'D#', 'E', 'F', 'F#', 'G', 'G#', 'A', 'A#', 'B']
    c_tonggong = np.array([1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0])  # C TongGong体系System的模板
    templates = [np.roll(c_tonggong, i) for i in range(12)]  # System循环生成其他十二个模板TongGong体系的模板，即从C到B按顺序
    correlations = [pearsonr(chroma_sum, template)[0] for template in templates]
    tonggong_index = pitch_names[np.argmax(correlations)]# 同宫系统映射关系，映射到标签，enumerate(pitch_names) 会生成 (0, 'C'), (1, 'D'), (2, 'E')
    tonggong_system_mapping = {name: i for i, name in enumerate(pitch_names)}# 映射到数字
    System_number = tonggong_system_mapping[tonggong_index]

#tonic映射到数字，主音提取后500帧的色度特征
    tonic_index = np.argmax(np.sum(chroma[:, -500:], axis=1))
    tonic = pitch_names[tonic_index]
    tonic_number = tonggong_system_mapping[tonic]# 主音音高/Pitch of Tonic：规则与同宫系统/TongGong System相同，所以直接用tonggong_system_mapping映射到数字

# Type调式模板
    mode_templates_Type = {
        'Heptatonic Yanyue': np.array([1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0]),
        'Heptatonic Qingyue': np.array([1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0]),
        'Heptatonic Yayue': np.array([1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0]),
        'Hexatonic (Biangong)': np.array([1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0]),
        'Hexatonic (Qingjue)': np.array([1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1]),
        'Pentatonic': np.array([1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1])
    }
    type_mapping = {
        'Pentatonic': 0,
        'Hexatonic (Qingjue)': 1,
        'Hexatonic (Biangong)': 2,
        'Heptatonic Yayue': 3,
        'Heptatonic Qingyue': 4,
        'Heptatonic Yanyue': 5
    }#Type调式映射关系
    mode_correlations = {Type: pearsonr(chroma_sum, template)[0] for Type, template in mode_templates_Type.items()}
    identified_Type = max(mode_correlations, key=mode_correlations.get)
    identified_Type_number = type_mapping[identified_Type]  # 映射到数字

#Pattern计算
    """
    调式样式/Type Pattern：
    0--宫/Gong
    1--商/Shang
    2--角/Jue
    3--徵/Zhi
    4--羽/Yu
    """
    half_tone_difference = (tonic_number - System_number) % 12# 计算半音差距
    if half_tone_difference == 0:# 根据半音差距判断模式
        pattern_number = 0
    elif half_tone_difference == 2:
        pattern_number = 1
    elif half_tone_difference == 4:
        pattern_number = 2
    elif half_tone_difference == 7:
        pattern_number = 3
    elif half_tone_difference == 9:
        pattern_number = 4
    else:
        pattern_number = 9  # pattern_number = 9无法确定模式Pattern

    return System_number, tonic_number, identified_Type_number,pattern_number

# 文件夹路径
folder_path = r"E:\Code\CNPM_audio"# 文件夹路径
true_labels_df = pd.read_csv(r'E:\Code\label.csv', encoding='utf-8')

correct_System = 0
correct_Tonic = 0
correct_Type = 0
correct_Pattern = 0
total_files = 0

for _, row in true_labels_df.iterrows():
    file_name = row['File_Name']
    true_tonggong = row['System']
    true_tonic = row['Tonic']
    true_Type = row['Type']
    true_Pattern = row['Pattern']

    file_path = os.path.join(folder_path, file_name)
    if os.path.exists(file_path):
        total_files += 1
        tonggong_index, tonic, identified_Type,identified_Pattern = analyze_audio(file_path)
        if tonggong_index == true_tonggong:
            correct_System += 1
        if tonic == true_tonic:
            correct_Tonic += 1
        if identified_Type == true_Type:
            correct_Type += 1
        if identified_Pattern == true_Pattern:
            correct_Pattern += 1

if total_files > 0:
    print(f"ACC1(System accuracy): {correct_System / total_files:.2f}")
    print(f"ACC2(Tonic accuracy): {correct_Tonic / total_files:.2f}")
    print(f"ACC3I(Pattern accuracy): {correct_Pattern / total_files:.2f}")
    print(f"ACC4(Tonic and Pattern Average accuracy): {(correct_Pattern+correct_Tonic)  / (2*total_files):.2f}")
    print(f"ACC5(Type accuracy): {correct_Type / total_files:.2f}")
    print(f"ACC6(Tonic, Pattern and Type Average accuracy): {(correct_Pattern+correct_Tonic+correct_Type)  / (3*total_files):.2f}")
else:
    print("No files were analyzed.")

MRS单任务卷积递归神经网络

2026-03-16T00:00:00+00:00

CRNN

单任务实现

import os
import numpy as np
from torch.utils.data import Dataset, DataLoader
from sklearn.model_selection import train_test_split
import pandas as pd
import librosa
import torch
import torch.nn as nn
import torch.nn.functional as F

def generate_cqt_spectrogram(file_path, resample_rate=5, max_length=100):
    y, sr = librosa.load(file_path, sr=None)
    cqt = librosa.cqt(y, sr=sr, fmin=librosa.note_to_hz('C1'), n_bins=168, bins_per_octave=24)
    cqt_amplitude = np.abs(cqt)
    cqt_resampled = librosa.resample(cqt_amplitude, orig_sr=sr, target_sr=resample_rate, axis=1)
    print("cqt_resampled shape:", cqt_resampled.shape)
    # 调整长度
    if cqt_resampled.shape[1] < max_length:
        pad_width = max_length - cqt_resampled.shape[1]
        cqt_resampled = np.pad(cqt_resampled, ((0, 0), (0, pad_width)), 'constant')
    elif cqt_resampled.shape[1] > max_length:
        cqt_resampled = cqt_resampled[:, :max_length]

    return cqt_resampled
#输出一个spectrogram频谱图

class AudioDataset(Dataset):
    def __init__(self, df, transform=None):
        self.df = df
        self.transform = transform

    def __len__(self):
        return len(self.df)

    def __getitem__(self, idx):
        audio_path = self.df.iloc[idx]['audio']
        spectrogram = generate_cqt_spectrogram(audio_path)
        spectrogram = np.expand_dims(spectrogram, axis=0)
        print("CQT Spectrogram shape:", spectrogram.shape)#检查频谱图形状，确保为单通道
        eps = 1e-10#避免除以零
        spectrogram = (spectrogram - np.mean(spectrogram)) / (np.std(spectrogram) + eps)#z-score标准化
        label = self.df.iloc[idx]['System']
        return torch.from_numpy(spectrogram).float(),label

def custom_collate_fn(batch):
    spectrograms, labels = zip(*batch)#分离频谱图和标签
    spectrograms = [torch.Tensor(s) for s in spectrograms]
    spectrograms_padded = torch.nn.utils.rnn.pad_sequence(spectrograms, batch_first=True, padding_value=0)
    labels = torch.tensor(labels)
    print("Batch shape:", spectrograms_padded.shape)#验证最终形状
    return spectrograms_padded, labels


class CRNN(nn.Module):
    def __init__(self, num_classes, input_height=168, input_width=100, rnn_hidden_size=128, rnn_num_layers=2):
        super(CRNN, self).__init__()
        self.input_height = input_height
        self.input_width = input_width
        #更新CNN层，以适应较窄的输入
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        self.bn1 = nn.BatchNorm2d(64)
        self.pool1 = nn.MaxPool2d(kernel_size=(2, 1), stride=(2, 1))#只在高度上池化，保持宽度不变
        self.conv2 = nn.Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        self.bn2 = nn.BatchNorm2d(128)
        self.pool2 = nn.MaxPool2d(kernel_size=(2, 1), stride=(2, 1))#同上
        self.conv3 = nn.Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        self.bn3 = nn.BatchNorm2d(256)
        self.pool3 = nn.MaxPool2d(kernel_size=(2, 1), stride=(2, 1))#同上
        #确定展平后的尺
        self._to_linear = None
        self._forward_conv(torch.autograd.Variable(torch.rand(1, 1, input_height, input_width)))
        #RNN层
        self.lstm = nn.LSTM(input_size=self._to_linear, hidden_size=rnn_hidden_size, num_layers=rnn_num_layers, batch_first=True, bidirectional=True)
        #分类器
        self.fc = nn.Linear(rnn_hidden_size * 2, num_classes)#*2因为它是双向的

    def _forward_conv(self, x):
        x = self.pool1(F.relu(self.bn1(self.conv1(x))))
        x = self.pool2(F.relu(self.bn2(self.conv2(x))))
        x = self.pool3(F.relu(self.bn3(self.conv3(x))))
        if self._to_linear is None:
            self._to_linear = x.shape[1] * x.shape[2] * x.shape[3]#动态计算
        return x

    def forward(self, x):
        #卷积层
        x = self._forward_conv(x)
        #为RNN输入重塑输出
        batch_size = x.shape[0]
        x = x.view(batch_size, -1, self._to_linear)  # (batch, seq_len, features)
        #RNN层
        x, (h_n, c_n) = self.lstm(x)
        #只使用最后一个RNN层的输出
        x = self.fc(x[:, -1, :])
        return x

#从这里开始处理数据
file_path = './label.csv'
# file_path = r"D:\0-2024英文文献\0-代码部分\Code\label.csv"
df = pd.read_csv(file_path, encoding='gbk')
audio_dir = os.path.dirname(file_path)

df = df[['File_Name', 'System', 'Tonic', 'Pattern']]
df['audio'] = df['File_Name'].apply(lambda x: os.path.join(audio_dir, 'CNPM_audio', x))
df = df[['audio', 'System', 'Tonic', 'Pattern']]

train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)
train_df, val_df = train_test_split(train_df, test_size=0.25, random_state=42)#0.25 x 0.8 = 0.2

train_dataset = AudioDataset(train_df)
val_dataset = AudioDataset(val_df)
test_dataset = AudioDataset(test_df)

train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True, collate_fn=custom_collate_fn)
val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False, collate_fn=custom_collate_fn)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False, collate_fn=custom_collate_fn)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = CRNN(num_classes=12).to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
criterion = nn.CrossEntropyLoss()

def train_model(model, data_loader, criterion, optimizer, device):
    model.train()
    total_loss = 0
    for inputs, labels in data_loader:
        inputs, labels = inputs.to(device), labels.to(device)
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        total_loss += loss.item()
    return total_loss / len(data_loader)

def evaluate_model(model, data_loader, criterion, device):
    model.eval()
    total_loss = 0
    total_correct = 0
    total_samples = 0
    with torch.no_grad():
        for inputs, labels in data_loader:
            inputs, labels = inputs.to(device), labels.to(device)
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            total_loss += loss.item()#计算准确度
            _, predicted = torch.max(outputs.data, 1)#获取最大概率的预测结果
            total_correct += (predicted == labels).sum().item()
            total_samples += labels.size(0)
        average_loss = total_loss / len(data_loader)
        accuracy = total_correct / total_samples
    return average_loss, accuracy

#实际训练和验证循环
epochs = 10
for epoch in range(epochs):
    train_loss = train_model(model, train_loader, criterion, optimizer, device)
    val_loss, val_accuracy = evaluate_model(model, val_loader, criterion, device)
    print(f"Epoch {epoch+1}, Train Loss: {train_loss}, Validation Loss: {val_loss}")
    print(f"System Validation Accuracy: {val_accuracy: .4f}")

MRS单任务残差网络

2026-03-16T00:00:00+00:00

ResNet

ResNet从理论到实践（一）ResNet原理 - 知乎 (zhihu.com)

1）直接使用两个单任务模型分别预测主音和模式；
2）使用两个单任务模型分别预测体系和主音，然后间接计算这两个结果的模式；

公式：System同宫系统+Tonic主音=Pattern模式

3）使用一个多任务模型识别系统、主音和模式，其中模式既可以直接也可以间接导出。

类型识别Type，由于其数据分布不均、识别难度大且与其他三项关系不大，我们直接使用单一模型进行预测，而不将其加入多任务模型。

ResNet18单任务网络架构

初始卷积层（Conv）：
- 卷积核大小（k）为 7x7，步长（s）为 1，输出通道数（c）为 64。
- 这一层用于初步提取特征。
最大池化层（Max Pooling）：
- 池化核大小为 3x3，步长为 2。
- 这一层用于减少特征维度和提高模型的空间不变性。
残差块（Residual Block）：
- 包括两个 3x3 卷积层，每层后面跟着批归一化（Batch Normalization）和 ReLU 激活函数。
- 每个卷积层的输出通道数（c）为 ci，ci 是可变的，取决于具体块中的设置。
- 步长（s）在第一卷积层为 1 或 2，第二卷积层始终为 1，步长为 2 用于降采样。
- 每个块的最后通过相加操作（+）融合主路径和捷径（shortcut）的输出，然后再应用 ReLU 激活函数。
全局平均池化层（AdaptiveAvgPool）：
- 这是全局平均池化层，将特征图缩减为 1x1，减少参数数量，同时保持特征。
重复：
- 指示残差块重复的次数，这里是 8 次。

实现

import os
import numpy as np
from torch.utils.data import Dataset, DataLoader
from torch.nn.utils.rnn import pad_sequence
from torchvision import datasets, transforms, models
from sklearn.model_selection import train_test_split
import pandas as pd
import librosa
import torch
import torch.nn as nn
import torch.nn.functional as F

def generate_cqt_spectrogram(file_path, resample_rate=5, segment_duration=20):
    y, sr = librosa.load(file_path, sr=None)
    cqt = librosa.cqt(y, sr=sr, fmin=librosa.note_to_hz('C1'), n_bins=168, bins_per_octave=24)
    cqt_amplitude = np.abs(cqt)#标准化
    cqt_resampled = librosa.resample(cqt_amplitude, orig_sr=sr, target_sr=resample_rate, axis=1)#下采样#计算一个片段中的样本数
    samples_per_segment = resample_rate * segment_duration#5*20=100个时间点
    total_segments = int(np.ceil(cqt_resampled.shape[1] / samples_per_segment))
    segments = []
    for i in range(total_segments):#如果末尾超过 CQT 的长度，则用零填充剩余部分，达到指定长度
        start = i * samples_per_segment
        end = start + samples_per_segment
        if end > cqt_resampled.shape[1]:
            padding_length = end - cqt_resampled.shape[1]
            padding = np.zeros((cqt_resampled.shape[0], padding_length))
            segment = np.hstack((cqt_resampled[:, start:cqt_resampled.shape[1]], padding))
        else:
            segment = cqt_resampled[:, start:end]
        segments.append(segment)
    segments = np.array(segments)  # 输出为数组格式
    print("segments shape:", segments.shape)
    return segments

def generate_cqt_spectrogram_Tonic(file_path, resample_rate=5, segment_duration=20):
    y, sr = librosa.load(file_path, sr=None)
    cqt = librosa.cqt(y, sr=sr, fmin=librosa.note_to_hz('C1'), n_bins=168, bins_per_octave=24)
    cqt_amplitude = np.abs(cqt)
    cqt_resampled = librosa.resample(cqt_amplitude, orig_sr=sr, target_sr=resample_rate, axis=1)
    if cqt_resampled.shape[1] > 500:
        cqt_resampled = cqt_resampled[:, -500:]#取最后500帧分析主音
    else:
        pass
    samples_per_segment = resample_rate * segment_duration  # 5 * 20 = 100
    total_segments = int(np.ceil(cqt_resampled.shape[1] / samples_per_segment))
    segments_Tonic = []
    for i in range(total_segments):
        start = i * samples_per_segment
        end = start + samples_per_segment
        if end > cqt_resampled.shape[1]:
            padding_length = end - cqt_resampled.shape[1]
            padding = np.zeros((cqt_resampled.shape[0], padding_length))
            segment = np.hstack((cqt_resampled[:, start:cqt_resampled.shape[1]], padding))
        else:
            segment = cqt_resampled[:, start:end]
        segments_Tonic.append(segment)
    segments_Tonic = np.array(segments_Tonic)
    print("segments_Tonic shape:", segments_Tonic.shape)
    return segments_Tonic

class AudioDataset(Dataset):
    def __init__(self, df, label_column, transform=None):
        self.df = df
        self.label_column = label_column
        self.transform = transform

    def __len__(self):
        return len(self.df)

    def __getitem__(self, idx):
        audio_path = self.df.iloc[idx]['audio']

        # 根据任务类型决定使用哪个函数生成频谱图
        if self.label_column == 'Tonic':
            spectrogram = generate_cqt_spectrogram_Tonic(audio_path)
        else:
            spectrogram = generate_cqt_spectrogram(audio_path)
        print(f"CQT Spectrogram shape for {self.label_column}:", spectrogram.shape)
        eps = 1e-10  # 避免除以零
        spectrogram = spectrogram / (np.max(spectrogram) + eps)  # 标准化到[0,1]
        spectrogram = np.expand_dims(spectrogram, axis=0)  # 增加通道维度
        label = self.df.iloc[idx][self.label_column]
        return torch.from_numpy(spectrogram).float(), label

def custom_collate_fn(batch):
    spectrograms, labels = zip(*batch)    # 分离频谱图和标签
    spectrograms = [s[0] for s in spectrograms]  # 移除不必要的维度
    spectrograms_padded = pad_sequence(spectrograms, batch_first=True, padding_value=0)# 填充频谱图使它们在时间维度上的长度相同
    print("Batch shape:", spectrograms_padded.shape)# 验证最终形状
    labels = torch.tensor(labels)# 将标签转换为Tensor
    print("Batch shape after padding:", spectrograms_padded.shape)
    return spectrograms_padded, labels

class BasicBlock(nn.Module):
    expansion = 1

    def __init__(self, in_planes, planes, stride=1):
        super(BasicBlock, self).__init__()

        self.conv1 = nn.Conv2d(in_planes, planes, kernel_size=3, stride=stride, padding=1, bias=False)
        self.bn1 = nn.BatchNorm2d(planes)
        self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, stride=1, padding=1, bias=False)
        self.bn2 = nn.BatchNorm2d(planes)

        self.shortcut = nn.Sequential()

        if stride != 1 or in_planes != self.expansion * planes:
            self.shortcut = nn.Sequential(
                nn.Conv2d(in_planes, self.expansion * planes, kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(self.expansion * planes)
            )

    def forward(self, x):
        out = F.relu(self.bn1(self.conv1(x)))
        out = self.bn2(self.conv2(out))
        out += self.shortcut(x)
        out = F.relu(out)
        return out

class SingletaskResNet(nn.Module):
    def __init__(self, block, num_blocks, num_classes):
        super(SingletaskResNet, self).__init__()

#由两个大小为 3x3 的卷积层组成，步长（s）为 1 或 2。

        self.in_planes = 64# 修改输入层通道数为1，并移除降采样
        # self.conv1 = nn.Conv2d(in_channels=1, out_channels=64, kernel_size=7, stride=1, padding=3, bias=False)#第一个卷积层self.conv1被设置为接受单通道输入#64卷积层的输出通道数;bias=False：指示该层不使用偏置参数（bias）;
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=64, kernel_size=7, stride=2, padding=3, bias=False)
        #是stride=1还是stride=2？
        self.bn1 = nn.BatchNorm2d(64)
        # self.maxpool = nn.MaxPool2d(kernel_size=3, stride=1, padding=1)  # 修改步长为1
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
        # 是stride=1还是stride=2
        #构建多个残差层_make_layer
        self.layer1 = self._make_layer(block, 64, num_blocks[0], stride=1)
        self.layer2 = self._make_layer(block, 128, num_blocks[1], stride=2)
        self.layer3 = self._make_layer(block, 256, num_blocks[2], stride=2)
        self.layer4 = self._make_layer(block, 512, num_blocks[3], stride=2)
        # 在网络的末尾使用了全局平均池化，以将特征图的尺寸从任意大小减少到1x1，进而为全连接层（self.fc）提供输入
        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))
        self.fc = nn.Linear(512*block.expansion, num_classes)

    def _make_layer(self, block, planes, num_blocks, stride):
        strides = [stride] + [1] * (num_blocks - 1)
        layers = []
        for stride in strides:
            layers.append(block(self.in_planes, planes, stride))
            self.in_planes = planes * block.expansion
        return nn.Sequential(*layers)

    def forward(self, x):
        out = F.relu(self.bn1(self.conv1(x)))
        out = self.maxpool(out)
        out = self.layer1(out)
        out = self.layer2(out)
        out = self.layer3(out)
        out = self.layer4(out)
        out = self.avgpool(out)
        out = torch.flatten(out, 1)
        out = self.fc(out)
        return out

def initialize_model(num_classes, device, learning_rate=0.001):

    num_blocks = [2, 2, 2, 2]
    # num_blocks = [2, 2, 2, 2]，残差块2个一层，一共4层，8个残差块。
    model = SingletaskResNet(BasicBlock, num_blocks, num_classes).to(device)
    criterion = nn.CrossEntropyLoss()
    optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)
    return model, criterion, optimizer

# 训练模型的函数
def train_model(train_loader, model, criterion, optimizer, device, num_epochs=10):
    model.train()  # 确保模型处于训练模式，不修改epoch的值#进入训练模式，权重参数不可修改
    for epoch in range(num_epochs):
        total_loss = 0
        for inputs, labels in train_loader:
            inputs, labels = inputs.to(device), labels.to(device)  # 确保inputs和labels都在同一个设备上
            # labels = labels.to(device)
            outputs = model(inputs)

            loss = criterion(outputs, labels)

            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            total_loss += loss.item()
        avg_loss = total_loss / len(train_loader)
        print(f"Epoch {epoch+1}/{num_epochs}, Average Loss: {avg_loss:.4f}")

# 在验证集上评估模型
def evaluate_model(val_loader, model, device):
    model.eval()  # 设置模型为评估模式
    total_correct = 0
    total_samples = 0
    with torch.no_grad():
        for inputs, labels in val_loader:
            inputs = inputs.to(device)
            labels = labels.to(device)
            outputs = model(inputs)
            _, predicted = torch.max(outputs.data, 1)
            total_samples += labels.size(0)
            total_correct += (predicted == labels).sum().item()
    return total_correct / total_samples

file_path = './label.csv'
df = pd.read_csv(file_path, encoding='gbk')
audio_dir = os.path.dirname(file_path)

df['audio'] = df['File_Name'].apply(lambda x: os.path.join(audio_dir, 'CNPM_audio', x))#x即为File_Name列中的元素，为文件名，audio_dir路径+'CNPM_audio_old'+x文件名=完整路径
df = df[['audio', 'System', 'Tonic', 'Pattern', 'Type']] # 包含所有列

# 转换过程
transform = transforms.Compose([transforms.ToTensor()])

# 假设train_df和val_df已经定义并包含正确的列
task_types = ['System', 'Tonic', 'Pattern', 'Type']
num_classes = {'System': 12, 'Tonic': 12, 'Pattern': 5, 'Type': 6}

dataloaders = {}
models = {}
criterions = {}
optimizers = {}
accuracies = {}

#单任务不同之处在于每次预测不同类的时候，处理数据之后需要各自再传入模型
# 划分训练集和验证集并创建相应的DataLoader， df 是包含音频路径和标签的 DataFrame
train_df, val_df = train_test_split(df, test_size=0.2, random_state=42)  # 以 80-20 的比例划分训练集和验证集，为训练集和验证集创建相应的 DataLoader

for task in task_types:#循环4次，task_types = ['System', 'Tonic', 'Pattern', 'Type']
    # 创建数据集实例
    train_dataset = AudioDataset(train_df, label_column=task, transform=transform)
    val_dataset = AudioDataset(val_df, label_column=task, transform=transform)
    # 创建数据加载器
    train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True, collate_fn=custom_collate_fn)
    val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False, collate_fn=custom_collate_fn)
    dataloaders[task] = (train_loader, val_loader)

    # 初始化模型
    device = "cuda" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu"
    model, criterion, optimizer = initialize_model(num_classes[task], device)

    models[task] = model
    criterions[task] = criterion
    optimizers[task] = optimizer

    epochs = 3
    # 训练和评估模型
    for epoch in range(epochs):
        print(f"Epoch {epoch + 1}\n-------------------------------")
        # 使用已划分的数据集
        train_model(train_loader, model, criterion, optimizer, device, num_epochs=1)  # 为了示例，设置为1个epoch
        accuracies[task] = evaluate_model(val_loader, model, device)
        # accuracies[task] = accuracies[task] / len(val_loader.dataset)
    if task == "System":
        ACC1 = accuracies['System']
        print("ACC1:", ACC1)
    if task == "Tonic":
        ACC2 = accuracies['Tonic']
        print("ACC2:", ACC2)
    if task == "Pattern":
        ACC3 = accuracies['Pattern']
        print("ACC3:", ACC3)
    if task == "Type":
        ACC5 = accuracies['Type']
        print("ACC5:",ACC5)

ACC4 = (accuracies['Tonic'] + accuracies['Pattern']) / 2
print("ACC4:",ACC4)
ACC6 = (accuracies['Tonic'] + accuracies['Pattern'] + accuracies['Type']) / 3
print("ACC6:",ACC6)

print(f"ACC1(System Accuracy): {ACC1:.4f}")
print(f"ACC2(Tonic Accuracy): {ACC2:.4f}")
print(f"ACC3(Pattern Accuracy): {ACC3:.4f}")
print(f"ACC4(Average Tonic and Pattern Accuracy): {ACC4:.4f}")
print(f"ACC5(Type Accuracy): {ACC5:.4f}")
print(f"ACC6(Average of Tonic, Pattern, and Type Accuracy): {ACC6:.4f}")
print("Done!")

MRS多任务残差网络

2026-03-16T00:00:00+00:00

ResNet18多任务网络架构

输入层：
- 接受输入图像数据，通常是经过一些预处理步骤的图像张量。
初始卷积层（Conv）：
- 卷积核大小（k）: 7x7
- 步长（s）: 1
- 输出通道数（c）: 64
- 作用：用于提取图像的初步特征。
最大池化层（Max Pooling）：
- 池化核大小: 3x3
- 步长: 2
- 作用：用于降低特征的空间维度，并提高对输入变化的不变性。
残差块（Residual Blocks）：
- 由两个大小为 3x3 的卷积层组成，步长（s）为 1 或 2。
- 每个卷积层后面接着批归一化和ReLU激活函数。
- 输出通道数（c）: 取决于残差块的设置。
- 重复次数：ResNet18特定的重复次数，一般为 2, 2, 2, 2。
- 残差连接：每个块的输出与输入通过相加操作融合，再通过ReLU激活。
全局平均池化层（AdaptiveAvgPool）：
- 缩减特征图至 1x1 的尺寸，为连接全连接层做准备。
多任务分支：
- 每个任务有独立的全连接层和分类器。
- 分支1：
  - 全连接层（Linear）: 输入特征数与ResNet18最后一层输出特征数相同，输出特征数为 128。
  - 激活函数（ReLU）: 非线性激活。
  - 第二个全连接层（Linear）: 输出特征数为任务1的分类数。（12个分类，’C’, ‘C#’, ‘D’, ‘D#’, ‘E’, ‘F’, ‘F#’, ‘G’, ‘G#’, ‘A’, ‘A#’, ‘B’）
  - 分类器（Softmax）: 将输出转化为概率分布。
- 分支2：
  - 全连接层（Linear）: 同上。
  - 激活函数（ReLU）: 同上。
  - 第二个全连接层（Linear）: 输出特征数为任务2的分类数。（12个分类，’C’, ‘C#’, ‘D’, ‘D#’, ‘E’, ‘F’, ‘F#’, ‘G’, ‘G#’, ‘A’, ‘A#’, ‘B’）
  - 分类器（Softmax）: 同上。
    
    分支3：
    - 全连接层（Linear）: 同上。
    - 激活函数（ReLU）: 同上。
    - 第二个全连接层（Linear）: 输出特征数为任务3的分类数。（5个分类，宫商角徵羽）
    - 分类器（Softmax）: 同上。

实现

import os
import numpy as np
import pandas as pd
import librosa
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader
from torchvision import transforms
from sklearn.model_selection import train_test_split
from torch.nn.utils.rnn import pad_sequence

def generate_cqt_spectrogram(file_path, resample_rate=5, segment_duration=20):
    y, sr = librosa.load(file_path, sr=None)
    cqt = librosa.cqt(y, sr=sr, fmin=librosa.note_to_hz('C1'), n_bins=168, bins_per_octave=24)
    cqt_amplitude = np.abs(cqt)#标准化
    cqt_resampled = librosa.resample(cqt_amplitude, orig_sr=sr, target_sr=resample_rate, axis=1)#下采样

#计算一个片段中的样本数
    samples_per_segment = resample_rate * segment_duration#5*20=100个时间点
    total_segments = int(np.ceil(cqt_resampled.shape[1] / samples_per_segment))

    segments = []
    for i in range(total_segments):#如果末尾超过 CQT 的长度，则用零填充剩余部分，达到指定长度
        start = i * samples_per_segment
        end = start + samples_per_segment
        if end > cqt_resampled.shape[1]:
            padding_length = end - cqt_resampled.shape[1]
            padding = np.zeros((cqt_resampled.shape[0], padding_length))
            segment = np.hstack((cqt_resampled[:, start:cqt_resampled.shape[1]], padding))
        else:
            segment = cqt_resampled[:, start:end]
        segments.append(segment)
    segments = np.array(segments)  # 输出为数组格式
    print("segments shape:", segments.shape)
    return segments

class AudioDataset(Dataset):
    def __init__(self, df, transform=None):
        self.df = df
        self.transform = transform

    def __len__(self):
        return len(self.df)

    def __getitem__(self, idx):
        audio_path = self.df.iloc[idx]['audio']
        spectrograms = generate_cqt_spectrogram(audio_path)

        # 选择一个片段进行演示，通常你会基于某种逻辑选择或使用所有片段
        spectrogram = spectrograms[0]#只取了第一列的，没有完全采用。 也只需要第一列，后面列全都是0 # 示例中使用第一个片段
        eps = 1e-10  # 避免除以零
        spectrogram = spectrogram / (np.max(spectrogram) + eps)  # 标准化到[0,1]
        spectrogram = np.expand_dims(spectrogram, axis=0)

        labels = {
            'System': torch.tensor(self.df.iloc[idx]['System']),
            'Tonic': torch.tensor(self.df.iloc[idx]['Tonic']),
            'Pattern': torch.tensor(self.df.iloc[idx]['Pattern']),
        }
        return torch.from_numpy(spectrogram).float(), labels

def custom_collate_fn(batch):#数据批处理
    spectrograms, labels_batch = zip(*batch)
    spectrograms_padded = pad_sequence(spectrograms, batch_first=True, padding_value=0)
    labels = {task: torch.tensor([label[task] for label in labels_batch]) for task in labels_batch[0]}
    return spectrograms_padded, labels

class BasicBlock(nn.Module):#构建残差块
    expansion = 1

    def __init__(self, in_planes, planes, stride=1):
        super(BasicBlock, self).__init__()

        self.conv1 = nn.Conv2d(in_planes, planes, kernel_size=3, stride=stride, padding=1, bias=False)# 卷积层
        self.bn1 = nn.BatchNorm2d(planes)# 批归一化
        self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, stride=1, padding=1, bias=False)# 卷积层
        self.bn2 = nn.BatchNorm2d(planes)# 批归一化
        self.shortcut = nn.Sequential()

        # 初始化shortcut连接，如果条件满足则在后面修改此结构
        if stride != 1 or in_planes != self.expansion * planes:
            # 检查是否需要调整shortcut路径的维度或步长
            self.shortcut = nn.Sequential(
                nn.Conv2d(in_planes, self.expansion * planes, kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(self.expansion * planes)
            )
            # 如果需要，通过1x1卷积调整维度并匹配主路径的步长。

    def forward(self, x):
        out = F.relu(self.bn1(self.conv1(x)))  # 卷积层
        out = self.bn2(self.conv2(out))  # 归一化层
        out += self.shortcut(x)
        out = F.relu(out)
        return out

class MultiTaskResNet(nn.Module):
    def __init__(self, block, num_blocks, num_classes_dict):
        super(MultiTaskResNet, self).__init__()

        self.in_planes = 64# 修改输入层通道数为1,移除降采样
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=64, kernel_size=7, stride=1, padding=3, bias=False)
        self.bn1 = nn.BatchNorm2d(64)
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=1, padding=1)

#num_blocks = [2, 2, 2, 2]，残差块2个一层，一共4层，8个残差块。
        self.layer1 = self._make_layer(block, 64, num_blocks[0], stride=1)
        self.layer2 = self._make_layer(block, 128, num_blocks[1], stride=2)
        self.layer3 = self._make_layer(block, 256, num_blocks[2], stride=2)
        self.layer4 = self._make_layer(block, 512, num_blocks[3], stride=2)

        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))

        # 为每个任务添加全连接层，多任务左图的Linear、ReLu、Linear、SoftMax部分
        self.system_fc = nn.Linear(512 * block.expansion, num_classes_dict['System'])#num_classes_dict['System'] = 12
        self.tonic_fc = nn.Linear(512 * block.expansion, num_classes_dict['Tonic'])#num_classes_dict['Tonic'] = 12
        self.pattern_fc = nn.Linear(512 * block.expansion, num_classes_dict['Pattern'])#num_classes_dict['Pattern'] = 5

    def _make_layer(self, block, planes, num_blocks, stride):
        strides = [stride] + [1] * (num_blocks - 1)
        layers = []
        for stride in strides:
            layers.append(block(self.in_planes, planes, stride))
            self.in_planes = planes * block.expansion
        return nn.Sequential(*layers)

    def forward(self, x):
        x = F.relu(self.bn1(self.conv1(x)))
        x = self.maxpool(x)

        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x)

        x = self.avgpool(x)
        x = torch.flatten(x, 1)

        # 任务特定的预测
        system_pred = self.system_fc(x)
        tonic_pred = self.tonic_fc(x)
        pattern_pred = self.pattern_fc(x)

        return {'System': system_pred, 'Tonic': tonic_pred, 'Pattern': pattern_pred}

def initialize_model(df, device, learning_rate=0.001):
    # 标签值不是从0开始的，可以通过减去最小值来调整它们
    df['System'] = df['System'] - df['System'].min()
    df['Tonic'] = df['Tonic'] - df['Tonic'].min()
    df['Pattern'] = df['Pattern'] - df['Pattern'].min()

#为了实现多任务而定义的字典，方便训练不同任务的时候调取不同的参数
    num_classes_dict = {
        'System': 12,
        'Tonic': 12,
        'Pattern': 5,
    }

    num_blocks = [2, 2, 2, 2]
    # num_blocks = [2, 2, 2, 2]，残差块2个一层，一共4层，8个残差块。
    model = MultiTaskResNet(BasicBlock, num_blocks, num_classes_dict).to(device)
    criterion = nn.CrossEntropyLoss()
    optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)
    return model, criterion, optimizer

# 训练模型的函数需要对每个任务计算损失，并将这些损失合并来更新模型
def train_model(train_loader, model, criterion, optimizer, device):
    model.train()
    total_loss = 0
    for inputs, labels in train_loader:
        inputs = inputs.to(device)
        outputs = model(inputs)

        loss = sum(criterion(outputs[task], labels[task].to(device)) for task in labels)

        #交叉熵损失函数
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        total_loss += loss.item()

    avg_loss = total_loss / len(train_loader)
    print(f"Average Loss: {avg_loss:.4f}")


def evaluate_model(val_loader, model, device):
    model.eval()
    correct = {task: 0 for task in ['System', 'Tonic', 'Pattern']}
    total = {task: 0 for task in ['System', 'Tonic', 'Pattern']}
    with torch.no_grad():
        for inputs, labels in val_loader:
            inputs = inputs.to(device)
            outputs = model(inputs)
            for task, preds in outputs.items():
                _, predicted = torch.max(preds, 1)
                correct[task] += (predicted == labels[task].to(device)).sum().item()
                total[task] += labels[task].size(0)

    accuracies = {task: correct[task] / total[task] for task in total}
    return accuracies

# 从这里开始处理数据
file_path = './label.csv'
df = pd.read_csv(file_path, encoding='gbk')
audio_dir = os.path.dirname(file_path)

df = df[['File_Name', 'System', 'Tonic', 'Pattern']]
df['audio'] = df['File_Name'].apply(lambda x: os.path.join(audio_dir, 'CNPM_audio', x))
df = df[['audio', 'System', 'Tonic', 'Pattern']]

# 转换过程
transform = transforms.Compose([transforms.ToTensor()])

#由路径到.wav文件，顺带分割训练集和验证集
train_df, val_df = train_test_split(df, test_size=0.2, random_state=42)
train_dataset = AudioDataset(train_df)
val_dataset = AudioDataset(val_df)

train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True, collate_fn=custom_collate_fn)
val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False, collate_fn=custom_collate_fn)

# 设备选择
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model, criterion, optimizer = initialize_model(df, device, learning_rate=0.001)

# 训练和评估模型
epochs = 10
for t in range(epochs):
    print(f"Epoch {t+1}\n-------------------------------")
    train_model(train_loader, model, criterion, optimizer, device)
    accuracies = evaluate_model(val_loader, model, device)

    # 修改输出的精确值
    ACC1 = accuracies['System']
    ACC2 = accuracies['Tonic']
    ACC3 = accuracies['Pattern']
    ACC4 = (accuracies['Tonic'] + accuracies['Pattern']) / 2
    print(f"ACC1(System Accuracy): {ACC1:.4f}")
    print(f"ACC2(Tonic Accuracy): {ACC2:.4f}")
    print(f"ACC3(Pattern Accuracy): {ACC3:.4f}")
    print(f"ACC4(Average Tonic and Pattern Accuracy): {ACC4:.4f}")
print("Done!")

MRS数据集及音乐理论

2026-03-16T00:00:00+00:00

Music-Recommendation-System

文献下载

AUTOMATIC CHINESE NATIONAL PENTATONIC MODES RECOGNITION USING CONVOLUTIONAL NEURAL NETWORK

CNPM Database数据集

一个用于计算音乐学的中国民族五声调式数据库

数据集：CNPM (Chinese National Pentatonic Modes) Dataset 中国五声数据集

Hugging Face下载

https://huggingface.co/datasets/ccmusic-database/CNPM

$ git clone https://huggingface.co/datasets/ccmusic-database/CNPM

音频

音频经过裁剪，只有角和商音，时长在15-30s左右

26首商音乐曲，43首角音乐曲

dataset文字结构

曲名/Title	演奏者/Artist	专辑/Album	调式全称/Mode Name	文件名/File Name	同宫系统/System	主音音名/Tonic	样式/Pattern	种类/Type	时长/Length	备注/Note
1级-小鸟朝凤	儿童歌曲		D宫清乐七声	1级-小鸟朝凤 - 儿童歌曲.mp3	2	2	0	4	0:01:53
暗香	纯音乐	月满西楼	G宫七声清乐	暗香 - 纯音乐.mp3	7	7	0	4	0:03:35

命名格式：jue1.wav、shang1.wav

分析的都是.wav文件，MP3是加密过的。如同.docx文件转换为PDF文件。

将模式所属的同音系统称为“系统”，主音的音调称为“主音”，模式模式称为“模式”，模式类型称为“类型”（System/Tonic/Pattern/Type）。分类时的主要任务是识别模式（Pattern）和主音（Tonic），以系统（System）作为辅助项目，然后是类型（Type）分类作为次要任务。根据主音t和系统s，我们可以推断出该模式的模式。当t等于s时，它是锣模式。当t比s高2个半音时，为尚模式。4个半音高是觉模，7个半音高是志模，9个半音高是于模。

完整版CCMUSIC DATASET申请

数据集包含287段录音。

ccmusic-database

CCMUSIC DATASET

Multi-functional Music Database for MIR Research

CCMUSIC DATASET

写邮件发过来压缩包

扩充数据集

官方数据集完整218首，扩充至300首。

自行下载，裁剪至60s内，转换格式为.wav

MP3文件存储路径：

E:\1五音项目整体\1_五音乐曲汇总\MP3\20230829有效五音乐曲116首

乐曲下载完毕统一转换格式为.wav。

QQ音乐格式转换，解锁加密音乐，转mp3格式，酷狗、网易云也能用！

音乐解锁工具v1.10.3_免费高速下载

扩充后300首数据集下载 链接: https://pan.baidu.com/s/1oU8oHhHMHlrg9VrA6xLs4Q?pwd=v35s 提取码: v35s 复制这段内容后打开百度网盘手机App，操作更方便哦

理论介绍

看似四类，实际上只有两类，System和Tonic一类，Pattern和Type一类。Pattern由System和Tonic比较得到，Type由Pattern加偏音得到。所以只需要识别System和Tonic即可。

主要是为了识别Pattern和Tonic，System识别是辅助项目，其次是类别分类。

12个System，12个Tonic，5个Pattern，6个Type

将模式所属的同音系统称为“系统”，主音的音调称为“主音”，模式模式称为“模式”，模式类型称为“类型”。

系统(System)：同宫系统

主音（Tonic）：GABDE

模式（Pattern）：宫商角徵羽

类型（Type）：五声、六声

标签中的12356对应的是 GABDE

System

整首进去，匹配12个模板中最相关的

模板由一个基础的移动得到

同宫系统/TongGong System：
0--C 
1--#C/bD 
2--D 
3--#D/bE
4--E
5--F
6--#F/bG
7--G
8--#G/bA
9--A
10--#A/bB
11--B

分析待识别乐曲的音阶模式，与12个模板分别比对，分别计算色度向量与每个模板之间的皮尔森相关系数，取最大的那一个模板即为待识别乐曲的TongGong体系System类型。

参考文献：C TongGong体系的模板是1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0，其他的可以通过在循环中移动模板来获得。

这些数组代表了一个十二音阶系统中的不同音级（从C到B）的音阶模式。每个数组都是一个音阶模式，其中 1 表示该音级在音阶中出现，而 0 表示不出现。这些模式是通过将基础模式（在这个例子中是C TongGong体系）沿着十二音阶系统循环移位来生成的。

让我们将每个数组与相应的音级对应起来：
C - [1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0]：这是C TongGong体系的基础模式。
C# - [0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0]：这是将C TongGong模式向右移动一个音级得到的。
D - [0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1]：这是将C TongGong模式向右移动两个音级得到的。
D# - [1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0]：这是将C TongGong模式向右移动三个音级得到的。
E - [0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1]：这是将C TongGong模式向右移动四个音级得到的。
F - [1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0]：这是将C TongGong模式向右移动五个音级得到的。
F# - [0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0]：这是将C TongGong模式向右移动六个音级得到的。
G - [0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1]：这是将C TongGong模式向右移动七个音级得到的。
G# - [1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0]：这是将C TongGong模式向右移动八个音级得到的。
A - [0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1]：这是将C TongGong模式向右移动九个音级得到的。
A# - [1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0]：这是将C TongGong模式向右移动十个音级得到的。
B - [0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1]：这是将C TongGong模式向右移动十一个音级得到的。
每次移位都相当于在十二音阶系统中向上移动一个半音。这种方法可以用来生成任何音级的特定音阶模式。

Tonic

最后500帧的色度特征按音高求和，最大值对应的音高名称

Tonic：
0--C 
1--#C/bD 
2--D 
3--#D/bE
4--E
5--F
6--#F/bG
7--G
8--#G/bA
9--A
10--#A/bB
11--B

然后对于主音音高，由于我们分析的大多数音乐在最后都回到主音，因此我们使用一种简单的方法来识别主音：直接将最后500帧的色度特征按音高求和，并将最大值对应的音高名称视为主音音高。

    # 音高名称列表
	pitch_names = ['C', 'C#', 'D', 'D#', 'E', 'F', 'F#', 'G', 'G#', 'A', 'A#', 'B']
    tonic_index = np.argmax(np.sum(chroma[:, -500:], axis=1))
    tonic = pitch_names[tonic_index]

Type

0--五声/Pentatonic
1--六声（清角）/Hexatonic (Qingjue) 
2--六声（变宫）/Hexatonic (Biangong) 
3--七声雅乐/Heptatonic Yayue
4--七声清乐/Heptatonic Qingyue
5--七声燕乐/Heptatonic Yanyue

原文可找到模板，至于调式类型识别，根据每种调式对应的音阶，获得由0和1组成的模板，并使用与TongGong体系识别类似的计算方法获得结果。

原理同System的识别。

    'Heptatonic Yanyue': np.array([1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0]),
    'Heptatonic Qingyue': np.array([1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0]),
    'Heptatonic Yayue': np.array([1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0]),
    'Hexatonic (Biangong)': np.array([1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0]),
    'Hexatonic (Qingjue)': np.array([1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1]),
    'Pentatonic': np.array([1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1])

Pattern

Pattern = Tonic+System

调式样式/Mode Pattern：
0--宫/Gong
1--商/Shang
2--角/Jue
3--徵/Zhi
4--羽/Yu

通过System和Tonic得到

half_tone_difference = (tonic_number - System_number) % 12# 计算半音差距
    if half_tone_difference == 0:# 根据半音差距判断模式
        pattern_number = 0
    elif half_tone_difference == 2:
        pattern_number = 1
    elif half_tone_difference == 4:
        pattern_number = 2
    elif half_tone_difference == 7:
        pattern_number = 3
    elif half_tone_difference == 9:
        pattern_number = 4
    else:
        return '无法确定模式Pattern'

数组[1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1] 与 Pentatonic的对应关系是基于音乐理论中五声音阶的结构得来的。在这个上下文中，数组中的每个数字代表一个特定的音高（或音级）在音阶中是否出现。1 表示该音级在音阶中出现，而 0 则表示不出现。

五声音阶由五个音组成，通常在西方音乐中以C大调五声音阶为例，其音级为 C, D, E, G, A。这个音阶中省略了F和B（在C大调中的第四和第七音级）。在一个完整的十二音级系统中，这可以表示为：

C (出现)
C# (不出现)
D (出现)
D# (不出现)
E (出现)
F (不出现)
F# (不出现)
G (出现)
G# (不出现)
A (出现)
A# (不出现)
B (不出现)

最终目的，根据已有数据集训练出五类乐曲（Pattern）的模板，再传入未知乐曲输出对应的Pattern。

计算公式

Tonic-System=>Pattern

System+Pattern=>Tonic

Tonic-Pattern=>System

识别调式策略

System同宫系统+Tonic主音=Pattern模式

方法一：用两个单任务直接预测主音（Tonic）和模式（Pattern）

方法二——BaseLine采用：用两个单任务预测系统（System）、主音（Tonic），计算出模式（Pattern）——公式：System同宫系统+Tonic主音=Pattern模式

方法三：用一个多任务模型识别系统（System）、主音（Tonic）和模式（Pattern）

同音系统称为“系统”，主音的音调称为“主音”，模式模式称为“模式”，模式类型称为“类型”（System/Tonic/Pattern/Type）。分类时的主要任务是识别模式（Pattern）和主音（Tonic），以系统（System）作为辅助项目，然后是类型（Type）分类作为次要任务。

Database Notes

2026-03-13T00:00:00+00:00

数据库知识点

概念

DB，database，数据库

DBS，database system 数据库系统

DBMS，database system manage system 数据库管理系统

DBA，database administrator 数据库管理员

完整性约束

Null，空

unique约束，唯一，只能出现一次

check约束

primary key主键约束

foreign key外键约束，需要同主键保持一致

default约束，设置默认值

查询语句

对表格

增删改查

增，create

删，delete from

改，update

对数据库

增，add，create

删，drop

改，alter

常用SQL命令

select，一次可以给多个变量赋值

select，一次可以输出多个变量

declare，一次定义一个变量

print，一次输出一个变量

四大故障

事务内部的故障

系统故障

介质故障

计算机病毒

事务的特性

ACID

原子性，Atomicity

一致性，Consistency

隔离性，Isolation

持久性，Durability

数据库SQL语句

SELECT # COUNT(), SUM(), AVG(), MAX(), MIN()
FROM # JOIN ON, LEFT JOIN ON, RIGHT JOIN ON
WHERE # IS NULL, IN, NOT IN,
GROUP BY
HAVING ON
ORDER BY #降序DESC, 升序ASC

desc(descend)降序

asc(ascend )升序

例题1怎么查找在一个表内有而在另一个表内没有的数据？

要查找在一个表内有而在另一个表内没有的数据，可以使用 SQL 的 LEFT JOIN 和 IS NULL 语句。假设有两个表 table1 和 table2，它们都有一个共同的字段 id，我们想要找出在 table1 中有但在 table2 中没有的数据，可以使用以下 SQL 语句：

SELECT table1.*
FROM table1
LEFT JOIN table2 ON table1.id = table2.id
WHERE table2.id IS NULL;

LEFT JOIN 是一种 SQL 连接操作，用于从两个或多个表中返回匹配的行。它会返回左表（第一个表）的所有行，以及右表（第二个表）中与左表匹配的行。如果在右表中没有匹配的行，则结果集中的右表列将包含 NULL 值。

具体来说，LEFT JOIN 的效果如下：

返回左表中的所有记录，即使右表中没有匹配的记录。
如果右表中有匹配的记录，那么左表和右表的匹配记录将被合并在一起。
如果右表中没有匹配的记录，那么左表的记录将与右表的所有列一起显示，其中右表的列值为 NULL。

例题2升序，降序怎么表示？

在SQL中，升序和降序可以通过关键字ASC（升序）和DESC（降序）来表示。这些关键字通常与ORDER BY子句一起使用，用于对查询结果进行排序。

例如，假设我们有一个名为employees的表，其中包含员工的信息，包括姓名（name）和工资（salary）。如果我们想要按照工资从低到高的顺序显示所有员工的信息，可以使用以下查询：

SELECT * FROM employees
ORDER BY salary ASC;

如果我们想要按照工资从高到低的顺序显示所有员工的信息，可以使用以下查询：

SELECT * FROM employees
ORDER BY salary DESC;

此外，还可以同时按多个列进行排序。例如，如果我们想要先按照部门（department）进行升序排序，然后在每个部门内按照工资进行降序排序，可以使用以下查询：

SELECT * FROM employees
ORDER BY department ASC, salary DESC;

在这个例子中，首先按照部门进行升序排序，然后在每个部门内部按照工资进行降序排序。

例题3怎么连接两张表？

在SQL中，可以使用JOIN语句来连接两张表。JOIN语句允许你根据两个或多个表中的共享列将它们组合在一起，以便在一个查询中检索相关数据。

以下是几种常见的JOIN类型：

INNER JOIN（内连接）：返回两个表中匹配的行。只有当两个表中的指定列都有匹配值时，才会返回结果。示例：查询员工和部门的信息，只显示有对应部门的员工。
```
SELECT employees.name, departments.department_name
FROM employees
INNER JOIN departments ON employees.department_id = departments.department_id;
```
LEFT JOIN（左连接）：返回左表中的所有行，以及右表中与左表匹配的行。如果右表中没有匹配的行，则结果集中的右表列将包含NULL值。示例：查询所有部门及其对应的员工信息，即使某些部门没有员工。
```
SELECT departments.department_name, employees.name
FROM departments
LEFT JOIN employees ON departments.department_id = employees.department_id;
```
RIGHT JOIN（右连接）：返回右表中的所有行，以及左表中与右表匹配的行。如果左表中没有匹配的行，则结果集中的左表列将包含NULL值。示例：查询所有员工及其对应的部门信息，即使某些员工没有部门。
```
SELECT employees.name, departments.department_name
FROM employees
RIGHT JOIN departments ON employees.department_id = departments.department_id;
```
FULL JOIN（全连接）：返回两个表中所有的行。如果没有匹配的行，则结果集中的列将包含NULL值。示例：查询所有员工及其对应的部门信息，包括没有员工的部门和没有部门的

限制查询结果SQL语句

HAVING子句：HAVING子句用于对分组后的结果进行过滤。它通常与GROUP BY子句一起使用，用于筛选满足特定条件的分组。
LIMIT子句：LIMIT子句用于限制查询结果的行数。它可以指定返回的最大行数或者从指定的起始位置开始返回一定数量的行。
OFFSET子句：OFFSET子句与LIMIT子句一起使用，用于指定从哪一行开始返回结果。例如，LIMIT 10 OFFSET 5表示从第6行开始返回10行结果。
IN子句：IN子句用于指定一个值列表，查询结果将只包含列中值在这个列表中的行。
NOT IN子句：NOT IN子句与IN子句相反，用于排除列中值在指定列表中的行。
EXISTS子句：EXISTS子句用于检查子查询是否至少返回一行数据，如果存在至少一行数据，则整个查询条件为真。
NOT EXISTS子句：NOT EXISTS子句与EXISTS子句相反，用于检查子查询是否没有返回任何数据，如果没有数据，则整个查询条件为真。

分组SQL语句

HAVING子句用于对分组后的结果进行过滤，通常与GROUP BY子句一起使用。以下是一些常见的分组语句和例子：

COUNT()函数：计算每个分组中的行数。示例：查询每个部门的员工数量。
```
SELECT department, COUNT(*) as employee_count
FROM employees
GROUP BY department;
```
SUM()函数：计算每个分组中某列的总和。示例：查询每个部门的总工资。
```
SELECT department, SUM(salary) as total_salary
FROM employees
GROUP BY department;
```
AVG()函数：计算每个分组中某列的平均值。示例：查询每个部门的平均工资。
```
SELECT department, AVG(salary) as average_salary
FROM employees
GROUP BY department;
```
MIN()函数：返回每个分组中某列的最小值。示例：查询每个部门的最低工资。
```
SELECT department, MIN(salary) as min_salary
FROM employees
GROUP BY department;
```
MAX()函数：返回每个分组中某列的最大值。示例：查询每个部门的最高工资。
```
SELECT department, MAX(salary) as max_salary
FROM employees
GROUP BY department;
```
HAVING子句：在GROUP BY之后使用HAVING子句来进一步筛选满足特定条件的分组。示例：查询员工数量超过10人的部门。
```
SELECT department, COUNT(*) as employee_count
FROM employees
GROUP BY department
HAVING COUNT(*) > 10;
```

CNN Notes

2023-10-27T00:00:00+00:00

CNN卷积神经网络

7-特征图尺寸计算与参数共享_哔哩哔哩_bilibili

传统神经网络和CNN卷积神经网络的区别：

传统神经网络是一维的，只有向量。

CNN卷积神经网络是三维的。height、width、depth

我的理解：

把一堆木浆倒入水池（输入层），再用棍子搅动（卷积层），然后慢慢沉淀（池化层），排出水后，把沉淀物挤压成型（全连接层）

卷积

卷积的含义就是特征提取。

卷积做的事情就是把图片划分成多个小区域，计算每一块的特征值。

图像的颜色通道RGB，32x32x3

计算特征值的时候是每个通道分离开，分别计算特征值，然后再融合melt在一块，相加1+2+3=6。

总的是7x7x3，分成RGB，每个分别为7x7x1

卷积核大小决定了从多大的区域内计算出来一个特征值。

通过filter隐藏参数得到一个值。

特征值计算方法，用merge。

卷积核内数值怎么设置的？

一个通道，对应位置相乘再求和，做了一次内积。

再把RGB三个通道数值加起来，得到最终的一张特征图。

设置不同的卷积核得到不同的特征图。得到丰富的特征。

注意：

计算同一层的特征图的时候，卷积核可以选择不同的值，但是维度必须相同，比如R层用的都是3x3的。

不同层直接卷积核可以选择不同的，比如R层用3x3，G层用4x4。

output volume中3x3x2的2表示的含义是由两张特征图叠加而来的。

卷积不是只做一次，但是不是对同一张图做卷积，而是对上一次卷积得到的特征图进行卷积。就像拼图。不断弱化非特征部分的特征值，突出边缘轮廓。

涉及到的参数：

步长：

步长小细密度的提取特征，详细但是效率低。

步长大粗密度提取。

卷积核尺寸

卷积核尺寸3x3常见，越小细密度，越大粗密度

边缘填充

边缘填充——图像灰色部分全填充了0

为了解决，在卷积核移动过程中有些点比如边界上的点天生被计算的次数少，所以在边缘填充了一圈0，让边缘的点不那么边缘，提高利用和计算的次数，弥补信息确实的问题（+pad 1）。填0不会产生其他的影响。

两个文本，一个100词，另一个120词，需要把100词的文本用0填充到120词。也是边缘填充的思想。

卷积核个数：

卷积核个数决定最终算的过程中要得到多少个特征图，n个卷积核得到n个特征图。

自己的理解：

output特征图维度 = （input图像维度 - 卷积核维度 + 边缘填充层数*2）/卷积核步长 + 1

如下图：3 = （5 - 3+1*2）/2 + 1

输入，填充，核大小，步长

卷积参数共享

条件：假设原图为32x32x3，卷积核为5x5x3，步长为1，边缘填充2圈

CNN：其实就是RGB中每一层一张图中用同一个卷积核。这样比传统神经网络需要的权重参数少很多，传统的神经网络每一个区域用的是不同的卷积核，如左边的图

5x5x3x10+10=760

5x5的卷积核，3层，10个卷积核，10参数b

传统的：原本是每移动一次换一个卷积核，需要的参数个数：

(32-5+2x2)/1+1=32（特征图尺寸）

3x32x32x5x5=51200

3层RGB，32x32的特征图尺寸，5x5的卷积核

池化层：

压缩作用，下采样。pool

提取出来很多特征但是不是所有的特征都是有用的。剔除部分不重要的，选择重要的。

224x224x64->112x112x64

特定值数量缩减了四分之一。

只能缩减，不能修改特征图的个数

最大池化：没有任何计算只是进行筛选，提取出最大值。1，1，5，6->6

平均池化：把每块区域的特征值求平均。1，1，5，6->3（缺点：用的很少，丢失了最大特征值）

判断卷积神经网络层数：

带参数的才能算作一层。

conv卷积层带参数，relu激活层不带参数，池化层也没有参数，FC也需要参数。所以下图的卷积神经网络，有6+1=7层，6层卷积层，1层FC

每一个relu激活层都有一个conv卷积层，成为一个组合。

两次卷积一次池化，提取、压缩，提取、压缩。

怎么把特征值做成5分类的?（car、track、airplane、ship、horse）

通过FC，

FC[,5]

代表前面提取出来的特征，但是不能连接三维的，32x32x10，需要把这个特征图拉成一个特征向量连接，到全连接层

5代表5分类

因为是4维的，所以需要加上一个参数b，batch，为10

感受野：

后面的特征值能回溯到是由什么计算来的。感受到原始数据的大小。回溯到原始尺寸。

数据增强：

图像数据不够：将图像进行镜像翻转一张变成两张。数据量很重要，用大量的数据往里面堆。

图片角度旋转

放大缩小

放大缩小同时镜像翻转

关键是：使得图像像素点，特征点矩阵改变了就好。

重新调整图片输入大小，像素，因为VGG和Resnet等神经网络要求输入图片大小要24x24的，但是提供的图片是不规则的可能是1024x1024，或者256x256的

torchvision中的三大核心模块transform、datasets、models

transform模块用于数据预处理

网络解读

P14，重新看，讲解一个简单的神经网络代码

nn.Linear(32*7*7,10)

(w,b)两个维度，b是最后几分类，如果是分成10类，比如有10种车辆类型。w是全连接层权重参数的个数，

计算[w,b]中w的值

输入大小（1，28，28）1代表1RGB中的一层，28代表图原始尺寸

out_channels = 16，kernel_size = 5卷积核大小为5，stride = 1步长为1，padding = 2边缘填充2圈

计算（28-5+2*2）/1+1 = 28

卷积层1

conv1（16，28，28）

16代表有16个不同的卷积核，输出16个特征图，28代表第一次卷积得到特征图的尺寸

最大池化层1

relu（14，14，16）

nn.MaxPool1d（kernel_size = 2）

代表每个维度缩减一半

卷积层2

Conv2d（16，32，5，1，2）#分别表示in_channels = 16，out_channels = 32，kernel_size = 5卷积核大小为5，stride = 1步长为1，padding = 2边缘填充2圈

conv2（14，14，32）

计算（14-5+2*2）/1+1 = 14

最大池化层2

nn.MaxPool2d（2）#省略了kernel_size = 2，直接写2

relu（7，7，32）

全连接层

7x7x32

[w,b]->[1568,10]

经典网络-Alexnet

神经网络只有8层

11x11 filters卷积核尺寸，目前最多的是3x3的

stride 4 步长为4

pad 0，边缘填充0圈

class AlexNet(nn.Module):
    def __init__(self):
        super(AlexNet, self).__init__()
        self.conv1 = nn.Conv2d(3, 64, kernel_size=11, stride=4, padding=2)
        self.conv2 = nn.Conv2d(64, 192, kernel_size=5, padding=2)
        self.conv3 = nn.Conv2d(192, 384, kernel_size=3, padding=1)
        self.conv4 = nn.Conv2d(384, 256, kernel_size=3, padding=1)
        self.conv5 = nn.Conv2d(256, 256, kernel_size=3, padding=1)
        
        self.fc1 = nn.Linear(256 * 6 * 6, 4096)
        self.fc2 = nn.Linear(4096, 4096)
        self.fc3 = nn.Linear(4096, 1000)  # 1000 classes for ImageNet

    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = F.max_pool2d(x, kernel_size=3, stride=2)
        x = F.relu(self.conv2(x))
        x = F.max_pool2d(x, kernel_size=3, stride=2)
        x = F.relu(self.conv3(x))
        x = F.relu(self.conv4(x))
        x = F.relu(self.conv5(x))
        x = F.max_pool2d(x, kernel_size=3, stride=2)
        
        x = x.view(x.size(0), -1)
        x = F.relu(self.fc1(x))
        x = F.dropout(x, training=self.training)
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

经典网络-VGG

所有卷积核大小都是3x3的，都是细密度提取的

神经网络有16、19层

使用maxpool，每次池化后损失了特征信息，怎么弥补回来呢？每次卷积之前使得上一次的特征图翻倍乘2，再进行下一次卷积。

层数越多效果越好吗？

发现16层时比30层效果好，不一定每一次卷积效果都好，如果出现了效果差的一次，把差的特征继续卷积，效果反而不如意。

class VGG(nn.Module):
    def __init__(self, features, num_classes=1000):
        super(VGG, self).__init__()
        self.features = features
        self.classifier = nn.Sequential(
            nn.Linear(512 * 7 * 7, 4096),
            nn.ReLU(True),
            nn.Dropout(),
            nn.Linear(4096, 4096),
            nn.ReLU(True),
            nn.Dropout(),
            nn.Linear(4096, num_classes),
        )

    def forward(self, x):
        x = self.features(x)
        x = x.view(x.size(0), -1)
        x = self.classifier(x)
        return x

经典网络-Resnet，残差：

从20层加到56层，其中肯定有训练的不好的一层，导致把成绩拉下来了。

怎么把好的特征堆叠起来，但是不能受差的影响到作用。

怎么识别出卷积的不好的一层？

提出了，同等映射的方法。卷积层加进来就不能删除了，识别出不好的卷积之后给它的权重参数（就是提取出来的特征图中的特征值）设置成0，加进来但是不使用它。

具体实现：20层后的某一次，再进行两次卷积，原封不动的拿过来，做一个加法，堆叠。

会出现很多次白白跑，但是至少有所提升，不会比原来的效果差。

做科研，竞赛首选Resnet网络，深层网络

Resnet当作特征提取，不建议当作分类网络，因为一个问题是分类还是回归决定了损失函数和最后层（全连接层）是怎么连的。可以用到各种物体检测，物体追踪，分类，检索，识别，什么任务都能用，通用的神经网络。

class ResNet(nn.Module):
    def __init__(self, block, layers, num_classes=1000):
        super(ResNet, self).__init__()
        self.in_channels = 64
        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
        self.bn1 = nn.BatchNorm2d(64)
        self.relu = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
        
        self.layer1 = self._make_layer(block, 64, layers[0])
        self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
        self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
        self.layer4 = self._make_layer(block, 512, layers[3], stride=2)

        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))
        self.fc = nn.Linear(512 * block.expansion, num_classes)

    def _make_layer(self, block, out_channels, blocks, stride=1):
        downsample = None
        if stride != 1 or self.in_channels != out_channels * block.expansion:
            downsample = nn.Sequential(
                nn.Conv2d(self.in_channels, out_channels * block.expansion, kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(out_channels * block.expansion),
            )

        layers = []
        layers.append(block(self.in_channels, out_channels, stride, downsample))
        self.in_channels = out_channels * block.expansion
        for _ in range(1, blocks):
            layers.append(block(self.in_channels, out_channels))

        return nn.Sequential(*layers)

    def forward(self, x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        x = self.maxpool(x)

        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x)

        x = self.avgpool(x)
        x = x.view(x.size(0), -1)
        x = self.fc(x)
        return x

较为复杂的图片识别神经网络——鸢尾花集：

torchvision需要自己另外安装，里面含有很多提前写好的代码块比如，resnet模型，VGG模型，Alexnet模型。

torchvision中的三大核心模块transform、datasets、models

#通过此命令安装
pip install torchvision
#就可以使用torchvision中的三大核心模块了

比如：用torchvision中的datasets，直接复制代码块就好。写好了API，直接调用就好。

Datasets — Torchvision 0.16 documentation (pytorch.org)

Pandas Notes

2023-09-04T00:00:00+00:00

Pandas数据分析

前言：

一个开源的python类库，数据分析、数据处理、数据可视化

虽然用python本身可以实现，但是用Pandas可以更加高性能的实现。

比自己写for循环快很多，可以跟其他类库一块使用，numpy数学计算，scikit_learn机器学习。很好的配合完成数据分析和机器学习。

anaconda中已经安装好了，几乎所有机器学习所需要的类库。也可以解决环境问题。

jupyter交互性，探索性，适合反复回头修改，看每一步运行的结果

pycharm大而全的集成开发环境，适合复杂项目的开发

读取数据——将其他类型的文件读取成pandas数据结构

读取表格类型的，二维的有行有列的读取。读取成pandas的对象

csv逗号分割，tsv用\t分割，txt文本分隔符随意

a = pd.read_csv(path)

pd.read_txt(path)

a = pd.read_excel(path)

a = pd.read_sql("select * from 表名",con=conn)#数据库的连接，connection

pymysql.connect类库

csv文件逗号分割

a.head()#查看数据前几行

a.shape#查看数据的形状、返回行数、列数

a.columns#查看列名列表

a.index#查看索引列

Pandas数据结构

——DataFrame、Series

为什么要区分出来一个Series，因为一维的可以抽象成一个字典，处理起来比二维的dataframe更加便捷。

DataFrame、Series二者均有索引。

Series的生成：

1通过转换列表得到

创建以数字为索引的Series（默认）

创建自定义索引的Series

2通过字典生成

Series的读取：

Pandas查询数据——df为打开.csv文件后创建的对象

.loc和.iloc的区别是什么？

.loc和.iloc都是pandas工具中定位某一行的函数，其中loc是location的意思，而iloc中的 i 指的是Integer。二者的区别如下：

loc：通过行标签名称（tianqi）索引行数据。
iloc：通过行号（0，1，2，3）索引行数据。

查询的时候会出现数据降维的情况：

查询的是dataFrame返回的是Series的数据，查询的Series返回的是具体的数值，查询值返回的就是值了

索引为默认的从0开始计算的

数据：beijing_tianqi_2018.csv

把日期当作普通的字符串来处理

.loc单标签查询

数值区间范围查询：.loc[行，列]

传入行的区间和某一列

传入列的区间和某一行

传入行和列的区间

条件表达式查询，类似数据的查询语句，编写查询语句：.loc[行，列]

.loc[表达式1（行），表达式2（列）]

返回条件表达式中返回结果为True的数值。

自己编写函数，并且调用。自己定查询规则。