不正之处,欢迎指正。

1.概述

        PCA:主成分分析,一种常用的数据分析方法,不管是在机器学习还是数据挖掘中都会用到。PCA主要通过求数据集的协方差矩阵最大的特征值对应的特征向 量,由此找到数据方差最大的几个方向,对数据达到降维的效果,将一个n维的向量降低到d维,其中d<n。本文主要从方差最大化理论解释PCA的实现 过程。

      首先来看这样几个实际问题,比如那到一个汽车的样本,里面既有千米每小时度量的最大速度特征,也有英里每小时的速度特征,很明显这两者是存在冗余的,知道 其中的一个就可以计算另外一个,在特征中并没有必要将二者同时包含在里面。再比如拿到一个数学系本科学生期末考试成绩单,里面有三列,一列是对数学的感兴 趣程度,一列是复习时间,还有一列是考试成绩,很明显,考试成绩跟兴趣是相关的,跟复习所用的时间也是相似的,那么可不可以合并前面两列呢?

      综合上面两个问题,可以发现,在样本中其实很多时候有些给定的特征是存在冗余的,我们希望在分类 时候所用到的特征都是和我们的标记是相关的,所以就可以用特征降维的方法减少特征数,较少噪声和冗余,减少过拟合的问题。接下来将先介绍PCA的数学基 础,在理论基础上给出推导过程。

2.内积和基变换

       两个向量的内积定义为向量的对应元素相乘之和,

GIF
,
GIF
,则二者的内积表示为:

                                 

GIF

Form 10-K405 is an SEC filing to the US Securities and Exchange Commission (SEC) that indicates that an officer or director of a public company failed to file a Form 4 (or related Form 3 or Form 5) on time, in violation of Section 16 - meaning that they did not disclose their insider trading activities within the required time period.

nrEGW7xrvqsTrRHYy9aGh9t4YfpPs50X

t8EB7IVRLSzjwpLuvcYAcHTwbWdMFSGyt8EB7IVRLSzjwpLuvcYAcHTwbWdMFSGy

t8EB7IVRLSzjwpLuvcYAcHTwbWdMFSGy
设置成功