18.Photo OCR 应用实例:图片文字识别 18 Photo OCR 应用实例:图片文字识别18.1 问题描述和流程图图像文字识别需要如下步骤: 1.文字侦测(Text detection)——将图片上的文字与其他环境对象分离开来2.字符切分(Character segmentation)——将文字分割成一个个单一的字符3.字符分类(Character classification)——确定每一个字符是什么 如果用任务流程图来表达这个问 2025-02-16 吴恩达机器学习 #机器学习
17.大规模机器学习 17 大规模机器学习17.1 大型数据集的学习如果有一个低方差的模型, 通常通过增加数据集的规模,可以获得更好的结果。 但是如果数据集特别大,则首先应该检查这么大规模是否真的必要,也许只用 1000个训练集也能获得较好的效果,可以绘制学习曲线来帮助判断。判断是高偏差还是高方差,高偏差时增加数据集是没有用的,这时考虑设计更多特征;高方差时,增加数据集通常能让算法表现更好。 17.2 随机梯度 2025-02-16 吴恩达机器学习 #机器学习
16.推荐系统 16 推荐系统16.1 问题形式化在机器学习领域,对于一些问题存在一些算法, 能试图自动地替你学习到一组优良的特征。通过推荐系统(recommender systems),将领略一小部分特征学习的思想。 假使有 5 部电影,3部爱情片、2部动作片。 4 个用户为其中的部分电影打了分。现在希望构建一个算法,预测每个人可能给没看过的电影打多少分,以此作为推荐的依据。 下面引入一些标记: $n_u$ 2025-02-16 吴恩达机器学习 #机器学习
15.异常检测 15 异常检测15.1 异常检测问题的动机异常检测算法虽然主要用于无监督学习问题,但从某些角度看,它又类似于一些监督学习问题。 举例: 当飞机引擎从生产线上流出时需要进行QA(质量控制测试),数据集包含引擎的一些特征变量,比如运转时产生的热量,或者振动等。当有一个新的飞机引擎从生产线上流出,它具有特征变量 $x_{test}$ 。异常检测问题就是:希望知道这个新的飞机引擎是否有某种异常。如下图: 2025-02-16 吴恩达机器学习 #机器学习
14.降维 14 降维14.1 降维的动机一:数据压缩下面介绍第二种无监督学习问题:降维。降维的一个作用是数据压缩,可以减小数据占用内存和磁盘的空间,还可以加快算法速度。 例如:假设我们用两个特征来描述同一个物体的长度,$x_1$的单位是厘米,$x_2$的单位是英尺。这将导致高度冗余,所以需要进行降维到一维。我们将二维的数据点$x^{(i)}=[x_1^{(i)};x_2^{(i)}]\in\mat 2025-02-16 吴恩达机器学习 #机器学习
13.聚类 13 聚类13.1 无监督学习简介在无监督学习中,我们的训练样本不包含任何标签$y$。算法将从训练样本中找到一些隐含在数据中的结构。 13.2 K-Means算法在聚类算法中,算法将无标签的数据划分成有紧密关系的簇。 K-Means算法是最热门的聚类算法,K-Means算法接收2个输入,分别是K(要划分的簇的个数)、无标签的训练数据集。算法过程如下:1)随机初始化聚类中心:随机选取K个点, 2025-02-16 吴恩达机器学习 #机器学习
12.支持向量机 12 支持向量机12.1 优化目标我们通过回顾逻辑回归,一步步将其修改为SVM。在逻辑回归中,若一个样本对应的$y=1$,我们就想让$h_\theta(x) \approx1$, 也就是让$\theta^Tx >>0$. 若一个样本对应的$y=0$,我们就想让$h_\theta(x) \approx0$, 也就是让$\theta^Tx <<0$. 2025-02-16 吴恩达机器学习 #机器学习
11.机器学习系统设计 11 机器学习系统设计11.1 确定执行的优先级本章使用垃圾邮件分类器的例子,来描述机器学习系统设计方法。 设计垃圾邮件分类器时,首先要确定特征向量$x$和$y$,这里我们选取100个单词组成我们的特征向量,当单词在邮件中出现,我们就将特征向量$x$对应位置出标为1. 接下来我们要考虑的就是如何提高分类器的准确率呢? 通常有很多方法:1.收集更多垃圾邮件和非垃圾邮件样本 2.基于邮件的路由信息 2025-02-16 吴恩达机器学习 #机器学习
10.应用机器学习的建议 10 应用机器学习的建议10.1 决定下步做什么当我们想要改进一种算法的效果时,我们该做什么样的尝试?哪些是有意义的呢? 我们通常可以在以下几种方向进行尝试:1. 获取更多的训练数据 2. 尝试更少特征 3. 尝试更多特征 4. 尝试添加多项式特征 5. 减小$\lambda$ 6. 增大$\lambda$. 接下来将介绍一些诊断法,让我们清楚如何选择更有效的方法。节省时间 机器学习诊断法的定 2025-02-16 吴恩达机器学习 #机器学习
9.神经网络学习 9 神经网络学习9.1 代价函数分类问题:二元分类、多分类 我们用L表示总层数,$s_l$表示第$l$层的神经元个数,常用$s_l$或$K$表示最后一层神经元的个数。 在二元分类中,输出$y=0 or 1\in\mathbb{R}$,$s_l=K=1$.在多元分类中,输出$y\in\mathbb{R}^K$, $s_l=K$, $(K \ge3)$. 神 2025-02-16 吴恩达机器学习 #机器学习