机器学习中的训练与测试数据

机器学习设计中的潜在问题

机器学习 (ML) 是人工智能AI) 的一个子集,它涉及使用算法和统计模型使计算机系统能够从数据中学习并随着时间的推移提高特定任务的性能,而无需明确编程。它涉及将大量数据输入到自动学习数据模式的算法中。机器学习具有广泛的应用,它正在迅速改变我们与技术交互和解决复杂问题的方式。

尽管 ML 算法被广泛使用,但它们可能会遇到各种经典问题,这些问题会影响其性能和准确性。几起丑闻成为关于训练数据或测试数据不充分、有偏见的头条新闻。荷兰税务局的丑闻、大众汽车的“柴油门”和亚马逊的招聘软件强烈提醒人们,在没有适当保障措施的情况下使用自动化系统可能导致灾难性后果,尤其是在世界各国政府和企业越来越依赖算法和人工智能来简化流程的情况下。

ML算法在几种情况下可能会出错,但在最好的情况下,这些错误会在算法的设计过程中被识别出来。过拟合、欠拟合和特征选择偏差是编写 ML 算法时的常见问题。当模型学习训练数据中的噪声并且不能很好地泛化到新数据时,就会发生过拟合。欠拟合意味着模型过于简单,无法捕获数据中的基础模式。当使用特征子集构建模型时,就会出现特征选择偏差,这些特征是根据特征在训练数据上的性能选择的,并且可能无法很好地推广到新数据。

ML 算法也可能对异常值以及不平衡或过时的训练和测试数据集敏感。解决这些经典问题对于创建准确可靠的 ML 模型至关重要,这些模型可以提供有价值的见解和预测。

如何创建 ML 算法

尽管ML是人们关注的焦点,但如果不发现这些算法的创建过程,就很难理解这些算法的诞生。通常,数据科学家负责创建 ML 算法。数据科学是一个多学科领域,它结合了统计、数学和计算工具,从数据中提取见解和知识。数据科学是一个更广泛的术语,包括处理数据的各种技术和方法。机器学习是这些技术的一个子集,专门用于构建算法和模型。

机器学习中的训练与测试数据

这些步骤通常包括定义问题、收集和清理数据、探索数据、基于假设开发模型、测试和验证模型以及将结果传达给利益相关者。在整个过程中,数据科学家使用各种工具和技术(包括统计分析、机器学习和数据可视化)来提取和传达有意义的见解,并识别数据中的模式。

这些步骤不是一成不变的。它们也在很大程度上依赖于应用领域。例如,在学术环境中,模型评估之后是结果的交流和传播。同时,在生产中,评估之后是部署、监控和维护。在商业环境中,它几乎不是一个线性过程,而是一系列的重复。

ML在建模步骤中起着重要作用。建模是指使用数据构建真实世界系统或现象的数学表示的过程。建模的目标是学习数据中的模式、关系和趋势。建模通常涉及选择适当的算法及其相关特征,并调整模型的超参数。使用各种指标评估模型的性能,并迭代优化模型,直到达到令人满意的性能。

ML 模型选择中涉及的步骤

数据科学生命周期的步骤也经常被提及为 ML 的一部分,因为它们对于构建 ML 算法是不可避免的。但是,建模本身还包括子步骤,例如特征工程、拆分数据、选择模型、调整超参数和评估模型。模型选择不仅基于需要回答的问题,还基于可用数据的性质。某些特征在模型选择中很重要,例如特征的数量、分类或数值变量的存在以及数据分布。某些算法可能更适合特定数据类型或分布。

适当的数据预处理和解释性数据分析对于任何统计建模都至关重要,因为专家通过这些步骤发现特征。它们还提供了在适当的算法之间进行选择的必要信息。ML 中的算法主要有两种类型:监督算法和无监督算法。在监督 ML 中,模型在标记数据上进行训练,而在无监督 ML 中,模型从未标记的数据中学习模式。请参阅下面的几个 ML 模型示例。

机器学习中的训练与测试数据
机器学习中的训练与测试数据

半监督 ML 是一种 ML,其中模型从标记和未标记的数据中学习。与监督学习相比,模型仅根据标记数据进行训练,而半监督学习则利用未标记数据形式的附加信息来提高模型准确性。

它们广泛用于复杂的 ML 模型。例如,深度学习模型可以通过将标记和未标记的数据合并到训练过程中,从半监督学习中受益。这有助于提高模型性能,尤其是在标记数据量有限的情况下。

什么是机器学习中的训练数据

在 ML 中,开发模型来学习模式或根据数据进行预测。为了创建有效的模型并评估其性能,可用数据通常分为三个单独的数据集:训练集、验证集和测试集。训练集是数据的最大部分,用于训练模型。验证集是用于在训练期间优化模型超参数的数据子集。测试集是一个单独的数据子集,用于评估模型在调整后的最终性能。

训练数据的功能因模型类型而异。在监督学习中,训练数据由输入-输出对组成,也称为特征和标签。特征是用于进行预测的输入变量,而标签是模型尝试预测的相应输出变量。监督学习的目标是学习从输入特征到输出标签的映射,以便模型可以对新的、看不见的数据做出准确的预测。

机器学习中的训练与测试数据

例如,在与区块链相关的分类任务中,特征可以是交易属性,例如发送方和接收方地址、交易金额和交易费用,而标签将是交易是否欺诈 (1) 或非欺诈 (0)。

训练数据将包括来自区块链网络的历史交易的集合,以及相应的欺诈性或非欺诈性标签。然后,监督学习算法将学习交易属性与其欺诈性或非欺诈性标签之间的模式和关联,以预测和识别潜在的欺诈易。

在无监督学习中,训练数据仅包含输入特征,没有任何相应的标签。无监督学习的目标是发现数据中的潜在模式、结构或关系,而无需输出标签的任何指导。无监督学习算法通常用于聚类、降维和异常检测等任务。

聚类分析是根据相似数据点的固有模式将相似数据点分组到聚类中的过程。降维旨在减少数据集中的要素数量,而不会丢失重要信息。异常检测可识别明显偏离常态的罕见或异常数据点。

与前面的例子一样,无监督的机器学习可以通过发现交易数据中的潜在模式、关系或集群来帮助对欺诈活动进行分类。在这种情况下,训练数据的作用是为算法提供大量未标记的交易,这些交易仅包含发送方和接收方地址、交易金额、交易费用和网络活动等特征。

然后,无监督算法分析这些特征,并根据它们的相似性对事务进行分组,从而可能揭示具有共同特征的事务集群。通过研究这些集群,分析师可以深入了解未知或新出现的欺诈行为。

验证数据和超参数优化

验证集是训练阶段未使用的数据的一小部分。它用于微调模型的超参数,这些超参数在训练过程中不会直接优化。

超参数优化是为 ML 算法选择超参数的最佳组合的过程,该算法可在给定任务上产生最佳模型性能。超参数因模型而异,但优化通常涉及定义超参数范围、训练和评估每个组合的模型,以及选择性能最佳的模型。

机器学习中的训练与测试数据

在监督式 ML 中,超参数是在训练模型之前设置的参数,例如学习率、决策树数量、最大深度等,在给定的梯度提升决策树示例中。在无监督 ML 中,超参数可能包括聚类算法中的聚类数和主成分分析中要保留的主成分数。
模型验证是超参数优化中必不可少的步骤。模型验证的目标是估计模型泛化到新的、看不见的数据的能力。当模型学习训练数据中的噪声并且无法泛化到新数据时,就会发生过拟合。当模型过于简单且无法捕获数据中的基础模式时,就会发生欠拟合。偏差-方差权衡是 ML 中的一个关键概念,与过拟合和欠拟合有关。

模型的偏差衡量模型的预测与真实值的差异程度,而方差衡量模型的预测在不同训练集之间的差异程度。高偏差模型通常过于简单,可能会欠拟合数据,而高方差模型通常过于复杂,可能会过度拟合数据。目标是在偏差和方差之间找到最佳平衡点,从而生成一个可以很好地推广到新数据的模型。

什么是在机器学习中测试数据

监督和无监督 ML 中的模型评估过程都涉及在训练期间未使用的数据集上测量模型的性能。在监督和无监督 ML 中,测试数据的作用是评估模型的性能。这提供了对模型泛化到新数据的能力的无偏估计,这对于理解其实际性能至关重要。

评估指标提供了模型预测新的、看不见的数据的输出的能力的定量度量。评估指标的选择取决于具体问题和数据的性质。例如,对于二元分类模型,通常使用准确度、精密度、召回率、F1 分数和受试者工作特征曲线下面积,而对于回归问题,均方误差和解释方差是常规指标。还值得注意的是,这些并不是唯一可用的评估指标,还可以根据手头的问题使用其他指标。

机器学习中的训练与测试数据

与监督学习相比,无监督机器学习算法的评估指标的选择可能更具挑战性。例如,在聚类中,没有可以比较聚类的基本事实。惯性和轮廓分数等指标用于评估集群的质量。惯性(或平方误差之和)计算每个点到其最近的聚类中心的平方距离之和。

剪影得分通过评估每个数据点与其他聚类相比与自己的聚类的相似程度来衡量聚类的质量。在降维中,评估指标取决于具体问题,但通常包括解释的方差或重建误差。对于可视化技术,评估基于可视化的质量,这是主观的,难以量化。

找到拆分数据集的正确比例具有挑战性。训练集、验证集和测试集的最佳比例可能因数据集的大小和 ML 问题的复杂性而异。但是,常见的拆分为 70% 用于训练,15% 用于验证,15% 用于测试。在某些情况下,还使用 80-20% 的分成进行训练和测试。

如果没有足够的可用数据,常见的解决方案是使用交叉验证技术,例如 k 倍交叉验证。在 k 折交叉验证中,数据被拆分为 k 个折,模型被训练和评估 k 次,每次使用不同的折作为测试集,其余折数作为训练集。然后对结果进行平均,以获得模型性能的估计值。

由Eleonóra Bassi撰写供稿

本文为本站转载/翻译内容,版权归原作者所有。如涉及作品内容、版权及其它问题,请联系本站!本站转载/翻译出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性,且不构成任何投资及应用建议。

(1)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2024年3月27日 上午10:24
下一篇 2022年5月4日 下午5:11

相关推荐