发布时间: 2023-03-01 13:43:33
机器学习是人工智能的一部分,顾名思义就是说让机器进行学习。机器学习与传统的编程不同,开发人员需要预测每一个潜在的条件进行编程,一个机器学习的解决方案可以有效地基于数据来适应输出的结果。
一个机器学习的算法并没有真正地编写代码,但它建立了一个关于真实世界的计算机模型,然后通过数据训练模型。
那么机器学习是如何工作的?
我们可以通过一个垃圾邮件例子来进行说明。垃圾邮件过滤利用机器学习技术从数百万的邮件中去识别分辨出哪些是垃圾邮件,在这其中就是使用到了统计学的知识。
例如,如果每100个电子邮件中的85个,其中包括“黄金地带”和“学区房”这两个词的邮件被认为是垃圾邮件,我们可以说有85%的概率,确定它是垃圾邮件。并通过其它几个指标(例如,从来没给你发送过邮件的人)结合起来,利用数十亿个电子邮件进行算法测试,随着训练次数不断增加来提升准率。
事实上垃圾邮件过滤随着不断发展,其准确率也达到了一个非常高的水平,谷歌表示它现在能够识别99.99%左右的邮件。
机器学习在我们的生活中的应用场景也是非常多,例如:
目标影响:主要针对Google和Facebook的目标广告,基于个人兴趣爱好,并通过Netflix推荐电影,还通过亚马逊推荐购物;
信用评分:银行使用收入数据,从你的居住地、你的年龄和婚姻状况来预测你是否会拖欠贷款;
信用卡欺诈检测:用于根据你之前一些可能的消费习惯,在线禁止具有欺诈行为的信用卡或借记卡的使用;
购物篮分析:根据数以百万个类似顾客的消费习惯,用来预测你更可能使用哪些特殊优惠政策;
目前大多数机器学习是相当麻烦的,在下面的图表中进行了说明:
在未来很可能机器学习将会被应用到帮助加快过程,特别是在数据收集和清洗领域,但主要步骤仍然存在以下方面:
定义问题:正如我在另一篇文章中所指出的那样,机器学习总是从一个明确的问题和目标开始;
收集数据:适合的数据的数量和种类越多,机器学习模型就会变得越精确。这些数据可以来自电子表格、文本文件和数据库,除了商业上可用的数据源之外;
准备数据:这包括数据的清理和解析。删除或纠正异常值(失控的错误值);这经常占用总的时间和工作量的60%以上,然后将数据分成两个不同的部分,即训练数据和测试数据;
训练模型:针对一组训练数据—用于识别数据中的模式或相关性,或者用于做预测,同时使用重复的测试和误差改进方法来逐步地提高模型的精度;
评估模型:通过比较结果与测试数据集的准确度来评估模型。重要的是不要对用于训练系统的数据进行模型评估,以确保无偏差的和独立的测试;
部署和改进:这可以涉及到尝试完全不同的算法或者收集更多种类或更大数量的数据。例如,你可以通过使用房屋所有者提供的数据来预估今后的房屋升值空间,从而提高房价预测的准确度;
综上所述,大多数机器学习过程实际上是循环的和连续的,因为更多的数据被添加或者情况会有所变化,因为世界从来不会静止不动,并且总是有改进和提高的空间。
上一篇: 子网掩码怎么计算
下一篇: 传感器原理与应用