360小说网

手机浏览器扫描二维码访问

本站弹窗广告每日仅弹出一次
尽可能不去影响用户体验
为了生存请广大读者理解

机器学习是“让机器从数据中长本事”的技术(第3页)

巧妇难为无米之炊,数据就是机器学习的“米”。

- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。

- 数据预处理:这步特别关键,就像淘米要去沙。包括:

- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。

- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。

- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。

2. 特征工程:给数据“化妆”,让模型看得更清楚

“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。

- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。

- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。

3. 模型训练:让机器“刷题涨本事”

选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。

- 训练过程中,得注意过拟合和欠拟合:

- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。

- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。

解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。

4. 模型评估:给机器“考试”打分

训练好的模型得测试一下准不准。常用的指标有:

- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。

热门小说推荐
从废柴到仙尊

从废柴到仙尊

从废柴到仙尊情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的其他类型小说,从废柴到仙尊-攒一口袋金币-小说旗免费提供从废柴到仙尊最新清爽干净的文字章节在线阅读和TXT下载。...

花娇

花娇

花娇小说全文番外_老安人不知道花娇,?书名:花娇 作者:吱吱 文案: 郁棠前世家破人亡,今生只想帮着大堂兄振兴家业。 裴宴(冷眼睨视):无事献殷勤,非奸即盗!这小姑娘的总在我面前晃来晃去的,难道是觊觎裴家宗妇的位置? 郁棠(默默流泪):不,这完全是误会!我只是想在您家的船队出海的时候让我参那么一小股,赚点小钱钱…… ☆、第一章大火...

凑合活

凑合活

《凑合活》作者:三碗过岗文案:妖皇严律,从上神寂灭各族混战活到现代社会,从长袍广袖活到背心裤衩,从灵气充沛活到灵气枯竭。身边的人死了一辈又一辈,严律依旧活得狗屁不通没滋没味。每天除了给自己设计坟头样式之外,就是躺在床上心想:这狗日子不干架真过不了!从混战时期寻衅滋事到现在,因为灵气稀薄而衰落的仙门和妖族已经发展为互联网...

黄泉逆行

黄泉逆行

灾厄降临,吞没世间。人类以最后的力量筑起高墙,建立巨城,保存最后的火种。而如今,灾厄再动。人类将反守为攻!去见证英雄,模仿英雄,成为英雄!...

我的一九八五

我的一九八五

外科主任医生孙健英年早逝,回到一九八五年,万元户是大款的时代,在重生者的眼里,遍地是黄金!留校当外科老师,被保送到华医大深造,从经营淘宝电器店开始,人在江湖身不由己……国家强盛匹夫有责!...

爱梦魇的鲜鲜

爱梦魇的鲜鲜

爱梦魇的鲜鲜情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的其他类型小说,爱梦魇的鲜鲜-穆瓣草籽-小说旗免费提供爱梦魇的鲜鲜最新清爽干净的文字章节在线阅读和TXT下载。...