博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
误区1:数据是可靠的
阅读量:5248 次
发布时间:2019-06-14

本文共 947 字,大约阅读时间需要 3 分钟。

1.6  智能应用中八个常见的误区

到此,我们已经介绍了与智能应用相关的基础知识,现在你应该已经对什么是智能应用,以及应该如何使用智能应用有了一个整体的了解。你很有可能迫不及待地想要开始写代码,我们不会让你失望的。除了本章之外,每一章都会给你介绍新的有价值的代码。

但在开始进入激动人心且充满经济利益的智能应用世界之前,先来看一些带有智能功能的项目中常见的错误,或者说是误区。你可能熟悉分布式计算的八大误 区(如果没有看过,可以参考Van den Hoogen的业界评论),其中列举了第一次开发分布式应用的程序员对分布式应用的常见误区。同样,根据这个传统,我们在这里也会介绍八个智能应用开发中 常见的误区。

1.6.1  误区1:数据是可靠的

很多因素会导致你获取的数据不可靠。在考虑具体的智能算法解决方案之前,首先就要判断数据是否可信。如果数据有问题,就算是最聪明的人,通常也会得出错误的结论。

可能导致数据出错的原因有很多,在此不可能一一列举,下面列出了部分有代表性的可能导致数据出错的因素:

在开发过程中所使用的数据不能代表产品环境中的数据。例如,对某个社交网络中的用户按身高分类"高"、"一般"和"矮"。如果开发阶段所使用的数据中最矮的用户的身高是1米84,那就有可能会得出"你太矮了,才1米84"的可笑结论。

数据中可能含有缺失值。实际上,除非数据是人造的,否则数据就肯定会含有缺失值。缺失值的处理非常需要技巧,通常,既可以保持缺失值状态不变,也可以用某种默认值或是计算得到的值来填充。两种情况都可能导致不稳定的实现。

数据可能会改变。数据库策略可能会变,或者数据库中数据的语义也有可能发生变化。

数据没有规范化。假如我们关注的是每个人的体重。为了能根据体重得到有意义的结论,所有的单位应该是统一的:磅或是公斤,两者只能取其一,而不能是两者的混合。

所想的算法可能不适合数据。数据有不同的形式,也就是数据类型。有些数据集是数值类型的,有些则不是;有些数据集可以排序,有些则不能;有些数值的数据集是离散的(例如,房间中的人数),有些则是连续的(例如气温)。

转载于:https://www.cnblogs.com/shihao/archive/2011/08/31/2160763.html

你可能感兴趣的文章
LiveBinding应用 dataBind 数据绑定
查看>>
Linux重定向: > 和 &> 区别
查看>>
nginx修改内核参数
查看>>
【欧拉函数模板题】最大公约数
查看>>
C 筛选法找素数
查看>>
TCP为什么需要3次握手与4次挥手(转载)
查看>>
IOC容器
查看>>
织梦仿站第三课:网站的文件分割
查看>>
Windows 2003全面优化
查看>>
URAL 1002 Phone Numbers(KMP+最短路orDP)
查看>>
web_day4_css_宽度
查看>>
用sql删除数据库重复的数据的方法
查看>>
输出n阶“魔方阵”
查看>>
学习笔记21—PS换图片背景
查看>>
electron入门心得
查看>>
实现一个简单实用的动态加载上千条目的UGUI模块
查看>>
格而知之2:UIView的autoresizingMask属性探究
查看>>
Spring3.0 AOP 具体解释
查看>>
我的Hook学习笔记
查看>>
EasyUI DataGrid 中字段 formatter 格式化不起作用
查看>>