时间:2024-10-27 16:02:51
数据预处理主要包括哪些内容
数据预处理主要包括以下内容:
1. 数据清洗:删除原始数据集中的无关数据、重复数据、平滑噪声数据、筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。
2. 数据集成:将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程,解决实体识别问题和属性冗余问题。
3. 数据变换:对数据进行规范化处理,将数据转化为适当的形式,以适用于挖掘任务及算法的需要。例如,连续属性离散化和小波变换。
4. 数据规约:通过数据归约技术得到数据集的归约表示,使其小得多,但仍然接近于保持原数据的完整性,并使结果与归约前结果相同或几乎相同。
广州小漏斗信息技术有限公司 版权所有 沸点数码网 粤ICP备20006251号