• 跨境桥

    扫面微信二维码,及时联系我们

【电商数据】电子商务产业介绍数据分析

摘要:在这一步上传时,我们遇到了熊猫无法成功阅读的问题。具体步骤是先将excel文件保存为CSV文件,需要注意文件格式是utf8还是ANSI。导入后,不同的格式可能会显示不同的格式。具体的问题和我的解决步骤将不详细。

【电商数据】电子商务产业介绍数据分析

在这一步上传时,我们遇到了熊猫无法成功阅读的问题。具体步骤是先将excel文件保存为CSV文件,需要注意文件格式是utf8还是ANSI。导入后,不同的格式可能会显示不同的格式。具体的问题和我的解决步骤将不详细。

根据输出结果,我们可以大致了解每个字段的含义。总共有19个字段。

共有数据记录8568条,用户***订购50件,***订购1件。用户平均每个订单购买25件商品,75%的订单订购28件商品,这证明了绝大多数用户拥有大量的订单;

1699元左右,符合消费数据分布特点,遵循“28条规则”;

***折扣是0%,正常销售是25%,折扣很高。当然,高折扣的用户较少,75%的分位数是*百分比,这符合客观实际;

平均单价88元,平均成本12元。如所料,这批货物的价值很高。以便掌握数据的基本信息。

时间数据类型处理,我在这里将时间转换为日期时间类型

数据预处理的***步是数据清理,它可以纠正数据库中的错误数据,完成不完整数据,删除冗余数据。

数据预处理一般分为四个步骤:1。数据清理:大致包括填补空缺值、平滑噪声数据、删除异常值和异常值。2。数据集成:集成包含在多个数据库或数据文件中的数据。三。数据转换:聚合或规范化数据,并将其从一种形式转换到另一种形式。四。数据规范:压缩庞大的数据集,尽量保证终预测结果的一致性。

数据清理的步骤有:选择分析对象、重命名相关列、处理缺失值、转换相关数据类型、排序数据和处理异常值。

此数据集中暂时不考虑重复值和异常值。这个数据集相对“干净”。可以使用panda的duplicated()来确定重复值,如果存在重复值,则返回true。Drop_duplicates()用于删除所有重复值。利用概率统计方法的四分位距离来判断异常值,或绘制方框图来判断异常值。

包括合并数据、数据映射和组聚合。合并时,连接合并是常见的。不同的数据连接有不同的结果。请参阅前面的注释以了解如何使用它们。有自连线、等值连线、不等值连线、交叉连线、左连线、右连线等,我也重新检讨过。你可以通过画画来加深你的理解。还有其他合并方法,如concat、map for mapping、group by for grouping等。

采用特征工程、标准化、一次热编码、离散化等方法对泰坦尼克号进行建模。用于旅客年龄离散化、姓氏标准化、港口标准化等。它们用于以后的建模过程。

主成分分析法、线性判别分析法、皮尔逊相关系数法、卡方检验法、数据抽样法等方法也适用于后期的建模过程。在经典的泰坦尼克号案例中,主成分分析法被用来分析影响生存概率的条件因素等。

将分析结果呈现给他人直观的方式是通过可视化和绘制相关图表,让他人直观地看到分析结果。当然,数据可视化贯穿于数据分析的全过程,而不仅仅是某一阶段的具体操作。

各订单层次分布中,中间订单占比***,其他类型占比较近;运输方式以火车为主,大货车、空运为辅;华南地区客户多,西南地区客户少;办公用品多,家具产品少;小盒子多,中盒子少

每月订单数量在3000到6000之间波动

从年度数据来看,2011年销量***,2009年至2011年总体呈下降趋势。不过,2011年后,销量开始回升,并打破历史新高

在每个订单的散点图中,订单的数量和数量基本上呈线性关系,但有很多异常值,可能会导致很多因素,需要以后研究

每个用户的***次消费时间的小值可以记录为一个新客户,并且可以发现每个月都有新客户,这证明了新的效果是非常好的

统计每个用户每月的再购买行为。如果有订单的话,它会被计算在内。如果没有订单,则显示为0

要处理此问题,对于等于0的采购显示0,对于大于1的采购显示1,对于大于1的采购显示2

每个月的回购率都比较稳定,预测市场已经非常稳定,在21%左右

在保留率方面,大多数用户将丢失。重视用户忠诚度的培养,如签到制、积分制、老用户折扣制、会员升级制等