商务数据分析论文答辩PPT_课件视频制作-布丁演示官网

简介

黑板毕业论文答辩PPT
商务数据分析论文
答辩PPT
答辩人：“上单四虎”
专业：数据科学与大数据分析
导师：洪倩茹
时间：2022·12·20
01
选题背景及意义
02
数据来源及处理
03
基础性统计分析
04
logistics回归建模分析
P03
P05
P09
P13
05
结论及相关建议
P23
CONTENTS
目录
添加文字
添加文字
添加文字
添加文字
当前我国处于经济发展快速时期，由于我国人口总数较大，就业人员众多。因此，就业问题成为了我国社会的一个焦点问题。由于我国农村与城市发展不平衡，大中小城市之间的经济发展水平存在着巨大差异，地区与地区之间的经济发展水平更加不在一个档次上。导致了就业人员工资水平的区域不平衡。人才存在着区域求职偏向。
另外一个方面，人才的数量和质量是跟经济发展水平存在着重大的关系的。经济发展较好的东部沿海地区和一些大中城市的经济发展较好，导致就业人员工资水平比较高，这是我国经济发展不平衡的一个表现。当然我们必须重视这个问题，因为我国每年就毕业大学生而言都有好几百万，所以就业问题成为了政府非常重视的一个问题。因此大力发展平衡经济，实行西部大开发战略，中部崛起，振新东北老工业基地等政策早已经下马开工了。发展全方位对外开放政策，是有效的缩小我国经济区域与国外经济贸易的联系方面的差距。
选题背景
01
研究好就业问题以及就业职工工资问题，能够有效的把握好社会状况，能够开拓更为广阔的国内市场。增加国民幸福指数，扩大内需，保持社会稳定具有重要的现实意义。也可以提供更好的数据与其他国家相比较。制定正确的就业政策和社会保障，社会福利政策，来促进我国国民经济的发展。
劳动者的工资收入，能够充分提升社会的发展效率，保障社会处在一个稳定的发展状态下。劳动者是我国家庭构成中重要的经济支柱，经济收入较低，而经济收入较高的群体则是依靠经济扩张而提升的经济收集。我们需要明确的一点是，当前我国劳动者的收入较低，使得整体的低收入群体的工资水平达不到应有的标准，而所缺失的这一部分却增加在了中高收入群体中，这使得我国社会经济存在矛盾，因此提升劳动者的工资收入能够充分提升社会发展的效率。如果能够提升劳动力的回馈性，那么就能充分激发劳动者的劳动积极性，也就是说只有先提升劳动者的工资收入，才能切实提升劳动者的劳动能力，通过这种方式来帮助企业提升自身的发展水平，提高生产效率，劳动者会充分发挥自身的作用与价值，由此可见提升劳动者工资收入是极有必要的。
选题意义
01
数据来源
02
90%
50%
65%
40%
90%
50%
65%
40%
20XX
20XX
90%
70%
我们通过查阅参考文献，网络爬虫等方式，获取了嘉兴市某小区的就业者的收入数据，并将其绘制成完整的csv变量文件。
数据处理
02
通过删除无用数据，确定了九个与就业者收入相关的指标
对字段和收入划分等级后的单位进行解释及汇总
由数据审核检查质量有没有缺失值和空值，并进行相关处理
“嘉兴市就业者情况.csv”其中包含9个字段、534条记录
数据展示（部分）
02
数据解释
02
描述性分析
03
描述性分析
通过spssmodeler的数据审核得知，该数据共有9个字段中有7个是测量结果是连续，2个是分类，受教育年限的离群值为4、工作经验的离群值为1、收入的离群值为9，是否为党员、年龄、行业、婚姻情况的离群值都为0，收入的极值为1，受教育年限、是否为党员、工作经验、年龄、行业、婚姻状况都为0。
受教育年限的最小值是2，最大值是18，平均值为13.019，标准差是2.615，偏度为-0.204。
工作经验的最小值是0，最大值是55，平均值为17.822，标准差是12.380，偏度为0.688。
收入的最小值为1.000，最大值是44.500，平均值是9.024，标准差是5.139，偏度是1.697。
年龄的最小值是18.最大值为64，平均值是36.833，标准差是11.727，偏度为0.548。
探索性分析（部分）
03
散点图是科研绘图中最常见的图形类型之一，通常用于显示和比较数值。散点图是使用一系列的散点在直角坐标系中展示变量的数值分布。在二维散点图中，可以通过观察两个变量的数据分析，发现两者的关系与相关性。散点图可以提供三类关键信息：（1）变量之间是否存在数量关联趋势；（2）如果存在关联趋势，是线性还是非线性的；（3）观察是否有存在离群值，从而分析这些离群值对建模分析的影响。
本论文使用散点图来进行多组连续变量的两两比较分析，通过把收入等级设定为交叠字段来实现，结果如下。
相关性分析（部分）
03
从收入等级x行业的绝对网状图可以看到，链接性有强到弱的分别是中等收入与行业6、中等收入与行业3、中等收入与行业5，此外其他的链接性较弱且不明显。
条形图
通过条形图来查看交叠字段在其他变量中的分布，设置收入等级为交叠字段，分别对相关字段进行条形图分析，结果如下。
网络图
通过网络图来观察变量间的链接性强弱，同样设置收入等级为交叠字段，分别对相关字段进行条形图分析，结果如下。
卡方检验（部分）
03
卡方检验得到的结论分析主要看卡方、自由度和概率，假设列变量和行变量之间独立，如果概率<0.05，则满足拒绝域，说明列变量和行变量不独立，可能相关。
基本原理
04
当多分类型变量以回归分析中的目标变量角色出现是，由于不满足一般线性回归模型对目标变量取值的要求，且未被回归模型的前提假设，因此无法直接借助回归模型进行研究，通常采用的方法是多项logistics回归分析。多项logistics回归模型的研究目的是分析目标变量各类别与参照类别的对比情况，即
其中Pj为目标变量为第j类的概率；PJ为目标变量为第J（j≠?J）类的概率，且第J类为参照类。该模型称为广义logit模型。如果目标变量有k个类别，则需建立k-1个模型。当目标变量有A、B、C三个类别，且以C类别作为参照类别，则应建立以下两个广义logit模型：
模型构建
04
输入变量的筛选采用基于极大似然估计的步进法，由图中可以看出对收入等级影响重要性依次排序为教育水平、性别、是否党员、工作经验段，未出现图中其他变量表面作用很小而剔除。
从样本的分布情况上来看，中等收入较多，高收入和低收入相差不大；业，因此行业分布有所差异但相差不大；性别分布大致均匀；教育水平1、2较少，教育水平3进一半，教育水平4、5相差不大；年龄层大多以青中年为主；工作经验段各分布比较均匀。
模型检验（显著性）
04
由此可以看到零模型的-2倍的对数似然函数值为708.048，当前模型为532.098，似然比卡方值为175.950，且似然比检验的显著水平为0.000，小于0.05，则拒绝回归方程显著性检验的原假设。说明输入变量与回归方程之间的线性关系显著，模型合理。
模型检验（显著性）
04
由Likelihood Ratio Tests表中显示最初-2倍的对数似然函数值为532.09，随着变量的输入与似然比卡方值相应增加（或减少），且每步的概率P值均小于显著性水平α?（0.05），因此模型中输入的变量与回归方程线性之间的关系显著，模型合理。
模型检验（拟合优度检验）
04
可以看出Deviance统计量的观测值分别为463.909，显著水平大于0.05，因此不拒绝原假设，认为由样本实际值得到的分布与预测值无显著差异。模型拟合优度较好。
由当前模型的拟合优度指标可知Cox and Snell、Nagelkerke、McFadden的值基本在0.3~0.5附近，模型拟合效果较为良好。
回归方程（部分演示）
04
YOUR
TEXR
YOUR
TEXR
根据系数估计可得回归方程：log（P高收入/P中等收入）= 0.113 * [是否党员=0] -1.391 * [性别=F] -1.594 * [教育水平=1] -21.9 * [教育水平=2] -2.224 * [教育水平=3]-1.141 * [教育水平=4] -1.961 * [工作经验段=1] -0.7332 * [工作经验段=2] -0.5528 * [工作经验段=3] +1.053
回归方程（续上页）
04
log（P低收入/P中等收入）= -0.9743 * [是否党员=0] +1.297 * [性别=F] +3.729 * [教育水平=1] +4.012 * [教育水平=2] +2.161 * [教育水平=3] +1.322 * [教育水平=4] +1.856 * [工作经验段=1] +0.5577 * [工作经验段=2] +0.3798 * [工作经验段=3] -3.737其中P高收入、P中等收入、P低收入分别表示高收入、中等收入、低收入的概率，log（P高收入/P中等收入）表示高收入与中等收入概率之比的自然对数，log（P低收入/P中等收入）表示低收入与中等收入概率之比的自然对数；[是否党员=1]、[性别=M]、[教育水平=5]、[工作经验段=4]为参照类别。
高收入与中等收入概率之比的自然对数中以其他变量相同的前提下，非党员的概率比自然对数较党员（参照类）均高0.113个单位，概率是党员的1.12倍，不具有统计显著性；女性的概率比自然对数较男性（参照类）均低1.391个单位，概率是男性的0.249倍，具有统计显著性；教育水平的概率比自然对数都呈反向关系，且除去较低教育水平（1）系数随教育水平增高逐渐减少，教育水平较高（3、4）具有统计显著性；工作经验段的概率比自然对数都呈反向关系且系数随经验增加逐渐减少，只有工作经验低（1）具有统计显著性。低收入与中等收入概率之比的自然对数中以其他变量相同的前提下，非党员的概率比自然对数较党员（参照类）均低0.974个单位，概率是党员的0.377倍，具有统计显著性；女性的概率比自然对数较男性（参照类）均高1.297个单位，概率是男性的3.657倍，具有统计显著性；教育水平的概率比自然对数都呈正向关系，都具有统计显著性；工作经验段的概率比自然对数都呈正向关系且系数随经验增加逐渐减少，只有工作经验低（1）具有统计显著性。
模型预测
04
就业者实际薪资为低收入且正确预测的样本量为40，正确率为42.6%；实际薪资为高收入且正确预测的样本量为27，正确率为36.0%；实际薪资为中等收入且正确预测的样本量为211，正确率85.8%。模型的总体预测量为67.0%。可见模型对中等收入的预测正确率较高，与样本在收入上的分布有一定关系。
模型预测
04
将样本子集按0.8、0.2的比例随机划分出训练样本集和测试样本集。根据模型预测数据来看，模型在测试样本集上有一定的误差，但依然有较好的预测表现，误差也在可接受范围内，说明此模型可用于未来的收入预测。
模型评估
04
对目标变量收入等级中的“?中等收入”?及其预测值$L-收入等级进行评估，有图可知在训练样本集和测试样本集中预测值与实际值基本一致。
通过数据审核可以得出模型中的15个变量，包括最初的10个变量已经模型预测产生的$L-收入等级、$LP-收入等级、$LP-低收入、$LP-高收入和$LP-中等收入5个变量，有效值都是534，没有缺失值且都没有异常值出现，数据质量较好。
05
结论与建议
对收入等级影响重要性的变量一次排序为行业、性别、受教育年限、是否党员、年龄；就业者实际薪资为低收入且预测正确率为43.6%，实际薪资为高收入且预测正确率为38.7%，实际薪资为中等收入且预测正确率为87.4%，模型的总体预测量为68.7%，模型对中等收入的预测正确率较高。就业者中教育水平高、工作经验丰富、女性很大概率是高收入人群；因只有性别来判断而没有其它显著性变量来预测低收入人群，可以再输入新的预测变量来反馈模型；模型输入变量与回归方程之间线性关系显著，拟合优度较好，在不考虑另外的条件时，可以使用模型来对就业者的中等收入人群进行预测。当就业者如果想进一步提升收入，成为高收入人群，则可以继续提升自我学历、掌握更多从事行业相关知识，且还可以在不断工作实践中丰富自我经验。

布丁演示升级公告