微软官方MSDN原版Win10系统下载

现在位置: 首页  > 系统教程  > 系统帮助

回归分析怎么分析数据

时间:2024-11-23 04:23:39   

大家好,今天Win10系统之家小编给大家分享「回归分析怎么分析数据」的知识,如果能碰巧解决你现在面临的问题,记得收藏本站或分享给你的好友们哟~,现在开始吧!

慧眼建筑大数据智能分析系统系列软件最新版本下载

1.Excel 回归结果分析怎么解读?


  如何报告回归分析的结果
回归分析的结果可以分为以下几部分:1)回归模型;2)回归系数;3)因变量和自变量的特征;4)自变量之间的关系。其中,1和2是必须详细报告的基本信息;而3和4则可以根据具体情况而详略各异的辅助信息。以下分别讨论之。
如何描述回归模型和回归系数
先简单讲一下一元回归。一元回归,即只涉及一个自变量(如x)。这种模型在社会科学中既很少见(一个常见的例外是时间序列分析中以时间为自变量分析因变量的长期趋势),也很容易报告。一般不需用表格,只须写一句话(如“自变量x的b = ?,std = ?, beta = ?”)或给一个公式(如“y = ? + ?b, where std = ?, beta = ?”)就足够了。如果一项研究中有多个一元回归分析,那么就应该也可以用一个表格来报告(参加?),以便于读者对各模型之间作比较。
接下来专门讲多元回归。由于其涉及诸多参数,有的必须报告、有的酌情而定、有完全不必,为了便于说明,我按spss回归分析的输出结果(其它统计软件大同小异),做了一个如何报告回归模型和回归系数的一览表(表一)。如表所示,我将各种参数分成“必须报告”、“建议报告”、“一般不必”和“完全不必”四类。我的分类标准来自于公认的假设检验所涉及的四个方面,即变量之间关系的显著性、强度、方向和形式(详见“解释变量关系时必须考虑的四个问题”一文)。也就是说,每个参数的取舍,应该而且可以由其是否提供了不重复的显著性(即sig)、强度(b或beta的值)、方向(b或beta的符号)和形式(自变量的转换)信息而定的。
表一、如何报告回归模型和回归系数之一览表
注释 spss结果出处 是否报告 如何报告
回归模型部分
r 因变量与所有自变量的复合相关系数 model summary表 完全不必 
r square r的平方值 model summary表 一般不必 
adjusted r square r平方的修正值 model summary表 必须报告 见表二
std error of the estimate 因变量预测值的标准误差(注1) model summary表 建议报告 见表二
sum of squares 总离差 anova表 完全不必 
df 自由度 anova表 完全不必 
mean square 平均离差 anova表 完全不必 
f 模型f值 anova表 一般不必 
sig. f值的显著水平 anova表 必须报告 见表二
n 模型的个案数(注2) anova表 必须报告 见表二
回归系数部分
unstandardized coefficients (b) 非标准化系数 coefficients表 必须报告 见表二
unstandardized coefficients (std. error) b的标准误差 coefficients表 必须报告 见表二
standardized coefficients (beta) 标准化系数 coefficients表 必须报告 见表二
t = b / std. error coefficients表 
sig. t值的显著水平 coefficients表 必须报告 见表二
95% confidence interval for b (lower bound) b的置信区间(下限) coefficients表(注3) 建议报告 见表二
95% confidence interval for b (upper bound) b的置信区间(上限) coefficients表(注3) 建议报告 见表二
注1:因变量预测值的标准误差描述了该模型的精确度(precision),如表二中的因变量是当前年薪,其预测误差为?,即如果用该模型(包括起薪、工龄和性别三个自变量)去预测条件相同的企业中的员工年薪,则可以知道?。这种信息无法从模型的其它参数(如r平方或其修正值、显著水平、各自变量的b或beta)中得知。
注2:如果因变量和所有自变量都没有缺省值,那么模型的个案数就等于样本数。但变量常有缺省值,这时模型的个案数就会小于样本数、有时两者相差很大(当然是个严重问题),所以一定要报告前者。spss并不直接显示该信息,但很容易计算,等于 anova表中的total df + 1就是了。regressionstatistics
注3:b的置信区间,是用来检验b的显著水平的另一工具(如果上、下限之间包含了0,说明b在95%的水平上不显著),以弥补t检验及其sig值的不足。这是一个经典又有复杂的问题,叫做null hypothesis significance test (nhst),本文不做详谈。有兴趣的读者可以参见有关网页(r. c. fraley; d. j. denis)。spss不直接给出b的置信区间,需要在“statistics”一项中要求添加。如右图所示,spss回归分析的输出结果中,内定只显示“estimates" 和"model fit"两项(即会产生表一中除了置信区间之外的其它各项参数)。建议加选“confidence intervals”。
现在用一个实例来演示如何报告回归分析结果。为了便于大家重复这个实例,我使用的数据是spss自带的world95.sav。这是联合国教科文组织(或世界银行之类机构)发表的1995年全球109个国家或地区的“国情”数据,其中含有人口、地理、经济、社会、文化等26个指标。我以其中的birth_rt(每1000人的出生率)为因变量,gpd_car(人均国内生成总值)、urban(城市化,即人口中城市人口比例)、literacy(识字率、即人口中能阅读者比例)和calories(每天卡路里摄入量)等四项为自变量。按表一的原则,我将该回归分析的结果报告在表二中:
[转载]如何报告回归分析的结果
限于篇幅和本文目的,我不对表二的各参数作解读。但想对表中的有关格式做些补充说明。
如何给表格取标题:一般只须描述表内的内容即可。那么,本表的内容是什么呢?是出生率对四个自变量作回归的结果。该四个自变量在表内均有详细介绍,故不必在表格标题中重复。
如何描述变量(包括因变量和自变量):我先给出每个变量的理论概念名(如必要,可以用英文)、然后在括号中注明其对应的spss变量名(这并非必须、而是为了便于大家对照手头的spss数据)和操作定义(很有必要、强烈推荐,从中读者可以看到变量是否做过转换、从而得知有关关系的形式、即线性还是非线性)。为何要如何详细地描述变量?apa手册对如何制作各种定量分析结果的表格或图形有一条“独立信息”的基本原则,即每个图表要包含基本信息、以致读者不需参照正文而能够独立读懂该图表。因此,简单地将spss输出结果黏贴过来,虽是最常见的做法、但是很坏的习惯。
是否需要报告常数(constant):一定要。常数对解读回归模型的实际社会意义,有十分重要的作用。如本表中的常数 = 65.444,意即全球(74个国家或地区)的平均出生率(即在控制了四项自变量的影响之后)为千分之65.4,等等。有一点须注意的是在spss的输出结果中,常数是放在第一行的。应该搬到其它自变量之后。
报告哪个回归系数(即标准化还是非标准化系数):这是最常见问题。以前曾有过“预测派”和“解释派”之争,前者主张只要报告b就够了、而后者则认为只要报告beta就行了。其实两者反映的是不同的信息,b不受因变量变异程度(variability)的影响、所以同一自变量在各回归模型中的b是可以比较的(很多理论假设需要检验的就是这一问题);而beta受因变量变异程度的影响而无法跨越本模型、但是却因其标准化而可以与同一模型中的其它beta相比(也有很多理论假设希望解决的是这个问题)。因此,apa手册建议同时报告两者(英文第五版pp. 160-161)。
小数点之后取几位:apa手册认为,一般的定量分析结果只须保留两位小数足够。对回归结果来说,beta、r2值、显著水平等标准化参数(即其取值均在0与1之间)取两位小数最合适。b及其相关指标(标准误差、置信区间)是非标准化的(即取值可以是任意大或任意小),所以要酌情而定,根据变量的量表(scale,即取值范围)大小而多取、少取甚至不取小数点。一般而言,当自变量的量表大于因变量时,其b会取小值、所以需要多取一至数位小数;相反,自变量的量表小于因变量时,其b会取大值、所以可以少取甚至不取小数。在本例中,gdp和卡路里的量表都远大于出生率,所以它们的b值看上去很小(但不一定意味着影响小)。因此,我就没有机械地只取两位小数。大家如果仔细看一下表二,就会发现我的“酌情”规则是“最后一位0之后取两位”,如-0.00042、0.033、-0.034、-0.0041,这与apa手册的“取两位小数”原则的基本精神是一致的。我们日常见到的问题,主要是保留过多的小数点,往往是是直接黏贴spss的结果(其内定是6位小数)而不加编辑而造成。
表格内是否有横竖分割线:按apa的规定,除了表格顶部、底部和列标题底部有三条横线外,其余一概不用。很多人简单照搬word表格的内定线条,不做任何修饰。审稿专家一看就知是“菜鸟”或懒汉所为。
p是什么东东?就是spss输出中的sig。p是所有统计学教科书中通用的符号,sig则只是spss的专用。前者更广为认知。
如何报告多个回归模型?以上是如何报告一个回归模型的结果。实际上,一项研究(即一篇论文)中往往涉及数个回归模型。有些作者喜欢为每个回归做一个类似表二的回归结果表。这种方法有两个问题:一是占用过多的空间、二是不利于对各模型进行比较。一般说来,应该而且可以将平行(即全部自变量相同)或交集(即部分自变量相同)的回归模型结果放在同一个表内。我们还是用world95数据,再对死亡率和aids发病率分别做一个回归,然后将三个模型的结果放在表三:
表三与表二的主要区别在于表二是横向的(每列为同一类参数)、而表三是纵向(每列为同一模型)。表二中横排的六类参数改成竖立的四行(其中的p值被星号代替、置信区间的上下限合在一行),以便读者做横向比较(这是所有定量分析结果的表格制作的一个基本原则)。如果是英文报告,去掉中文后,表三会变得简洁明了很多。
如何报告变量特征和自变量关系
如前所述,因变量和自变量的特征以及自变量之间的相关关系,是需要酌情考虑的辅助信息。鉴于本文已经很长了,我们简单说一下。变量特征主要指
变量的操作定义(问卷原文)
取值范围(如0-100、0-1、0或1、1-5、1-7等等;好雪问的,如果数据做过对数、平方、开方、倒数等转换,就应该而且最适合在这里报告)
描述性统计值(均值、标准差、偏度skewness、峰度kurtosis等)
一种值得推荐的方法,是将所有变量的上述特征列在一个表中(表四)、放到论文的附录中去、供有兴趣的读者查阅(类似的技术细节一般都可以放到附录中去)。 
------------------------
关于spss回归结果分析

写论文的这个回归结果怎么说明
解答:
一看判定系数r方,本例中,r方=0.202,拟合优度很差.一般要在0.6以上为好.至少也在0.4以上.
二看系数估计量的sig值,其中,独董规模的sig=0.007,小于0.05,说明该变量对因变量有显著的影响.而总经理持股量则不显著.因为sig值大于0.05.
之所以,模型不好,是因为你忽略了重要的影响因素.
但如果你只关注这两个自变量对因变量的影响,那么,结论已经出来了.目的达到了,所以,也说得过去.
统计人刘得意
追答:
可以的,若作自变量,就是虚拟变量模型。 只要有一个sig小于0.05,模型就可以说是有效的。
追问:
像董事长是否兼任总经理,是则为1,否则为0,这样的数据能进行回归分析吗?从哪个值能看出这个模型是有效的?ps. r方好像是0.041吧?
追答:
一般来说是这样的。线性相关时,才能做线性回归模型。

2.回归分析的内容和步骤是什么?


  1、确定变量:
明确定义了预测的具体目标,并确定了因变量。 如果预测目标是下一年的销售量,则销售量Y是因变量。 通过市场调查和数据访问,找出与预测目标相关的相关影响因素,即自变量,并选择主要影响因素。
2、建立预测模型:
依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。
3、进行相关分析:
回归分析是因果因素(自变量)和预测因子(因变量)的数学统计分析。 只有当自变量和因变量之间存在某种关系时,建立的回归方程才有意义。 因此,作为自变量的因子是否与作为因变量的预测对象相关,程度的相关程度以及判断相关程度的程度是在回归分析中必须解决的问题。 相关分析通常需要相关性,并且相关度系数用于判断自变量和因变量之间的相关程度。
4、计算预测误差:
回归预测模型是否可用于实际预测取决于回归预测模型的测试和预测误差的计算。 回归方程只能通过回归方程作为预测模型来预测,只有当它通过各种测试且预测误差很小时才能预测。
5、确定预测值:
利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。
扩展资料:
回归分析的应用:
1、相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。 
2、一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。
参考资料来源:百度百科 - 回归分析

3.如何对数据进行回归分析


  CRM无疑是企业有效的销售工具,为企业做出准确的客户数据分析,提升数据分析的水平,帮助企业提升销售业绩。
  1、统计报表直观可见
  CRM系统可以按团队或者按人员查看销售数据,包含了员工线索数据分析、员工客户分析、员工商机分析、销售漏斗分析、商机趋势分析等。
  销售数据直观可见,管理简便,管理者即可清楚的看到员工的正常任务是如期完成还是超期完成,对于员工的工作绩效考核有重要分析意义。
  2、客户需求整体把握
  CRM系统通过把为外部数据,如社交媒体数据,购买历史,产品趋势和最新发布等,与内部数据结合起来以提升洞察力。
  在某些情况下,数据能够揭示顾客的需求,通过数据分析能为企业更好地了解客户行为,分析客户喜好,并有针对性地提供更优秀的产品及服务。
  3、销售预测更加精准
  CRM系统可将销售机会以漏斗形式展示,直观的看到不同阶段所存在的机会数量与预计签约金额,通过多层级细致分析,实现大数据精准预测未来时间段企业产生的销售业绩。
  分阶段的销售过程推进,可以预测出成交的时间和节点,以及所记录的精准需求,由此可以判断出客户成交的价值高低以及可能性。
  此外,CRM系统数据分析功能还可以从多个维度、多个方面对企业数据进行分析,让管理人员可以从数据分析的结果得出企业的经营状况以及主要客户的特征,进而对企业下一步的规划作出调整。
  简信crm
  面对纷繁复杂的大量数据,CRM系统嵌入BI功能,能够对海量的数据进行分析处理,甄选出有用的数据,帮助销售人员明了客户需求,为销售带来了福音。

4.数据分析师必须掌握的7种回归分析方法


  1、线性回归
  
  线性回归是数据分析法中最为人熟知的建模技术之一。它一般是人们在学习预测模型时首选的技术之一。在这种数据分析法中,由于变量是连续的,因此自变量可以是连续的也可以是离散的,回归线的性质是线性的。
  
  线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。
  
  2、逻辑回归
  
  逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 /0,真/假,是/否)变量时,我们就应该使用逻辑回归.
  
  逻辑回归不要求自变量和因变量是线性关系。它可以处理各种类型的关系,因为它对预测的相对风险指数OR使用了一个非线性的log转换。
  
  为了避免过拟合和欠拟合,我们应该包括所有重要的变量。有一个很好的方法来确保这种情况,就是使用逐步筛选方法来估计逻辑回归。它需要大的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。
  
  3、多项式回归
  
  对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。虽然会有一个诱导可以拟合一个高次多项式并得到较低的错误,但这可能会导致过拟合。你需要经常画出关系图来查看拟合情况,并且专注于保证拟合合理,既没有过拟合又没有欠拟合。下面是一个图例,可以帮助理解:
  
  明显地向两端寻找曲线点,看看这些形状和趋势是否有意义。更高次的多项式最后可能产生怪异的推断结果。
  
  4、逐步回归
  
  在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。
  
  这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。
  
  5、岭回归
  
  岭回归分析是一种用于存在多重共线性(自变量高度相关)数据的技术。在多重共线性情况下,尽管最小二乘法(OLS)对每个变量很公平,但它们的差异很大,使得观测值偏移并远离真实值。岭回归通过给回归估计上增加一个偏差度,来降低标准误差。
  
  除常数项以外,这种回归的假设与最小二乘回归类似;它收缩了相关系数的值,但没有达到零,这表明它没有特征选择功能,这是一个正则化方法,并且使用的是L2正则化。
  
  6、套索回归
  
  它类似于岭回归。除常数项以外,这种回归的假设与最小二乘回归类似;它收缩系数接近零(等于零),确实有助于特征选择;这是一个正则化方法,使用的是L1正则化;如果预测的一组变量是高度相关的,Lasso 会选出其中一个变量并且将其它的收缩为零。
  
  7、回归
  
  ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso会随机挑选他们其中的一个,而ElasticNet则会选择两个。Lasso和Ridge之间的实际的优点是,它允许ElasticNet继承循环状态下Ridge的一些稳定性。
  
  通常在高度相关变量的情况下,它会产生群体效应;选择变量的数目没有限制;并且可以承受双重收缩。
  
  关于数据分析师必须掌握的7种回归分析方法,青藤小编就和您分享到这里了,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的职业前景及就业内容,可以点击本站的其他文章进行学习。

5.回归分析的认识及简单运用


  回归分析的认识及简单运用
  回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,分为回归和多重回归分析;按照自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多重线性回归分析。
  定义
  回归分析是应用极其广泛的数据分析方法之一。它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律,并可用于预报、控制等问题。
  方差齐性
  线性关系
  效应累加
  变量无测量误差
  变量服从多元正态分布
  观察独立
  模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量)
  误差项独立且服从(0,1)正态分布。
  现实数据常常不能完全符合上述假定。因此,统计学家研究出许多的回归模型来解决线性回归模型假定过程的约束。
  研究一个或多个随机变量Y1 ,Y2 ,…,Yi与另一些变量X1、X2,…,Xk之间的关系的统计方法,又称多重回归分析。通常称Y1,Y2,…,Yi为因变量,X1、X2,…,Xk为自变量。回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+ε,这里X是自变量,Y是因变量,ε是随机误差,通常假定随机误差的均值为0,方差为σ^2(σ^2大于0)σ^2与X的值无关。若进一步假定随机误差遵从正态分布,就叫做正态线性模型。一般的情形,它有k个自变量和一个因变量,因变量的值可以分解为两部分:一部分是由于自变量的影响,即表示为自变量的函数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的非线性函数时,称为非线性回归分析模型。当自变量的个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。
  回归分析的主要内容为:
  ①从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。
  ②对这些关系式的可信程度进行检验。
  ③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。
  ④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。
  在回归分析中,把变量分为两类。一类是因变量,它们通常是实际问题中所关心的一类指标,通常用Y表示;而影响因变量取值的的另一类变量称为自变量,用X来表示。
  回归分析研究的主要问题是:
  (1)确定Y与X间的定量关系表达式,这种表达式称为回归方程;
  (2)对求得的回归方程的可信度进行检验;
  (3)判断自变量X对因变量Y有无影响;
  (4)利用所求得的回归方程进行预测和控制。
  回归分析可以说是统计学中内容最丰富、应用最广泛的分支。这一点几乎不带夸张。包括最简单的t检验、方差分析也都可以归到线性回归的类别。而卡方检验也完全可以用logistic回归代替。
  众多回归的名称张口即来的就有一大片,线性回归、logistic回归、cox回归、poission回归、probit回归等等等等,可以一直说的你头晕。为了让大家对众多回归有一个清醒的认识,这里简单地做一下总结:
  1、线性回归,这是我们学习统计学时最早接触的回归,就算其它的你都不明白,最起码你一定要知道,线性回归的因变量是连续变量,自变量可以是连续变量,也可以是分类变量。如果只有一个自变量,且只有两类,那这个回归就等同于t检验。如果只有一个自变量,且有三类或更多类,那这个回归就等同于方差分析。如果有2个自变量,一个是连续变量,一个是分类变量,那这个回归就等同于协方差分析。所以线性回归一定要认准一点,因变量一定要是连续变量。
  2、logistic回归,与线性回归并成为两大回归,应用范围一点不亚于线性回归,甚至有青出于蓝之势。因为logistic回归太好用了,而且太有实际意义了。解释起来直接就可以说,如果具有某个危险因素,发病风险增加2.3倍,听起来多么地让人通俗易懂。线性回归相比之下其实际意义就弱了。logistic回归与线性回归恰好相反,因变量一定要是分类变量,不可能是连续变量。分类变量既可以是二分类,也可以是多分类,多分类中既可以是有序,也可以是无序。二分类logistic回归有时候根据研究目的又分为条件logistic回归和非条件logistic回归。条件logistic回归用于配对资料的分析,非条件logistic回归用于非配对资料的分析,也就是直接随机抽样的资料。无序多分类logistic回归有时候也成为多项logit模型,有序logistic回归有时也称为累积比数logit模型。
  3、cox回归,cox回归的因变量就有些特殊,因为他的因变量必须同时有2个,一个代表状态,必须是分类变量,一个代表时间,应该是连续变量。只有同时具有这两个变量,才能用cox回归分析。cox回归主要用于生存资料的分析,生存资料至少有两个结局变量,一是死亡状态,是活着还是死亡?二是死亡时间,如果死亡,什么时间死亡?如果活着,从开始观察到结束时有多久了?所以有了这两个变量,就可以考虑用cox回归分析。
  4、poisson回归,poisson回归相比就不如前三个用的广泛了。但实际上,如果你能用logistic回归,通常也可以用poission回归,poisson回归的因变量是个数,也就是观察一段时间后,发病了多少人?或者死亡了多少人?等等。其实跟logistic回归差不多,因为logistic回归的结局是是否发病,是否死亡,也需要用到发病例数、死亡例数。大家仔细想想,其实跟发病多少人,死亡多少人一个道理。只是poission回归名气不如logistic回归大,所以用的人也不如logistic回归多。但不要因此就觉得poisson回归没有用。
  5、probit回归,在医学里真的是不大用,最关键的问题就是probit这个词太难理解了,通常翻译为概率单位。probit函数其实跟logistic函数十分接近,二者分析结果也十分接近。可惜的是,probit回归的实际含义真的不如logistic回归容易理解,由此导致了它的默默无名,但据说在社会学领域用的似乎更多一些。
  6、负二项回归。所谓负二项指的是一种分布,其实跟poission回归、logistic回归有点类似,poission回归用于服从poission分布的资料,logistic回归用于服从二项分布的资料,负二项回归用于服从负二项分布的资料。说起这些分布,大家就不愿意听了,多么抽象的名词,我也很头疼。如果简单点理解,二项分布你可以认为就是二分类数据,poission分布你可以认为是计数资料,也就是个数,而不是像身高等可能有小数点,个数是不可能有小数点的。负二项分布呢,也是个数,只不过比poission分布更苛刻,如果你的结局是个数,而且结局可能具有聚集性,那可能就是负二项分布。简单举例,如果调查流感的影响因素,结局当然是流感的例数,如果调查的人有的在同一个家庭里,由于流感具有传染性,那么同一个家里如果一个人得流感,那其他人可能也被传染,因此也得了流感,那这就是具有聚集性,这样的数据尽管结果是个数,但由于具有聚集性,因此用poission回归不一定合适,就可以考虑用负二项回归。既然提到这个例子,用于logistic回归的数据通常也能用poission回归,就像上面案例,我们可以把结局作为二分类,每个人都有两个状态,得流感或者不得流感,这是个二分类结局,那就可以用logistic回归。但是这里的数据存在聚集性怎么办呢,幸亏logistic回归之外又有了更多的扩展,你可以用多水平logistic回归模型,也可以考虑广义估计方程。这两种方法都可以处理具有层次性或重复测量资料的二分类因变量。
  7、weibull回归,有时中文音译为威布尔回归。weibull回归估计你可能就没大听说过了,其实这个名字只不过是个噱头,吓唬人而已。上一篇说过了,生存资料的分析常用的是cox回归,这种回归几乎统治了整个生存分析。但其实夹缝中还有几个方法在顽强生存着,而且其实很有生命力,只是国内大多不愿用而已。weibull回归就是其中之一。cox回归为什么受欢迎呢,因为它简单,用的时候不用考虑条件(除了等比例条件之外),大多数生存数据都可以用。而weibull回归则有条件限制,用的时候数据必须符合weibull分布。怎么,又是分布?!估计大家头又大了,是不是想直接不往下看了,还是用cox回归吧。不过我还是建议看下去。为什么呢?相信大家都知道参数检验和非参数检验,而且可能更喜欢用参数检验,如t检验,而不喜欢用非参数检验,如秩和检验。那这里的weibull回归和cox回归基本上可以说是分别对应参数检验和非参数检验。参数检验和非参数检验的优缺点我也在前面文章里通俗介绍了,如果数据符合weibull分布,那么直接套用weibull回归当然是最理想的选择,他可以给出你最合理的估计。如果数据不符合weibull分布,那如果还用weibull回归,那就套用错误,肯定结果也不会真实到哪儿去。所以说,如果你能判断出你的数据是否符合weibull分布,那当然最好的使用参数回归,也就是weibull回归。但是如果你实在没什么信心去判断数据分布,那也可以老老实实地用cox回归。cox回归可以看作是非参数的,无论数据什么分布都能用,但正因为它什么数据都能用,所以不可避免地有个缺点,每个数据用的都不是恰到好处。weibull回归就像是量体裁衣,把体形看做数据,衣服看做模型,weibull回归就是根据你的体形做衣服,做出来的肯定对你正合身,对别人就不一定合身了。cox回归呢,就像是到商场去买衣服,衣服对很多人都合适,但是对每个人都不是正合适,只能说是大致合适。至于到底是选择麻烦的方式量体裁衣,还是图简单到商场直接去买现成的,那就根据你的喜好了,也根据你对自己体形的了解程度,如果非常熟悉,当然就量体裁衣了。如果不大了解,那就直接去商场买大众化衣服吧。
  8、主成分回归。主成分回归是一种合成的方法,相当于主成分分析与线性回归的合成。主要用于解决自变量之间存在高度相关的情况。这在现实中不算少见。比如你要分析的自变量中同时有血压值和血糖值,这两个指标可能有一定的相关性,如果同时放入模型,会影响模型的稳定,有时也会造成严重后果,比如结果跟实际严重不符。当然解决方法很多,最简单的就是剔除掉其中一个,但如果你实在舍不得,毕竟这是辛辛苦苦调查上来的,删了太可惜了。如果舍不得,那就可以考虑用主成分回归,相当于把这两个变量所包含的信息用一个变量来表示,这个变量我们称它叫主成分,所以就叫主成分回归。当然,用一个变量代替两个变量,肯定不可能完全包含他们的信息,能包含80%或90%就不错了。但有时候我们必须做出抉择,你是要100%的信息,但是变量非常多的模型?还是要90%的信息,但是只有1个或2个变量的模型?打个比方,你要诊断感冒,是不是必须把所有跟感冒有关的症状以及检查结果都做完?还是简单根据几个症状就大致判断呢?我想根据几个症状大致能能确定90%是感冒了。不用非得100%的信息不是吗?模型也是一样,模型是用于实际的,不是空中楼阁。既然要用于实际,那就要做到简单。对于一种疾病,如果30个指标能够100%确诊,而3个指标可以诊断80%,我想大家会选择3个指标的模型。这就是主成分回归存在的基础,用几个简单的变量把多个指标的信息综合一下,这样几个简单的主成分可能就包含了原来很多自变量的大部分信息。这就是主成分回归的原理。
  9、岭回归。岭回归的名称由来我也没有查过,可能是因为它的图形有点像岭。不要纠结于名称。岭回归也是用于处理自变量之间高度相关的情形。只是跟主成分回归的具体估计方法不同。线性回归的计算用的是最小二乘估计法,当自变量之间高度相关时,最小二乘回归估计的参数估计值会不稳定,这时如果在公式里加点东西,让它变得稳定,那就解决了这一问题了。岭回归就是这个思想,把最小二乘估计里加个k,改变它的估计值,使估计结果变稳定。至于k应该多大呢?可以根据岭迹图来判断,估计这就是岭回归名称的由来。你可以选非常多的k值,可以做出一个岭迹图,看看这个图在取哪个值的时候变稳定了,那就确定k值了,然后整个参数估计不稳定的问题就解决了。
  10、偏最小二乘回归。偏最小二乘回归也可以用于解决自变量之间高度相关的问题。但比主成分回归和岭回归更好的一个优点是,偏最小二乘回归可以用于例数很少的情形,甚至例数比自变量个数还少的情形。听起来有点不可思议,不是说例数最好是自变量个数的10倍以上吗?怎么可能例数比自变量还少,这还怎么计算?可惜的是,偏最小二乘回归真的就有这么令人发指的优点。所以,如果你的自变量之间高度相关、例数又特别少、而自变量又很多(这么多无奈的毛病),那就现在不用发愁了,用偏最小二乘回归就可以了。它的原理其实跟主成分回归有点像,也是提取自变量的部分信息,损失一定的精度,但保证模型更符合实际。因此这种方法不是直接用因变量和自变量分析,而是用反映因变量和自变量部分信息的新的综合变量来分析,所以它不需要例数一定比自变量多。偏最小二乘回归还有一个很大的优点,那就是可以用于多个因变量的情形,普通的线性回归都是只有一个因变量,而偏最小二乘回归可用于多个因变量和多个自变量之间的分析。因为它的原理就是同时提取多个因变量和多个自变量的信息重新组成新的变量重新分析,所以多个因变量对它来说无所谓。
  看了以上的讲解,希望能对大家理解回归分析的运用有些帮助。
  以上是小编为大家分享的关于的相关内容,更多信息可以关注分享更多干货

6.SPSS的分组回归怎么做,如何看统计结果?


  对数据进行分组,在data菜单中点击split file,把分组变量拖入对话框,选一个恰当的呈现方式确定,按正常的回归分析进行分析,最后可以得到不同组的回归方程,每组一个。看统计结果可看X对Y的影响幅度是否有显著性差异,即说明在X对Y的影响中起到了调节作用。
  回归是当因变量和自变量为线性关系时,它是一种特殊的线性模型最简单的情形是一元线性回归,由大体上有线性关系的一个自变量和一个因变量组成;模型是Y=a+bX+ε(X是自变量,Y是因变量,ε是随机误差)。
  回归分析的主要内容有从一组数据出发,确定某些变量之间的定量关系式;即建立数学模型并估计未知参数。通常用最小二乘法;检验这些关系式的可信任程度。在多个自变量影响一个因变量的关系中,判断自变量的影响是否显著,并将影响显著的选入模型中,剔除不显著的变量。
  通常用逐步回归、向前回归和向后回归等方法; 利用所求的关系式对某一过程进行预测或控制。回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据。

以上就是关于「回归分析怎么分析数据」的全部内容,本文讲解到这里啦,希望对大家有所帮助。如果你还想了解更多这方面的信息,记得收藏关注本站~

Win10系统之家独家♀使★用!』

相关文章

  • 回归分析怎么分析数据

    回归分析怎么分析数据

    1.Excel回归结果分析怎么解读?如何报告回归分析的结果回归分析的结果可以分为以下几部分:1)回归模型;2)回归系数;3)因变量和自变量的特征;4)自变量之间的关系。其中,1和2是必须详细报告的基本信息;而3和4则可以根据具...
  • 数据分析报告怎么写

    数据分析报告怎么写

    1.怎么写好一份数据分析报告原发布者:weeeekyamap数据分析报告格式分析报告的输出是是你整个分析过程的成果,是评定一个产品、一个运营事件的定性结论,很可能是产品决策的参考依据,既然这么重要那当然要写好它了。我认...
  • 剑灵捏脸数据怎么导入

    剑灵捏脸数据怎么导入

    1.剑灵捏脸数据怎么保存和导入?1.捏脸数据保存:创建好人物数据后,点击“外形管理”→“保存外形”→“保存”,这时屏幕下方显示保存成功,下次创建人物时可以应用该数据。2.数据图导入:将准备好的捏脸数据图放入剑灵默认存放导...
  • 天刀捏脸数据怎么导入

    天刀捏脸数据怎么导入

    1.天涯明月刀捏脸数据如何导入,教下我?新浪游戏正文页正文视频攻略天涯明月刀捏脸数据使用教程2015-05-2714:05新浪游戏18天涯明月刀有着非常强大且真实感体验的捏脸系统,当你第一次进入创角界面进行捏脸时,是否会疑...