我们知道,观察单位的某项特征就是变量,变量根据自身的属性又分为数值变量、等级变量和分类变量,众多统计书上说变量之间是可以转化的,但到底是单向转化,还是双向转化呢?目前存在两个观点,一是只能单向,另一就是可以双向转化。今天我们来看看到底是如何转化的!
高级向低级转
单向转化的观点是,变量只能从高级别变量向低级别变量转化,变量级别由高到低依次为数值变量-等级变量-分类变量。依次单向转化的观点就是只能从数值转化为等级,等级转化为分类,或者数值直接转化为分类。
如某人收缩压直接测定值为mmHg,是数值变量;但按照高血压分级的定义,该人是三级高血压,此时等级变量为(三级高血压、二级高血压和一次高血压);如果按照需呀是否正常,又可以分为正常与不正常,此时就是分类了。
因此,变量从高级向低级转化是没问题的。争议之处是从低级望高级转化。
低级向高级转
比如有个人,知道血压不正常,您是如何知道其是高血压还是低血压,如何知道其具体的血压值呢?貌似这是不可能的,确实按照这个思路是条死路。
但有人说,我们在构建模型的时候,比如将性别带入模型(定义男=1,女=2),那么此时不就是将分类变量转换为数值变量,有低级变为高级了吗?
还比如把高级职称、中级职称和初级职称,定义为1、2、3,不也是同样的道理吗?
貌似这种说法也没有问题,但有一点。此种变换只是为了适应构建模型的需要,变量本身并没有变成高级别。比如说数值变量是有单位的,上述代换的数值是没有单位的,并且也不能支持数学换算。比如男=1,女=2,此时1+2并不等于3。
松哥统计说
变量有三种,级别分高低,高者可变低,此乃真变换,变量属性特征同时变换;低级变高级,实乃伪变换,仅为适应模型构建!
但这种伪变换确实有非常大的价值,尤其在构建回归模型的过程中,能够比教分类变量(变换后需要设置哑变量),等级变量不同水平对因变量Y的影响!
精鼎松哥统计原创,欢迎转发分享!
---统计思维与理论系列---
统计水平自我评估表
基线分析的3个终极目的
统计小白的学习路径
SCI论文中Logistic回归模型“门当户对”原则,松哥心得推荐给您
被我们忽视的生存分析区间删失数据
Logistic回归文章的SCI审稿人意见解读
统计学上的2K效应,你发现了没?
正态分布的3个基因密码,聆听大自然心跳的代码!
生存分析K-M法与COX回归结论不一致怎么办?
异常值的处理只有删除?
没有比较就没有伤害,让咱们互相伤害吧,教你4大类统计伤害方法
SCI审稿人让我控制2个单因素无意义的变量?
量表评价是信度重要还是效度重要?
Meta分析要解决的首要任务
文章材料与方法中统计方法如何描述
这个到底是啥统计设计?一起来看看!
聚类分析稳定性判别的经验总结
“参数检验与非参数检验”哪个更好?
干预前后数据统计分析方法
听完四个小故事,你就明白主成分分析是啥意思了!
方差分析P0.05,两两比较LSD法P0.05,这可咋整?
等级与等比,可得分清楚!
频率与概率,如胶又似漆!
终于发现不用学习,顿悟统计的方法
倾向性评分后数据,应该采用配对设计还是成组设计?
统计必学的4个核心思想
加权最小二乘回归是什么鬼?
平行性检验到底应该啥时候做?
统计的4维空间(一维一层天)
到底做相关?还是方差分析呢?
这篇文章凭啥这样分组呢?
常用统计分析方法选择图解
P0.05也别理直气壮,统计也会犯错,还分犯I类和II类错误?
文章鉴析:这篇文章或许有10处不适!
R×C卡方的Fisher确切概率法为什么会有卡方值
大小优指标如何同时制作ROC曲线[经验技巧]
统计方法与统计思想谁重要?
别说相关太简单,且听松哥说相关
正态分布10种鉴别方法汇总
连续变量变成等级变量后,原来有意义的变量变得没意义了?
SCI论文中的Pfortrend是什么鬼?为什么高分文章经常采用呢
------------------------------
松哥统计不求赞赏,请点亮再看
热点文章
最近更新