大量生成虚拟变量的命令是:`ta(变量名), gen((变量名))`。在例子中,如社区编码,生成的虚拟变量前缀为d,自d1至所有社区均对应一个虚拟变量。在回归中控制社区变量,只需加入这些生成的虚拟变量。若虚拟变量过多,可使用省略符号`d*`代表所有d字母开头的变量,或破折号`d1-d150`表示特定范围的虚拟变量,假设社区总数为150。
另一种方法是直接在回归中控制虚拟变量而无需生成,使用命令`areg(被解释变量)(解释变量), absorb(变量名)`。其中`absorb`选项后的变量名应与社区编码一致。结果与直接加入虚拟变量的回归相同。
生成变量的最后工具是`egen`。`egen`与`gen`都用于生成新变量,但`egen`提供了更强大的函数功能。`gen`支持的函数,`egen`也支持,且还支持额外的函数。若`gen`无法处理,可能需要使用`egen`。通常,我仅使用取平均、加和等简单的函数。
当数据复杂,生成所需变量不直接时,可能需要多步骤。例如,处理日期格式异常的日期数据,如1991年10月23日被记录为19911023。可先生成年份和月份,再生成对应虚拟变量。
保存工作时,使用`save(文件名),replace`命令。`replace`选项会更新数据库的修改,应谨慎使用,建议创建新数据库以防原始数据丢失。这样,即便修改数据库,也能确保数据安全。
本文如未解决您的问题请添加抖音号:51dongshi(抖音搜索懂视),直接咨询即可。