四、数据和方法（2 / 2）

1.模型设计Ⅰ：多元Logistic 回归模型

为验证假设1和假设2，本研究将分别构建两个多元选择变量的Logistic回归模型（Multinomial Logistic Regression）。

以上包含i个方程的连立方程组，其中被解释变量由就业单位、就业地区的多元选择变量组成。其中p_i表示选择某就业单位、地区获得的概率。β是回归系数，表示当其他自变量取值保持不变的情况下，该自变量取值增加一个单位引起比数（OR）自然对数值的变化量。α是常数项，μ为干扰项。

下标i对就业单位而言，分别与就业单位“政府部门”、“事业单位”、“国有集体企业”、“私营/民营/个体企业”和“外资/合资机构”等单位就业的概率相对应。模型中的j5，以“外资/合资机构”为参照项。下标i对就业地区而言分别与“东部沿海开放城市”、“省会城市”和“地级城市/县镇农村”的概率相对应。模型中的j3，以“地级城市/县镇农村”为参照项。Х_k是影响就业单位选择、地区选择和职业地位获得的自变量和控制变量。各分类变量的赋值情况详。

2.模型设计Ⅱ：多元线性回归模型

用线性回归模型来考察多个自变量（人力资本、社会资本等）对大学生期望的月薪收入（因变量）所产生的影响。由于对人力资本收入决定因素的研究已比较成熟，我们将在此基础上进一步加入社会资本变量和控制变量，使之适用于本研究。本模型采用单对数回归模型（Linear Regression）来验证假设3。

Ln（Y）B₀+B₁X₁+B₂X₂+……+B_iX_i+ε（2）

其中Y代表因变量，即个人的期望月薪收入，X₁、X₂……X_i分别代表自变量，B₀、B₁、B₂……B_i分别代表各变量的偏回归系数，偏回归系数指在控制了其他自变量的作用后，某一自变量对因变量的“净影响”。B₀和ε分别代表常数项和随机误差。在回归分析中，分类变量全部转化为虚拟变量（哑变量）进入回归方程，并且以每组变量中最后一个变量为参照项。

回归系数及发生比率在回归结果报告中给出，同时用回归结果报告中给出的预测准确率来评价模型对数据的解释力，用卡方检验来评价总体模型的统计显著性，用对数似然比（-21ogL）来比较不同的模型。为了排除变量中可能出现多重共线性问题，同时又要考察这些因素对大学生职业选择的影响，我们将影响显著的自变量放在一起，采取逐步回归的方法予以解决。