中国工业企业数据库的使用现状和潜在问题-机电之家网变频器技术网

中国工业企业数据库的使用现状和潜在问题

中国工业企业数据库的使用现状和潜在问题聂辉华江艇杨汝岱内容提要在经验研究中，企业级的微观数据正受到越来越多的重视。中国工业企业数据库成为国内外学者研究中国企业行为和绩效的主要数据库之一。
但是该数据库存在样本匹配混乱、变量大小异常、测度误差明显和变量定义模糊等严重问题，忽视这些问题可能会导致研究结论错误。本文介绍了该数据库的基本情况和使用现状，指出了该数据库存在的缺陷，并根据现有研究提出了改进建议。
一引言数据是经验研究的细胞，因此数据质量的好坏直接决定了经验研究的活力。最近十多年来，国际经济学界越来越重视使用微观面板数据longitudinal micro－level da ta的研究。相对于宏观数据或行业数据，微观的企业数据或个体数据的优势是非常明显的：第一，微观面板数据包含了更多信息，例如企业的所有制、规模和出口等状态，这些信息对于企业行为的研究必不可少；第二，微观面板数据同时包含了时间维度和个体维度，有助于解决计量经济学中的个体异质性问题，更容易保证估计的一致性；第期第年济经界世聂辉华：中国人民大学经济学院中国人民大学企业与组织研究中心100872 263.net；江艇：中国人民大学经济学院中国人民大学企业与组织研究中心电子信箱：econjiang gmail.com；杨汝岱：湘潭大学消费研究院电子信箱：rudaiyang gmail.com.
作者感谢何帆对本文提出的建议，感谢屠顺杰提供的助研工作，同时感谢两位匿名审稿人指出的有益建议。
本文的研究得到姚洋主持的国家社科基金重大项目我国中长期经济增长与结构变动趋势研究09＆zd020以及聂辉华、杨汝岱分别主持的教育部新世纪优秀人才项目的资助，特此感谢。当然文责自负。
三，微观面板数据增加了观测值个数，使估计更有效率。对于产业组织理论、企业理论、公司金融、国际贸易、收入分配和劳动供给等研究领域来说，经验研究的数据主要就是微观数据。
伴随微观计量经济学的引入和国内外微观数据库的开放，中国经济学者越来越重视微观数据的开发和使用，产生了很多基于微观数据的研究成果。一些中国数据库甚至被全世界各国学者使用，这一方面表明中国问题越来越受到国际经济学界的重视，另一方面也表明中国数据的质量得到了越来越多的认可。特别是相当多的国内外学他们的研刊上。作为一个由中国国家统计局收集的数据库，它的优点是样本大、指标多、时间长。但是，它毕竟不是一个由学术机构发布的数据库，因此在很多方面还不太符合学术研究的严格要求，其缺陷包括样本匹配混乱、指标存在缺失、指标大小异常、测度误差明显和变量定义模糊等问题。如果研究者没有察觉到这些数据存在的缺陷，并且没有采取有效的方法缓解或消除这些缺陷，那么就会对经验研究的结果产生负面影响，甚至会得出错误的结论。而错误的结论对于理论和经验研究来说，不仅浪费了学者们时间和精力，还可能产生误导作用。鉴于此，我们认为有必要详细、严谨地讨论中国工业企业数据库的基本情况、使用现状，指出其存在的问题，并尽可能提供解决问题的建议。我们希望，本文的分析不仅有助于潜在使用者了解该数据库的研究现状和未来方向，还能有助于他们更准确地使用该数据库，从而推进相关领域的研究发展。当然，作为该数据库的使用者之一，我们并不能保证我们全面地熟悉了该数据库，并且我们对问题的分析不可避免地包含了一定的研究倾向。
二数据库基本信息我们首先简单地描述该数据库的基本情况。中国工业企业数据库由国家统计局建立，它的数据主要来自于样本企业提交给当地统计局的季报和年报汇总。该数据库的全称为全部国有及规模以上非国有工业企业数据库，其样本范围为全部国有工业企业以及规模以上非国有工业企业，其统计单位为企业法人。这里的工业统计期第年济经界世聂辉华江艇杨汝岱口径包括国民经济行业分类中的采掘业、制造业以及电力、燃气及水的生产和供应业三个门类，主要是制造业占90以上。这里的规模以上要求企业每年的主营业务收入即销售额在500万元及以上，2011年该标准改为2000万元及以上。基于上述统计口径的数据库自1998年开始采集，多数学者使用的工业企业数据库涉及的年份在1999～2007年之间。由于该数据库的主要成分为制造业企业，在统计口径上与其他国家的产业分类比较一致，而且一些变量例如资本、研发投入和出口交货值更容易度量，因此使用者通常析出该数据库中的制造业企业。制造业的统计口径包括从农副食品加工业、食品制造业到工艺品及其他制造业、废弃资源和废旧材料回收加工业等30个大类二位数行业，对应于国民经济行业分类与代码gb/ t4754－2002中的代码13～43不含38.为了保持企业样本的完整性，同时与现有研究具有可比性，我们以1999～2007年全部国有及规模以上非国有工业企业作为我们分析该数据库的主要样本。
1999～2007年中国工业企业数据库包括了200多万个观测值，每年的样本企业数量从1999年的大约16万家逐年递增到2007年的大约33万家。
在9年样本期内，包括上市公司，总共有大约55万家企业出现。显然，这是一个巨大的非平衡面板数据。由于企业关闭、改制、重组等各种原因，只有46 000万多家企业约占样本企业总数的8连续出现在整个样本期内。该数据库样本占据了中国工业企业的绝大部分比例。根据具有可比性的2004年第一次全国经济普查年报，当年工业企业销售额为 442.81亿元。而中国工业企业数据库当年全部样本企业的销售额为195 600亿元，约占全国的89.5.
目前，除了经济普查数据库之外，中国工业企业数据库是可获得的最大的企业级数据库。表1描述了1999～2007年企业总数和国有、集体、民营、外资企业含港、澳、台企业的份额变化。可以看出，国有和集体企业的比例在显著减少，从1999年的2 /3下降到2007年的不足1 /10，而民营企业的比例从不足20迅速增加到超过70.该表从一个侧面反映了中国市场经济结构的剧烈变动。
事实上，工业企业数据库是最全面的企业数据库。该数据库包括企业的两类信息：一类是企业的基本情况，另一类是企业的财务数据。企业的基本情况包括：法人代码、企业名称、法人代表、联系电话、邮政编码、具体地址、所属行业、注册类型所有制、隶属关系、开业年份和职工人数等指标。企业的财务数据则包括：流动资产、应期第年济经界世中国工业企业数据库的使用现状和潜在问题学者们使用的该数据库可能有几个不同的来源，但是内容相差很小。
经济普查的工业企业销售额来自国家统计局网站《第一次全国经济普查主要数据公报第二号》，工业企业数据库中的工业企业销售额来自作者计算。
收账款、长期投资、固定资产、累计折旧、无形资产、流动负债、长期负债、实收资本、主营业务收入、主营业务成本、营业费用、管理费用、财务费用、营业利润、利税总额、广告费、研究开发费、工资总额、福利费总额、增值税、工业中间投入、工业总产值和出口交货值等指标。全部指标大约为130个。特别的，2004年为第一次全国经济普查年，因此在数据库中当年的企业指标还包括了不同学历研究生、本科、大专、中专、高中、初中及以下、不同职称技术职称和技师等的男职工和女职工的相应数量。此外，还包括了企业是否加入工会以及加入工会的人数等其他年份所没有的信息。
中国工业企业的类型、数目和比例年份国有集体民营外资总数数据来源：作者根据数据库计算得出。
毋庸置疑，工业企业数据库的优势非常明显。第一，它的样本量非常大，涵盖了全国所有的国有工业企业和规模以上的非国有工业企业。9年的观测值总数超过200万个。2006年之后，每年的样本企业数目超过30万个。除了普查数据库，还没有哪个企业数据库在样本量上能与之匹敌。从统计学或计量经济学的角度讲，大样本的优势在于降低估计的近似偏误，提高估计的效率。第二，它的指标非常多，包括了企业的基本情况和企业的财务数据，比较全面地反映了企业的市场进入、投资、借贷、广告、研发、出口等行为和企业的短期与长期经营绩效，并且企业加总数据反映出企业所处行业或地区的市场结构。从产业组织理论的角度讲，一旦可以获得市场结构、企业行为和绩效的数据，学者们几乎就可以进行任意主题的研究。公司金融、企业理论、国际贸易和产业集聚等相关领域的研究者们也可以对该数据库各取所需，包括进行跨专业研究。如果将该数据库和其他数据库合并，那么学者们将会发现更加丰富的研究视角。
指标越多，在构建计量方程时解释变量和控制变量就越多，这样可以减少遗漏变量问期第年济经界世聂辉华江艇杨汝岱题。第三，它的时间序列比较长。工业企业数据库最早的建立年份是1998年，目前已经更新到了2008年，前后跨期11年。这使得研究者采用动态面板方法具有可行性，从而有助于反映历史因素的作用，以及从动态的角度研究企业和产业的演化过程。
相对而言，目前流行的其他几个企业数据库，例如万得金融数据库、色诺芬经济金融数据库、国泰安上市公司数据库，样本企业都是上市公司，它们的指标更全面、准确，提供指标的频率也更高。比如，这些上市公司数据库通常包括了主要股东持股情况、董事会成员和高管的个人特征以及职位变动，从而可以研究公司治理结构。另外，上市公司数据库不仅包含工业类上市公司，还包含了金融类和服务类上市公司，这也是工业企业数据库所缺乏的。此外，一些特定的调查项目也催生了企业数据库。例如，2006年世界银行和国家统计局对中国12个省的1200多家企业进行了调查，内容涉及企业社会责任、内部管理、质量管理、劳动管理、环境管理、市场竞争以及技术改造等方面。从1991～2006年，中央统战部和全国工商联陆续对全国民营企业的经营情况进行了抽样调查，内容涉及企业基本情况、管理体制、企业家背景以及劳资关系等方面。
三数据库使用现状由于工业企业数据库的独特优势，近几年来每年都有大量的海内外经济学者使用该数据库撰写和发表论文，主题涵盖产业组织理论、企业理论、公司金融、转型经济学、国际贸易、劳动经济学和区域经济学等学科。下面，我们简要介绍工业企业数据库在上述经济学分支中的使用现状。一方面，我们希望这有助于感兴趣的研究人员了解人们在不同领域已经用该数据库做了什么，还可以做什么；另一方面，我们希望这有助于感兴趣的读者了解现有研究者是如何做这些研究的。当然，囿于篇幅和精力，我们不可能囊括所有使用该数据库的文献，而是将目光聚焦于国内外的主要学术期刊或者流传较广的英文文章。
一生产率在所有使用该数据库的相关研究文献中，企业生产率是最受关注的主题之一。因为生产率是最重要的效率度量，正如克鲁格曼krugman，1997所言：生产率不是一切，但是长期来看生产率近似于一切。而且，对于计算企业生产率而言，工业企业数据库提供了加总数据所没有的独特优势。利用工业企业数据库中提供的销售额或经期第年济经界世中国工业企业数据库的使用现状和潜在问题关于其他的企业数据库，感兴趣的读者可以访问香港中文大学中国研究服务中心的网站。
济增加值表示y、固定资产表示k和职工人数表示l，采取相应的价格指数进行平减，可以计算出每个企业的劳动生产率和全要素生产率total factors productivity，简称tfp.鉴于劳动生产率不能反映资本的效率，因此多数文献以tfp作为生产率的度量。又因为制造业口径与国际产业分类更具可比性，所以现有文献在计算tfp时几乎都以制造业企业为样本。一些学者采取了传统的索洛残差法solow residual计算tfp，例如谢千里等2008与hsieh和klenow2009；一些学者采取了主流的op方法olley和pakes，1996，例如张杰等2009、余淼杰2010、聂辉华和贾瑞雪2011、杨汝岱和熊瑞祥2011以及brandt等2012；一些学者采取了lp方法levinsohn和petrin，2003，例如周黎安等2007；一些学者采取了随机边界方法sfa，例如刘小玄和李双杰2008.
二国际贸易与生产率研究密切相关的是国际贸易，更具体地说是考察企业出口与生产率的关系。根据著名的企业异质性假说melitz，2003，生产率高的企业会倾向于选择出口，即生产率和出口正相关。利用工业企业数据库，一些学者检验了这一假说对于中国企业是否成立。张杰等2009利用1999～2003年的制造业企业数据发现，出口有利于企业提高tfp，即存在出口的学习效应。而李春顶2010利用中国1998～2007年的样本发现，出口企业的平均tfp或劳动生产率低于内销企业，他认为这是生产率悖论。此外，赵伟等2011发现劳动生产率与出口选择负相关，但tfp有时与出口选择正相关。这似乎表明，利用该数据库的文献研究还没有明确地支持企业异质性假说，但lu2010对此提供了一个理论解释。还有一些学者利用工业企业数据库做了相关的研究。例如，余淼杰2010发现，贸易自由化降低关税会提高出口企业的tfp；包群等2011发现，制造业企业出口后对其员工收入的改善并不明显；杨汝岱和郑辛迎2011发现行业的垂直专业化程度对企业员工工资有差异化影响。
三外商直接投资中国加入wto已经超过10年了，外商直接投资fdi究竟在中国的经济发展中扮演了什么样的角色？亓朋等2008利用1998～2001年的制造业企业数据，考察了外资企业对内资企业tfp的溢出效应，发现在行业内溢出效应不显著，行业间和地区间均存在正的溢出效应。罗雨泽等2008使用2000和2002年的制造业企业数据，发现外商投资企业对本行业和本地区的内资企业有显著的正溢出效应。有趣的是，路江期第年济经界世聂辉华江艇杨汝岱聂辉华和贾瑞雪2011比较了几种计算tfp方法的优劣。
涌2008利用1998～2005年的制造业企业数据，发现外资企业对内资企业的溢出效应随地理距离而递减，在本市内溢出效应为正，在全国范围内为负，并且对国有企业为负，对民营企业为正。du等2012发现，外资企业对内资企业的溢出效应主要通过前向或后向产业关联实现，横向产业关联没有产生显著的溢出效应；而且，来自港澳台的外资企业和来自外国的外资企业对内资企业的影响也不相同。xu和sheng2012也得到了类似的发现。sheng等2011还发现，fdi通过后向产业关联提高了内资企业的出口价值，通过同行业的示范效应提高了内资企业的出口倾向。chen等2011发现，外资企业具有明显的工资溢价，并且对内资企业的工资有抑制作用，从而加剧了企业之间的工资不平等现象。
四研发技术创新是企业生产率的重要源泉之一，因此企业的研究开发r＆d行为也备受关注。关于r＆d的文献主要分为两类：第一类是研究r＆d或者企业创新的决定因素，主要是检验熊彼特假说；第二类是研究企业的r＆d对绩效的影响。聂辉华等2008利用2001～2005年的制造业企业数据，分析后发现企业的研发密度度量创新与规模、市场竞争之间均呈倒u型关系，而且尽管国有企业的研发密度比民营企业更高，但是研发效率更低。hu等2009发现fdi和企业改制对于促进企业研发密度有正面作用。陈林和朱卫2011使用2005～2006年的工业企业数据，根据国有经济比重区分行政进入壁垒高的行业和行政进入壁垒低的行业，发现在前一类行业中创新与市场结构之间呈倒u型关系，熊彼特假说成立；但是在后一类行业中结论相反。chesbrough和liang2007以制造业中的半导体行业为例，发现市场导向会影响企业r＆d的投资回报，即全球市场导向的企业比国内市场导向的企业能够获得更高的r＆d回报。戴觅和余淼杰2012发现，出口前的r＆d投资能够促进企业在出口后生产率的提高。
五民营化中国国有企业改革的主要成效之一，就是大量的国有企业进行了转制，即从百分之百的国有企业变成了国有控股企业或者民营企业。这一点明显地反映在国有工业企业的实收资本成分变化上。tong2009利用1998～2003年的工业企业数据，发现市场竞争的加剧、fdi集中度的上升以及预算约束的硬化是国企民营化的主要动因，而且绩效相对好的国企更有可能民营化。bai等2009研究了国企民营化的影响，发现民营化增加了销售额和劳动生产率，而这主要是通过减少管理费用来实现的。
dougherty等2007发现，民营化通过提高企业的赢利能力和生产的地区专业化水平期第年济经界世中国工业企业数据库的使用现状和潜在问题提高了企业的生产率。lu等2010发现，集体企业的私有化导致了销售成本的上升，但是也降低了管理费用。
六公司金融中国工业企业数据库包含了丰富的财务指标，因此很多学者也用它来研究企业的投资、融资和避税行为。cai和liu2009提出了一个有趣的问题：竞争是否会加剧公司规避所得税？他们识别避税程度的方式是，比较企业报告的利润和根据会计规则计算的利润之间的差额。使用2000～2005年的工业企业数据，他们发现竞争会加剧企业的避税行为。cull等2009认为，中国的银行贷款loan和商业信用trade credit之间存在一种替代关系，业绩差的国有企业会通过商业信用将银行贷款再配置给企业客户，而业绩好的民营企业比业绩差的民营企业更有可能扩展商业信用。余明桂和潘红波2010利用2004～2007年的工业企业数据发现，企业特别是私有企业会将授予客户的商业信用作为产品市场竞争的手段，这验证了商业信用的竞争假说。guari glia等2011发现，民营企业的内部融资现金流/总资产是企业增长的重要约束条件，而国有企业则不受此类约束。
七产业集聚利用企业层面的数据，我们可以得到行业或地区层面的加总数据，可以反映中国工业的产业集聚现象。使用1998～2005年的制造业企业数据，lu和tao2009考察了中国制造业集聚用eg指数衡量的决定因素，发现地方保护主义国有企业的雇佣比例是阻碍产业地区集聚的主要因素。另外一些学者考察了产业集聚对企业的影响。li等2011发现产业集聚对企业规模有显著的正面影响。lin等2011发现，产业集聚和企业生产率之间存在一种倒u型关系。yang和he2011发现贸易通过信息和分工影响到出口企业的地理集聚。
八宏观政策的微观影响利用工业企业数据库，学者们还可以研究宏观政策对企业微观行为和绩效的影响，并且以经验研究的方式为宏观政策分析提供微观基础。聂辉华等2009利用面板双重差分did模型，发现2004年实行的增值税转型政策显著地促进了企业的固定资产投资和劳动生产率，但是也减少了企业的雇佣人数。袁渊和左翔2011用did方法研究了2003～2005年浙江省扩权强县政策对企业增长的影响，发现这一政策确实提高了县域企业的销售额增长率和资产增长率。彭方平和连玉君2010利用2000～2007年的工业企业数据，发现短期内提高利息的宏观政策会导致企业的生产成本提高，从而导致通货膨胀，即货币成本。song等2011推断，金融歧视政策导致期第年济经界世聂辉华江艇杨汝岱高效率企业的储蓄率上升和快速的增长，并进而导致巨额的外汇储备和贸易顺差，然后用1998～2007年的工业企业数据对此进行了验证。
九其他与工业企业数据库有关的其他经验研究主要聚焦于就业问题。方明月等2010利用1999～2005年的工业企业数据，采取系统广义矩估计gmm方法比较了不同所有制企业的产出的微观就业弹性，发现国有企业的就业弹性低于民营企业的就业弹性。张光南等2010利用1998～2006年工业企业数据加总得到各省的基础设施、产出和就业数据，计算了基础设施对产出和就业的弹性。dong和xu2009讨论中国公共部门和私人部门之间的劳动力流动对中国经济增长的贡献。
四数据库潜在问题中国工业企业数据库为微观计量经济学研究贡献了不可或缺的素材，但是这个数据库并非完美无缺，而是问题重重。作为使用者，我们发现了工业企业数据库存在样本错配、指标缺失、指标异常、样本选择和测度误差等诸多问题。如果忽视这些问题，经验研究的结果可能不稳健，甚至可能是错误的。现有文献部分地发现了这些问题，并且提供了部分解决方法。下面，我们在现有文献的基础上，结合我们的使用经验，将工业企业数据库的潜在问题进行归纳，并且尽可能地提供解决问题的方法建议。
一样本匹配问题对于一个多年企业数据来说，整理数据的第一步就是构建一个以企业id和年份为两维的面板数据。这通常不是一个问题，但是对于中国工业企业数据库却是一个非常棘手的问题。因为在该数据库中，难以找到一个识别每个样本企业的唯一特征来进行编码。通常的做法是，根据企业代码、企业名称、法人代表姓名、地址、邮编、电话、行业代码、主要产品名称、开业时间等基本信息来识别不同的样本点是否来自同一家企业。但是因为这些基本信息在申报时没有统一格式，在缺乏有效的智能模糊匹配手段的情况下，精确匹配的可操作性不强。其中，企业代码和企业名称的准确性相对较高，可以作为我们进行匹配所依据的主要信息，比如brandt等2012就是先根据相同的企业代码识别同一家企业，然后再根据相同的企业名称进行识别，最后再参考其他基本信息。这种序贯识别法假定企业代码的准确性最高，企业名称准确性其次。也就是说共享同一企业代码的样本点必然被识别为同一企业，但同一企业的各样本点可能拥有不同的企业代码。在本数据库中，不但存在同一企业更改企业代码的情况例如在期第年济经界世中国工业企业数据库的使用现状和潜在问题发生改制或重组之后，更重要的是，还存在不同的企业共享企业代码的情况也许是统计失误。企业名称这一变量也存在类似问题。很多企业在改制、重组或者扩张时更改了企业名称。例如，中国有不少企业先是名为xx厂，然后改名为xx有限责任公司，接着又称为xx股份有限公司。有时企业名称中的地理位置也略有差异，例如从xx市机电厂变成xx机电厂。如果按照企业名称进行精确匹配会错误地识别出过多的企业。
我们建议的做法是：将企业按企业代码和企业名称分别进行两次分组，然后考察同一名称组下的企业是否分属不同的代码组。若是，则将这些不同代码组内的所有企业都归为一组对每一名称组都依此进行操作，不断重新归组，可以称之为交叉匹配；若新组内没有年份重复的观测值，则将这一组样本点识别为同一家企业；若新组内存在年份重复的观测值，则进入下一步人工识别。在人工识别阶段可能存在多种情况，需要根据数据特征和基本信息进行综合判断。例如，同一组内的样本点可能属于同一家企业，只是其中某些年份有两个观测值，这两个观测值只需要保留一个，另一个完全重复或关键变量均缺失。同一组内的样本点也可能属于不同企业，但其中可能存在企业代码登记错误的情况，此时需要参照企业名称、法人代表姓名、地址、行业代码、销售额或注册资本等关键变量的数量级等信息进行分类，确定哪些样本属于同一家企业。我们发现，使用交叉匹配方法后，大约有10的观测值大约20万个属于名称相同但法人代码不同或者相反的情况。显然，如果忽视匹配问题会严重地影响样本的真实性和准确性。
除了企业匹配存在一些障碍，产业匹配也有一些问题。使用者必须注意到，2002年前后统计局使用了两种产业分类标准：2002年及其之前的年份为gb/t 4754－1994，2002年之后为gb/t 4754－2002.两种行业分类标准在两位数行业上没有差异，在三位数行业上有一些差异，在四位数行业上有较大差异。杨汝岱和郑辛迎2011与杨汝岱和熊瑞祥2011将1994gb四位数行业分类对应到2002gb三位数行业分类，这是一种可供参考的做法。
二指标缺失问题工业企业数据库每年的统计对象和口径都有所不同，导致一些重要指标在若干年份缺失。首先，有些工业企业数据库直接将2004年的经济普查数据与其他年份混编在一起，而没有和其他年份进行匹配。这导致2004年的数据缺少工业总产值、工业增期第年济经界世聂辉华江艇杨汝岱最近，很多研究将工业企业数据库和海关数据库结合起来。对于此类研究的某些主题，还需要将国民经济行业分类与海关hs产品分类对应起来，具体分析可以参考杨汝岱2008.
加值、出口交货值和研究开发费等重要指标。与此同时，和2004年相比，其他年份又缺少关于工会、男女职工的学历和技术职称等指标。因此，使用者在分析数据之前，应该先查看2004年数据和其他年份数据之间的指标差异。
其次，2003年前后的指标也有一些不同。例如，2001年之前的数据不包括研发费用。有些数据库中1999～2003年的工业企业数据没有工业增加值，也没有应收账款，但是有应收账款净额。根据会计准则，应收账款净额=应收账款总额－坏账准备期末余额，因此两者不能简单地比较。在缺失工业增加值的年份，使用者可以根据会计准则估算工业增加值：工业增加值=工业总产值－工业中间投入增值税。在没有工业总产值的年份例如2004年，估算公式为：工业增加值=产品销售额－期初存货期末存货－工业中间投入增值税。刘小玄和李双杰2008就采取了这种估算方法。
我们用第一个公式估算了2005～2007年的工业增加值，发现平均而言估算值略小于报告值。当使用者用工业增加值来计算生产率时，应注意到这种差别。
报告的和估算的工业增加值比较千元报告值计算值观测值个数说明：报告值和估算值皆为均值，且计算时未剔除异常观测值。
需要特别指出的是，尽管工业企业数据库提供了企业的出口交货值，但据此只能判断企业是否出口，而无法区分出口类型是加工贸易还是一般贸易。对于劳动密集型的加工贸易企业而言，其劳动生产率和全要素生产率很可能低于一般贸易的出口企业。另外，加工贸易是发展中国家的特殊现象。如果不区分两类出口企业，简单地将全部出口企业的效率与内销企业的效率相比，那么得到出口企业的平均效率低于内销企业也就不足为奇了。
事实上，dai等2011将工业企业数据与海关数据匹配，在剔除了加工贸易企业之后，发现生产率悖论并不存在。
三指标异常问题尽管工业企业数据库包含了130多个指标，但是有相当多的指标存在异常值。异常值的存在使得很多观测值无效，因此在进行计量回归前必须予以剔除。我们注意期第年济经界世中国工业企业数据库的使用现状和潜在问题在这个意义上，我们认为工业企业数据库本身可能不适于检验国际贸易的企业异质性假说。
一些学者对工业企业数据库和海关数据库进行了匹配，但由于原始数据结构和方法各异，匹配效果差别甚大。yu2011根据邮编和电话等信息匹配了海关库30的出口企业，而tang2011匹配了工业库70的出口企业。yang和he2011以企业名称、邮编、电话等信息为基础，采用关键词数据库搜寻匹配方法，匹配了海关库60的出口份额。
到，cai和liu2009使用了比较全面的剔除方式，因此被较多的研究者所借鉴。第一步，他们剔除了关键指标例如，总资产、职工人数、工业总产值、固定资产净值和销售额缺失的观测值；第二步，他们剔除了不满足规模以上标准的观测值，即固定资产净值低于1000万元，或者销售额低于1000万元，或者职工人数少于30人的观测值；第三步，他们剔除了一些明显不符合会计原则的观测值，包括总资产小于流动资产，总资产小于固定资产净值，或者累计折旧小于当期折旧的观测值；第四步，他们剔除了关键指标的极端值前后各0.5.
以1999～2007年为例，我们分析了指标异常问题。首先，在总共2048 833个观测值中，我们剔除了销售额、职工人数、总资产或固定资产净值缺失的观测值5900多个，约占全部观测值的0.3.其次，我们根据谢千里等2008的做法，剔除了职工人数少于8人的观测值28 000多个这些企业缺乏可靠的会计系统，约占总数的1.
再次，我们剔除了总资产小于流动资产，总资产小于固定资产净值，或者累计折旧小于当期折旧的观测值200多个。最后，我们剔除了销售额低于500万元的观测值176 500多个，约占总数的9.经过上述四个步骤，我们总共剔除了大约20万个观测值，约占总数的10.尽管进行了上述剔除，但是我们仍然发现有不少观测值属于异常值。例如，如果按照bai等2009的标准，利润率低于0.1或者高于99的观测值均为异常值，那么这部分异常值还有大约43万个，约占总数的23.或者我们使用一种比较宽松的标准，会发现实收资本小于或等于0的异常观测值有11 000多个，约占总数的6.因此，即便做了上述剔除，使用者仍然需要剔除计量方程的关键变量或参数所对应的异常值。我们将未做任何剔除的主要指标的异常情况总结为表3.
主要指标的异常情况剔除标准异常值个数观测值总数异常值比例销售额、职工人数、总资产或固定资产净值缺失职工人数少于8总资产小于流动资产，总资产小于固定资产净值，或者累计折旧小于当期折旧销售额低于500万元利润率低于0.1或者高于99实收资本小于或等于0期第年济经界世聂辉华江艇杨汝岱他们使用的规模以上的标准不同于官方标准销售额在500万元以上。
四测度误差问题国家统计局在收集工业企业数据时，不是一次性交给企业一份报表，而是让企业通过年报和定期上报的方式将数据报告给统计局，然后统计局再进行汇总。事实上，企业上报系统至少包括四套表格：综合年报表、综合定报表、基层年报表和基层定报表。这意味着，由于统计时间或者统计口径不同，即使对同一个指标，企业在不同时间上报的数值也可能不一样。另外，很多规模不大的企业仍然缺乏可靠的会计系统，或者为了避税而瞒报，甚至错报有关指标，这些都会导致测度误差问题。
以研发费为例。在2001～2007年不含普查年份2004年，在总共140多万个观测值中，研发费显示为0的观测值有120多万个，占总数的89.研发费报告为0的有3种情况：1企业没有研发支出，因此研发费确实为0；2企业不清楚，任意地报告0；3企业没填写此项，统计人员直接赋值0.如果是第1、2种情况，那么这更可能发生在中小企业身上。于是，我们剔除了销售额低于3亿元的中小企业，又剔除了出口企业，发现在剩下的28 000多个观测值中，研发费显示为0的仍然有20 000多个，比例超过70.这里提醒研究者注意两点：第一，如果绝大多数中小企业没有研发费，并且这是真实的情况，那么在分析企业研发支出或创新的决定因素时，最好使用tobit截断模型例如聂辉华等，2008，因为这比最小二乘法ols回归更可能得到一致估计；第二，如果我们无法区分第2、3种情况，那么研发费这一指标的准确性和真实性就值得怀疑，此时用工业企业数据库来分析研发的决定因素或者研发绩效可能是不恰当的。
存在明显测度误差的其他指标主要是利润和增加值。由于企业报告的利润和增加值与企业的税负正相关，因此企业在监管不力的前提下可能会低报或误报这两个指标。事实上，cai和liu2009根据会计准则估算了企业的利润=工业总产值－中间投入－财务费用－工资－当期折旧－增值税，然后发现在2000～2005年间，估算利润率均值为0.1431，而企业报告的利润率均值为0.0515，后者比前者少了2 /3以上。
此外，根据我们前面对2005～2007年间工业增加值的估算，可以发现估算的工业增加值要略小于报告的工业增加值。
另一个不属于经典测度误差但是与此有关的问题是虚假指标问题。在1999～2007年间，根据注册类型，有大约1 /5的观测值大约40万个属于外资企业包括港澳台商投资企业和外商投资企业。这一比例之高超乎我们的直觉，因为众所周知的事实是，外资企业可以享受各种税收优惠。进一步分析发现，这些样本企业虽然登记为外资企业，但是在其实收资本份额中，有6的港澳台资本或外商资本金额为0，其期第年济经界世中国工业企业数据库的使用现状和潜在问题中有一半左右的登记注册号明确标明了外资身份例如注明企合津总字第xx号。这有两种可能，一是这些企业以前是外资企业，但是变更了实收资本之后没有及时变更登记注册类型；二是这些企业错误地填报了注册类型。剩下的94的外资企业，我们无法确认其真实身份，也难以排除其中的假外企。
五样本选择问题在样本选择方面，工业企业数据库的一个突出问题是，包括了全部的国有工业企业，但是只包括了规模以上的非国有工业企业。因此，当使用者要对比国有企业和非国有企业的行为及绩效时，最好将规模以下的国有企业样本剔除。而当使用者在研究产业集聚问题时，可能会低估非国有企业的集聚程度lu和tao，2009.但规模以上的样本并非都是随机的。在1999～2007年间的总共200多万个观测值中，只有大约8的企业每年都存在，有大约22的企业在最后三年都存在。一个企业某年不在样本中，可能是因为当年销售额小于500万元，也可能是因为破产、重组或者更改名称等原因，还有可能是被漏报。在这种情况下，我们难以严格地界定企业的进入和退出，因此研究者在用这个数据库分析企业动态学时必须力争解决或减缓这个问题。
另外，该数据库中包含了企业所在地的详细信息，使用者可以识别出企业是否处于经济特区或经济开发区。因为经济特区或经济开发区的企业具有自身的特点，这种区分有助于减少企业在比较生产率、产业集聚、利润率以及融资成本等方面的样本选择问题。还有一个比较棘手的问题是，统计局对企业的统计口径是法人企业，而不是企业集团或工厂。因此，有很多属于同一个企业集团的企业会被认定为不同的企业，而多个工厂的差别则会被掩盖在企业内部。
六变量定义问题分析中国的企业不可能忽略企业的所有制问题。我们注意到，现有文献在识别企业的所有制时通常采取两种方式：注册类型或实收资本。这两种识别企业所有制的方法其实是有差别的。前者表示企业在工商局登记注册时的类型，后者能够表示企业当时的真实控股类型。我们不妨将注册类型为国有、国有联营、国有与集体联营、国有独资公司这几类企业定义为i类国有企业，同时根据实收资本将国有资本比例超过50的企业定义为ii类国有企业。在1999～2007年工业企业数据库中，在剔除了实收资本为异常值的观测值之后，i类国企有245 376个观测值，ii类国企有252 629个观测值，后者比前者多3左右，两者重合的观测值大约占i类国企的84，这意味着至少有15的国有企业虽然注册类型是国有企业，但是已经不是真正的国有业企了。由于控股比例更能及时地反映企业的所有制类型，因此我们建议使用者最好期第年济经界世聂辉华江艇杨汝岱使用实收资本比例来定义企业所有制。
外资企业的识别也存在类似的问题。根据中国的法律，外资企业的投资比例原则上不低于25.尽管有大约1 /5的观测值的注册类型显示为外资企业，但是其中有10观测值的港澳台商投资或外商投资比例低于25.一些研究者以外商的实收资本比例是否超过25作为识别外资企业的方法路江涌，2008.
除了所有制类型，一个难以准确定义的变量就是资本。理论上，资本是固定资产存货和投资流量的加总。多数文献的做法是，将资本定义为固定资产原价或者固定资产净值，然后采取永续盘存法来计算投资i it－1，其中i表示投资，k率的选取通常是5、10或15.此外，还应该采取不同的价格指数对产值、资本、投资和中间投入等变量进行平减。我们必须提醒使用者的是，不同的资本定义方法、折旧率以及价格平减指数会得到不同的结果。brandt等2012提供了比较详细的说明和操作程序。
陈林、朱卫2011：《创新、市场结构与行政进入壁垒―――基于中国工业企业数据的熊彼特假说实证检验》，戴觅、余淼杰2012：《企业出口前研发投入、出口及生产率进步》，北京大学工作论文。
李春顶2010：《中国出口企业是否存在生产率悖论：基于中国制造业企业数据的检验》，《世界经济》第7期。
刘小玄、李双杰2008：《制造业企业相对效率的度量和比较及其外生决定因素2000―2004》，《经济学罗雨泽、朱善利、陈玉宇、罗来军2008：《外商直接投资的空间外溢效应：对中国区域企业生产率影响的经聂辉华、谭松涛、王宇锋2008：《创新、企业规模和市场竞争―――基于中国企业层面面板数据的证据》，《世聂辉华、方明月、李涛2009：《增值税转型对企业行为和绩效的影响―――以东北地区为例》，《管理世界》第期第年济经界世中国工业企业数据库的使用现状和潜在问题每个企业报告了总的实收资本以及国有、集体、法人、私人、港澳台和外商等6种成分的实收资本数额，因此企业的其他所有制类型也可以通过实收资本比例来识别。
亓朋、许和连、艾洪山2008：《外商直接投资企业对内资企业的溢出效应：对中国制造业企业的实证研究》，杨汝岱、熊瑞祥2011：《干中学与中国工业企业出口生产率》，湘潭大学工作论文。
杨汝岱、郑辛迎2011：《垂直专业化对员工工资的差异化影响》，湘潭大学工作论文。
张光南、李小瑛、陈广汉2010：《中国基础设施的就业、产出和投资效应―――基于1998－2006年省际工业企张杰、李勇、刘志彪2009：《出口促进中国企业生产率提高吗？―――来自中国本土制造业企业的经验证据：赵伟、赵金亮、韩媛媛2011：《异质性、沉没成本与中国企业出口决定：来自中国微观企业的经验证据》，《世期第年济经界世聂辉华江艇杨汝岱截稿：2012年3月责任编辑：王徽期第年济经界世中国工业企业数据库的使用现状和潜在问题

作者：未知点击：12461次 [打印] [关闭] [返回顶部]

本文标签：中国工业企业数据库的使用现状和潜在问题

* 由于无法获得联系方式等原因，本网使用的文字及图片的作品报酬未能及时支付，在此深表歉意，请《中国工业企业数据库的使用现状和潜在问题》相关权利人与机电之家网取得联系。

关于“中国工业企业数据库的使用现状和潜在问题”的更多资讯

更多>>

企业电网有一定的辅助系统

中国工业企业数据库的使用现状

高能耗工业企业智能用电及能

厂矿企业配电网低压侧

中国工业企业数据库的使

目前的企业实力和市

加强电力市场监管体制

资源配置的基本调节

制造企业的工艺装备水

目前的企业实力和市场选择

天瑞集团是国内外知名的集铸造

加强电力市场监管体制负责电力

选矿企业发展改造理论信息

网上交易成大流浙企业获得“

钢铁企业电力变压器淘汰高能耗

电子制造企业的无铅化进程

周排行
月排行
阅读排行

电子样本

24000转高速电机

：曾先生

：13826940926

：东莞市晟发机电有限公司

个人求购

罗【求购】固定锥形阀  2024-4-26
马兆骏【求购】西门子隔离...  2024-4-26
杨女士【求购】不锈钢防爬...  2024-4-25
胡经理【求购】冷风机  2024-4-25
胡女士【求购】 SEW-电...  2024-4-25
叶经理【求购】防爆灯  2024-4-25
毛毛雨【求购】手工岩棉彩...  2024-4-25
王【求购】彩钢板  2024-4-25

VIP公司推荐