دادههای پانلی
دادههای پانلی در آمار و اقتصادسنجی، مجموعه دادههای پانلی شامل مشاهداتی برای چندین بخش (خانوار، بنگاه و...) هستند که در طی زمانهای مختلف جمعآوری شدهاند. یعنی یک مدل دادههای پانل حاوی اطلاعاتی در زمان و مکان است که شامل N مؤلفه در T دورهٔ زمانی است.
اگر تعداد مشاهدات زمانی برای تمام مؤلفههای موجود در پانل یکسان باشد، به آن پانل متوازن (Balanced Panel) گفته میشود، اما درصورتیکه مشاهدات مفقودهای برای تعدادی از مؤلفهها وجود داشتهباشد، پانل را نامتوازن مینامیم.
مزایای دادههای پانل
۱- محققان میتوانند از دادههای پانلی برای مواردی که مسائل را نمیتوان صرفاً بهصورت سری زمانی یا برشهای مقطعی بررسی کرد، بهره گیرند. مثلاً در بررسی تابع تولید مسئلهای که وجود دارد این است که بتوان تغییرات تکنولوژیک را از بهرهوری نسبت به مقیاس TFP تفکیک کرد. در اینگونه موارد دادههای مقطعی فقط اطلاعاتی را در مورد صرفههای به مقیاس فراهم میآورد. در حالی که دادههای سری زمانی اثرات هردو را بدون هیچ گونه تفکیکی نشان میدهد. تلفیق دادههای سری زمانی با دادههای مقطعی نهتنها میتواند اطلاعات سودمندی را برای تخمین مدلهای اقتصادسنجی فراهم آورد، بلکه بر مبنای نتایج بهدستآمده میتوان استنباطهای سیاستگزاری درخور توجهی نیز به عمل آورد.
۲- دادههای پانلی حاوی اطلاعات بیشتر، تنوع گستردهتر و همخطی کمتر میان متغیرها بوده و در نتیجه کاراتر میباشند. درحالیکه در سریهای زمانی همخطیِ بیشتری را بین متغیرها مشاهده میکنیم. با توجه به اینکه دادههای پانلی ترکیبی از سریهای زمانی و مقطعی میباشد، بعد مقطعی موجب اضافه شدن تنوع زیادی شده و در نتیجه برآوردهای معتبرتری را میتوان انجام داد. در اینجا تعداد مشاهدات ما به NT افزایش یافته که منجر به برآوردهای کاراتری از متغیرها میشود. این امر را میتوان در محاسبه واریانس جامعه مشاهده کرد. در دادههای سری زمانی این واریانس بهصورت σ^2=σ2/N-K محاسبه میشود ولی در دادههای پانلی بهصورت σ^2=σ2/NT-N-K قابل محاسبه است. چون مخرج کسر دومی بزرگتر از کسر اولی است، پس واریانس دادههای پانلی کمتر بوده و بنابراین تخمین کاراتری خواهد داشت.
۳- دادههای پانلی امکان طراحی الگوهای رفتاری پیچیده تری را فراهم میکنند.
۴- دادههای پانلی امکان بیشتری را برای شناسایی و اندازهگیری اثراتی فراهم میکنند که با اتکای صرف به آمارهای مقطعی یا سری زمانی بهسادگی قابل شناسایی نیستند.
روشهای تخمین مدل
نمونه مدلی که برای توضیح رفتار متغیرها در این نوع دادهها میتوان ساخت بهصورت زیر است:
که در آن β یک بردار k*1 از پارامترها،
قبل از هر چیز، باید نوع دادهها از جهت پانل یا پولین بودن مشخص شود که برای این منظور از آزمون لیمر استفاده خواهد شد که دارای آمارهٔ F است. در اینجا دو حالت وجود دارد؛ یا دادههای ما از نوع پولینگاند که باید با استفاده از روش اثرات مشترک تخمین زده شوند، یا دادهها از نوع پانل هستند کا باید با استفاده از یکی از دو روش اثرات پابت یا اثرات متغیر، که در ادامه ارائه شدهاند، تخمین زده شوند (عزتالله لطفی، ۱۳۹۱).
نخست مدل اثرات ثابت که در آن ها N پارامتر نامعلوم ولی ثابت هستند و دیگری مدل اثرات تصادفی که در آن عرض از مبدأ ثابت نبوده و تصادفی است و همچنین مستقل از متغیرهای توضیحی میباشد.
مدل اثرات ثابت
در این مدل هر یک از مؤلفهها یک مقدار ثابت مخصوص به خود دارد و بهدلیل آنکه برای کار کردن با هر یک از این مقادیر ثابت، یک متغیر مجازی دز نظر گرفته میشود، تخمین زن اثرات ثابت، تخمین زن متغیرهای مجازی حداقل مربعات (LSDV) نیز نامیده میشود. این مدل را میتوان به شکل زیر نوشت:
مدل اخیر یک مدل رگرسیونی کلاسیک بوده و هیچ شرط جدیدی برای تجزیه و تحلیل آن لازم نیست و میتوان مدل را با استفاده از OLS برآورد کرد.
مزیت مدل با اثرات ثابت این است که میتواند اثراتی را که در هر یک از مؤلفهها متفاوت است ولی در طول زمان تغییر نمیکند، نشان دهد. البته پس از تشکیل مدل دیگر نمیتوان به آن متغیری افزود که در طول زمان تغییر نکند، چرا که با اثرات ثابت موجود همخطی کامل پیدا خواهد کرد. از سوی دیگر عیب چنین مدلی این است که در آن باید برای هریک از متغیرهای مجازی یک ضریب و در مجموع N ضریب تخمین زد. این امر هنگامی که تعداد مؤلفهها یعنی N خیلی زیاد باشد، که معمولاً نیز چنین است، مسئله ساز خواهد شد.
برای برطرف کردن این مشکل یک راه آن است که میانگین زمانی هر یک از متغیرها را از مقدار اصلی آنها کم کنیم. با این کار به مدلی میرسیم که فاقد عرض از مبدأ خواهد بود و میتوانیم روش حداقل مربعات معمولی را برای آن اجرا کنیم که مراحل تکنیکیِ آن در زیر آورده شده است:
where
روش دیگر آن است که تفاضل مرتبه اول متغیرها را به جای آنها در مدل به کار ببریم. در این صورت نیز عرض از مبدأ از مدل حذف میشود و مشکل تعداد زیاد پارامترها برای تخمین نیز برطرف میشود:
where
مدل اثرات تصادفی
یک روش جایگزین برای تخمین مدل اثرات ثابت، تخمین مدل اثرات تصادفی است. تفاوت چنین مدلی با اثرات ثابت این است که در آن عرض از مبدأ مختص هر یک از متغیرها مقادیر ثابتی نیستند، بلکه بهصورت تصادفی انتخاب میشوند. لذا مقدار
فرم کلی چنین مدلی بهصورت روبرو میباشد:
برای تخمین این مدل باید توجه داشت که در این حالت واریانسهای مربوط به مقاطع مختلف با هم یکسان نبوده و مدل ما دچار واریانس ناهمسانی میباشد که باید از با استفاده از برآوردگر GLS آن را تخمین زد. بهصورت زیر:
که در آن
با معرفی این دو روش سؤالی که پیش میآید این است که در عمل ما بایستی کدامیک از روشهای مذکور را استفاده کنیم. برای تصمیمگیری از آزمون هاسمن کمک میگیریم.
آزمون هاسمن
برای آنکه بتوانیم بین مدلهای اثرات ثابت و اثرات تصادفی ازنظر قدرت توضیح دهندگی متغیر وابسته مقایسهای انجام دهیم، از آزمونی به نام آزمون هاسمن استفاده میکنیم. از آنجا که برای انجام مقایسه بین این دو مدل باید وجود همبستگی بین اثرات تصادفی (
آماره این آزمون بهصورت زیر است:
چنانچه آماره آزمون محاسبه شده بزرگتر از مقدار جدول باشد، فرضیه H0 رد شده و همبستگی وجود داشته و در نتیجه باید از روش اثرات ثابت استفاده کرد.
پانویس
منابع
- Verbeek، Marno. A Guide to Modern Econometrics، 2nd edition،John Wiley &Sons 2004
- http://en.wikipedia.org/wiki/Panel_data
- https://web.archive.org/web/20180809185624/http://dpzs.ir/
- https://web.archive.org/web/20100414005722/http://www.srtc.ac.ir/dic2.htm
جستارهای وابسته
- دادههای پانلی چند بعدی
- اقتصاد سنجی
- سری زمانی