پایه استفاده از آمار، جمع آوری داده ست. حالا بیاید راجع به این صحبت کنیم که داده چه ویژگی هایی میتونه داشته باشه و چه انواعی داره. خب اول بگیم داده چیه؟ داده توی یه تعریف میتونه همه دانسته ها، آگاهی ها، داشته ها و همه اطلاعات مختلفی باشه که توی دنیای اطرافمون وجود داره و ما اون ها رو جمع آوری میکنیم. در واقع داده، بیان ساده اون چیزهاییه که میخوایم مطالعه شون کنیم. این داده ها ممکنه منظم یا کامل نباشن یا تعدادشون خیلی زیاد باشه و پیدا کردن الگوهای مختلف و روابطشون با همدیگه سخت باشه. ممکنه دسترسی نداشته باشیم که داده های زیادی رو جمع آوری کنیم یا ممکنه مردد باشیم که چه روشی برای جمع آوری آمار بهتره. مسلط بودن به علم آمار به ما کمک میکنه که بتونیم با این داده ها ارتباط برقرار کنیم، اون ها رو دسته بندی و طبقه بندی کنیم و از اون ها برای پیش بینی آینده استفاده کنیم.

در واقع داده یه جورایی مواد اولیه ایه که علم آمار لازم داره تا بتونه به ما برای شناخت بهتر دنیای پیرامونمون کمک کنه. برای همین مهمه که داده رو بهتر بشناسیم. هر چی مواد اولیه بهتر و مرغوب تر باشن، خروجی که همون استنتاج آماریه به دردبخورتر و مرغوب تر میشه.

وقتی میخوایم ببینیم یه نظریه یا همون تئوری علمی توی دنیای واقعی درسته یا نه، یا حتی وقتی میخوایم یه نظریه جدید بسازیم. به داده نیاز داریم. داده زمینه این رو فراهم میکنه که نظریه ها با دنیای واقعی پیوند بخورن. این تئوری ها قراره به درد پیش بینی آینده بخورن و ما از روش های آماری استفاده میکنیم برای اینکه ببینیم نظریات چقدر در این زمینه موفق عمل میکنن یا اگه خوب نیستن، اون ها رو تغییر بدیم. پس داده ها و بعد تحلیل های آماری در واقع یکی از مهم ترین ابزارهای ما برای شناخت دنیای پیرامونمون هستن.

رابرت سولو اقتصاددان معروف، میگه: «داده ها تبیین می طلبند و تبیین ها داده های جدید». این داده ها هستند که تئوری ها رو شکل میدن و البته داده های مختلف میتونن پایه تئوری های خیلی مختلفی باشن، چیزهایی که حتی ظاهرا خلاف هم به نظر میرسن. اما بعد از اون تکمیل داده ها یا تعمیم اون ها به نظریه های جامع تر، نیاز به داده های جدیدتر و بیشتر داره.

داده ها مقدار متغیرها رو تعیین میکنند. متغیرها ویژگی افراد یا مواردی هستن که داریم اون ها رو مطالعه و بررسی میکنیم. یه متغیر میتونه مقادیر متفاوتی رو به ازای افراد مختلف بگیره. مثلا وقتی میخوایم بفهمیم چند نفر در یک استان کرونا گرفتند، تعداد مبتلایان استان متغیره که میتونه برای هر استان متفاوت باشه و وقتی فهمیدیم تعدادشون 1000 نفره، اینکه تعداد مبتلایان استان فلان 1000 نفر هست میشه داده.

یا مثلا وقتی میخوایم ببینیم کدوم یک از اعضای فامیلمون عید رفتن شمال، اعضایی که عید رفتن شمال میشه متغیر و داده میشه اینکه پسرخاله و دایی مون رفتن شمال. پس متغیر، اون چیزیه که میخوایم مقدارشو بدونیم و داده تعیین میکنه که مقدار متغیر چی بوده.

اگر بخوایم ببینیم که داده ها چه انواعی دارند، سه دسته اصلی میشه برای داده ها معرفی کرد: داده های عددی، طبقه ای و ترتیبی.

دسته اول داده ها، داده های عددی هستند. این داده ها این اطلاعات رو به ما منتقل میکنن که یه چیزی چقدره، چندتاست یا مقدارش چه میزانه. داده های عددی ممکنه گسسته باشند یا پیوسته. یعنی ممکنه ما یه دونه یه دونه بشماریم که تعداد اون شی چندتاست یا ممکنه مقدارش رو به عنوان یه عدد اعشاری بیان کنیم.

مثلا اینکه خانوادمون چند نفره

کشورمون چقدر جمعیت داره

تا حالا چند تا رئیس جمهور داشتیم

چند تا هندوونه خریدیم

خونمون چند تا اتاق داره

یا یه کارخونه چند تا لیوان تولید میکنه

نمونه هایی از متغیرهای عددی گسسته هستند. چون مقدار این متغیرها یه دونه یه دونه کم یا زیاد میشن.

مثلا ما نمیتونیم بگیم خانوادمون 3.75 نفر جمعیت داره. یا تا حالا 6.12 لیوان تولید کردیم.

اما مثلا وقتی بخوایم بدونیم فاصله تهران تا کرج چقدره

وزن پنج تا موز چند کیلوئه

یه پاکت شیر چقدر شیر توش داره

یا یه کولر گازی چقدر برق مصرف میکنه

داریم در مورد متغیرهای عددی پیوسته سوال میپرسیم. چون مقدار این متغیرها میتونه عدد اعشاری هم باشه. مثلا ممکنه وزن پنج تا موز یک کیلو نباشه، بلکه یک کیلو و 735 گرم باشه.

خیلی از متغیرهای عددی دارای واحد اندازه گیری یا یکا هستند. خب با این مفهوم حتما آشنا هستید. یکا، یه مقدار ثابت و معین از یه کمیت ه که برای اندازه گیری مقادیر مختلف اون حساب میشه. مثلا برای جرم از واحد کیلوگرم استفاده میکنیم یا برای سن از واحد سال استفاده میکنیم.

البته لازم نیست همه متغیرهای عددی واحد داشته باشند. یه مثالش شاخص قیمت مصرف کننده بود که گفتیم واحد نداره و به عنوان یه عدد اعلام میشه.

داده های عددی که یک واحد دارن رو میشه با هم مقایسه کرد. مثلا وزن دو تا چیز قابل مقایسه ست یا دو تا فاصله مختلف. میتونیم بفهمیم که مقدار این داده ها کمتر یا بیشتر از هم هستن یا چقدر کمتر یا بیشترن. مثلا وقتی میگیم وزن یه خربزه 3 کیلوئه و وزن یه طالبی 2 کیلو و هفتصد گرم، هم میتونیم بگیم خربزه سنگین تره و هم میتونیم به صورت دقیق بگیم 300 گرم سنگین تره.

دسته دیگه ای از داده ها، داده های ترتیبی هستند. داده های ترتیبی داده هایی هستند که میتونن به دسته های مختلف تقسیم بشن و این دسته ها نسبت به هم اولویت های مختلف دارن. اینکه داخل یه دسته چه چیزی قرار میگیره، مثلا یه عدده یا چیز دیگه، اهمیتی نداره و ما درصدد مقایسه اون ها با هم یا توجه ویژه به اون ها نیستیم. بلکه وجود داده ها توی اون دسته کلی ه که مهمه و اون دسته های کلی نسبت به هم اولویت های مختلفی دارن.

بذارین برای روشن تر شدن بحث مثال بزنیم. دسته بندی هتل ها براساس تعداد ستاره شون

دهک بندی درآمدی؛ یعنی تعیین ده دسته مختلف که به ترتیب نشون دهنده کمترین درآمد تا بیشترین درآمد افراد جامعه ست و تقسیم بندی آدم ها در این ده دسته

یا تفکیک سطوح تحصیلات به دیپلم، لیسانس، فوق لیسانس و دکترا

یا سطوح مختلف کارمندهای یه اداره مثل کارشناس و کارشناس مسئول و رئیس اداره

این ها همه انواعی از متغیرهای ترتیبی هستند. ترتیبی به این معنیه که وقتی میگیم یه هتل 3 ستارست، یعنی وضعیتش از یه هتل دو ستاره بهتره و از یه هتل پنج ستاره بدتره. یا وقتی میگیم یه کسی توی دهک دومه، یعنی وضعیت مالیش از دهک اول بهتره و از دهک چهارم بدتره.

همونطور که گفتیم، نسبت و ترتیب داده های داخل یه دسته خیلی اهمیتی نداره. اما ممکنه بتونیم در مورد این داده ها وقتی کنار هم هستند یه سری اطلاعاتی داشته باشیم. مثلا به تعداد داده ها توی هر دسته میگن فراوانی مطلق اون دسته یا به اختصار فراوانی دسته.

فراوانی نسبی دسته میشه فراوانی مطلق تقسیم بر تعداد کل داده ها.

فراوانی تجمعی هر دسته هم یعنی تعداد داده هایی که تا پایان اون دسته قرار دارند. مثلا فراوانی تجمعی هتل های سه ستاره، تعداد همه هتل هاییه که حداکثر سه تا ستاره دارند. یا فراوانی تجمعی لیسانسه ها، تعداد همه کساییه که دیپلم یا لیسانس دارند.

نوع دیگه داده ها، داده های طبقه ای هستند. داده های طبقه ای داده هایی هستند که به یه شیء خاص، صفت مشخصی رو نسبت میدن. مثلا میگن که میوه آلو از میوه های تابستانی هست. در این صورت آلو در طبقه میوه های تابستانی قرار میگیره. یا مثلا اسکناس از انواع پول است. پس اسکناس در طبقه پول ها قرار میگیره.

توی این مدل از دسته بندی داده ها هم میتونیم مفهوم فراوانی مطلق و فراوانی نسبی رو شبیه داده های ترتیبی داشته باشیم. البته چون دسته میوه های تابستانی به میوه های زمستانی یا پاییزی اولویتی ندارن، دیگه خبری از فراوانی تجمعی نیست.

اگر بخوایم یه جمع بندی داشته باشیم در مورد اینکه انواع داده ها چیا بودن، گفتیم داده مواد اولیه علم آماره و کیفیت بالاش، باعث میشه ابزارهای آماری کارآمدتر عمل کنن. سه نوع داده داریم: داده های عددی که مقدار یه چیز رو میسنجن و به دو دسته گسسته و پیوسته تقسیم میشن. گسسته ها یکی یکی کم و زیاد میشن و پیوسته ها میتونن مقدار اعشاری هم داشته باشن. نوع دیگه داده ها داده های ترتیبی بود که یعنی داده های توی دسته هایی قرار میگیرن که نسبت به هم اولویت دارن. مثه سطوح مختلف تحصیلات یا درجه بندی هتل ها. نوع سوم هم داده های طبقه ای بودن که به یه صفت از اشیاء مختلف اشاره میکردن. مثلا میوه تابستانی یا میوه پاییزی بودن صفتیه که بعضی میوه ها دارند. یا آبزی بودن صفتیه که بعضی از حیوانات دارند.

خب حالا بعد از اینکه با انواع داده آشنا شدیم، باید بگیم که برای انجام هر پژوهش یا بررسی هر موضوعی از نگاه آماری، نیاز داریم که به چن تا سوال جواب بدیم. سوال اول اینه که ببینیم هدفمون از جمع آوری داده چیه و چرا میخوایم داده جمع آوری کنیم. خب طبیعیه که اهداف ما سطح بندی و طبقه بندی داشته باشن. مثلا ممکنه ما در یه نگاه کلان بخوایم یه تحقیقی کنیم که بفهمیم وضعیت اقتصاد کشور چیه و به چه سمتی داره حرکت میکنه. ولی باید یه مساله و سوال دقیق بذاریم روی میز تا بتونیم جواب دقیقی رو براش ارائه بدیم.

اما سوال دقیق ما میتونه این باشه که وضعیت اشتغال و بازار کار چطوره؟ یا وضعیت صادرات و واردات به چه شکله؟ یا وضعیت بازار کالاهای مختلف چی هست؟

خب وقتی هدفمون مشخص شد، این هدف البته تا حدی به ما نشون میده که چه داده ای رو باید جمع آوری کنیم، ولی واقعیت اینه که ما خودمون هم اینجا خیلی نقش تاثیرگذاری داریم و باید سعی کنیم هم از طریق پرس و جو و مطالعه کارهای دیگران و هم از طریق فکر کردن خودمون، داده هایی رو جمع آوری کنیم که با طبقه بندی و تحلیلشون به جواب مورد نظر برسیم. یعنی بالاخره یه جوابی برای این سوال که وضعیت بازار کار یا وضعیت واردات چطوره بتونیم ارائه بدیم.

اگه بخوام مثال بزنم، مثلا برای فهمیدن اینکه وضعیت بازار کار چطوره ممکنه ما بریم از مردم عادی سوال کنیم و داده هامون برگرفته از نظرات مردم باشه. یه حالت دیگش اینه که بریم از کارشناسان و تحلیلگران اقتصادی در این زمینه سوال کنیم. حالت بعدیش اینه که داده های مربوط به تعداد بیکاران و تعداد شاغلان رو جمع آوری کنیم و سعی کنیم اون ها رو تحلیل کنیم. و حالت بعدیش اینه که در مورد میزان استقبال از مشاغل مختلف به تفکیک شهر و روستا داده جمع آوری کنیم.

همه این داده ها، سرنخ هایی از اینکه وضعیت بازار کار چطوره به ما ارائه میدن، ولی ممکنه فقط بعضیشون به درد ما بخوره. مثلا ممکنه اگه سوالمون رو دقیق تر کنیم، اصلا منظورمون این نبوده باشه که چند نفر نجار هستند و چند نفر بنا، بلکه منظورمون این بوده که چند نفر اساسا شغل دارند و چند نفر بیکارند، یا برعکس. یا ممکنه اون داده اعتبار درستی برای تعیین جواب درست سوالمون نداشته باشه. مثلا باید بررسی کرد که آیا جواب مردم عادی به اینکه وضعیت بازار کار چطوره، واقعا وضعیت رو مشخص میکنه یا ممکنه تحت تاثیر رسانه ها مردم یه جوابی بدن در حالی که داده های مربوط به تعداد افراد شاغل و بیکار یه چیز دیگه ای رو نشون بده. پس مهمه که تعیین کنیم که چه داده ای رو میخوایم جمع آوری کنیم.

در واقع وقتی ما باید یه تعدادی شاخص برای شناسایی و اندازه گیری وضعیت مساله داشته باشیم. یا اون ها رو از تحقیقات و پژوهش ها به دست میاریم یا خودمون میسازیمشون. مثلا وقتی میگیم وضعیت بازار کار، اونقدر چیز مبهم و پیچیده ایه که خیلی تحلیلش برامون سخته، ولی مثلا وقتی میگیم از طریق شمارش تعداد افراد شاغل یا تعداد افرادی که کار تمام وقت دارن به جمع بندی برسیم، خب یه خرده آسون تر میشه و انگار داریم به چیزای شناخته شده تری نزدیک میشیم. نزدیک شدن به این مفاهیم آشناتر هم توی تعریف شاخص های بهتر به ما کمک میکنه و هم برای این فایده داره که بتونیم واقعا چیزی که مورد نظرمونه رو اندازه گیری کنیم. انگار اومدیم مساله رو به اجزای کوچیکتری تجزیه کردیم. حالا ممکنه بعد از این تجزیه، اصلا ببینیم یه عالمه از داده هایی که قبلا دیگران جمع آوری کردن و موجوده به کارمون میاد و لازم نیست تازه از اول داده جمع آوری کنیم.

به عبارت دیگه، ما یه مساله ای رو مشاهده کردیم یا میخوایم در مورد یه چیزی پژوهش کنیم، هر چقدر هم که اون چیز کیفی باشه و اندازه گیری و اظهار نظر راجع بهش سخت به نظر بیاد، حتما دارای یه سری علائم و عوارضه. یه آثاری توی دنیای اطراف گذاشته که ما متوجه وجود اون مساله شدیم. حالا اگه بتونیم اون آثارو اندازه بگیریم، کم و بیش ابعاد مساله رو هم میتونیم درک و شناسایی و تحلیل کنیم.

یه نکته ای رو اینجا بهش توجه کنید. اینکه ما بهتره توی انتخاب داده هایی که میخوایم جمع آوری کنیم یه خرده خسیس باشیم! یعنی هی دنبال این نباشیم که داده های بیشتری رو جمع آوری کنیم. داده هایی که هم ممکنه دست و پاگیر بشن برامون و هم هزینه جمع آوریشون خیلی زیاد باشه. در عوض بهتره دنبال این باشیم که با حداقل تعداد داده ها حداکثر دقت ممکن رو ایجاد کنیم.

توجه کنید که هدف از جمع آوری داده، کاهش ابهام هاییه که برای ما وجود داره. یعنی ما داده رو جمع میکنیم که به سوالمون جواب بدیم. قرار نیست جوابمون کاملا قطعی باشه یا بگیم صد در صد اینطوریه، چون مخصوصا وفتی جامعه آماری خیلی بزرگ باشه، اصلا گفتن این حرف بی معنی و غیرممکنه. کسیم که میگه قطعیه داره دروغ میگه. ما فقط میخوایم تا حد امکان بخشی از حقیقت رو بفهمیم و از ابهاممون کاسته بشه، نه اینکه به جواب قطعی برسیم.

یه بحث های جالبی توی آمار و ریاضی هست که اینجا نمیخوایم بازش کنیم. ولی خلاصش اینه که تو خیلی از اوقات وقتی ابهام زیاده، حتی انتخاب پنج تا نمونه تصادفی یا حتی یه نمونه تصادفی از مجموعه میتونه تا حد زیادی، مثلا حدود 90 درصد ما رو به قطعیت برسونه که وضعیت جامعه آماری چقدره.

 اینو برای این میگم که بدونید لزوماً هر چی بیشتر داده جمع کنیم به جواب دقیق تری نمیرسیم. هر چی تعداد داده ها بیشتر باشه، ارزش هر داده ی جدیدی که اضافه میشه کمتره. مثلا اگه 10 تا داده داشته باشیم و بکنیمش 20 تا، خیلی اوقات مفیدتر از اینه که 100 تا داده داشته باشیم و بکنیمش 110 تا. پس باید هم جامعه آماری رو با خساست و دقت کنیم، هم نمونه آماری رو و مشخصاتی که میخوایم جمع آوری کنیم رو.

خیلی خب. حالا بعد از انتخاب جامعه آماری و داده هایی که میخوایم جمع آوری کنیم، بعد از اون باید ببینیم که روش و ابزارهامون برای جمع آوری داده چی هست. برای گردآوری داده پنج روش وجود دارده: مشاهده، پرسشنامه، مصاحبه، گروه تمرکز و مرور اسناد و مستندات. به ترتیب خلاصه ای از این روش ها رو با هم مرور میکنیم.

روش اول روش مشاهده هست. توی این روش پژوهشگر یا هر کسی که داده‌ها رو جمع‌آوری میکنه، باید براساس یه فرم های اطلاعاتی یا هر مدلی که پژوهش خودش مشخص کرده، از طریق مشاهده موضوع پژوهش و احیانا افرادی که توی اون موضوع مشارکت دارن، رفتارهاشون، صحبت هاشون و تصمیم گیری هاشون اطلاعاتی رو به دست بیاره و ثبت کنه.

مثلا ممکنه موضوع چنین پژوهشی، این باشه که مردم سیستان بلوچستان چطور زندگی میکنند یا در مناسبت های خاصی چطور رفتار میکنند. یا ممکنه موضوعش این باشه که واکنش مردم در شرایط بروز بحران های مختلف چطوریه. همچنین ممکنه نحوه اتفاق افتادن یه پدیده فیزیکی یا شیمیایی مورد بررسی قرار بگیره. مثلا وقتی میخواین اثر یه دارو رو یه گونه جانوری بررسی کنید یا نحوه واکنش دادن دو ماده با همدیگه رو ببینیم.

ممکنه خود پژوهشگر خودش جزو افرادی باشه که توی موضوع پژوهش ایفای نقش کرده. مثلا توی پژوهش در مورد سیستان و بلوچستان، خودش ساکن اون منطقه بوده باشه و در موضوع مطالعه خودش هم سهیم باشه. به این میگن مشاهده مشارکتی. اما اگه موضوع پژوهش از دور مشاهده بشه، خب بهش میگن مشاهده غیرمشارکتی.

این روش جایی استفاده میشه که میخوایم یه موضوعی که خیلی کیفی ه و نمیشه صرفا با عدد و رقم بررسیش کرد، یا چیزی که خیلی اسناد و مدارک مرتبط و پژوهش‌های مشابهش وجود نداره رو مطالعه کنیم. یا وقتی که فکر می کنید اگر در مورد سوال پژوهشتون از جامعه مورد مطالعه بپرسید، نتونن یا نخوان جواب درستی بدن و خودتون از طریق مشاهده بهتر میتونید به نتیجه برسید.

مزیت این نوع پژوهش اینه که چون اتمامش توسط خود پژوهشگر مشاهده شده، اعتبار بالایی داره و قابل اعتماده. همچنین لازم نیست که رضایت افراد مورد مطالعه جلب بشه در حالی که تو سایر انواع پژوهش این لازمه. همچنین چارچوبش رو خودتون تعیین میکنید و واسه همین براساس نگاه های جدید چارچوب پذیره. یعنی خودش قالب خاصی رو به شما القا نمیکنه.

خب البته این روش محدودیت‌هایی هم داره. مثلا اینکه هزینه‌اش بسیار بالاست و هم خیلی زمانبره. لازم پژوهشگر برای مدت طولانی توی محل مورد بررسی حضور داشته باشه و مشاهده رو انجام بده. نکته دیگه اینه که ممکنه حضور پژوهشگر ناخواسته روی رفتار مشاهده شوند ها تاثیر بذاره. نکته دیگر اینه که بازه زمانی مشاهده به هر حال محدوده و این باعث میشه یه سری از اطلاعات فقط در مورد همون بازه زمانی خاص یا همون کیس های خاصی که مشاهده کردین صحیح باشه و تعمیمش به موارد دیگه سخت باشه. نکته دیگه اینه که به ظاهر امور متکی ه، البته میتونید با ادغامش با روش های دیگه مثل مصاحبه این نقطه ضعفش رو کاهش بدین. همچنین چون خیلی از این داده ها کیفی هستند، طبقه بندی و دسته بندیشون کار سختیه و ممکنه افراد با دید های مختلف بتونن تحلیل های مختلفی از این اطلاعات ارائه بدین.

روش دیگه ای که برای جمع‌آوری داده‌ها استفاده میشه، مصاحبه هست. مصاحبه از جمله روشهای خوب جمع آوری اطلاعاته. ما چند جور مصاحبه داریم. مصاحبه‌هایی که سوالاتشون دارای چارچوب خیلی ساده و مشخصه. یعنی مثلاً چندگزینه‌ایه یا به هر حال یک چهارچوبی دارند که برای جواب دهنده کاملا مشخص میکنه که باید چطور بهشون جواب بده. به این ها میگن مصاحبه‌های ساختار یافته و مصاحبه‌هایی که کمتر این شکل و چارچوب از پیش تعیین شده رو دارند، اما روند کلیشون مشخصه میگن نیمه ساختار یافته. اون هایی هم ساختار خیلی بازتری دارند بهشون میگن غیرساختاریافته.

این روش جاهایی استفاده میشه که اظهارات مصاحبه شونده ها برای ما اطلاعاتی رو به همراه داره. حالا ممکنه اون افراد کسایی باشن که یه تغییری روشون اعمال شده، یا کارشناس های اون حوزه خاص باشن و تحلیل هاشون توی اون زمینه بخواد مورد بررسی قرار بگیره. به مورد دوم معمولا میگن مصاحبه خبرگانی، یعنی مصاحبه با خبرگان اون حوزه انجام میشه.

مصاحبه یه سری مزایای داره. مثلا برای پژوهش در مورد افراد بیسواد یا بچه های خردسال یا افرادی که نمیتونن بنویسن، روش خوبیه. مصاحبه کننده میتونه بعد اگه جواب ها ناقص بود یا سوال ها تغییر کرد، بره مصاحبه هاشو کامل بکنه. کلا یک روش نسبتاً ساده و جامع برای فهمیدن نظرات مختلف مخاطبانه.

محدودیت‌هایی که داره اینه که معمولاً وقت گیر و زمان‌بره. تا حدی پرهزینه ست. ممکنه به همه افرادی که لازم داریم باهاشون مصاحبه کنیم دسترسی نداشته باشیم. تحلیلش معمولا کار دشواریه مخصوصا اگه مصاحبه کاملا ساختار یافته نباشه.

تو فرآیند مصاحبه یه سری اصول باید رعایت بشه. مثلا اینکه مصاحبه شونده ها آگاه باشن که هدف پژوهش چیه و اینکه قرار نیست از اطلاعاتشون سوء استفاده بشه. محیط مصاحبه طبیعتاً باید به نوعی باش که حواس مصاحبه‌شونده ها پرت نشه. سوالات باید طوری باشن که ذهن طرف رو جهت‌دار نکنن و خیلی شفاف و روشن باشن. سوال ها باید قاعدتا با موضوع تناسب داشته باشن و همچنین نباید آنقدر زیاد یا طولانی باشند که مصاحبه‌شونده حوصله جواب دادن نداشته باشه.

روش دیگری که برای جمع‌آوری داده وجود داره توزیع پرسشنامه ست. اون ها هم شبیه مصاحبه ها میتونن ساختاریافته، نیمه ساختاریافته یا غیرساختاریافته باشن.

کسی که مصاحبه میکنه ممکنه خودش پرسشنامه رو طراحی کنه یا ممکنه از پرسشنامه های استاندارد استفاده کنه. مثلا برای سنجش هوش یا سنجش افسردگی پرسشنامه های استانداردی وجود داره. ساختار کلی پرسشنامه اینه که اولش یه سری توضیحات ابتدایی نوشته میشه و هدف پرسشنامه توضیح داده میشه. بعد یک‌سری اطلاعات راجع به خود فرد پرسیده میشه، اطلاعات جمعیت شناختی مثلاً اینکه چند سالشه و چه ویژگی‌هایی داره و.. بعد هم بدنه اصلی پرسشنامه ست که به موضوع پژوهش توجه داره.

ایرادها و مزایای پرسشنامه تقریبا همون ایرادها و مزایای مصاحبه ست. فقط با این تفاوت که چون توی پرسشنامه باید جواب ها مکتوب بشن، ممکنه افراد سختشون باشه بنویسن و همین یه مقداری کار رو برای مصاحبه شونده ها سخت کنه. ولی از اون طرف هم چون جواب ها پیاده شده اند، برای تحلیل به نسبت مصاحبه راحت تره و در واقع یه مرحله جلوتر رفته.

روش دیگه، استفاده از گروه‌های کانونی یا فوکوس گروپ هست. تو این روش افراد مختلف رو دور هم جمع میکنید و از نظرات اون ها استفاده می کنید به چند تا سوال توی محورهایی که مدنظرتون هست جواب بدین. این افراد معمولا یه سری کارشناس هستن، البته ممکنه هم گزیده ای از مردم معمولی باشن، که ممکنه نظرات نسبتا متفاوتی راجع به موضوع مورد مطالعه داشته باشن. شما اون ها رو دور هم جمع می کنید و از این طریق، در اون موضوع به یه جمع بندی می رسید که کم و بیش مورد تایید کل اون جمع ه.

در فرآیند به کارگیری روش فوکوس گروپ، معمولا یه مجری وجود داره که به راهبری بحث کمک میکنه و سعی میکنه نظراتو جمع بندی کنه تا به یه سرانجامی برسه. خیلی اوقات از یه تخته برای مستندسازی نظرات افراد حاضر استفاده میشه و در حضور همه، نتیجه گیری اتفاق میفته.

این روش مزایای زیادی داره. یکیش اینه که چون با نظر افراد مختلف مواجه میشین، معمولاً پاسخی که در آخر ارائه میشه جامع و همه جانبه ست و نگاه‌های مختلف رو پوشش میده. همچنین در مقایسه با خیلی از روش ها زیاد زمانبر نیست، چون فرآیند جمع آوری داده و تحلیلش به صورت همزمان و توی یک یا چند جلسه داره اتفاق میفته.

از معایب این روش هم اینه که جمع آوری افراد ممکنه یه خرده سخت باشه و کم و بیش هزینه‌بر هم هست. همچنین چون جواب ها متاثر از افراد حاضر در جلسست، ممکنه اگه جلسه رو با ترکیب متفاوتی از افراد تکرار کنیم، به نتایج متفاوتی برسیم. نکته دیگه اینه که این روش توی یه سری موضوعات خاص کاربری داره و هر سوال آماری ای رو نمیشه با استفاده از فوکوس گروپ جواب داد.

 خب روش دیگه برای جمع‌آوری داده استفاده از اسناد و مدارک موجود هست. یعنی هم مقالات و پژوهش هایی که قبلا انجام شده و هم انواع مستنداتی که مربوط به موضوع تحقیق وجود داره. مثلا مصاحبه ها، اخبار، نامه ها و سایر موارد مشابه.

این هم در واقع یه روش نسبتا سریعه و میتونه خیلی مفید باشه، مخصوصا اونجایی که دسترسی برای مصاحبه و ارائه پرسشنامه وجود نداره. البته پیدا کردن نظام مند این مستند و ساماندهی نظام مند اون ها معمولا خیلی آسون نیست. اینکه تصمیم بگیرید مثلا اگه محتوای یه نامه و خبر یه روزنامه خلاف هم بودند به کدومش باید استناد کنید یا اگه دو پژوهش نتایج متفاوتی داشتند، کدوم یک معتبرتره، نیاز به یه روش منظم برای پیدا کردن و تحلیل مستندات داره.

پس یه مروری کنیم. گفتیم 5 روش مختلف برای جمع آوری داده وجود داره: مشاهده، مصاحبه، پرسشنامه، گروه تمرکز و جمع آوری مستندات.

نکته مهم اینه که همونطور که گفتیم تمام مراحل کار باید به این توجه کنیم که هدفمون از جمع آوری داده چیه. این کمک میکنه بتونیم بهترین و مناسب ترین روش رو برای پاسخ به پرسشمون انتخاب کنیم.

مثلا فرض کنید میخوایم بدونیم که وضعیت اشتغال تو منطقه شمال ایران چطوره. خب باید ببینیم که برای پاسخ به این سوال چه داده هایی نیاز داریم و از چه روش هایی قراره این داده رو گردآوری کنیم.

مثلا برای این پرسش خاص ممکنه بخوایم تعداد شاغلین توی هر منطقه یا استان در شمال کشور رو بدونیم. یا ممکنه بخوایم بدونیم که هر کسی دقیقا چجور شغلی داره: خدماتی، صنعتی یا کشاورزی. ممکنه بخوایم وضعیت اشتغال رو در مقایسه با 10 سال قبل بررسی کنیم و ممکنم هست که عدد و رقم خیلی برامون مهم نباشه و بیشتر مایل باشیم یه تحلیل نسبتا کیفی در مورد وضعیت اشتغال این منطقه داشته باشیم. همچنین امکان داره که ریشه ایجاد شرایط فعلی و پیش بینیمون نسبت به آینده در مورد وضعیت اشتغال این منطقه هم برامون اهمیت داشته باشه.

خب باید بگم که پاسخ به هر کدوم از این سوال ها روش های مناسبی داره که با هم متفاوتن. مثلا اگه میخواین بدونین تعداد شاغلین چقدره، ممکنه مراجعه به مستندات کفایت کنه و بهتر باشه به سرشماری های مرکز آمار مراجعه کنید. البته میتونید هم مصاحبه کنید یا پرسشنامه توزیع کنید، ولی چون این روش ها هزینه زیادی داره و زمانبره، احتمالا در مورد همه مردم نمیتونید انجامشون بدین و برای همین به اندازه مراجعه به مستندات قابل اعتماد نیستن. البته آمارهای مرکز آمار هم اگه مربوط به چند سال پیش باشن ممکنه به دردمون نخورن و شرایط خیلی تغییر کرده باشه.

یا مثلا اگه بخوایم در مورد شرایط یه تحلیل کیفی داشته باشیم، یه روش اینه که بریم با متخصص های اقتصادی توی اون زمینه مصاحبه کنیم و جمع بندی نظر اون ها رو به عنوان تحلیل ارائه بدیم. یا ممکنه که از فوکوس گروپ برای این جمع بندی استفاده کنیم. ممکنم هست که مستنداتی رو جمع آوری کنیم و اون ها رو با ابزارهای کیفی تحلیل کنیم. به هر حال باید مقایسه کنیم که تو موضوع مورد نظر کدوم یک از این روش ها ما رو به جمع بندی بهتر و دقیق تری میرسونه.

اینکه کدوم روش برای پاسخ به چه سوالی بهتره، خیلی اوقات این شکلی تعیین میشه که ببینیم دیگران از چه روش هایی برای پاسخ به سوالات مشابه این استفاده کردن. همچنین باید فکر کنیم و ببینیم آیا روشی که استفاده میکنیم بهترین و دقیق ترین روش برای پاسخ به سوال مورد نظره یا راه هایی وجود داره که جواب های دقیق تر و قابل اعتمادی تری رو بتونیم پیدا کنیم.

توجه کنید که این جا کمتر در مورد این صحبت کردیم که داده ها رو در مورد چه افراد یا منابعی جمع کنیم. یعنی مثلا با چه کسی مصاحبه کنیم یا پرسشنامه رو به کی بدیم پر کنه. بلکه صرفا بعد از مشخص کردن اینکه «چه» داده ای رو لازم داریم، گفتیم که روش جمع آوری داده مون قراره به چه شکلی باشه، یعنی اون داده ها رو «چجوری» جمع آوری کنیم، اما هنوز در مورد اینکه از «کجا» جمع آوریشون کنیم حرفی نزدیم.

توی همین دو تا فرآیندی که گفتیم، یعنی اینکه ببینیم چه داده ای رو چجوری جمع آوری کنیم، ممکنه اشکال هایی پیش بیاد که باعث بشه آمار ما مخدوش بشه. مثلا فرض کنید شما میخواین بفهمین بیشتر آقایون از ماست بندی خرید میکنن یا خانوما. خب ممکنه برای این کار شما از روش مشاهده استفاده کنید، مثلا برید یه مدتی کنار ماست بندی وایسید ببینید بیشتر خانوما میرن داخل یا آقایون.

خب حالا اگه شما صبح برید، مثلا حدود ساعت 9-10 صبح، ممکنه ببینید بیشتر خانوما میرن داخل ماست فروشی و نتیجه بگیرید که اکثر خریدارها خانوم هستن. ولی اگه حدود 8-9 شب برید کنار مغازه وایسین، بیشتر آقایون میرن ماست فروشی و ممکنه نتیجه بگیرید که عمده خریدارها آقا هستن. اما کدوم نتیجه درسته؟

واقعیت اینه که هیچ کدوم. چون داده های شما و روشی که برای جمع آوری اون انتخاب کردین، مشکلی داشتن که باعث شده نتیجه تون نوعی سوگیری، تورش یا به اصطلاح بایاس داشته باشه. سوگیری به معنی ترجیح سیستماتیک یه مقوله ست که در فرآیند جمع آوری داده ها وجود داره و منجر به نتایج گمراه کننده و جهتدار میشه.

بذارین اینجوری توضیح بدم. صبح ها خانومای خونه دار بیشتر خونه ن و فرصت میکنن که برای نهار خرید کنن. برای همین اون ها توی روز بیشتر ماست میخرن. اما شب ها آقایون از کار برمیگردن و خریدهای خونه رو انجام میدن، برای همین مراجعشون به ماست بندی بیشتره. اینطوری میشه که شب ها آقایون بیشتر وارد ماست فروشی میشن و صبح ها خانوما.

یه مثال دیگه، اینه که فرض کنید میخواین بفهمین مجازی شدن آموزش ها باعث شده عدالت آموزشی کاهش پیدا کنه یا افزایش. برای اینکار مثلا میتونید پرسشنامه هایی رو طراحی کنید و در این زمینه از دانش آموزان سوال بپرسین. یا میتونین نمرات دانش آموزان رو قبل و بعد از مجازی شدن آموزش ها با هم مقایسه کنید.

ولی تو هر دو این روش ها، شما دارین کسایی رو کلا به آموزش مجازی دسترسی نداشتن، مثلا تبلت و گوشی نداشتن یا اینترنت نداشتن رو نادیده میگیرن. در حالی که اصلی ترین بی عدالتی در حق اونا اتفاق افتاده.

یه مشکل دیگه ای که ممکنه تو جمع آوری داده داشته باشیم، اینه که ممکنه داده هایی که جمع آوری میکنید برای پاسخ به سوال شما کافی و گویا نباشه. مثلا تو همین مثالی که زده شد، شما ممکنه برای سنجش اینکه واقعا عدالت آموزشی برقرار شده یا نه، یا کیفیت آموزش افت کرده یا بهتر شده، بیاین نمرات دانش آموزان رو قبل و بعد از آموزش مجازی مقایسه کنین. در حالی که اگه توجه داشته باشین که تقلب تو آزمون های آنلاین چقدر راحت تره، اون وقت تردید میکنین که مقایسه نمرات آزمون های حضوری با آزمون های مجازی، بتونه به شما نشون بده که واقعا وضعیت آموزش چجوریه.

از اون طرف هم هر چی متغیری که اندازه میگیریم و داده در موردش جمع آوری میکنیم رو هوشمندانه تر انتخاب کنید، خب طبیعتا نتیجه ای که به دست میارین به درد بخور تر و قابل اعتمادتره. مثلا گفتیم که برای سنجش وضعیت اقتصادی افراد و جایگاهشون نسبت به خط فقر، میزان کالری مصرفی اونها اندازه گیری میشه. خب هر چی کالری مصرفی گویای تفاوت وضعیت اقتصادی افراد باشه، به این معنیه که این متغیر خوب انتخاب شده.

انتخاب زمان هم مهمه. البته این ممکنه بسته به اینکه منبع یا افرادی که میخواین داده رو ازشون جمع آوری کنید چیا هستن، متفاوت باشه و بعدا باید راجع بهش صحبت کنیم. ولی به طور کلی، مهمه که زمانی جمع آوری اطلاعات کنید که باعث جهتگیری خاصی نشه. مثلا اگه میخواین مصاحبه کنین، صب خیلی زود که افراد میخوان برن سر کار یا شب که خسته از کار برگشتن، معمولا زمان خیلی مناسبی نیست و ممکنه بخش زیادی از مصاحبه شونده ها رو از دست بدین.

یه سری از ایرادهای جمع آوری داده و آمارگیری، جایی خودشونو نشون میدن که روشمون مبتنی بر خوداظهاری بوده. یعنی افراد باید در مورد خودشون گزارش میدادن یا قضاوت میکردن و آمارگیری بر اون اساس انجام شده. اینجاها ممکنه افراد به خاصر جهتگیری های ذهنی ای که دارن، یا برای حفظ آبرو یا هدف های دیگه ای که به ذهنشون میرسه، با سوگیری جواب بدن.

یه نمونه خیلی بارزش بحث درآمده. افراد معمولا دوست ندارن در مورد درآمدشون خیلی صحبت کنن و این رو یه مساله کاملا شخصی میدونن. وقتی شما در مورد درآمد افراد ازشون میپرسین، اگه به صورت دوستانه بپرسید یا بخواید شرایطشونو برای دریافت وام یا ازدواج بررسی کنید، ممکنه درآمدشون رو از چیزی که هست بیشتر اعلام کنن. ولی اگه بخواین ازشون مالیات بگیرین یا بهشون یارانه بدین، معمولا درآمدشون رو خیلی کمتر از چیزی که هست اعلام میکنن. توی هر دو مورد نمیشه به خوداظهاری افراد اعتماد کرد و مثلا بهتره اطلاعات حساب بانکیشون برای این موضوع بررسی بشه.

کلا هر چی بریم سراغ روش هایی که مبتنی بر اظهار نظر شخصی افراد در مورد خودشون یا دیگران نیست و به عملکرد واقعی اون ها منطبقه، معمولا به نتایج بهتری میرسیم. یعنی تا جایی که میشه، بهتره از روش های خودکار و کامپیوتری برای جمع آوری داده استفاده کنیم تا مطمئن باشیم خطاهای مختلفی مثه اینکه سوال درست فهمیده نشه یا افراد با غرض ورزی و سوگیری به اون جواب بدن احتمالش کم بشه.

یه کتابی تو این زمینه داریم به اسم «همه دروغ میگویند». کتاب جالبیه و موضوع محوریش همینه که خیلی از روش های ما برای اظهار نظر در مورد شرایط جامعه اینه که به خود اظهاری تکیه کنیم، در حالی که تحقیقات نشون داده خیلی اوقات این اظهارات دروغه. یه راهی که کتاب پیشنهاد میده استفاده از داده های گوگل ه، چون مردم معمولا حقیقت رو تو گوگل سرچ میکنن، ولی حقیقت رو در پاسخ نظرسنجی نمیگن. کلان تحلیل کلان داده خیلی اوقات میتونه چاره کار فهمیدن خیلی حقایق و پژوهش ها باشه.  

خیلی جاها هم هست که مصاحبه شونده ها اصا صلاحیت جواب دادن به اون سوال ها رو ندارن و نباید ازشون در اون زمینه پرسید. مثلا ما اومدیم بیکاری رو اینطور تعریف کردیم که برابره با تعداد کسایی که تو سه هفته اخیر دنبال کار گشتن ولی پیدا نکردن. حالا مثلا اگه از مردم بپرسیم نرخ بیکاری کمتر شده یا بیشتر و بخوایم براساس نظر اون ها این واقعیت رو متوجه بشیم، خب اساسا ما روش اشتباهی رو برای این کار انتخاب کردیم. روش مناسب برای فهمیدن جواب این سوال مطالعه مستنداته و مصاحبه یا توزیع پرسشنامه در این زمینه مایه گمراهیه، چون واقعیت اینه که مردم اطلاع دقیقی از تعداد افرادی که جویای کار بودن ندارن و در بهترین حالت فقط میتونن در مورد اطرافیان خودشون نظر بدن.

یه موقع هایی هم ما یه سوالی میکنیم که باعث میشه طرف مقابل یه جواب مشخصی رو بده. انگار خودمون داریم اون فرد رو تشویق میکنیم که جواب مورد نظر ما رو بده.

مثلا همون درآمد رو در نظر بگیرید. خب طبیعتا یه فرد یا یه خانواده نمیتونه بیشتر از درآمدی که داره هزینه کنه. ولی وقتی از افراد میپرسیم که درآمدتون چقدره، معمولا دوست دارن حقوق پایه یا حداقل دریافتی ای که دارن رو بگن؛ تازه اگه بگن! ولی وقتی در مورد هزینه هاشون میپرسیم، شروع میکنن به آه و ناله در مورد اینکه هزینه ها کمرشونو شکسته و چقدر زیاد و متنوع و سرسام آوره. خب واقعیت اینه که این دو سوال هر دوشون داره یه چیزو اندازه میگیره ولی چون شکل سوالمون متفاوت بوده، جواب های متفاوتی هم بهش داده شده.

یا مثلا وقتی میگیم به نظرتون چندرغاز حقوقی که میگیرین برای خرج زندگی کفایت میکنه؟ طبیعتا فرق میکنه با اینکه بپرسیم به نظرتون با حقوق پربرکتی که میگیرین میتونید زندگیتونو پیش ببرید یا نه؟

یه حالت دیگه اینه که سوال هایی که میپرسیم دوپهلو باشن یا برداشت متفاوتی ازش بشه کرد. مثلا از کلماتی استفاده بشه که تعریف مشخصی ندارن. مثه خوشبختی، موفقیت، کتابخوان بودن، فساد و... یا مخاطب حرف ما رو متوجه نشه. مثلا سوال زیادی طولانی باشه. یا از اصطلاحات تخصصی توش استفاده شده باشه. یا زبونش با زبون مخاطب متفاوت باشه.

کلا یه نکته مهم وجود داره که توی روش های مصاحبه و پرسشنامه باید بهش توجه کنیم. توجه به این موضوع حتی توی انتخاب نوع داده ای که میخوایم جمع آوری کنیم هم مهمه. نکته اینه که ما خیلی اوقات سعی میکنیم با استفاده از روش های آماری و جمع آوری اطلاعات، کاری کنیم که مفاهیمی که ذاتا کیفی هستند رو با ابزارهای کمی اندازه گیری کنیم. مثلا یه مفاهیمی مثل شادی یا رفاه. ممکنه هر کسی با یه چیزی شاد بشه و برای همین سنجش اینکه هر کسی واقعا چقدر شاده یا یه ملت چقدر شادن، واقعا کار ساده ای نیستش. مثلا ممکنه کسی معیار سنجش شادی رو میزان استقبال از فیلم های کمدی بدونه و برای همین آمار تماشای فیلم کمدی رو به عنوان ملاک شادی ملی در نظر بگیره. یکی دیگه هم ممکنه معیار سنجش شادی رو میزان استفاده از قرص های ضدافسردگی بدونه و بره این آمار رو محاسبه کنه. اینکه معیارهای درستی برای سنجش در نظر بگیریم که گویای مفهوم ذهنی مورد نظرمون هستند، توی اعتبار کاری که داریم انجام میدیم تاثیر بسزایی داره.

گاهی هم این مفاهیم چندبعدی هستن و باید همه ابعادش سنجیده بشه. مثلا تو مفهوم رفاه، ممکنه شما استفاده از خودروی لوکس رو رفاه در نظر بگیرید. ولی اگه برق خونتون قطع باشه و در عین حال خودروی لوکس داشته باشین، بازم رفاه بالایی دارین؟ یا مثلا اگه پول برای خریدن بنزین برای ماشینتون نداشته باشین بازم مرفه محسوب میشین؟ از این جهت باید همه این فاکتورها توی محاسبه میزان رفاه به نوعی در نظر گرفته بشه و فقط نمیشه از یه بعد رفاه رو سنجید.

از اون طرف هم ممکنه جواب هایی که از مخاطب ها دریافت میکنیم گویای واقعیت نباشه و ما رو به جایی نرسونه. مثلا به فرض که یه نفر گفت خوشبخته یا نیست. یا هوا الان خوبه یا بد. ما چطور میتونیم بفهمیم که شرایط زندگی اون فرد چیه تا برای مشاوره به دیگران استفاده کنیم یا چطور میتونیم بفهمیم هوا چند درجست تا تهویه اتاق رو روی اون درجه تنظیم کنیم؟ این اطلاعات ناقصه و ممکنه از نظر افراد مختلف متفاوت باشه.

پس در جمع بندی باید بگیم که با اینکه برای رسیدن به هدف های مختلف و پاسخ به سوال های متفاوت میتونیم اطلاعات گوناگونی رو جمع آوری کنیم و روش های مختلفی رو به کار بگیریم، ولی باید از هر روش با دقت استفاده کنیم تا واقعا توانایی پاسخ به سوالمون رو داشته باشه و همچنین از بین روش ها، اونی رو انتخاب کنیم که به بهترین شکل و بدون سوگیری واقعیت رو به ما نشون میده.

بعد از معرفی روش های جمع آوری داده، حالا بیایم در مورد مولفه هایی که میخوایم در مورد اون ها داده جمع آوری کنیم صحبت کنیم.

اول باید یه مفهومی رو معرفی کنیم به اسم واحد مشاهده. گفتیم که ما ممکنه بخوایم داده های مختلفی رو برای پاسخ به سوالمون جمع آوری کنیم. داده هایی در مورد سن آدم ها، تیم فوتبال مورد علاقشون، نظرشون در مورد وضعیت اقتصادی کشور یا عادت های غذا خوردنشون. چیزهای بسیار متنوعی میتونن جزو داده هایی باشن که ما توی پژوهش هامون به دنبالشون هستیم. توی این بررسی، ما معمولا یه عنصر محوری داریم. عنصری که داده ها مربوط به اون هستند، یعنی هر یه داده ای که جمع آوری میکنیم، متناظر یکی از اون هاست.

بذارین ساده تر بگم. تو مثال هایی که زدم، مثلا سن آدما، وقتی یه عدد به ما گفته میشه، مثلا 37، میدونیم که این عدد متناظر با یه نفره. این عدد داره سن یه نفرو بیان میکنه. پس این جا به اصطلاح واحد مشاهده فرده. یعنی داده ما در مورد یه فرد توضیح میده. مشابه اون وقتی در مورد تیم مورد علاقه میپرسیم و مثلا کسی میگه تیم استقلال، این تیم باز متناظر با یه نفره، یعنی سلیقه یه نفر تو فوتبال رو نشون میده. پس بازم واحد مشاهده فرده. ولی مثلا وقتی تعداد طلاق ها رو میپرسیم، راجع به یه خانواده صحبت کنیم. جدا شدن دو نفر از هم به معنی اتفاق افتادن یه طلاقه. پس اینجا واحد مشاهده ما خانوادست. وقتی در مورد تعداد دستگاه های خراب شده میپرسیم هم واحد مشاهدمون دستگاه ه.

حالا وقتی این واحدهای مشاهده کنار هم قرار میگیرن، بهشون میگن جامعه آماری. یعنی جامعه آماری مجموعه همه کسا یا چیزهاییه که ما میخوایم راجع بهشون اطلاعات جمع آوری کنیم. خب ممکنه اینا تعدادشون خیلی زیاد نباشه. مثلا اندازه گیری قد دانش آموزای یه کلاس کار خیلی سختی نیست، هر کلاس ممکنه 30-40 تا دانش آموزان داشته باشه نهایتا. ولی مثلا اندازه گیری قد تمام ایرانی ها خیلی کار سختیه، چون صحبت 80 میلیون نفره!

برای همین ممکنه که ما بخوایم اطلاعات مورد نظرمون رو راجع به کل جامعه آماری جمع آوری کنیم، یا نه، بیایم بخشی از جامعه آماری رو سوا کنیم و اطلاعات رو راجع به اون جمع آوری کنیم. اگه اطلاعات رو راجع به کل جامعه آماری جمع آوری کنیم بهش میگن تمام شماری یا سرشماری. اگرم راجع به یه تعدادی جمع آوری کنیم و اون اطلاعات رو به بقیه جامعه آماری تعمیم بدیم، بهش میگن نمونه گیری.

دقت کنید که تو حالت سرشماری، ما هر ادعایی بکنیم براساس استدلال قیاسی انجامش دادیم و درسته. اما تو حالت نمونه گیری، ما هر ادعایی کنیم براساس استدلال استقرایی بوده و احتمالا درسته، اما میزانی عدم قطعیت رو همراه خودش داره.

مثلا برای فهمیدن اینکه کیفیت لامپ های یه کارخونه چقدره، میتونیم بیایم دونه دونه لامپ ها رو امتحان کنیم تا ببینیم کی میسوزن! ولی خب این فایده ای نداره و فقط باعث میشه سرمایه مون هدر بره. برای همین بهتره یه تعدادی از لامپ ها رو امتحان کنیم و براساس اون راجع به کل لامپ های کارخونه قضاوت کنیم.

یا مثلا وقتی میخوایم بگیم قد ایرانی ها حدودا چقدره، قد یه تعدادی از افراد رو بررسی می کنیم و بعد حدس میزنیم که قد ایرانی ها معمولا چقدره یا تو چه بازه ای قرار میگیره.

اگه بخوایم به طور خلاصه بگیم، سرشماری یه سری مزایا داره. مثلا اینکه اطلاعات دقیق و کامل بهمون میده و دیگه میتونیم با قطعیت در مورد کل جامعه آماریمون نظر بدیم. ولی خب ممکنه سخت و پرهزینه باشه. مثلا واسه همینه که مرکز آمار سرشماری از مردم رو 5 سال یه بار انجام میده و هر سال انجامش نمیده.

اما از اون طرف نمونه گیری راحت تر و کم هزینه تره. ولی نتایجش به اندازه سرشماری قطعی نیستند. این اصطلاحی که میگن مشت نمونه خرواره، این در واقع به همین بحث نمونه گیری اشاره داره. یعنی ما با مشاهده چن مورد راجع به کل قضاوت میکنیم. واسه همینه که تو خیلی پژوهش ها از روش نمونه گیری استفاده میشه.