تبیان، دستیار زندگی
«آمارها نشان می‌دهد که 95 درصد مبتلایان به سرطان ریه، سابقه‌ی اعتیاد به سیگار دارند». «طبق بررسی‌های به عمل آمده از هر هفت زن انگلیسی یک نفر مبتلا به چاقی مفرط است». ...
بازدید :
زمان تقریبی مطالعه :

آراستگی دروغ!

آراستگی دروغ!

«آمارها نشان می‌دهد که 95 درصد مبتلایان به سرطان ریه، سابقه‌ی اعتیاد به سیگار دارند». «طبق بررسی‌های به عمل آمده از هر هفت زن انگلیسی یک نفر مبتلا به چاقی مفرط است». «پژوهشگران آلمانی در طی مطالعات خود به این نتیجه رسیدند که بیش از 60 درصد بزهکاران این کشور، مسواک نمی‌زنند». «2/42 درصد کودکان دبستانی مادران خود را از نمرات کمتر از 5/7 خود مطلع نمی‌کنند!!». «متوسط در آمد فعلی دانشجویان ورودی سال 1354 دانشگاه صنعتی شریف 50777555 تومان است».

به گمانم این جملات مشخص کرده باشند که موضوع صحبت ما، آمار است. جملاتی مشابه جملات بالا را هر روز در اخبار می‌شنویم، یا در روزنامه‌ها و مجلات می‌خوانیم. تقریباً همه‌ی ما به شنیدن این جملات عادت کرده‌ایم و کم‌تر به محتوای آن‌ها فکر می‌کنیم. کم‌تر می‌اندیشیم که منظور از فلان آمار ارائه شده چیست و چه قدر احتمال دارد که این آمار صحیح باشد. بیش‌تر کسانی که در اطراف ما زندگی می‌کنند به آمارهایی که مثلاً در اخبار تلویزیون ارائه می‌شود اعتماد دارند، علی الخصوص آمارهایی که در بردارنده‌ی اطلاعاتی از یک موضوع غیر سیاسی است. تقریباً همه‌ی زنان خانه‌دار همه‌ی آمارهائی که در آن حرفی از چاقی زنان به میان آمده است را به دقت دنبال می‌کنند؛ تقریباً همه‌ی مردان شاغل به جزئیات آمارهائی که از حقوق و درآمد صاحبان مشاغل مختلف ارائه می‌شود ،علاقه‌مندند. اما به راستی این آمارها چه قدر دقیقند؟ و تا چه حد حاکی از واقعیت هستند؟

پاسخ به این سوال از این جهت مهم است که مردم، اعداد و ارقام ذکر شده در آمارها را به راحتی باور می‌کنند. پس طبعاً مهم است که: «این آمارها چه قدر واقعی هستند؟». اما حقیقت این است که این سوال، سوال پیچیده‌ای است و پاسخ دادن به آن اصلاً ساده نیست. زبان آمار زبانی عجیب و رمز گونه است که اندکی ساده گیری در مواجهه با آن منجر به برداشت‌های غلطی خواهد شد. البته باید گفت که همگان از این پیچیدگی و رمزگونگی زبان آمار ناخشنود نیستند، چرا که بسیاری از افراد (در همه جای دنیا) از پیچیدگی و رمزگونگی همین زبان و نیز اقبال عمومی مردمان به نتایج آماری سو استفاده می‌کنند و با تهیه‌ی آمارهائی که از

روش‌هائی غلط  بدست آمده، آن‌ها را فریب می‌دهند. روش‌هائی که اگر چه عالمانه به نظر می‌رسند اما تن به ضوابط پیچیده‌ی علم آمار نمی‌دهند. در حقیقت می‌توان گفت بسیاری از افراد (در همه جای دنیا) از این روش‌ها استفاده می‌کنند و با آن‌ها به مردم دروغ می‌گویند؛ صد البته: دروغ‌هائی آراسته!

*****

در این مقاله سعی بر این داریم تا یکی از ویژگی‌های ابتدائی (اما بسیار مهم) یک آمارگیری صحیح را بررسی کنیم و سپس با استناد به این ویژگی به بررسی صحت و سقم آخرین آماری که در بند اول آمده است، بپردازیم. ببینیم که آیا واقعاً «متوسط در آمد فعلی دانشجویان ورودی سال 1354 دانشگاه صنعتی شریف 50777555 تومان است»؟ !

برای توضیح این ویژگی، از یک مثال ساده شروع می‌کنیم. فرض کنید بشکه‌ای در اختیار داریم که پر است از دانه‌های لوبیا؛ برخی از آن‌ها قرمز هستند و برخی سفید. می‌خواهیم ببینیم که نسبت تعداد لوبیاهای قرمز به تعداد لوبیاهای سفید موجود در این بشکه چند است. شما چه راهی را پیشنهاد می‌کنید؟

شاید اولین راهی که به نظر می‌رسد این است که بشکه را خالی کنیم و تک‌تک لوبیاهای قرمز و سفید را شمارش کنیم و در نهایت به محاسبه‌ی نسبت لوبیاهای قرمز به سفید بپردازیم؛ اما روشن است که این راه چندان معقول به نظر نمی‌رسد: بسیار وقت‌گیر و پر دردسر است. راه دیگری که معقول تر به نظر می‌رسد این است که از میان همه‌ی لوبیاهائی که در داخل بشکه قرار دارند (که به آن جامعه‌ی آماری می‌گوئیم)، تعدادی لوبیا را به عنواننمونه و بهتصادف انتخاب کنیم. در این حالت اگر نمونه‌ی ما به اندازه‌ی کافیبزرگ باشد و تا حد ممکنتصادفی انتخاب شده باشد، می‌توان انتظار داشت که نسبت لوبیاهای قرمز به سفید در این نمونه بیان کننده‌ی تقریب مناسبی از نسبت آن‌ها در همه‌ی بشکه است.

دقت کنید که تحقق هر دو شرط (الف) بزرگ و (ب) تصادفی بودن این نمونه ضروری است. چرا که فرض کنید ما فقط 2 عدد لوبیا را به صورت کاملاً تصادفی انتخاب کنیم (یعنی شرط "الف" برقرار نباشد و شرط "ب" برقرار باشد)، در این صورت به طور قطع به یکی از سه نتیجه‌ی زیر خواهیم رسید:

1. در این بشکه هیچ لوبیای قرمزی نیست (در حالتی که هر دو لوبیای انتخاب شده در نمونه سفیدند).

2. تعداد لوبیاهای سفید و قرمز بشکه با هم برابر است (در حالتی که یکی از دو لوبیای نمونه سفید و دیگری قرمز است).

3. در این بشکه هیچ لوبیای سفیدی نیست (در حالتی که هر دو لوبیای انتخاب شده در نمونه قرمزند).

و واضح است که هیچ یک از این سه نتیجه، قابل قبول نیستند. در حالتی که شرط "الف" برقرار باشد و شرط "ب" برقرار نباشد نیز نتایج مقبولی بدست نمی‌آوریم مثلاً فرض کنید که نمونه‌ی ما بزرگ باشد (1000 دانه لوبیا)، اما همه‌ی آن‌ها را به صورتی غیر تصادفی انتخاب کرده باشیم. حالت اغراق شده‌ی این مسئله شرایطی است که در آن همه‌ی لوبیا‌ها را قرمز (یا همگی را سفید) انتخاب کرده باشیم!!!

در عین حال اگر نمونه‌ای تصادفی و به اندازه‌ی کافی بزرگ را انتخاب کنیم، می‌توانیم انتظار داشته باشیم که نتیجه‌ی تقریباً صحیحی به دست بیاوریم (مثلاً ابتدا لوبیا‌های داخل بشکه را خوب مخلوط کنیم، بعد به صورتی تصادفی یک لیوان از لوبیا‌های داخل بشکه انتخاب کرده و با شمارش آن‌ها نسبت مورد نظر را تقریب بزنیم).

در همه‌ی آمارگیری‌های دیگری هم که انجام می‌شود، نمونه‌ای از یک جامعه‌ی آماری بررسی می‌شود و نتایج بدست آمده از آن نمونه به کل جامعه تعمیم داده می‌شود. مثلاً در مورد «بزهکاران گریزان از مسواک» (در بند اول مقاله)،

جامعه‌ی آماری «کل بزهکاران آلمانی» هستند و نمونه‌ی انتخاب شده، «بزهکارانی هستند که در خصوص مسواک زدن یا نزدن آن‌ها تحقیق شده است». در این مورد هم (همانند همه‌ی موارد دیگر) برای رسیدن به نتیجه‌ی صحیح نیازمند به اندازه‌ی کافیبزرگ وتصادفی بودن نمونه‌ی آماری هستیم (شاید در این‌جا این سوال برای شما مطرح شود که «چه زمانی می‌توانیم از به اندازه‌ی کافی بزرگ و تصادفی بودن نمونه مطمئن شویم؟»، در جواب باید گفت که این سوال شما سوال بسیار مهمی است، اما پاسخ به آن اصلاً ساده نیست).

در حالتی که نمونه‌ی ما به اندازه‌ی کافی بزرگ یا تصادفی نباشد آن را

اریب می‌نامند. نمونه‌های مناسب برای آمارگیری نمونه‌های نااریب هستند.

*****

حال اجازه بدهید که به بررسی صحت و سقم این ادعا که «متوسط در آمد فعلی دانشجویان ورودی سال 1354 دانشگاه صنعتی شریف 50777555 تومان است» بپردازیم. تنها ابزاری که (تا این‌جا) برای این بررسی در اختیار داریم، اریب یا نا اریب بودن نمونه‌ای است که برای بدست آمدن این آمار مورد استفاده قرار گرفته است، اما اجازه بدهید که پیش از آن این گزاره را با فهم عرفی (و نه شعور علمی) خود مورد توجه قرار دهیم:

این رقم (یعنی 50777555 تومان) رقم بسیار دقیقی است و غیر محتمل به نظر می‌رسد که درست باشد. چرا که اگر کسی کارمند (حقوق بگیر) نباشد، احتمال این‌که بتواند درآمدش را با چنین دقتی محاسبه نماید بسیار اندک است، از سوی دیگر کسانی که کارمند (حقوق بگیر) هستند چنین درآمد بالائی نخواهند داشت.

پس تا به این‌جا به این نتیجه می‌رسیم که این عدد چندان معقول به نظر نمی‌رسد اما آیا مطالب علمی نیز این نظر ما را تائید می‌کنند؟

می‌توانیم مطمئن باشیم، گزارشی که از میزان درآمد فارغ التحصیلان دانشگاه شریف ارائه شده است نتیجه‌ی یک

نمونه‌گیری است، چرا که منطقاً دسترسی به همه‌ی آدم‌های زنده‌ای که ورودی سال 1354 این دانشگاه بوده‌اند، ممکن به نظر نمی‌رسد. نشانی بسیار از این افراد بعد از گذشت 30 سال به دست نخواهد آمد. از بین آن‌هائی هم که نشانیشان در اختیار باشد، بسیاری به سوالات پرسش‌نامه (به خصوص پرسش‌نامه‌ای که در آن سوالاتی تقریباً خصوصی -میزان درآمد- پرسیده شده است!) پاسخ نخواهند داد. بنابراین رقم متوسط درآمد بر اساس پاسخ‌های نمونه‌ای از تمام ورودی‌های سال 1354 دانشگاه صنعتی شریف، به دست آمده است. اما آیا این نمونه معرف کل جامعه‌ی آماریست؟ به بیان علمی‌تر آیا این نمونه اریب نیست؟ (آیا می‌توان درآمد افراد این نمونه را به درآمد همه‌ی فارغ التحصیلان ورودی 1354 این دانشگاه تعمیم داد؟).

پاسخ ساده است. این نمونه به دو دلیل بسیار روشن (و دلایل تاریک و روشن دیگر!)، اریب خواهد بود:

عمده‌ی افرادی که آدرس آن‌ها به دست آمده است، افراد شناخته شده‌ای هستند. صاحبان کارخانجات، مدیران عامل شرکت‌ها، اساتید مشهور دانشگاه‌ها و... که عمدتاً در آمد بالائی دارند. در حقیقت اکثریت افرادی که نشانی آن‌ها به دست نیامده است کسانی هستند که پس از دریافت مدرک کارشناسی خود از این دانشگاه چندان درخششی نداشته‌اند؛ آن‌ها کسانی‌اند که در مسند یک آموزگار ساده، یک کارمند معمولی، یک روزنامه‌نگار، یک تکنسین پیش پا افتاده یا... نشسته‌اند و از درآمد بالائی برخوردار نیستند (و در این نمونه‌گیری هم خبری از آن‌ها نیست).

بنابراین نمونه‌ی ما به اندازه‌ی کافی تصادفی نیست! و اریب بودن نمونه مقبولیت آمارهای مستند به آن را مخدوش می‌کند!

*****

چه طور بود؟ حالا نسبت به آمارهای اطرافتان چگونه فکر می‌کنید؟؟

پی‌نوشت:

1. این آمار اگر چه ساختگی است اما بر گرفته از آماری است که مجله‌ی تایم (Time) در سال 1959 از میزان در آمد فارغ التحصیلان ورودی 1924 این دانشگاه ارائه داده است. برای مطالعات بیش‌تر می‌توانید به کتاب زیر (که مرجع اصلی این نوشتار است) رجوع کنید:

تارل هاف، دکتر مهدی تقوی، «چگونه با آمار دروغ می‌گویند؟»، آفتاب، 1371