با این دادهها , ما میخواستیم از خوشهبندی برای نشان دادن زیرگروههای بالقوه جالب توجه کنیم که ممکن است بر پایه تمام این انواع دادههای مختلف باشند , و سپس ببینید که چگونه این زیرگروههای ممکن است به تشخیص قبلی بیخوابی ما مرتبط باشند . همانطور که لیزا اشاره کرد , خوشهبندی میتواند یک روش واقعا ً خستهکننده برای استفاده باشد . چالشهای زیادی وجود دارند که همراه با آن هستند , و زمانی که دادههای کمی دارید , این چالشها تنها افزایش مییابند . یکی از چیزهایی که به نظر من دادهکاوی به ویژه برای خوشهبندی چالش برانگیز است این است که دادهها اغلب بسیار چوله هستند . بنابراین به عنوان یک محقق , واقعا ً مهم است که به این فکر کنید که آیا این متغیرها همچنان چولگی دارند , حتی در یک نمونه بسیار همگن , یا اینکه آیا فکر میکنید چولگی که مشاهده میکنید در واقع نتیجه چند نمونه فرعی توزیع میشود . برای اینکه تصویر کوچکی به شما بدهم , در اینجا یک نمودار پراکندگی داریم . به نظر میرسد که این دو متغیر به شدت چوله هستند . اگر بخواهیم فرض کنیم که این چولگی ایجاد میشود , یا نتایج یک سری از خوشههای عادی , ممکن است چیزی شبیه این را مشاهده کنیم . بنابراین میتوانید ببینید که ما سه خوشه در اینجا داریم , قرمز , آبی و سبز و چولگی در این نمونه کامل با داشتن این سه خوشه بهطور معمول با مقادیر زیاد تغییرات زیاد توضیح داده میشود . با این حال , زمانی که این نتیجه را مشاهده میکنم , من فکر میکنم که این تنها یک نمایش بزرگ از آنچه واقعا ً اتفاق میافتد و اینکه این زیرگروههای زیربنایی واقعا ً ممکن است واقعاً در این نمونه باشند , مهم نیست , زیرا حداقل در تجربه من , این دو متغیر همیشه به شدت چوله هستند . در این مورد , ما میتوانیم از یک مدل ترکیبی استفاده کنیم که براساس توزیع چوله - در اینجا است - و اگر اجازه توزیع چوله در مدل خوشهبندی را بدهیم , میتوانیم ببینیم که این نمونه در واقع یک نمونه پیوسته و پیوسته بوده و هیچ زیر گروه واقعی واقعی درون نمونه وجود ندارد . بنابراین علاوه بر پرداختن به دادههای چوله که شما با آنها به دست میآورید , یک مساله دیگر این است که, براساس ماهیت نرمافزار که از ما میخواهد دادهها را در چندین واحد تحلیل ثبت کنیم , تعداد زیادی از متغیرهای دستهبندی پتانسیل وجود دارند که میتوانید از آنها استفاده کنید . و قطعا ً این امکان وجود دارد که بسته به زیرمجموعه خاصی از متغیرهای خوشهبندی که از آنها استفاده میکنید , ممکن است تفاوتهای متفاوتی را نشان دهید , اما به همان اندازه زیرگروههای ممکن از نظر آماری پذیرفتنی است. پس به این دلیل , من فکر میکنم که استفاده از چیزی مثل یک الگوریتم انتخاب متغیر یا کاهش ابعاد مهم است , اما همانطور که بعدا ً صحبت خواهم کرد , چالشهای زیادی نیز با آن وجود دارد . و در نهایت , شما میتوانید از مدل آماری استفاده کنید , اما یک چیز ناامید کننده در مورد خوشهبندی این است که تنها به این دلیل که یک راهحل دریافت میکنید , به این معنی نیست که این کار بالینی مفید و معنادار است , تا حدی که در واقع به چیزی مربوط میشود که شما به آن اهمیت میدهید یا اینکه چیز جدیدی را به شما یاد میدهد . من در حال تلاش برای ایجاد راهحلهایی برای این چالشها برای خوشهبندی هستم , و در درجه اول برای افزایش استفاده از توزیعهای چوله مدل ترکیبی کار کردهام . این روزها وجود دارند . میتوانید از آنها استفاده کنید .
منبع سایت