دسته: آمار
حجم فایل: 1201 کیلوبایت
تعداد صفحه: 33
مقدمه ای در ارتباط با انتخاب متغیر و مشخصه ها
چکیده
متغیر وانتخاب مشخصه به عنوان نقطه ثقل اکثر پژوهش ها در زمینه های کاربردی بوده که در ارتباط با آن ها، پایگاه های داده یا صدها یا هزاران متغیر موجود می باشند. این حوزه های شامل پردازش متنی اسناد اینترنتی، تجزیه و تحلیل آرایش ژنی و شیمی ترکیبی می باشد. هدف انتخاب متغیر سه گانه می باشد: که عبارتند از بهبود عملکرد پیش بینی شاخص ها، ایجاد شاخص های به صرفه تر و سریعتر، ایجاد درک بهتری از فرایند اصولی، که داده ها را ایجاد می کند. مشارکت این موضوع خاص، محدوده گسترده ای از جنبه های مرتبط با چنین موضوعاتی را تحت پوشش قرار می دهد: که عبارتند از تعریف بهتری از تابع هدف، ایجاد مشخصه، رده بندی مشخصه، انتخاب مشخصه های چندمتغیری، روش جستجوی مناسب، و روش ارزیابی اعتبار مشخصه.
کلیدواژگان: انتخاب متغیر، انتخاب مشخصه، کاهش ابعاد فضا، کشف الگو، فیلترها، بسته بندی، خوشه بندی، نظریه اطلاعات، دستگاه های بردار پشتیبانی، انتخاب مدل، تست آماری، بیوانفورماتیک، بیولوژی محاسبه، القای ژنی، میکرو آرایه، علم ژنتیک، پروتومیک، QSAR، دسته بندی متنی، بازیابی اطلاعات.
چکیده
متغیر و انتخاب مشخصه به عنوان نقطه ثقل اکثر پژوهش ها در زمینه های کاربردی بوده که در ارتباط با آن ها، پایگاه های داده یا صدها یا هزاران متغیر موجود می باشند. این حوزه های شامل پردازش متنی اسناد اینترنتی، تجزیه و تحلیل آرایش ژنی و شیمی ترکیبی می باشد. هدف انتخاب متغیر سه گانه می باشد: که عبارتند از بهبود عملکرد پیش بینی شاخص ها، ایجاد شاخص های به صرفه تر و سریعتر، ایجاد درک بهتری از فرایند اصولی، که داده ها را ایجاد می کند. مشارکت این موضوع خاص، محدوده گسترده ای از جنبه های مرتبط با چنین موضوعاتی را تحت پوشش قرار می دهد: که عبارتند از تعریف بهتری از تابع هدف، ایجاد مشخصه، رده بندی مشخصه، انتخاب مشخصه های چندمتغیری، روش جستجوی مناسب، و روش ارزیابی اعتبار مشخصه.
کلیدواژگان: انتخاب متغیر، انتخاب مشخصه، کاهش ابعاد فضا، کشف الگو، فیلترها، بسته بندی، خوشه بندی، نظریه اطلاعات، دستگاه های بردار پشتیبانی، انتخاب مدل، تست آماری، بیوانفورماتیک، بیولوژی محاسبه، القای ژنی، میکرو آرایه، علم ژنتیک، پروتومیک، QSAR، دسته بندی متنی، بازیابی اطلاعات
مقدمه
از سال 1997، زمانی که موضوعات خاصی در این ارتباط شامل چندین مقاله در مورد متغیرها و انتخاب مشخصه منتشر شد، چندین حوزه مورد بررسی از بیش از 40 مشخصه استفاده کرد. این شرایط در طی چند سال گذشته به طور قابل توجهی تغییر یافته است. تکنیک های جدید برای مد نظر قرار دادن این فعالیت های چالشی شامل بسیاری از متغیرهای نامربوط و تکراری و چندین نمونه آموزشی قابل مقایسه مطرح شد. دو نمونه به عنوان حوزه های کاربردی جدیدی مطرح شده و کمکی به ما بر اساس توضیحات مربوط به این مقدمه می کنند. یکی از آن ها بر مبنای انتخاب ژنی از داده های میکروآرایشی می باشد و دیگری طبقه بندی متن می باشد. در مسئله انتخاب ژن، متغیرها بر مبنای ضریب القای ژن بوده که مطابق با فراوانی mRNA در یک نمونه (برای مثال بیوپسی بافت) برای تعدادی از بیماران می باشد.