دیتاساینس به زبان ساده: اصول و فرایند

دیتا نفت جدیده! باارزشه اما اگر تغییر نکنه و پالایش نشه قابل استفاده نیست. باید تبدیل به بنزین و پلاستیک و … بشه تا تبدیل به یک چیز باارزش بشه، چیزی که میشه باهاش کارای سودآور کرد. پس دیتا باید به بخش‌های کوچیکتر تبدیل بشه و آنالیز بشه تا ارزشش آشکار شه. 

سال ۲۰۱۶ بود که کیف هامبلی، ریاضیدان معروف بریتانیایی جملات بالا رو گفت.

انقلاب و رشد تلفن‌های هوشمند و پیشرفت در تکنولوژی‌های داده‌های بزرگ، باعث به وجود اومدن انقلابی شده. در سال ۲۰۱۲، HBR مقاله ای منتشر کرد که در اون از شغل جدیدی گفت؛ شغلی مرکب از هکرهای دیتا، آنالیزورها، برنامه‌نویس‌ها و مشاورهای قابل اعتماد.

حالا هم هر سازمانی سعی میکنه که تا بیشتر از داده‌ها و تکنیک‌های مربوط بهش استفاده کنه. یکی از این تکنیک‌هایی که تابه حال به موفقیت سازمانها کمک کرده و میکنه یادگیری ماشینه. من متوجه شدم که تمام متریالها و منابعی که در این زمینه وجود دارند خیلی فنی‌اند و فهمیدنشون راحت نیست. در این سری از مقالات هدف من اینه که دیتاساینس رو به زبون ساده بیان کنم. تا هر کسی بتونه از این رشته سررشته‌ای به دست بیاره.

در این مقاله، من با توضیح دادن اصول مهم و اساسی شروع میکنم و از مسائلی که در دیتاساینس به دنبال حلشون هستیم میگم و روال حل این مسائل رو توضیح میدم.

دیتاساینس یک علمیه که محل تقاطع چند علم دیگه محسوب میشه:

  • بیزنس
  • یادگیری آماری و همون یادگیری ماشین
  • برنامه‌نویسی کامپیوتر

در این مجموعه مقالات تلاش من بر اینه که روی بخش یادگیری ماشین تمرکز کنم. این مقاله رو با توضیح اصول کلی، روال عمومی حل مسائل، و تشریح انواع مسائل شروع میکنم.

اصول کلیدی

داده یک دارایی استراتژیک است: این ذهنیت باید در تمام سازمان وجود داشته باشد. سوالی که باید پرسیده شود این است که: آیا ما از تمام داده‌ای که جمع‌آوری و ذخیره میکنیم استفاده میکنیم؟ آیا ما قادر هستیم تا از این داده‌ها به دیدگاه‌های معناداری دست‌ یابیم؟ من مطمئن هستم که جواب این سوالات معمولا “نه” است. البته شرکتهایی که به طور ابری کاری میکنند و ذاتا داده محور هستند و داده را به عنوان یک دارایی استراتژیک به میگیرند. اما این تفکر برای اکثریت سازمانها معتبر نیست.

فرایند سیستماتیک برای استخراج دانش: برای استخراج دیدگاه و دانش از داده‌ها، باید یک فرایند به کار گرفته بشه. این فرایند باید بخش‌های شفافی داشته باشه که هر بخش یک خروجی ارائه بده.  یکی از این فرایند ها The Cross Industry Standard Process for Data Mining است.

خوابیدن با داده: بله دقیقا باید با داده‌ها خوابید! سازمان‌ها باید رو افرادی سرمایه‌گذاری کنند که عاشق داده‌ها هستند. تبدیل داده‌ها به دانش کیمیاگری نیست. کیمیاگرها وجود ندارند. سازمانهای به عاشقان خلاقی نیاز دارند که زبان داده‌ها را میفهمند. آنها به کسانی نیاز دارند که میتوانند بیزنس، تکنولوژی و داده‌ها را به هم متصل کنند.

پذیرفتن عدم‌اطمینان: دیتاساینس گلوله نقره‌ای نیست. بلکه صرفا شبیه گزارشها و KPIها، به تصمیم‌گیری‌ها کمک میکنه. دیتاساینس در قلمروی اطمینان قرار نمیگیره، در قلمرو احتمالات قرار میگیره و مدیران و تصمیم گیرندگان باید این موضوع را مد نظر داشته باشند. این عدم اطمینان تنها زمانی میتواند به خوبی اداره شه که فرهنگ سازمانی به خوبی با روند “سریع شکست بخور تا سریع یاد بگیری” اخت گرفته باشد! و این تنها زمانی پیش میاد که سازمانها با فرهنگ تجربه کردن سازگار باشند!

اصل SNB: از نظر من این مهمترین اصل است. تمرکز بسیاری از کسانی که روی دیتاساینس کار میکنند روی مدلها و الگوریتمها است. اشتباه اونها اینه که بیزنس رو از معادلات خودشون خارج کردند.اصل Business Analytics Business یا همون BAB اصلی است که روی بخش بیزنسی و تجاری ماجرا تاکید میکنه.  وارد کردن بیزنس به تمام فرض‌ها و معادلات ما یک امر ضروری و واجب است. BAB یعنی : ۱.اول مسئله بیزنسی را تعریف کن ۲. از تمام ابزارها برای حلش استفاده کن ۳. خروجی و راه حلت رو وارد فرایندهای بیزنسی کن.

فرایند

حالا اجازه بدید که روی اصل دوم، یعنی فرایند سیستماتیک برای استخراج دانش تمرکز کنیم. در ادامه بخش‌های مختلف یک پروژه دیتاساینس رو میبینم.

۱.تعریف مسئله بیزنسی

جمله معروفی از آلبرت انیشتین هست که میگه:

“هر چیزی باید به ساده‌ترین شکل ممکن ساخته بشه. اما نه ساده‌تر.”

این جمله از آلبرت انیشتین مهمترین بخش تعریف یک مسئله بیزنسیه. تعریف مسئله باید کاملا توسعه داده شده باشه. باید تعریف دقیق از خواسته‌ها و تعریف دقیقی از موفقیت داشته باشیم. یعنی بدونیم در چه صورتی موفق شدیم که این مسئله رو به درستی حل کنیم. در تجربیات من، تیم‌های بیزنس انقدر درگیر کارهای عملیاتی خودشون هستند که به تعریف همچین مسائلی نمیرسند. اما این به این معنی نیست که اونها هیچ مشکلی ندارند که با استفاده از دیتا قابل حل نیست. جلسات برین‌استورمینگ، کارگاه‌ها و مصاحبه‌ها میتونند کمک کنند که این چالش‌ها پیدا بشن و مسائل تعریف بشن. اجازه دهید این موضوع را با یک مثال خیلی ساده بهتر توضیح دهم. بیاید فرض کنید سود یک شرکت مخابراتی به خاطر کاهش تعداد مشتری‌ها، کاهش یافته است. در این صورت مسئله‌ای که به دنبال حال آن هستیم میتواند به این شکل تعریف شود: ما باید با هدف قرار دادن بازارهای جدید و همینطور کاهش هزینه‌های مشتری‌ها، تعداد مشتری‌ها را افزایش دهیم.

۲.تبدیل مسئله به یک مسئله یادگیری ماشین

زمانی که مسئله بیزنسی تعریف شد، باید تبدیل به یک مسئله یادگیری ماشین شود. مثلا در مثالی که بالاتر زدیم، اگر بخواهیم تعداد مشتری های را افزایش دهیم، میتوانیم مسئله یادگیری ماشین را به شکل زیر تعریف کنیم: هزینه مشتری‌ها را x درصد کاهش دهیم و با استفاده از تبلیغات هدفمند (targeted advertising که خودش یک مبحث مفصل یادگیری ماشینه و مثلا گوگل ازش حسابی استفاده میکنه) بازارهای جدید رو هدف قرار بدیم.

۳.آماده سازی دیتا

هنگامی که مسئله بیزنسی را تعریف کردیم و آن را به یک مسئله یادگیری ماشین تبدیل کردیم، لازمه که به طور عمیق و مفصلی دیتای در دسترسمان را بررسی کنیم. باید دیتا را به طور عمیق و طوری بفهمیم که به حل مسئله‌ی پیش‌رویمان کمک کند. این فهم باید به ما کمک کنه که به استراتژی‌های درستی برای حل آنالیز کردن دیتا برسیم. برای مثال چیزهایی که باید به اونها حسابی توجه کنیم منابع دیتا، کیفیت دیتا، اینکه آیا دیتای در دسترسمون بایاس داره یا نه و … هستند.

۴. تحلیل اکتشافانه داده‌ها

یک کیهان‌شناس وارد به ناشناخته‌های کیهان سفر میکند. به طور مشابه یک دانشمند داده در الگوهای ناشناخته‌ دیتا سفر میکند و خصوصیات آن را فرموله میکند. تحلیل اکتشافانه داده یا Exploratory Data Analysis کار هیجان انگیزیه! باعث میشه که ما داده رو بهتر بشناسیم، ظرافت‌ها رو بررسی کنیم، الگوهای پنهان رو کشف کنیم و ویژگی‌های جدید رو توسعه بدیم و در نهایت به یک استراتژی برای مدل کردن دیتا برسیم.

۵.مدل‌سازی

بعد از تحلیل اکتشافانه، وارد فاز مدل‌سازی می‌شویم. اینجا ما بر اساس مسئله‌ی یادگیری ماشینمان، از الگوریتمهای مفیدی مثل رگرسیون، درخت تصمیم، جنگل‌های تصادفی و غیره استفاده می‌کنیم.

۶.پیاده‌سازی و ارزیابی

در نهایت مدل‌ توسعه داده شده رو پیاده‌سازی میکنیم و همزمان به طور مستمر اونها رو ارزیابی میکنیم تا ببینیم در دنیای واقعی چطور عمل میکنند و برای بهتر شدنشون اونها کالیبره میکنیم. به طور کلی، مدل‌سازی و پیاده‌سازی تنها ۲۰درصد از کار ما رو شامل میشن و۸۰درصد عمده کار اینه که دستهامون رو آلوده به دیتا کنیم و اون رو کشف کنیم و بفهمیم.

انواع مسائل یادگیری ماشین

در یادگیری ماشین مسائل به شیوه‌های مختلفی تعریف میشن. اگر با این شیوه‌ها آشنا نیستید، این پست رو بخونید.

نتیجه‌گیری

دیتاساینس یک دانش بسیار گسترده است، یک فیلد هیجان‌انگیز است، یک هنر است، یک دانش است! در این مقاله ما تنها سطحی از یک کوه یخ را دیدیم. در این فیلد دانستن “چگونه”ها بیهوده‌ است اگر که ما “چرا”ها را ندانیم. در مقالات بعدی از این مجموعه مقالات، سعی میکنیم که با هم کمی “چگونه”ها را بررسی کنیم.

 

منبع: این پست یک ترجمه کاملا آزاد  از این مقاله بود.

2 پاسخ به “دیتاساینس به زبان ساده: اصول و فرایند”

  1. شیدا میرجهانی گفت:

    پست خوبی بود. فقط پیشنهادم اینه که فقط دیتاساینس رو محدود به دیتای بیزنس ها نبینیم و دیتاهای دیگه ای که تو دنیا وجود داره و به مشکلات بزرگتر جامعه میتونه کمک کنه هم باحاله که بهش فکر کنیم. یعنی کلی از مشکلات کلی شهرها و جامعه و اقتصاد و … هم میشه با دیتا حل کرد.

    • مريم گفت:

      سلام ممکنه راهنمایی کنین در خصوصی کسب اطلاعات از دیتا ساینس در روانشناسی از چه متابعی میتونم استفاده کنم تشکر

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

android application Google I/O HomeBrew ImageMagick Material Design mobile PogressBar RecyclerView splash TEDxKish ux آموزش اندروید الوین تافلر اندروید اپلیکیشن برنامه نویسی برنامه نویسی اندروید برنامه‌نویسی برنامه‌نویسی اندروید تداکس کیش تعمیر تغییر سایز عکس با ترمینال خلاصه کتاب دانش داده دانشگاه دانشگاه ایده‌آل دزد دیتا ساینس رشته مهندسی کامپیوتر ریکامندرسیستم سیستم‌های توصیه‌گر فری‌لنس لپتاپ متریال دیزاین معرفی کتاب موج سوم نوار پیشرفت همایش هوش مصنوعی ُجزیره کیش کار کسب و کار یادگیری عمیق یادگیری ماشین