سلام به وبلاگ علی محمدی خوش آمدید

۲ مطلب در ارديبهشت ۱۴۰۱ ثبت شده است

ریاضی برای علم داده

چه مواردی از ریاضی را باید بدانیم؟

یکی از ملزومات اصلی در علم داده، داشتن منطق ریاضی قوی است. منظور از ریاضیات، حد و انتگرال و هندسه نیست. در این شاخه‌ی کاربردی جدید (دیتاساینس)، ما تنها به بخش خاصی از ریاضی نیازمند هستیم و لزوماً افراد نباید یک کتاب قطور ریاضی و آمار را بدست گرفته و از ابتدا تا انتهای آنرا مطالعه کنند؛ هر چند که اینکار بسیار عالی است، اما نیاز به زمان تقریباً قابل توجهی دارد.

سرفصل‌های بسیار مهمی که از علم ریاضی و آمار در علم داده مهم و کاربردی هستند، به شرح ذیل می‌باشند؛

   1. میانگین، میانه، مد

   2. واریانس و انحراف معیار

   3. صدک‌ها و دهک‌ها

   4. آشنایی با نمودارهای مختلف آماری جهت تصویر سازی

   5. احتمالات

   6. مشتق و تعبیر هندسی آن

   7. فرمول‌های مشتق‌گیری

   8. آشنایی با توابع ریاضی خاص

   9. جبر خطی و ساختار فضاهای برداری

  10. آشنایی با ماتریس‌ها و ضرب آنها

  11. پایه‌ی فضاهای برداری

  12. ضرب و وارون ماتریس‌ها

  13. آزمون‌های فرض

  14. بازه‌های اطمینان

  15. توزیع‌های مختلف آماری (نرمال؛ یکنواخت؛ نمایی؛ …)

البته مسلماً تمامی موارد به اینها ختم نمی‌شوند و لیست فوق با توجه به نوع کار و پروژه‌ای که در دست داریم؛ بروزرسانی خواهد شد.

دوره آموزشی رایگان ریاضی برای علم داده!

اما خبر خوب ما برای شما این است که «گروه علم داده، دکتر محمد فزونی» اقدام به تهیه و ضبط دوره‌ی آموزشی «ریاضی برای علم داده، هوش مصنوعی و یادگیری ماشینی» کرده و آنرا بصورت کاملاً رایگان در یوتیوب علم داده قرار خواهند داد. شما با دنبال نمودن کانال علم داده، براحتی و در کمترین زمان ممکن، می‌توانید با حداقل سرفصل‌های ریاضی برای علم داده آشنا شوید و در مصاحبه‌های کاری، یک قدم نسبت به رقبا، جلوتر باشید. همانگونه که استحضار دارید، اکثر افرادی که وارد این حوزه می‌شوند، منطق ریاضی قوی برای تجزیه و تحلیل اعداد و ارقام را ندارند. در نتیجه، اگر شما روی این نقطه و مهارت به اندازه‌ی کافی وقت بگذارید، نسبت به سایرین، بسیار موفق‌تر خواهید شد.

در صورتی که تمایل دارید در حوزه‌ی علم داده، بروز باشید و بمانید، اکیداً توصیه می‌کنیم که صفحه‌ی اینستاگرام علم داده را دنبال نمائید که روزانه پست‌های در این حوزه‌ی کاربردی، منتشر می‌نماید. همچنین با مراجعه به این صفحه می‌توانید کتاب‌های سطح‌بندی شده در این رشته که توسط ما معرفی شده‌اند را ببینید.

لیست پخش دوره «ریاضی برای علم داده»

 

چک لیست‌هایی در خصوص انجام پروژه‌های علم داده

انجام پروژه‌های علم داده، بر خلاف عقیده‌ی عموم و تصور رایج، کار بسیار آسانی است. اما قبل، در حین و بعد از انجام آنها باید کارهایی را انجام دهیم که برخی از آنها را بعضاً بصورت سؤالی در چک‌لیست‌های زیر، منتشر کرده‌ایم. این موارد با توجه به منابع معرفی شده‌ در انتهای مقاله بدست آمده و تنظیم شده است. بدلیل ماهیت بین رشته‌ای علم داده، چنین لیست‌هایی به هیچ وجه کامل نیستند، اما بسیار کارگشا و راهنمای شما خواهند بود. امید است که شما نیز این لیست را در آینده‌ای نچندان دور، کامل‌تر نمائید.

چک لیست استراتژی تیمی:

1. در حال حاضر چقدر حسن‌نیت وجود دارد؟ میزان حسن نیت اغلب مدت زمان لازم را که شما برای ارائه در نظر می‌گیرید مشخص می‌کند.

2. در حال حاضر چه مهارت‌هایی در تیم وجود دارند؟ آیا آنها برای داده‌های موجود مناسب هستند؟

3. داده‌ها عموما از کجا به دست آمده‌اند؟ آیا کاربران یا مشتری‌ها آنها را بشما داده‌اند؟ آیا آنها در حال حاضر در سازمان شما موجودند (یا بعنوان مثال روی سرورهای مشتری قرار دارند؟) آیا می‌توانید بطور موثری برای سازمان خود داده جمع‌آوری کنید؟ بعنوان مثال از طریق وب‌کاوی.

4. آیا دیتاست‌های مشابه را بررسی خواهید کرد یا خیر، دیتاست‌های متفاوتی را با توجه به نوع مسئله انتخاب و آنالیز می‌کنید؟

5. آیا در تیم شما یک روش صنعتی استاندارد برای بررسی مسائل وجود دارد؟ آیا وجود روش‌های جدید در حوزه‌ی کاری شما یک امتیاز است یا چندان موثر نخواهد بود؟

6. در حوزه یا صنعت کاری شما چگونه با روش‌های جدید کنار خواهند آمد؟ چه مخالفت‌هایی بوجود خواهد آمد اگر شما مورد جدیدی را معرفی نمائید؟

7. آیا منابع کافی در سازمان شما به منظور آموزش کاربران وجود دارد و یا چنین چیزی (آموزش) وظیفه‌ی شماست؟ آیا کاربرانی که احتمالاً در چنین مواقعی سؤال بپرسند را شناسایی کرده‌اید؟

8. یا آیا من می‌توانم از استراتژی تیمی استفاده کنم و به اشخاص در سازمان توضیح بدهم که چگونه علم داده به آنها در رسیدن به اهدافشان کمک خواهد کرد؟

9. اگر از استراتژی تیم استفاده کنیم، آیا بطور اتوماتیک به اهداف سازمان خواهیم رسید؟

10. آیا استراتژی سازمان در بازه‌ی زمانی تعیین شده با استراتژی تیم سازگار خواهد بود؟

11. آیا مستندات استراتژی تیم براحتی در اختیار سایر اعضاء قرار گرفته است یا خواهد گرفت؟

12. آیا ساختار مستندات برای خوانده شدن ساده، مختصر و مفید است؟

13. آیا برای ارتباط و بحث در خصوص مطالب یا استراتژی جدید با اعضای تیم مرحله‌ای در نظر گرفته‌اید؟ چگونه چنین چیزی با کارها و تخصص‌های اشخاص مرتبط خواهد شد؟

14. آیا زمانی که شما و سایر اعضای تیم کمترین حواس‌پرتی ممکن را دارند مشخص کرده‌اید؟

15. محتمل‌ترین سؤالات اعضاء را مشخص نموده و پاسخ مشخصی برای آنها در نظر بگیرید.

16. با اشخاص موفق در سازمان یا در خارج آن به شخصه در خصوص استراتژی خود قبل از ارائه صحبت کنید و نظرات ایشان را جویا شوید.

17. آئین و مناسک تیم شما چیست؟ آیا آنها کمک کننده هستند و یا مانعی بر سر راه رسیدن به اهداف تیم می‌باشند؟ آیا آنها تیم را در برابر تغییرات آزاد می‌گذارند یا باعث فیلتر ورودی‌های مختلف ذهنی برای افراد تیم می‌شوند؟ (یعنی قوانینی حاکم بر تیم که براحتی به اعضاء اجازه‌ی دسترسی به عقاید مخالف با منویات آنها را نمی‌دهد)

18. آیا تمرین استانداردی برای بررسی اینکه پروژ‌ه‌ی جدید حامی استراتژی تیم است، وجود دارد؟

19. آیا در آگهی شغلی‌تان توضیحاتی برای جذب کاندید‌های جدید که مهارتهایشان اهداف کلی تیم را حمایت کند، نوشته‌اید؟

 

چک لیست انجام پروژه:

این قسمت از چک لیست وقتی ارزشمند است که پروژه‌ی شما به سه بخش اهداف، مهارت‌ها و داده‌ها تقسیم شده باشد.

الف: اهداف:

1. آیا پیش‌نیازهای نظارتی در خصوص مدل شما وجود دارد؟ (همان‌گونه که در خصوص مدل‌های مرتبط با امور مالی و بیمه موجود است) تاثیر آنها چیست؟ بعنوان مثال آیا این نظارت‌ها باعث محدودیت در انتخاب الگوریتم ما خواهند شد؟ آیا نیاز به مستندسازی اضافه پیدا خواهیم کرد؟ یا نیاز به گزارشات بیشتر در چرخه‌ی زندگی مدل پیدا خواهد شد؟

2. هر چند وقت یکبار مدل بروزرسانی خواهد شد؟ پاسخ‌های احتمالی از «هرگز» تا «هر میکرو-ثانیه» متغیر است.

3. نتایج اشتباه بودن مدل چیست؟ هیچ؟ کسی مقداری پول از دست خواهد داد؟ شخصی جانش را از دست می‌دهد؟ (در خصوص یک مدل تشخیص دهنده‌ی مریضی)

4. چه حجمی از داده وارد مدل خواهد شد؟

5. چگونه کاربران نتایج را ارزیابی خواهند کرد؟

6. تیم علم داده چه مقدار از کاربران نهایی را ارزیابی کرده است؟ آیا تیم قادر است این کار را بیش از یکبار در طول چرخه‌ی زندگی مدل انجام دهد؟

ب: مهارت‌ها

1. آیا مهارت‌های لازم در حال حاضر در تیم شما وجود دارند؟

2. آیا افراد با مهارت‌های درست، همان‌هایی هستند که در حال حاضر در تیم وجود دارند؟

3. نتایج تکمیل نشدن پروژه چیست؟

4. آیا (انجام) پروژه یک نیاز مبرم است؟

5. چقدر استخدام یک کارمند موقت سخت است؟ چقدر چنین استخدامی باعث تاخیر در پروژه‌ها می‌گردد؟

پ: داده‌ها

1. آیا تیم قبلاً با این داده‌ها کار کرده است؟

2. منبع (مبدأ) داده‌ها چیست؟ چقدر محتمل است که یک دیتاست با کیفیت را قبل از بکارگیری آن بررسی کنید؟ همیشه این کار را انجام می‌دهید؟ (یعنی احتمالش 100% است؟)

3. آیا با داشتن دیتای بیشتر، نتایج بهتری خواهید گرفت؟ جمع کردن داده‌ی بیشتر چقدر هزینه خواهد برد؟ چقدر زمان نیاز است؟

4. آیا برای استفاده از داده‌ها در مدل اجازه داریم؟ به خصوص هنگامی که بخواهیم آنرا پیاده‌سازی نمائیم.

5. هنگامی که مدل پیاده‌سازی شد، آیا داده‌های شما، همان‌گونه که مدل تازه‌سازی می‌شود، بروز خواهند شد؟ (همواره باید به بروزرسانی نوع داده‌ها فکر کنیم)

 

چک لیست فروش:

1. آیا ارائه مدل شما لینکی بین مدل‌تان و راه‌حل برای رفع نیاز مشتری برقرار خواهد نمود؟

2. آیا جنبه‌های عاطفی ارائه را در نظر گرفته‌اید؟ (چگونه از مغز به قلب مشتری احتمالی برسیم؟)

3. آیا شما یک پاسخ کوتاه (Elevator Pitch) به سؤال «چیکار می‌کنی؟» دارید؟

4. آیا شما تابحال راجع به تعریف خودتان از علم داده و اینکه چگونه می‌تواند نیاز مشتری را رفع نماید، فکر کرده‌اید؟

5. چگونه در مشتری اعتماد ایجاد می‌کنید؟ اگر شخصی از مشتریان در خصوص شما بپرسد، چه خواهند گفت؟

چک لیست اعتبار مدل:

الف: مدل‌های قابل تفسیر

1. با توجه به داده‌هایی که دارید و میزان احتمالی که آنها ممکن است مفروضات لازم را نداشته باشند، آیا می‌توانید مدلی به اندازه‌ی کافی صحیح را توسعه دهید که ذاتاً تفسیرپذیر باشد؟ همانند مدل خطی تعمیم یافته و یا درخت تصمیم.

2. آیا مدلی جدید و خلاقانه جهت تفسیر نتایج الگوریتم پیچیده‌ی شما که در حال استفاده از آن هستید وجود دارد؟

3. آیا می‌توانید به مشتری و کاربر دسترسی به توضیحات را بدهید؟ هم در سطح موردی و هم بطور جامع.

4. آیا می‌توانید سطحی از عدم قطعیت آیا می‌توانید سطحی از عدم قطعیت در پیش‌بینی مدلتان را به کاربر توضیح بدهید؟

ب: ارائه‌ی مدل:

1. آیا متغیرها در مدل شما اسامی با معنی دارند؟

2. آیا کاربر شما به آسانی می‌تواند توضیحاتی در خصوص هر نسبت، و یا سایر فرمول‌ها را که در طول مدل استفاده شده، بیابد؟

3. اگر کاربران شما از طریق یک پلت‌فرم وب-اپ و یا هر اپلیکیشن دیگری به مدل شما دسترسی می‌یابند، آیا رابط‌های کاربری طراحی شده به کاربر اجازه‌ی دسترسی سریع به تعاریف و توضیحات برای داده‌های ورودی و خروجی را می‌دهد؟

پ: مدل‌های سازگار با خودشان و نظرات متخصصین حوزه:

1. آیا متخصصین حوزه (Subject Matter Experts) فرصتی برای مرور یافته‌های شما پیدا کردند؟ بررسی اینکه تک‌تک نتایج با معنی است و اینکه آیا آنها با ورودی‌ها مرتبط هستند یا خیر.

2. آیا روابط غیرخطی مهم را با متخصصین حوزه مرور کردید تا مطمئن شوید که آن روابط با فیلد کاری تطابق دارند؟

3. آیا مدل خود را به سایر دیتاساینتیست‌ها نشان داد‌ید تا مرور کنند که آیا مدل‌تان دارای نتایج قوی و مطلوب است یا خیر؟

4. آیا ویژگی‌هایی که مدل شما مهم تشخیص داده است را با ویژگی‌های مهم از نظر متخصصین حوزه مقایسه کردید؟

5. آیا روابط ناقص یا نامطلوب را بعد از بررسی و شناسایی، حذف یا تغییر دادید؟

چک لیست مدل‌های قابل اعتماد:

1. آیا یک ارزیابی ریسک قبل از پیاده‌سازی انجام داده‌اید؟

2. آیا سیستم مانیتورینگ کیفیت داده‌های ورودی و توزیع‌های آماری‌شان را ایجاد کرده‌اید؟ در خصوص خروجی‌ها چطور؟

3. اگر داده‌ها خارج از محدوده باشند، آیا طرحی برای اقدام یا بررسی دارید؟

4. آیا می‌دانید که کدام جنبه‌ از کیفیت داده‌ها به پیاده‌سازی مرتبط است؟ چگونه می‌توانید چنین موردی را شناسایی کنید؟

5. آیا یک برآورد کلی از خروجی و نتایج مدل دارید و تلاش نموده‌اید تا نتایج ناخواسته و غیر مترقبه را کشف نمائید؟

6. آیا توافقی بین شما و کاربران مبنی بر اینکه چگونه مدل‌تان چک خواهد شد وجود دارد؟ چگونه این توافق را مکتوب کرده‌اید؟

چک لیست ارتقاء شغلی:

1. آیا یک برگه‌ی توضیحات کوتاه (Whitepaper)که بینش‌های کسب شده توسط شما را به نمایش خواهد گذاشت که در عین حال توانمندی‌های تیم‌تان را نیز نشان می‌دهد، طراحی کرده‌اید؟

2. آیا یک برگه‌ی توضیحات کوتاه که به خواننده اطلاعات لازم در خصوص شما جهت کسب اعتماد و اینکه چقدر در حوزه‌ی کاری خود مهم هستید را طراحی کردید؟

3. آیا کارهایتان را برای یک دورهمی در سازمان خود ارائه کردید؟ تا حدودی با چیزهایی که به مشتری‌های خارج سازمان می‌گویید متفاوت باشد.

4. آیا در خصوص کارهایتان در سطح وب نوشته‌اید، بقسمی که در این متون، مواردی را که در جلسات نتوانستید ذکر کنید، اشاره شده باشد؟ و یا برخی از درس‌هایی که از انجام پروژه‌ها گرفته‌اید را شرح داده باشد؟

5. آیا جلسات پیش‌روی خود جهت ارائه دست‌آوردهایتان را در دفترچه‌ای ثبت می‌کنید تا نظم کاری‌تان بیشتر شود؟

 

چک لیست کارایی تیمی:

1. آیا یک فرایند بازنگری (به عقب) برای تیم که تلاش می‌کند تا درس‌های گذشته را به اشتراک بگذارد، تدوین کرده‌اید؟

2. آیا روش‌های کسب توجه مازاد به عناصر انسانی را در هنگام بازنگری تمرین کرده‌اید؟

3. آیا مواردی که در بازنگری‌ها بدست آمده را در امور جاری عادی‌تان بکار می‌گیرید؟

4. آیا یک مجموعه از لغات استاندارد برای مفاهیم دیتاساینس و کسب‌ وکاری را که قابل استفاده در تیم خود باشد و روشی استاندارد برای شناخت و فهم اولویت‌ها تدوین کرده‌اید؟

5. آیا یک بینش و تصور (vision) تیمی که از هر یک از اعضای تیم آغاز می‌شود را ساخته‌اید؟ (تمامی اعضای تیم در کسب آن نقش داشته باشند).

6. آیا مهارت‌های لازم در تیم علم داده‌ی خود را بررسی کرده‌اید و آیا مهارت‌های موجود در سایر بخش‌های سازمان خود را نیز برای اطمینان از وجود مهارت‌ها در تیم، بررسی نمودید؟ (در مواقعی آنقدر نیاز به انجام یک کار بصورت اورژانسی وجود دارد که اگر همکاران داخل سازمان و مهارت‌هایشان را بخوبی شناخته باشیم، بسیار کارگشا خواهد بود)

این چک لیست بخشی تکمیلی از کارگاه «مدیریت پروژه‌های علم داده» است که اخیراً با همت مرکز آموزش‌های آزاد دانشگاه گنبدکاووس و گروه علم داده، دکتر محمد فزونی، برگزار شد. علاقمندان، از چهار کشور مختلف در این کارگاه حضور داشتند.