یه تیر و دو نشون!
سال 1404، می تونه سال تغییر بزرگ برای تو باشه، اگه دیجیتال مارکتینگ رو بلد باشی!

همین الان، دوره mydmc رو با 50 درصد تخفیف بخر و علاوه بر استفاده از mydmc به دوره جدید که آخر بهار 1404 منتشر می‌شه هم دسترسی کامل داشته باش.
یعنی یه دوره می‌خری و به 2 دوره کامل دیجیتال مارکتینگ دسترسی داری. کد تخفیف: eid404

یکی از مباحث علوم داده،‌ پیدا کردن داده‌های مختلف است که گاهی افراد نمی‌دانند آن‌ها را از کجا به دست آورند. شما می‌توانید داده‌های مورد نیاز خودتان را حتی برای مقالات از سایت‌هایی که در بخش پیوندها معرفی کردیم به‌دست آورید.

آشنایی با مفهوم هوش تجاری (BI)

علوم داده و BI مساله محور هستند. نه اینکه براساس وجود داده، ما کاری را انجام دهم. یکی از مشکلاتی که در بعضی سازمان‌ها دیده می‌شود این است که وقتی شما استخدام این شرکت می‌شوید، یک دیتایی به شما داده می‌شود و از شما خواسته می‌شود که کاری را انجام دهید. این کار غلط است. چون مشکلات BI‌ مساله محور هستند. مثلا مساله این است که فروش ما کم است. حالا ما باید دیتاهایی را جمع‌آوری کنیم که بتوانیم این مشکل فروش را بررسی و بهینه‌سازی کنیم.

آشنایی با اصطلاحات دنیای BI

ما می‌خواهیم بدانیم افرادی که داده می‌دانند در سطح یک سازمان چه کارهایی می‌توانند انجام دهند. اگر ما مدل CRISP-DM را بررسی کنیم با واژه‌ها و اصطلاحاتی روبه‌رو می‌شویم که باید در مورد آن‌ها بدانیم:

Business understanding

فرض کنید که شما در یک شرکت دارویی استخدام می‌شوید. اگر این بیزنس را نشناسید،‌ چطور می‌توانید در این شرکت کار کنید و برای مشکلات پیش آمده راه‌حل ارائه کنید؟

Data understanding

وقتی ما می‌خواهیم در یک بیزنس کار کنیم باید دیتاهای لازم آن را داشته باشیم تا بتوانیم در آن حوزه فعالیت داشته باشیم.

Data Preparation

این همان بحث پردازش داده‌هاست که در مورد آن صحبت کردیم.

Modeling

این یک بحث طولانی است که در مورد مدل‌های مختلفی مانند Clustering classification، مدل‌های شبکه‌های عصبی و بسیاری دیگر است که باید روی داده‌ها پیاده‌سازی شوند.

Evaluation

بعد از پیاده‌سازی مدل‌ها روی داده‌ها، می‌توانیم یک ارزیابی از مدل‌ها داشته باشیم تا میزان کارآمدی آن‌ها را بسنجیم.

Deployment

بعد از ارزیابی، مدل‌ را انتخاب و آن را توسعه می‌دهیم.

پس ما براساس داده‌ها‌ و ارزیابی مدل‌ها، می‌توانیم توسعه ایجاد کنیم. نکتۀ مهم در این مدلی که توضیح دادیم این است که تمامی این رفتارها، حالت رفت و برگشتی دارند. یعنی این که قرار نیست وقتی ما دیتا را می‌شناسیم، با بیزنس خداحافظی کنیم. وقتی ما سمت دیتا می‌رویم، می‌توانیم باز به مراحل قبلی برگردیم.

مهندس داده (Data Engineers) کیست؟

مهندس داده کسی است که دیتاها را جمع‌آوری کرده و سپس تمیز می‌کند. پوزیشن بسیار سختی است که در واقع داده‌ها را برای دیگران آماده می‌کند. داده‌ها می‌تواند در گوگل ادز، آنالیتیکس، اکسل و بسیاری منابع داده باشد. این فرد باید از تمام این منابع، داده‌ها را جمع‌آوری و تمیز کند. این مبحث بسیار سخت است. اگر ساختار اشتباهی برای داده‌ها چیده شود، سیستم کاملا از بین می‌رود.

Data Analysts کیست؟

کسانی که داده‌ها را آنالیز و بررسی می‌کنند، دیتا آنالیست نامیده می‌شوند. این افراد در زمینه آماری قوی هستند.

مهندسان ماشین لرنینگ (Machine Learning Engineers)

افرادی هستند که در زمینۀ ماشین لرنینگ تبحر و مهارت دارند.

Data Scientists

دیتا ساینس یک کلمۀ بزرگ است. افرادی که در این حوزه کار می‌کنند،‌ از ابتدای پروژه تا انتهای آن باید کاملا مسلط باشند.

Data Preprocessing

مرحلۀ پیش‌ پردازش داده، یکی از مراحل مهم در حوزۀ علوم داده است. در این بخش ما باید مراحل مشخصی را در نظر بگیریم:

• در این بخش باید داده‌ها را تمیز کنیم تا داده‌های اشتباه وارد سیستم نشوند.

• باید داده‌های پرت یا Outliers را شناسایی کرد تا براساس شناسایی این‌ها، بتوان تحلیل درست‌تری داشت. این یکی از قدم‌های مهم هر پروژه است.

Model building

مدل کردن می‌تواند الگوریتم‌های مختلفی داشته باشد. از جمله این الگوریتم‌ها می‌توان به این موارد اشاره کرد:

• Principal Component Analysis (PCA)

• Random Forest

• Neural Network

• Kernal SVM

• Decision Tree

• Native Bayes

Model Deployment

معنای این مدل این است که ما به بستری که به وجود آورده‌ایم، یک ساختاری بدهیم که مخاطب بتواند از آن استفاده کند، بدون اینکه دانش علمی در آن حوزه داشته باشد.

نکته: علوم داده،‌ زمان حال و آینده را بررسی می‌کند.

تعریف Business Intelligence (BI)

BI یا هوش تجاری، یک رشتۀ میان رشته‌ای است که باید همۀ دروس آمار، IT، ریاضی و ... را بلد باشیم.

تعریف اول: مجموعه‌ای از فرایندها،‌ معماری‌ها و تکنولوژی‌ها است که نتیجۀ آن، تصمیم‌گیری بهتر، کاهش هزینه‌ها و ... است.

تعریف دوم: هوش کسب‌وکار یا به اختصار BI، عبارت است از فرایند دریافت حجم وسیعی از داده‌های خام و پردازش آن‌ها و در نهایت تبدیل آن‌ها به دانش عملی و کاربردی، تا بتوان از آن‌ها در تصمیم‌گیری‌ها استفاده کرد.

در ادامه در مورد تفاوت هوش تجاری و علم داده بیشتر خواهیم گفت.

Online Transaction Processing یا سیستم پردازش تراکنش آنلاین

به هر چیزی که به وسیلۀ آن، سیستم شروع به کار می‌کند و داده تولید می‌کند،‌ سیستم پردازش تراکنش آنلاین یا به اختصار، OLTP می‌نامیم. یعنی داده‌ها در این بخش مدام به‌صورت تراکنش ایجاد می‌شوند. داده‌ها در این سیستم به‌ سه صورت می‌توانند وجود داشته باشند:

• CRM

• EPR

• MIS

این داده‌ها بعد از جمع‌آوری و پردازش (ETL) وارد انبار داده یا Data Warehouse می‌شوند. این داده‌ها به صورت‌های زیر در انبار قرار دارند:

• تحلیل‌های آماری

• پاسخ دادن به سوالات

• گزارش گرفتن

• داشبورد سازی

• تصمیم‌گیری

پس یعنی ابتدای ماجرا با OLTP شروع شده و در انتها به یک داشبورد می‌رسیم. در مورد تمامی این بخش‌ها توضیح خواهیم داد. 

پیوندها و منابع آموزشی