یه تیر و دو نشون!
سال 1404، می تونه سال تغییر بزرگ برای تو باشه، اگه دیجیتال مارکتینگ رو بلد باشی!
همین الان، دوره mydmc رو با 50 درصد تخفیف بخر و علاوه بر استفاده از mydmc به دوره جدید که آخر بهار 1404 منتشر میشه هم دسترسی کامل داشته باش.
یعنی یه دوره میخری و به 2 دوره کامل دیجیتال مارکتینگ
دسترسی داری. کد تخفیف: eid404
یکی از مباحث علوم داده، پیدا کردن دادههای مختلف است که گاهی افراد نمیدانند آنها را از کجا به دست آورند. شما میتوانید دادههای مورد نیاز خودتان را حتی برای مقالات از سایتهایی که در بخش پیوندها معرفی کردیم بهدست آورید.
آشنایی با مفهوم هوش تجاری (BI)
علوم داده و BI مساله محور هستند. نه اینکه براساس وجود داده، ما کاری را انجام دهم. یکی از مشکلاتی که در بعضی سازمانها دیده میشود این است که وقتی شما استخدام این شرکت میشوید، یک دیتایی به شما داده میشود و از شما خواسته میشود که کاری را انجام دهید. این کار غلط است. چون مشکلات BI مساله محور هستند. مثلا مساله این است که فروش ما کم است. حالا ما باید دیتاهایی را جمعآوری کنیم که بتوانیم این مشکل فروش را بررسی و بهینهسازی کنیم.
آشنایی با اصطلاحات دنیای BI
ما میخواهیم بدانیم افرادی که داده میدانند در سطح یک سازمان چه کارهایی میتوانند انجام دهند. اگر ما مدل CRISP-DM را بررسی کنیم با واژهها و اصطلاحاتی روبهرو میشویم که باید در مورد آنها بدانیم:
Business understanding
فرض کنید که شما در یک شرکت دارویی استخدام میشوید. اگر این بیزنس را نشناسید، چطور میتوانید در این شرکت کار کنید و برای مشکلات پیش آمده راهحل ارائه کنید؟
Data understanding
وقتی ما میخواهیم در یک بیزنس کار کنیم باید دیتاهای لازم آن را داشته باشیم تا بتوانیم در آن حوزه فعالیت داشته باشیم.
Data Preparation
این همان بحث پردازش دادههاست که در مورد آن صحبت کردیم.
Modeling
این یک بحث طولانی است که در مورد مدلهای مختلفی مانند Clustering classification، مدلهای شبکههای عصبی و بسیاری دیگر است که باید روی دادهها پیادهسازی شوند.
Evaluation
بعد از پیادهسازی مدلها روی دادهها، میتوانیم یک ارزیابی از مدلها داشته باشیم تا میزان کارآمدی آنها را بسنجیم.
Deployment
بعد از ارزیابی، مدل را انتخاب و آن را توسعه میدهیم.
پس ما براساس دادهها و ارزیابی مدلها، میتوانیم توسعه ایجاد کنیم. نکتۀ مهم در این مدلی که توضیح دادیم این است که تمامی این رفتارها، حالت رفت و برگشتی دارند. یعنی این که قرار نیست وقتی ما دیتا را میشناسیم، با بیزنس خداحافظی کنیم. وقتی ما سمت دیتا میرویم، میتوانیم باز به مراحل قبلی برگردیم.
مهندس داده (Data Engineers) کیست؟
مهندس داده کسی است که دیتاها را جمعآوری کرده و سپس تمیز میکند. پوزیشن بسیار سختی است که در واقع دادهها را برای دیگران آماده میکند. دادهها میتواند در گوگل ادز، آنالیتیکس، اکسل و بسیاری منابع داده باشد. این فرد باید از تمام این منابع، دادهها را جمعآوری و تمیز کند. این مبحث بسیار سخت است. اگر ساختار اشتباهی برای دادهها چیده شود، سیستم کاملا از بین میرود.
Data Analysts کیست؟
کسانی که دادهها را آنالیز و بررسی میکنند، دیتا آنالیست نامیده میشوند. این افراد در زمینه آماری قوی هستند.
مهندسان ماشین لرنینگ (Machine Learning Engineers)
افرادی هستند که در زمینۀ ماشین لرنینگ تبحر و مهارت دارند.
Data Scientists
دیتا ساینس یک کلمۀ بزرگ است. افرادی که در این حوزه کار میکنند، از ابتدای پروژه تا انتهای آن باید کاملا مسلط باشند.
Data Preprocessing
مرحلۀ پیش پردازش داده، یکی از مراحل مهم در حوزۀ علوم داده است. در این بخش ما باید مراحل مشخصی را در نظر بگیریم:
• در این بخش باید دادهها را تمیز کنیم تا دادههای اشتباه وارد سیستم نشوند.
• باید دادههای پرت یا Outliers را شناسایی کرد تا براساس شناسایی اینها، بتوان تحلیل درستتری داشت. این یکی از قدمهای مهم هر پروژه است.
Model building
مدل کردن میتواند الگوریتمهای مختلفی داشته باشد. از جمله این الگوریتمها میتوان به این موارد اشاره کرد:
• Principal Component Analysis (PCA)
• Random Forest
• Neural Network
• Kernal SVM
• Decision Tree
• Native Bayes
Model Deployment
معنای این مدل این است که ما به بستری که به وجود آوردهایم، یک ساختاری بدهیم که مخاطب بتواند از آن استفاده کند، بدون اینکه دانش علمی در آن حوزه داشته باشد.
نکته: علوم داده، زمان حال و آینده را بررسی میکند.
تعریف Business Intelligence (BI)
BI یا هوش تجاری، یک رشتۀ میان رشتهای است که باید همۀ دروس آمار، IT، ریاضی و ... را بلد باشیم.
تعریف اول: مجموعهای از فرایندها، معماریها و تکنولوژیها است که نتیجۀ آن، تصمیمگیری بهتر، کاهش هزینهها و ... است.
تعریف دوم: هوش کسبوکار یا به اختصار BI، عبارت است از فرایند دریافت حجم وسیعی از دادههای خام و پردازش آنها و در نهایت تبدیل آنها به دانش عملی و کاربردی، تا بتوان از آنها در تصمیمگیریها استفاده کرد.
در ادامه در مورد تفاوت هوش تجاری و علم داده بیشتر خواهیم گفت.
Online Transaction Processing یا سیستم پردازش تراکنش آنلاین
به هر چیزی که به وسیلۀ آن، سیستم شروع به کار میکند و داده تولید میکند، سیستم پردازش تراکنش آنلاین یا به اختصار، OLTP مینامیم. یعنی دادهها در این بخش مدام بهصورت تراکنش ایجاد میشوند. دادهها در این سیستم به سه صورت میتوانند وجود داشته باشند:
• CRM
• EPR
• MIS
این دادهها بعد از جمعآوری و پردازش (ETL) وارد انبار داده یا Data Warehouse میشوند. این دادهها به صورتهای زیر در انبار قرار دارند:
• تحلیلهای آماری
• پاسخ دادن به سوالات
• گزارش گرفتن
• داشبورد سازی
• تصمیمگیری
پس یعنی ابتدای ماجرا با OLTP شروع شده و در انتها به یک داشبورد میرسیم. در مورد تمامی این بخشها توضیح خواهیم داد.