برای مالکان کسبوکار و تصمیمگیران حیاتی است که پیوند میان داده و یادگیری ماشین را درک کنند.
تقریبا همیشه این دو اصطلاح را در کنار هم میشنوید. به نظرتان چرا؟
اگر شما بنیانگذار شرکتی هستید و به هر دلیلی سعی میکنید بیشتر در مورد این موضوع بدانید، چه برای بهبود جریان کاری، چه توسعه محصولات یا بخشی از کارتان، در ادامه توضیح ابتدایی صاحب یک کسبوکار را میخوانید که به شما میگوید وقتی افراد دائما از این دو در کنار هم صحبت کنند، چه منظوری دارند.
هوش مصنوعی برای انجام هر کاری به داده نیاز دارد
هوش مصنوعی ماهیتا الگوریتمی است و به زبان ساده فرایندی است که ورودیها را دریافت کرده و خروجی تولید میکند. درست مانند یک ماشین که بدون سوخت تکه فلزی بیش نیست، یک الگوریتم هم بهتنهایی و بدون داشتن دادهای برای پردازش نمیتواند هیچچیز مفیدی تولید کند؛ در واقع نمیتواند هیچ چیزی تولید کند.
این یعنی اگر میخواهید شرکت شما از هوش مصنوعی استفاده کند، اولین کاری که باید انجام دهید، جمعآوری دادهها و شکلدهی به آنهاست. به گفته Phuong Nguyen، مؤسس شرکت مشاوره علوم داده Partners in Company، این مساله میتواند یک مانع واقعی باشد. او میگوید: «بر اساس نظرات مشتریانی که با آنها کار کرده یا با آنها صحبت کردهایم، موانعی که بر سر راه دادهمحور بودن قرار دارند، معمولا اصول اولیهای مثل داشتن دادههای بدون خطا، یکدست، متمرکز و ایمنبودن آنها هستند.»
این معمولا به این معنی است که باید دادههای خود را از صفحات گسترده خارج کرده یا دادههای خود را از چندین پلتفرم مثل پلتفرم مدیریت ارتباط با مشتری (CRM) و یک پلتفرم بازاریابی در یک جای متمرکز جمع کنید؛ جایی که دادهها میتوانند ترکیب و با هدف تجزیهوتحلیل با یکدیگر مقایسه شوند. معمولا بعد از این کار باز هم دادهها باید پالایش شده و نرمال شوند تا قبل از اینکه تیمهای پردازش داده بتوانند نتیجهگیری درستی داشته باشند و دادهها را اساس کار هوش مصنوعی قرار دهند، مطمئن شویم که این دادهها سازگار هستند و شکل درستی دارند.
علاوه بر این، هوش مصنوعی برای تولید نتایجی که قابل اعتمادتر باشند، به دادههای زیادی نیاز دارد؛ درست همانند زمانی برای رسیدن به یک قضاوت منطقی به نمونههای زیادی نیاز داریم. همه ما با نظرسنجیهای سیاسی آشنا هستیم که در آن کارشناسان معمولا با برگزاری انتخابات آزمایشی در میان حدود ۳۰۰ نفر، با دقتی بیش از ۹۵ درصد پیشبینی میکنند که رفتار جمعیتهای بسیار بزرگتر در انتخابات چگونه خواهد بود.
این تعداد زمانی مناسب است که انتخاب میان دو گزینه است. وقتی میخواهید پیشبینیهای پیچیدهتری انجام دهید، مانند تفکیک انواع رفتار مشتری در دادههای بازاریابی، باید کار خود را با هزاران نمونه آغاز کنید؛ اغلب اوقات، باید از مقادیر بسیار بیشتری بهره ببرید تا بتوانید به نتایج خود اطمینان یابید.
در مورد چه مقدار داده صحبت میکنیم؟ یک تجزیهوتحلیل آماری مناسب میتواند عدد دقیقی را به شما ارائه دهد، اما بهعنوان یک قاعده کلی، برای تجزیهوتحلیلهای مبتنی بر یادگیری ماشین، معمولا کمترین مقدار صدها هزار ردیف است. «شانتل پِری»، دانشمند کهنهکار علوم داده در شرکتهای بزرگ و نویسنده کتاب «Data Newbie to Guru» میگوید: «من عادت ندارم با کمتر از یک میلیون ردیف کار کنم.»
برای چیزی مانند تحلیل بازاریابی که در آن قصد دارید تمایلات مشتری را درک کنید و ممکن است روزبهروز و ماهبهماه متفاوت باشد، باید به اندازه کافی و در یک دوره طولانی به جمعآوری دادهها بپردازید تا پیشبینیهای مفیدی داشته باشید؛ باید حداقل شش ماه در آن زمینه فعالیت کرده و حداقل شش ماه اطلاعات مربوط به مشتریان خود را جمعآوری کنید.
اکنون باید متوجه شده باشید که چرا هوش مصنوعی به داده نیاز دارد. البته این وابستگی دوطرفه است. حقیقت این است که شما نمیتوانید یکی را بدون دیگری داشته باشید.
از هوش مصنوعی دادههای زیادی به دست میآید
همانطور که الگوریتم هوش مصنوعی برای ورودی به داده نیاز دارد، خروجی آنها هم اغلب شکلی از داده است. فرض کنید دادههای بازاریابی شما به گونهای دستهبندی میشوند که هشت گروه عمده از مشتریانتان به دست میآید. همچنین ممکن است متوجه شوید که باید انواع مختلفی از طرحها یا تبلیغات را برای هر گروه از مشتریان اجرا کنید. این خروجیها دادههایی هستند که میتوانید به الگوریتم دیگری وارد کنید؛ الگوریتمی که میتوانید از برچسبگذاری آن برای پیشبینی این موضوع بهره ببرید که مشتری آینده متعلق به کدام دسته است. سپس یک فرایند خودکار داشته باشید و پیشنهادها یا تبلیغاتی را به آنها اختصاص دهید که موثرترین گزینه هستند.
وقتی دقیقتر نگاه کنیم، میبینیم که همه دادهها در نتیجه فرایندی وابسته به یک الگوریتم به دست میآیند که اغلب هوش مصنوعی است. گاهی اوقات هوش مصنوعی به فرایند جمعآوری داده انرژی میدهد، گاهی اوقات نیز اینطور نیست و گاهی اوقات هم این تمایز آنچنان واضح نخواهد بود. برای مثال، دادههای مربوط به میانگین درآمد و الگوهای مخارج را در یک منطقه جغرافیایی خاص در نظر بگیرید؛ این دادهها میتوانند از نظرسنجیها، دادههای دولتی، دادههایی که توسط شرکتهای کارت اعتباری و بازرگانان ارائه میشوند، به دست آیند و سپس دوباره در رابطه با کوچکترین منطقه جغرافیایی دستهبندی شوند. الگوریتمهای بازاریابی شما نیز میتوانند از آن استفاده کرده و به شما کمک کنند تا از طریق روشهای مختلف به مشتریان متعدد رسیدگی کنید.
نقل قول معروفی وجود دارد که من اغلب هنگام صحبت در مورد علم داده به آن اشاره میکنم؛ «هیچکس به یک مدل اعتقاد ندارد، به غیر از شخصی که آن را نوشته است و همه به یک مجموعه داده معین اعتقاد دارند، به غیر از شخصی که مسئول جمعآوری آن است.» یک لحظه در این گفته تامل کنید.
ما تمایل داریم که باور کنیم دادهها لزوما درست هستند و برای اینکه چنین باشند، به فرایندهای هوش مصنوعی یا انسانی وابسته نیستند، اما این باور اغلب نادرست است. اگر میخواهید به نتایج معنیداری برسید، باید دادههایی را در مدلهای خود موشکافی کنید؛ همچنین مدلهای ورودیای که دادهها را تولید میکنند.
پِری میگوید: «بزرگترین مشکلی که من میبینم، کیفیت دادههاست. درستی، سوگیری و سایر ویژگیهای هر چیزی که در پروسه تصمیمگیری دخیل است، باید بررسی شود، بهخصوص در مدلهای یادگیری ماشین.»
درک ارتباط میان داده و هوش مصنوعی و حلقه بازخورد به شما کمک خواهد کرد تا از تجزیهوتحلیلهایی که آنطور که در نگاه اول نشان میدهند، خوب عمل نمیکنند، اجتناب ورزید.