دوره‌ طراحی

A/B تست چیست؟ از مبتدی تا پیشرفته

۱۷ مهر, ۱۳۹۸

در اجرای تست A/B و دریافت نتایج و خروجی آن، علی رغم تمام منابعی که در مورد آن وجود دارد، باز افراد در اجرای آن دچار مشکل می شوند. مشکلاتی از قبیل تست کردن موضوعات اشتباه، اجرای نادرست تست، در واقع عوامل زیادی موجب اجرای غلط تست می شود.

در این بخش به بررسی موضوعات زیر می پردازیم:

تست A/B چیست؟

تست A/B بین کنترل و متغیر، تبادل ۵۰/۵۰ برقرار می‌کند. این تست یک اصطلاح جدید برای یک تکنیک قدیمی با نام آزمایش کنترل شده است.

وقتی که محققان اثر یک داروی جدید را مورد بررسی قرار می‌دهند از تست A/B استفاده می‌کنند. درواقع، اغلب آزمایشات تحقیقی را می‌توان به عنوان یک تست A/B در نظر گرفت که با فرضیه، کنترل، متغیر و نتیجه محاسبه آماری تکمیل می‌شود. به عنوان مثال، اگر شما یک تست ساده را اجرا کنید، یک تبادل ۵۰/۵۰ بین صفحه اصلی و متغیر برقرار خواهد شد.

تغییرات ترافیک اینترنتی، دلیل اصلی در بهینه سازی تبدیل است. در روش آزمایشگاهی، کنترل متغیرهای خارجی آسانتر است اما در روش آنلاین، شما می‌توانید این عوامل را کاهش دهید. با این تفاوت که انجام یک تست کاملاً کنترل شده مشکل است.

علاوه بر این، تست داروهای جدید نیاز به درجه خاصی از دقَت دارد چرا که پای زندگی افراد در میان است. در اصطلاحات فنی، دوره تحقیقات شما میتواند طولانی‌تر باشد چون باید مطمئن شوید که مرتکب هیچ نوع خطایی نمی‌شوید.

در روش آنلاین، روند انجام تست A/B برای اهداف تجاری مد نظر گرفته می‌شود. این تست ریسک را در مقابل پاداش، تحقیق را در مقابل بهره برداری، علم را در مقابل تجارت بررسی می‌کند. بنابراین ما نتایج را با یک دید متفاوت می‌سنجیم و در نتیجه نسبت به روش آزمایشگاهی تصمیمات متفاوت‌تری می گیریم.

تفاوت بین تست A/B ، تست چند متغیره و الگوریتم باندیت چیست؟

تست های A/Bn آزمایش های کنترل شده‌ایی هستند که یک یا چند متغیر را در برابر صفحه اصلی اجرا می کنند.

تست های چند متغیره، نسخه چند گانه از یک صفحه را برای مشخص کردن موثرترین ویژگی، مورد بررسی قرار می‌دهند. به عبارت دیگر تست‌های چند متغیره همانند تست های A/Bn هستند که در آنها نسخه اصلی در برابر متغیرها مورد آزمایش قرار می‌گیرد. اما هر متغیر شامل عناصر طراحی متفاوتی است. هر عنصر ویژگی مخصوص به خود دارد و از فاکتوری استفاده می‌کند که به شما کمک می‌کند بیشترین بهره را از سایت خود ببرید. به شیوه زیر:

از تست‌های A/B برای مشخص کردن بهترین طرح استفاده کنید.
از تست‌های چند متغیره برای طرح بهتر و اطمینان حاصل کردن از تاثیر متقابل عناصر بر یکدیگر استفاده کنید. شما به ترافیک زیادی در صفحه در حال تست نیاز دارید حتی قبل از در نظر گرفتن تست‌های چند متغیره. اما اگر از ترافیک کافی برخوردارید باید از هر دو نوع تست در برنامه بهینه سازی خود استفاده کنید.

الگوریتم های باندیت، تست های A/Bn هستند که در زمان واقعیِ اجرای واقعی هر متغیر آپدیت می‌شوند.

در اصل، الگوریتم باندیت با ارسال ترافیک به دو صفحه یا بیشتر شروع میشود: صفحه اصلی و متغیرها. این الگوریتم بر مبنای متغیر برنده، آپدیت می‌شود و در نهایت از بهترین گزینه بطور کامل بهره می‌برد. یکی از مزایای تست باندیت کاهش حس تاسَف و پشیمانی نسبت به فرصت تبدیل از دست رفته‌ایی است که هنگام تست یک متغیر بالقوه با آن مواجه می‌شوید.

تست های باندیت و A/Bn هر کدام یک هدف خاص دارند. در مجموع نیز تست باندیت برای موارد زیر به کار می رود:

سر فصل‌ها و کمپین‌های کوتاه مدت
اتوماسیون مقیاس
هدف گذاری
ترکیب بهینه‌سازی با کیفیت

چگونگی بهبود بخشیدن نتایج تست A/B

پست‌های وبلاگ‌هایی که به شما می‌گویند ” ۹۹ کاری که برای اجرای صحیح تست A/B از لحاظ زمان‌بندی و ترافیک می‌توانید انجام دهید” را نادیده بگیرید. این پروسه برای شما پول بیشتری کسب می‌کند. همچنین ۷۴% از بهینه سازان با رویکرد ساختاری برای تبدیل، ادعای شرایط فروش بهتری دارند. دیگران بدون رویکرد ساختاری در شرایطی هستند که گریگ سولیوان آن را “تخریبی” می‌نامد. مگر اینکه نتایج آنها به صورت مثبت کاذب باشد که بعداً به آن می‌پردازیم.

برای ساده سازی شرایط برنده شدن، ساختار برنامه چیزی شبیه به این خواهد بود:

اولویت بندی
آزمایش
آنالیز، یادگیری، تکرار

تحقیق: درک مفهوم واژه داده محور

قبل از اینکه به شروع بهینه‌سازی و تست فکر کنید باید بدانید کاربرانتان در حال انجام چه کاری هستند و چرا؟ به هر حال استراتژی سطح بالای خود را تقویت کنید و سپس از این مرحله بگذرید. بنابراین طبق دستور العمل زیر عمل کنید:

اهداف تجاری خود را مشخص کنید.
اهداف وب سایت خود را مشخص کنید.
شاخص های کلیدی خود را مشخص کنید.
معیارهای هدف خود را تعیین کنید.

اول شما باید بدانید که چه می‌خواهید. می‌توانید اطلاعات مورد نیاز را جمع‌آوری کنید. ما به شما چهار چوب تحقیقاتی XL را پیشنهاد می‌کنیم.

در اینجا خلاصه روند اجرایی مورد استفاده در CXL را ذکر می کنیم:

تجزیه و تحلیل اکتشافی
تجزیه و تحلیل تکنیکی
تجزیه و تحلیل وب
آنالیز ردیابی ماوس
بررسی کیفی
تست کاربر

برای انجام تجزیه و تحلیل اکتشافی هر صفحه را به ترتیب زیر ارزیابی می کنیم:

ارتباط
نظم و ترتیب
ارزش
اختلاف
انحراف

آنالیز تکنیکی اغلب یک حوزه ی فراموش شده است. اشکالات قاتل تبدیل هستند.شاید فکر کنید سایت شما از لحاظ تجربه ی کاربر و عملکرد، بسیار خوب است. اما آیا این سایت با هر مرورگر و هر دستگاهی به همان صورت عمل می کند؟

به احتمال زیاد ! نه.

این یک تکنیک دردسترس و بسیار سودآور است. بنابراین به ترتیب زیر شروع کنید:

تست مرورگر متقابل و دستگاه متقابل
آنالیز سرعت

تحلیلگرهای گوگل واحدهایی هستند که در آنها لینک های مفیدی موجود است:

مرحله بعدی ردیابی ماوس است که شامل نقشه های حرارتی، اسکرول مپ ،کلیک مپ، تجزیه و تحلیل و قسمت پاسخ دهی کاربران است. با پرداختن به تصویر سازی زیبا از کلیک مپ، خیلی از مرحله دور نشوید. اطمینان حاصل کنید که اهداف بزرگتان را با این مرحله مشخص کرده اید.

تحقیقات کیفی به شما می گوید که چرا تجزیه و تحلیل های کمَی دارای خطا هستند؟ بسیاری از مردم فکر می کنند تجزیه و تحلیل کیفی بسیار آسانتر از نوع کمَی آن است. اما همانند سایر بخش های مهم تحلیلی، آن هم باید دقیق و دارای مفهوم مشخص باشد. برای تحقیق کیفی از فاکتورهای زیر استفاده کنید:

نظرسنجی های یک سایت
نظرسنجی های مشتری
مصاحبه با مشتریان و گروه های هدف

سرانجام به تست کاربر می رسیم. قضیه ساده است، ببینید چه تعداد کاربر واقعی از وب سایت شما استفاده می کنند و با آن تعامل دارند در حالی که فکر خود را بلند بیان می کنند. توجه کنید که آنها چه می گویند و چه تجربه ایی دارند. پس از تحقیقات جامع تبدیل، شما اطلاعات زیادی در اختیار خواهید داشت. مرحله ی بعدی اولویت بندی اطلاعات برای تست است.

چگونه فرضیه های تست A/B را اولویت بندی کنیم؟

تست | این باکتی ( سطلی ) است که شما چیزهایی را برای تست در آن قرار می دهید.
ابزار | می تواند شامل تثبیت کردن، اضافه کردن یا بهبود مدیریت رویداد در تجزیه و تحلیل باشد.
فرضیه ها | این بخشی است که شما صفحه، ویجت یا روندی را که عملکرد خوبی ندارد و راه حل مشخصی را ارائه نمی دهد در آن خواهید یافت.
فقط انجامش بده | در اینجا باکتی ( سطلی) هست برای بی فکرها. فقط انجامش بده.
تحقیق کردن | اگر در این باکت، آیتمی موجود باشد، شما نیاز به پرس و جوی بیشتر یا کند و کاوی عمیق تر دارید.

رده بندی موضوعات

هر موضوع را از ۱ تا ۵ ستاره رده بندی کنید(۱ =کمترین ، ۵= بحرانی). دو شاخص وجود دارد که بیشتر از دیگران هنگام امتیاز دهی مهم است:

سهولت اجرا | زمان/ پیچیدگی/ ریسک . گاهی اوقات اطلاعات حاکی از ساختن چیزی است که ماه ها طول می کشد. اصلاً ساخت آن را شروع نکنید.

فرصت | موضوعات را بر مبنای اینکه چه تغییراتی ممکن است ایجاد کنند، به صورت ذهنی امتیاز بندی کنید.

با همه ی اطلاعات در دست خود یک صفحه ی گسترده ایجاد کنید. شما یک نقشه ی راه برای تست اولویت بندی شده خواهید داشت. این چارچوب به جای حدس زدن در مورد تاُثیراتی که ممکن است داشته باشد، سوالاتی در مورد تست از شما می پرسد:

آیا تغییرات بالای ردیف است؟ بیشتر افراد به تغییرات بالای ردیف توجه می کنند. بنابراین کدام تغییرات احتمالاَ تاُثیر بیشتری خواهد داشت.
آیا تغییرات زیر ۵ ثانیه قابل توجه هستند؟ به یک گروه از افراد یک کنترل و سپس متغیر ها را نشان دهید. آیا آنها پس از ۵ ثانیه می توانند تفاوت ها را بگویند؟ اگر نه، آن احتمالاَ کمترین تاُثیر را خواهد داشت.

بسیاری از متغیرهای تست بالقوه برای اولویت بندی فرضیه های ما نیاز به اطلاعات دارند. بحث های هفتگی که این چهار پرسش در آنها مطرح می شود در اولویت بندی تست بر مبنای اطلاعات و نه عقاید به شما کمک خواهد کرد.:

آیا دربرگیرنده ی موضوعی است که از طریق تست کاربر پیدا شده است؟
آیا نشان دهنده ی موضوعی است که از طریق بازخورد کیفی کشف شده است ( نظر سنجی ها، رای گیری، مصاحبه ها )؟
آیا فرضیه ها توسط ردیابی موَس، نقشه ی حرارتی یا ردیابی چشمی پشتیبانی می شود؟
آیا دربرگیرنده ی مفاهیمی است که از طریق تحلیل های دیجیتال یافت شده است؟

ما با طبقه بندی کردن پاسخ ها برطبق زمان تعیین شده، برای سهولت اجرا حد و مرز تعیین کردیم. در واقع به صورت کاملاً ایده آل برگزارکننده ی تست، بخشی از مبحث اولویت بندی است.

درجه بندی PXL

ما یک مقیاس دو گانه را فرض می کنیم: شما باید یکی یا دیگری را انتخاب کنید. بنابراین برای بیشتر متغیرها، شما a0 یا a1 را انتخاب می کنید. اما ما می خواهیم متغیرها را بر مبنای میزان اهمیت آنها طبقه بندی کنیم _ تغییر تا چه حدی قابل اهمیت است: اگر چیزی اضافه یا کم شود و سهولت اجرا. مخصوصاَ برای چنین متغیرهایی ما میزان تغییرات را هم ذکر می کنیم. به عنوان مثال، با توجه به تغییر متغیر شما می توانید آن را با نمره ی a2 یا a0 مشخص کنید.

قابلیت تنظیم

ما این مدل را برمبنای این تفکر ساختیم که کاربر بتواند و باید متغیرها را بر مبنای اولویت های مهم شغل خود تنظیم کند. مثلاَ ممکن است شما در حال همکاری با یک برند باشید یا فرضیه های تجربه کاربر باید با دستورالعمل های برند مطابقت داشته باشد. آن را به عنوان یک متغیر اضافه کنید. شاید شما در استارت آپی هستید که فاکتور فراگیری آن با SEO پر شده است. شاید شما بر اساس میزان علاقه مندی مشتری ها سرمایه گذاری کرده باشید. اضافه کردن یک نکته مثل ” بدون ارتباط با SEO”، ممکن است برخی از عنوان ها یا تست های کپی را تغییر دهد.

همه ی سازمان ها طبق تعهدات متفاوتی عمل می کنند. تطابق الگوها می تواند به حساب آنها باشد و موجب بهبود برنامه بهینه سازی شما شود. هر کدام از چارچوب هایی که شما استفاده کنید، آن برنامه را برای هریک از اعضای تیم، همانند سهامداران سیستماتیک و قابل فهم می کند.

اجرای تست A/B چقدر زمان می برد؟

قانون اول: هرگز انجام تست را متوقف نکنید تنها به این دلیل که به مرحله ی آماری رسیده است. این احتمالاً رایج ترین اشتباهی است که در هنگام شروع بهینه سازی با اهداف خوب رخ می دهد.

اگر هنگامی که به شاخص آماری رسیدید به تست توجه کنید، متوجه خواهید شد که اغلب پیشرفت ها به افزایش درآمد، تعبیر نمی شود. کلمه پیشرفت در واقع خیالی است.

به این نکته توجه کنید: وقتی که ۱۰۰۰ تست در دو صفحه مشابه هم جداگانه انجام شد:

۷۷۱ آزمایش از ۱۰۰۰ تا از برخی جهات به مرتبه ی ۹۰% رسید.
۵۳۱ آزمایش از ۱۰۰۰ تا از برخی جهات به مرتبه ی ۹۵% رسید.

متوقف کردن تست ها در مرحله ی شاخص آماری ریسک مثبت کاذب را به همراه دارد. و مانع از تهدیدات ناشی از اعتبار خارجی مثل فصلی بودن می شود.

اندازه ی نمونه را از قبل تعیین کنید و آزمون را طی هفته های کامل، حداقل دو دوره ی کسب و کار اجرا کنید‌.

در این مثال ما به برنامه گفتیم که ۳% نرخ تبدیل و حداقل ۱۰% افزایش می خواهیم. برنامه به ما گفت که ما نیاز به ۵۱/۴۸۶ بازدید کننده برای هر متغیر داریم تا به مرحله ی شاخص آماری برسد.

علاوه برمرحله شاخص آماری، مرحله دیگری به نام قدرت آماری وجود دارد. قدرت آماری تلاش می کند مانع از اشتباه نوع دوم شود ( منفی کاذب ). به عبارت دیگر، در واقع قدرت آماری به شما امکان مشاهده ی نتیجه را می دهد اگر واقعاَ وجود داشته باشد. برای اهداف علمی، ۸۰% قدرت به برنامه ی تست استاندارد بستگی دارد. برای رسیدن به چنین سطحی، شما نیاز به اندازه ی نمونه ی بزرگ یا یک تست زمان دار دارید.

اعداد جادویی وجود ندارد

در بسیاری از پست های وبلاگ ها با اغراق صحبت از اعداد جادویی مثل ” ۱۰۰ تبدیل ” یا ” ۱۰۰۰ بازدید کننده ” است مانند نقاط توقف. ریاضیات جادویی نیست. ریاضی ، ریاضی است و آنچه که ما به آن می پردازیم تا حدی پیچیده تر از آن اکتشافات ساده مانند آن ارقام است.

ما می خواهیم نشان دهنده ی نمونه باشیم. چگونه می توانیم آن را به دست آوریم؟

بررسی چرخه ها

دو چرخه کسب و کار را برای کاهش اثر فاکتورهای خارجی مورد تست قرار می دهیم:

روز هفته. ترافیک روزانه شما می تواند بسیار متغیر باشد.
منابع ترافیک. مگر اینکه شما بخواهید این تجربه را برای یک منبع اختصاصی مشخص کنید.
برنامه نشر پست های وبلاگ و خبرنامه
بازگشت مجدد کاربران. ممکن است افراد از سایت شما دیدن کنند و به خرید فکر کنند و سپس ۱۰ روز بعد برای خرید برگردند.
عوامل خارجی. موعد پرداخت نیمه ماهیانه ممکن است روی خرید اثر بگذارد.

مراقب نمونه های با اندازه ی کوچک باشید. اینترنت مملو از موارد مطالعاتی است که با ریاضیات بی ارزش آمیخته شده است. اکثر مطالعات نشان دهنده ی این است که ناشران تغییرات تست را در ۱۰۰ بازدیدکننده یا یک جهش از ۱۲ تا ۲۲ تبدیل، مورد ارزیابی قرار داده اند.

وقتی که شما همه چیز را به درستی انجام می دهید ، از یواشکی نگاه کردن به نتایج تست، قبل از اتمام آن اجتناب کنید. این می تواند به دلیل تشخیص یک روند به نتیجه زودرس منجر شود. آنچه که شما با آن مواجه می شوید این است که نتایج بسیاری از تست ها رگرسیون به سمت میانگین دارد.

رگرسیون به میانگین

شما طی روزهای اولیه انجام تست با نتایج بسیار متنوعی مواجه می شوید. حتماَ مطمئن شوید که نتایج به دست آمده طی هفته های آینده همگرا و همسان شوند.

در اینجا مثالی از سایت تجارت الکترونیک می آوریم:

چند روز اول: آبی (متغیر#۳ ) برنده ی بزرگ است. مثل ۱۶$ برای هر بازدید کننده در مقابل ۱۲/۵ $ برای کنترل. بسیاری از افراد تست را در همین نقطه تمام می کنند.
بعد از ۷ روز: آبی هنوز هم برنده است و تفاوت نسبی زیاد است.
بعد از ۱۴ روز: نارنجی ( ۴# ) برنده است.
بعد از ۱۲ روز: نارنجی هنوز هم برنده است.

آیا می توان چند تست A/B را همزمان انجام داد؟

شما می خواهید به برنامه خود سرعت ببخشید و چندین تست را با هم انجام دهید_ در بیشتر موارد، شما در اجرای همزمان چند تست عملکرد خوبی خواهید داشت. وجود تعاملات غیرعادی بعید است. مگر اینکه شما در حال انجام تست روی موضوع بسیار مهمی باشید. مزایای حجم آزمایشی احتمالاَ بیشتر از اختلال در داده های شما و گاهی مثبت کاذب است. اگر ریسک بوجود آمدن اثر متقابل بین چندین تست وجود دارد، از تعداد تست ها کم کنید یا زمان اجرای تست را برای بهبود میزان دقّت افزایش دهید.

اگر شما تمایل به یادگیری بیشتر دارید پست های زیر را بخوانید:

چگونه تست A/B را استفاده کنیم؟

زمانی که شما یک لیست اولویت بندی شده از موضوعات دارید زمان طرح فرضیه و انجام آزمایش است. فرضیه مشخص می کند که چرا شما باور دارید که مشکلی رخ می دهد. علاوه بر این، فرضیه های خوب:

قابل آزمایش هستند: قابل اندازه گیری هستند پس می توان آنها را آزمایش کرد.
مشکل تبدیل را حل می کنند: تست های A/B دوگانه مشکل تبدیل را حل می کنند.
فهم و بینش تجاری را موجب می شود. با یک فرضیه ی درست، نتایج تست A/B ، به شما اطلاعاتی در مورد مشتری ها و اینکه ایا تست برنده است یا بازنده می دهد.

روش آسان تر

کرایج سولیوان ( craig sullivan ) یک کیت فرضیه سازی برای سهولت این روند دارد:

به دلیل اینکه ما دیدیم ( اطلاعات/ بازخورد )
ما انتظار داریم که تغییرات اثر گذار باشد
ما با استفاده از داده ی متریک آن را می سنجیم

و در مراحل پیشرفته

به دلیل اینکه ما داده های کمّی و کیفی را دیده ایم
انتظار داریم که تغییرات بر جمع اثرگذار باشد
انتظار می رود که تغییرات داده های متریک را در چرخه ی کسب و کار X ببینیم

مسائل فنی برای تست A/B

اینجا بخش جالب کار است: بالاخره شما می توانید دست به ابزار شوید.

در حالی که این اولین بخشی است که بسیاری از افراد قبل از شروع کار به آن فکر می کنند. اما خیلی مهم نیست. جنبه های دانش آماری و استراتژیک کار در اولویت قرار دارند. گفته می شود تفاوت های بسیار کمی وجود دارد که در خاطر انسان می ماند. یکی از مهمترین طبقه بندی ها در ابزار این است که ایا آنها ابزارهایی است سرور ساید ( سمت سرور ) یا کلاینت ساید ( سمت کاربر) هستند‌. ابزار های سرور ساید، کد را روی سرور نمایش می دهند. آنها بدون هیچ تغییر و اصلاحی در مرورگر بازدید کننده یه پیج تصادفی برای او می فرستند. ابزار های کلاینت ساید، همان صفحه را می فرستند اما جاوا اسکریپت در مرورگر کاربر تغییراتی را در ظاهر اصل و متغیر اعمال می کند.

ابزارها

ابزارهای کلاینت ساید شامل بهینه سازی VWO و adobe Target هستند. Conductrics برای هر دو مورد گنجایش دارد و Sitespect یک ابزار سرور ساید پروکسی است.

همه ی اینها چه مفهومی برای شما دارند؟ اگر شما خواهان صرفه جویی در زمان هستید، گروهتان کوچک است یا کمبود منابع توسعه یافته دارید ابزارهای کلاینت ساید می توانند کارتان را راه بیندازند و سرعت بخشند. ابزارهای سرور ساید نیاز به منابع توسعه یافته دارند اما اغلب قوی تر عمل می کنند.

یک صفحه تشکر در گوگل آنالتیکز به عنوان هدف

تنظیم آزمون

در حالی که تنظیم کردن آزمون کمی متفاوت است اما بستگی به این دارد که شما از چه ابزاری استفاده می کنید. اغلب به سادگی ثبت نام کردن برای ابزار مورد علاقه تان و دنبال کردن دستورالعمل های آن است. مثل گذاشتن یک قطعه از جاوا اسکریپت روی وب سایت تان.

علاوه بر همه ی این مسائل شما نیاز به تنظیم اهداف خود دارید ( باید بدانید که چه زمانی باید تبدیل صورت بگیرد.) استفاده از ابزار تست تداوم خواهد یافت در صورتی که هر متغیر بازدید کننده را به مشتری تبدیل کند.

چگونه نتایج تست A/B را تحلیل و بررسی کنیم؟

بسیار خوب، شما تحقیق خود را انجام داده اید. تست مورد نظرتان را به درستی اجرا کرده اید. حالا نوبت ارزیابی است. این کار به راحتی نگاه اجمالی به یک نمودار در ابزار تست تان نیست. کاری که شما همیشه باید انجام دهید این است که نتایج تست خود را در Google Analytics بررسی کنید. این کار نه تنها ظرفیت آنالیز شما را بالا می برد، بلکه به شما اجازه می دهد در زمینه ی داده ها و تصمیم گیری هایتان مطمئن تر عمل کنید.

اشتباه ابزارهای تست

ابزارهای تست می توانند اطلاعات را به صورت اشتباه ثبت کنند. اگر شما هیچ منبع دیگری برای داده های تست خود ندارید هرگز نمی توانید مطمئن شوید که آیا به آنها اطمینان کنید یا نه؟ حتماً به چند منبع داده دسترسی داشته باشید.

اگر هیچ تفاوتی بین متغیرها وجود نداشته باشد چه اتفاقی می افتد؟ خیلی سریع وارد عمل نشوید. اول به این دو نکته توجه کنید:

فرضیه ی شما ممکن است درست باشد اما روش اجرای تست تان اشتباه بوده است. تحقیقات کیفی به شما می گویند که نگرانی در مورد امنیت یک مسئله مهم است. با چندین روش شما می توانید درک امنیت را افزایش دهید؟ نا محدود.
حتی اگر در کل هیچ تفاوتی وجود نداشت، متغیرها ممکن است کنترل را به یک یا دو بخش تقسیم کنند. اگر شما در تعداد بازدید کنندگان و بازدید کنندگان تلفن همراه افزایش داشتید. اما برای بازدید کنندگان جدید و کاربران دسکتاپ دچاراُفت شده اید. این کاهش تعداد ممکن است باعث کنسل کردن آن بخش ها هم بشود. برای بررسی تفاوت ها تست تان را در تمام بخش های کلیدی مورد ارزیابی قرار دهید.

تقسیم بندی داده ها برای تست های A/B

نکته ی کلیدی در یادگیری تست های A/B تقسیم بندی است.حتی اگر B در نتیجه ی کلی به A ببازد. اما در بخش های خاصی مثل ارگانیک، فیس بوک، موبایل، B ممکن است A را شکست دهد.

بخش های مختلفی وجود دارد که می توانید آنالیز کنید. موارد زیر را اولویت بندی کنید:

نوع مرورگر
نوع منبع
بازدیدکنندگان وارد شده در مقابل بازدیدکنندگان خارج شده
کمپین PPC/SEM
مناطق جغرافیایی ( شهر، ایالت/ استان، کشور)
بازدید کنندگان جدید در مقابل بازدیدکنندگان قبلی
خریداران جدید در مقابل خریداران قبلی
کاربران ثابت در مقابل بازدیدکنندگان گاه به گاه
مرد در مقابل زن
رده ی سنی
جدید در مقابل قدیم
مدارک جدید در مقابل مدارک از قبل جایگزین شده
انواع برنامه ریزی یا سطوح برنامه ی وفاداری
مشتری های فعلی، آینده و سابق
نقش ها ( به عنوان مثال اگر سایت شما هر دو نقش را شامل می شود هم خریدار و هم فروشنده )

توجه

و در نهایت با فرض بر اینکه اندازه ی نمونه ی شما کافی باشد به این بخش ها توجه کنید:

دسکتاپ در مقابل تبلت
بازدید جدید در مقابل مراجعه ی مجدد
ترافیکی که روی صفحه قرار دارد در مقابل ترافیک ناشی از لینک های داخلی

مطمئن شوید که به اندازه ی کافی نمونه در یک بخش دارید و آن را کاملاً محاسبه کنید. دقت کنید که تعداد آن کمتر از ۲۵۰ تا ۳۵۰ تبدیل برای هر متغیر در هر بخش نباشد. اگر عملکرد شما در یک بخش خاص خوب است. وقت آن است

که یک رویکرد شخصی برای آن کاربران در نظر بگیرید.

چگونه تست های قبلی را آرشیو کنیم؟

تست های A/B فقط در مورد فاکتورهایی مثل صعود، نزول و برنده شدن نیستند. همانطور که مت گرشاف گفته است: ” بهینه سازی در واقع جمع آوری اطلاعات برای اطلاع رسانی در مورد تصمیم گیری ها است.” و یادگیری از تست های آماری معتبر در بهینه سازی بسیار موثر است.

سازمان های هوشمند نتایج تست های خود را آرشیو می کنند و دستاوردهای خود را برای تست های سیستماتیک بعدی برنامه ریزی می کنند. یک رویکرد ساختاریافته برای بهینه سازی منجر به رشد بیشتر می شود و اغلب توسط ماکسیمم های موضعی محدود می شوند.

اینجا بخش سخت کار است؛ هیچ راه خاصی وجود ندارد که ترتیب مشخصی برای دانش خود ارائه دهید. ما مقاله ایی در مورد اینکه چگونه می توان نتایج تست A/B را آرشیو کرد نوشتیم. برخی از شرکت ها از ابزارهای داخلی پیشرفته، برخی از ابزارهای شخص ثالث و برخی از اِکسل و تِرِلو استفاده می کنند.

در اینجا چهار ابزار که بطور اختصاصی برای مدیریت پروژه ی بهینه سازی تبدیل ساخته شده است را معرفی می کنیم:

مهم است که با همه ی ادارات و مدیران آنها ارتباط برقرار کنیم. اغلب نتایج تست A/B برای افراد غیر متخصص مستقیماً قابل درک نیست. تصویر سازی به آنها کمک می کند.

تحلیل آماری تست A/B

دانش آماری برای تجزیه و تحلیل نتایج تست A/B بسیار سودمند است. ما برخی از موارد بالا را بررسی کردیم اما موارد بیشتری برای تحلیل وجود دارد. چرا شما نیاز به شناخت علم آمار دارید؟ مت گرشاف از قول پروفسور ریاضی کالج اش نقل می کند: ” چگونه شما می توانید پنیر درست کنید اگر ندانید که شیر از کجا آمده است؟ ”

قبل از تحلیل آماری بخش های مهم تست های A/B باید با این سه مفهوم آشنا شوید:

میانگین. ما همه ی نرخ های تبدیل را اندازه گیری نمی کنیم، فقط یک نمونه را اندازه می گیریم. میانگین نماینده ی کل است.
متغیر. تغیرات طبیعی جمعیت آماری چیست؟ آیا آنها روی نتایج ما تاثیر می گذارند و اینکه چگونه می توانیم از آنها استفاده کنیم؟
نمونه برداری. ما نمی توانیم نرخ تبدیل واقعی را اندازه گیری کنیم، بنابراین یک نمونه انتخاب می کنیم که نمایانگر کل باشد.

مقدار احتمال P_Value چیست؟

بسیاری از افراد از اصطلاح شاخص آماری به صورت نادرست استفاده می کنند. شاخص آماری به خودی خود یک قانون توقف نیست. بنابراین چرا و به خاطر چه چیزی مهم است؟

مقدار احتمال، اندازه گیری شواهد علیه فرضیه ی صفر است. مقدار احتمال به ما در مورد احتمال بهتر بودن B نسبت به A نمی گوید، همانطور که در مورد احتمال انتخاب اشتباه B نسبت به A چیزی به ما نمی گوید. در اینجا برخی از تصورات غلط رایج را ذکر می کنیم؛

مقدار احتمال، در واقع فاکتوری است که احتمال دیدن نتایج فعلی یا یک مورد غیر عادی ( افراطی ) را می دهد و اینکه فرضیه ی صفر درست است. ” این نتایج چقدر جالب هستند.”

خلاصه اینکه شاخص آماری قابل محاسبه است. مقدار احتمال کمتر از سطح شاخص است ( معمولاً زیر ۵% است.) همچنین شاخص با توجه به تست فرضیه ی آماری، جایی است که کل تست های یک طرفه در مقابل دو طرفه مورد بررسی قرار می گیرند.

تست های A/B یک طرفه در مقابل دو طرفه

تست یک طرفه برای یک اثر در یک جهت امکان پذیر است. تست دو طرفه به دنبال یک اثر در دو جهت مثبت یا منفی است. نیازی نیست روی این موضوع خیلی کار کنید. گرشاف این موضوع را به طور خلاصه توضیح داده است.” اگر شما نرم افزاری را فقط از یک نوع یا نوع دیگرش تست می کنید، تبدیل یک نوع به نوع دیگر بسیار ساده است. ( اما نیاز است که قبل از اجرای تست این کار را انجام دهید.) تمام مراحل ریاضی در هر دو تست دقیقاً یکسان است.

این تفاوت ها در سطح آستانه ی شاخص است. اگر نرم افزار شما از یک تست یک طرفه استفاده می کند، مقدار احتمال را همراه با سطح اطمینانی که برای اجرای تست به دنبال آن هستید به دو قسمت تقسیم می کند. بنابراین اگر شما خواهان این هستید که سطح اطمینان تست دو طرفه ی شما ۹۵% باشد پس در واقع سطح اطمینان ورودی شما ۵/۹۷% خواهد بود. یا اگر ۹۹% باشد پس نیاز به ورودی ۵/۹۹% دارید. سپس شما می توانید تست را بخوانید انگار که یک تست دو طرفه است.

فاصله اطمینان و حاشیه خطا

نرخ تبدیل شما به سادگی نمی گوید %x . بلکه چیزی شبیه به این می گوید؛y) -/+)%x که عدد دومی فاصله ی اطمینان است و از اهمیت فوق العاده ایی در درک نتایج تست برخوردار است. درتست A/B ما از فاصله ی اطمینان برای کاهش ریسک خطای نمونه گیری استفاده می کنیم. در این مورد ما در حال مدیریت ریسک ناشی از ایجاد یک تنوع جدید هستیم.

بنابراین اگر ابزار شما چیزی شبیه به این می گوید؛ ” ما ۹۵% مطمئن هستیم که نرخ تبدیل x % +/- y% است.” پس شما نیاز به محاسبه یy% -/+ به عنوان حاشیه ی خطا دارید. اینکه شما چقدر به نتایج خود مطمئن هستید تا حد زیادی بستگی به بزرگی حاشیه ی خطا دارد. اگر دو دامنه ی تبدیل همپوشانی داشته باشد. شما باید تست را ادامه دهید تا به یک نتیجه ی معتبر برسید.

تهدیدهای اعتبار خارجی

چالش هایی در رابطه با اجرای تست A/B وجود دارد: اینکه داده ها ثابت و بدون تغییر نیستند. یک سری ِ زمانی ثابت، زمانی است که خواص آماری آن ( میانگین، متغیر، همبستگی خودکار، غیره ) در طول زمان ثابت باشد.

بنا به دلایل زیادی داده های وب سایت بدون تغییر نیستند که به این معناست ما نمی توانیم همان فرضیه هایی را که برای داده های ثابت داریم، برای آن ها داشته باشیم.

در اینجا به برخی از دلایل نوسانات داده ها اشاره می کنیم:

فصل ها
روز هفته
تعطیلات
اشاره های مطبوعاتی مثبت یا منفی
سایر کمپین های تجاری
SEM/PPC

و موارد دیگر از جمله آلودگی نمونه ( هر گونه فاکتور خارجی کنترل نشده که روی نتیجه ی تست اثر بد بگذارد )، اثرفلیکر، خطاهای ردیابی بازده ( عملکرد )، تورش انتخاب ( انتخاب تحت تاثیر) و غیره. اینها چیزهایی هستند که هنگام برنامه ریزی برای اجرا و آنالیز تست A/B باید مد نظر داشته باشید.

آمار بیزین یا فراوانی گرایانه

تست A/B بیزین یا فراوانی گرایانه، یکی دیگر از موضوعات جذاب است. بسیاری از ابزارهای محبوب، موتورهای آمار خود را بازسازی کرده اند تا اصول و روش بیزین را برجسته تر نشان دهند. تفاوتی در اینجا وجود دارد؛ از دیدگاه بیزین، یک احتمال به فرضیه اختصاص داده شده است. از دیدگاه فراوانی گرایانه، یک فرضیه تست می شود بدون اینکه احتمالی برایش در نظر گرفته شود. دکتر راب بالون که دکترای آمار و تحقیقات بازار دارد می گوید اکثر تحلیلگران خارج از گوشه ی خلوت و دنجشان برای تفکر، توجه زیادی به این دو مقوله نمی کنند.

منابع و ابزارهای انجام تست A/B

سرتاسر این مقاله پر از لینک هایی است که منابع خارجی را معرفی می کند. مقالات، ابزارها، کتاب ها و غیره. در اینجا به برخی از مناسب ترین ها نیز اشاره می کنیم.

ابزارهای تست A/B

حسابگر تست A/B

منابع آماری تست A/B

منابع استراتژی CRO تست A/B

نتیجه

تست A/ B یک منبع ارزشمند برای هر کسی است که در محیط آنلاین نیاز به تصمیم گیری دارد. با کمی دانش و سخت کوشی زیاد می توانید بسیاری از ریسک هایی را که به صورت بهینه سازی شروع می شوند، کاهش دهید.

اگر شما واقعاً در جستجوی اطلاعات هستید، از ۹۰% از افرادی که در حال انجام تست هستند جلوتر هستید. اگر شما به قدرت تست A/B در افزایش درآمد مستمر اعتقاد دارید. اینجا بهترین مکان است. دانش یک عامل محدود کننده است که تنها با تجربه و یادگیری مداوم می توانید آن را پیش ببرید. بنابراین تست را انجام دهید.

منبع: conversionxl.com

آکادمی آژانس طراحی دایره

آموزش طراحی در آژانس طراحی دایره شامل بوت‌کمپ طراحی ۰ تا ۱۰۰، طراحی تجربه کاربری، طراحی تعاملی، طراحی دیزاین سیستم، رنگ و تایپوگرافی و…