जैसा कि कभी भी किसी रिश्ते में रहने वाला व्यक्ति आपको बताएगा, मानवीय भावनाएं एक जटिल अवधारणा हैं। यह उन विपणक के लिए विशेष रूप से सच है जो गुणात्मक लाभों को समझने की कोशिश कर रहे हैं - मूल्य जो कि उनके उत्पाद या सेवा की बुनियादी कार्यक्षमता से परे है। यह समझना मुश्किल नहीं है कि आपका उत्पाद क्या करता है, लेकिन क्या आप जानते हैं कि यह आपके उपभोक्ताओं को कैसा महसूस कराता है?



यदि आप अपने लक्षित श्रोताओं के अनफ़िल्टर्ड सोशल मीडिया पेशों को कार्रवाई योग्य रणनीतिक अंतर्दृष्टि में बदलने के लिए सामाजिक श्रवण भावना विश्लेषण का उपयोग करते हैं। का सब ले रहा है ट्विटर पर उपलब्ध सामाजिक डेटा और इसे सकारात्मक, नकारात्मक या तटस्थ भावना के लिए वर्गीकृत करना एक प्रमुख उपक्रम है, और कोई भी दो तरीके समान नहीं बनाए गए हैं। यही कारण है कि HASHTAGS ने दो प्राथमिक दृष्टिकोणों, नियम सूचियों और मशीन लर्निंग को संयोजित करने वाली एक हाइब्रिड भावना विश्लेषण प्रणाली का निर्माण किया।



नियम सूची

भावना-विश्लेषण से निपटने का सबसे सरल तरीका मानव निर्मित नियमों या शब्दकोशों का उपयोग करना है। इस दृष्टिकोण के साथ, सिस्टम उन शब्दों या वाक्यांशों की सूची पर निर्भर करता है जो सीधे एक विशिष्ट भावना के लिए मैप करते हैं। उदाहरण के लिए, किसी भी ट्वीट में 'हाई फाइव' शब्द को सकारात्मक रूप में लेबल किया जा सकता है, जबकि 'भयानक' वाला ट्वीट नकारात्मक होगा। इस तरह के सिस्टम अत्यधिक अनुकूलन योग्य हैं, और हजारों शब्द और वाक्यांश नियमों को शामिल करने के लिए बढ़ाया जा सकता है।


14 का क्या मतलब है

नकारात्मक पक्ष पर, नियम प्रणालियां ऐसे ट्वीट्स के साथ संघर्ष करती हैं, जो परस्पर विरोधी नियमों से मेल खाते हैं, जैसे कि 'जैसा कि मैंने अनुमान लगाया था कि फिल्म भयानक नहीं थी।' यहां, 'भयानक' को नकारात्मक लेबल किया जा सकता है, जबकि 'प्रत्याशित' सकारात्मक होगा। परस्पर विरोधी नियम ट्वीट को तटस्थ के रूप में लेबल करते हैं, जबकि कुछ मानव पाठक इसे थोड़ा सकारात्मक और अन्य, थोड़ा नकारात्मक के रूप में व्याख्या करेंगे।

नियम-आधारित प्रणालियों की एक अतिरिक्त सीमा मानव प्रयास और समझ पर निर्भरता है। भाषा तेजी से विकसित होती है (विशेषकर ट्विटर पर), और एक नियम-आधारित प्रणाली के लिए किसी को नए शब्दों और वाक्यांशों की एक स्थिर धारा प्रदान करने की आवश्यकता होती है। भावना प्रणाली को अपडेट करना हमेशा सर्वोच्च प्राथमिकता नहीं होती है और एक प्रणाली जल्दी से पुरानी हो सकती है। यहां तक ​​कि सतर्क निगरानी के साथ, बदलते भाषा रुझानों की पहचान करना मुश्किल हो सकता है, और यह निर्धारित कर सकते हैं कि नए नियमों को कब जोड़ना है।

मशीन लर्निंग

अधिक उन्नत भावना विश्लेषण प्रणाली का उपयोग करते हैं मशीन लर्निंग (एमएल) तकनीक (जिसे कभी-कभी आर्टिफिशियल इंटेलिजेंस भी कहा जाता है या प्राकृतिक भाषा प्रसंस्करण ) है। मशीन लर्निंग तकनीकों का एक परिवार है जो जटिल पैटर्न की पहचान करने के लिए आँकड़ों और संभाव्यता का उपयोग करता है जिनका उपयोग वस्तुओं को लेबल करने के लिए किया जा सकता है।

नियम-आधारित प्रणालियों के विपरीत, एमएल प्रणालियां समानताओं का पता लगाने के लिए पर्याप्त लचीली हैं जो मानव के लिए तुरंत स्पष्ट नहीं हैं। कई, कई उदाहरणों को देखकर, सिस्टम ऐसे पैटर्न सीखता है जो आम तौर पर सकारात्मक, नकारात्मक या तटस्थ भावनाओं से जुड़े होते हैं।



उदाहरण के लिए, एक एमएल सेंटिमेंट एनालिसिस सिस्टम पा सकता है कि जिन ट्वीट्स में 'बारिश' शब्द होता है और एक विस्मयादिबोधक बिंदु के साथ अंत नकारात्मक होता है, जबकि 'बारिश' और दो विस्मयादिबोधक बिंदु सकारात्मक होते हैं। एक मानव इस पैटर्न को नहीं देख सकता है और न ही समझ सकता है कि ऐसा क्यों होता है, लेकिन एक एमएल प्रणाली इसका उपयोग बहुत सटीक भविष्यवाणियां करने के लिए कर सकती है।

जबकि मशीन लर्निंग सिस्टम शानदार परिणाम दे सकते हैं, उनके पास कुछ कमियां हैं। जब भाषा में बहुत अधिक विविधता होती है, तो एक एमएल प्रणाली के लिए पैटर्न को चुनने के लिए शोर के माध्यम से झारना कठिन हो सकता है। जब मजबूत पैटर्न मौजूद होते हैं, तो वे कम सामान्य पैटर्न का निरीक्षण कर सकते हैं, और सूक्ष्म सिस्टम को अनदेखा करने के लिए एमएल सिस्टम का कारण बन सकते हैं।

स्प्राउट का दृष्टिकोण

हमारी भावना विश्लेषण प्रणाली के निर्माण के लिए, हमने एक हाइब्रिड प्रणाली तैयार की, जो नियम-आधारित और मशीन लर्निंग दोनों के दृष्टिकोण को जोड़ती है। हमने उन जगहों की पहचान करने के लिए हजारों ट्वीट्स का विश्लेषण किया जहां एमएल मॉडल संघर्ष करते हैं, और उन कमियों को दूर करने में मदद करने के लिए नियम-आधारित रणनीतियों की शुरुआत की।



मानव समझ के साथ सांख्यिकीय मॉडल को पूरक करके, हमने एक मजबूत प्रणाली बनाई है जो कई प्रकार की सेटिंग्स में अच्छा प्रदर्शन करती है।

अंकुर भावना विश्लेषण

सभी सटीकता के बारे में

सतह पर, भावना का विश्लेषण बहुत सरल लगता है - बस तय करें कि एक ट्वीट सकारात्मक, नकारात्मक या तटस्थ है। मानव भाषा और भावनाएं जटिल हैं, हालांकि, और एक ट्वीट के भीतर भावना का पता लगाना इस जटिलता को दर्शाता है।

इन ट्वीट्स पर गौर कीजिए। क्या वे सकारात्मक, नकारात्मक या तटस्थ हैं?

https://twitter.com/alex/status/917406154321420289


१०१ आध्यात्मिक अर्थ

आप अपने उत्तरों में आत्मविश्वास महसूस कर सकते हैं, लेकिन संभावना अच्छी है कि हर कोई आपसे सहमत नहीं होगा। अनुसंधान से पता चला है कि लोग केवल ट्वीट्स की भावना पर सहमत हैं 60-80% समय का।

आपको संदेह हो सकता है। हम भी थे।

इसका परीक्षण करने के लिए, हमारी डेटा साइंस टीम के दो सदस्यों ने 1,000 ट्वीट्स के सटीक सेट को सकारात्मक, नकारात्मक या तटस्थ के रूप में लेबल किया। हमें लगा कि “हम हर दिन ट्वीट्स के साथ काम करते हैं; शायद हम दोनों के बीच निकट-पूर्ण सहमति है। '

हमने परिणामों की गणना की और फिर उन्हें डबल और ट्रिपल-चेक किया। शोध स्पॉट-ऑन था - हम केवल 73% ट्वीट्स पर सहमत हुए।

सेंटिमेंट एनालिसिस में चुनौतियां

अनुसंधान (हमारे छोटे प्रयोग के साथ) दर्शाता है कि भावना का विश्लेषण सीधा नहीं है। यह इतना मुश्किल क्यों है? चलो सबसे बड़ी चुनौतियों में से कुछ के माध्यम से चलते हैं।


144 परी संख्या

प्रसंग

ट्वीट्स समय में एक छोटे स्नैपशॉट हैं। हालांकि कुछ अकेले खड़े होते हैं, ट्वीट्स अक्सर एक चल रही बातचीत या संदर्भ जानकारी का हिस्सा होते हैं जो केवल लेखक को पता होने पर समझ में आता है। उन सुरागों के बिना, लेखक की भावनाओं की व्याख्या करना कठिन हो सकता है।

ताना

सारकैम का पता लगाना संदर्भ चुनौती का एक और स्वाद है। अतिरिक्त जानकारी के बिना, भावना विश्लेषण प्रणाली अक्सर शब्दों के शाब्दिक अर्थ को भ्रमित करती है कि वे किस तरह से चाहते हैं। Sarcasm अकादमिक अनुसंधान का एक सक्रिय क्षेत्र है, इसलिए हम निकट भविष्य में सिस्टम देख सकते हैं जो स्नार्क को समझते हैं।

तुलना

जब ट्वीट्स तुलना करते हैं तो सेंटीमेंट भी मुश्किल हो जाता है। अगर मैं सब्जियों और किसी ट्वीट्स पर बाज़ार अनुसंधान कर रहा हूँ, 'गाजर स्क्वैश से बेहतर है,' क्या यह ट्वीट सकारात्मक या नकारात्मक है? यह आपके नजरिए पर निर्भर करता है। इसी तरह, कोई व्यक्ति ट्वीट कर सकता है, 'कंपनी ए कंपनी बी से बेहतर है' यदि मैं कंपनी ए के लिए काम करता हूं, तो यह ट्वीट सकारात्मक है, लेकिन अगर मैं कंपनी बी के साथ हूं, तो यह नकारात्मक है।

emojis

Emojis सभी अपनी खुद की एक भाषा है । जबकि इमोजी एक बहुत स्पष्ट भावना व्यक्त करते हैं, अन्य कम सार्वभौमिक होते हैं। अपनी भावना विश्लेषण प्रणाली का निर्माण करते समय, हमने बारीकी से देखा कि लोग कैसे इमोजी का उपयोग करते हैं, यह पाते हुए कि सामान्य इमोजी भी भ्रम पैदा कर सकते हैं। लगभग समान रूप से इसका मतलब है 'मैं बहुत खुश हूँ रो रहा हूँ' या 'इतना दुखी हूँ कि मैं रो रहा हूँ।' यदि मानव इमोजी के अर्थ पर सहमत नहीं हो सकता है, तो न ही एक भावना विश्लेषण प्रणाली हो सकती है।

न्यूट्रल को परिभाषित करना

यहां तक ​​कि 'तटस्थ' भावना भी हमेशा सीधी नहीं होती है। एक दुखद घटना के बारे में एक समाचार शीर्षक पर विचार करें। हालांकि हम सभी इस बात से सहमत हैं कि यह घटना भयानक है, अधिकांश समाचार सुर्खियों में तथ्यात्मक, सूचनात्मक बयानों के लिए हैं। सेंटीमेंट विश्लेषण प्रणाली को सामग्री के लेखक की भावना की पहचान करने के लिए डिज़ाइन किया गया है, न कि पाठक की प्रतिक्रिया। हालांकि 'तटस्थ' लेबल वाली भयानक खबरें देखना अजीब लग सकता है, यह तथ्यात्मक जानकारी को संप्रेषित करने के लेखक के इरादे को दर्शाता है।

सेंटीमेंट विश्लेषण प्रणाली भी भिन्न होती है कि तटस्थ को कैसे परिभाषित किया जाता है। कुछ लोग किसी भी ट्वीट के लिए कैच-ऑल कैटेगरी को तटस्थ मानते हैं जहां सिस्टम सकारात्मक या नकारात्मक के बीच तय नहीं कर सकता है। उन प्रणालियों में, 'तटस्थ' का पर्याय है, 'मुझे यकीन नहीं है।' वास्तविकता में, हालांकि, ऐसे कई ट्वीट हैं जो भावनाओं को व्यक्त नहीं करते हैं, जैसे कि नीचे दिए गए उदाहरण।


११३४ परी संख्या

हमारा सिस्टम स्पष्ट रूप से अस्पष्ट ट्वीट्स के लिए डिफ़ॉल्ट लेबल के रूप में तटस्थ का उपयोग करने के बजाय गैर-भावनात्मक ट्वीट्स को तटस्थ रूप से वर्गीकृत करता है।

सजा विश्लेषण का मूल्यांकन

भावना विश्लेषण में इतनी सारी चुनौतियों के साथ, यह एक नए टूल में निवेश करने से पहले आपके होमवर्क को करने के लिए भुगतान करता है। विक्रेता अपने उत्पाद की सटीकता के बारे में आंकड़ों पर ध्यान केंद्रित करके जटिलताओं के माध्यम से कटौती करने में मदद करने की कोशिश करते हैं। सटीकता हमेशा एक सेब-से-सेब की तुलना नहीं है, हालांकि। यदि आप मापने की छड़ी के रूप में सटीकता का उपयोग करने की योजना बनाते हैं, तो यहां कुछ चीजें हैं जिन्हें आपको पूछना चाहिए।

क्या रिपोर्ट की गई सटीकता 80% से अधिक है?
चूँकि मनुष्य केवल 60-80% समय के लिए एक दूसरे से सहमत होते हैं, इसलिए एक परीक्षण डेटासेट बनाने का कोई तरीका नहीं है कि हर कोई इस बात से सहमत होगा कि 'सही' भावना लेबल शामिल हैं। जब यह भावना की बात आती है, तो 'सही' व्यक्तिपरक है। दूसरे शब्दों में, परीक्षण सटीकता में उपयोग करने के लिए एक स्वर्ण मानक नहीं है।

एक सेंटिमेंट एनालिसिस सिस्टम की सटीकता की ऊपरी सीमा हमेशा मानव-स्तरीय समझौता होगी: लगभग 80%। यदि कोई विक्रेता 80% से अधिक सटीकता का दावा करता है, तो यह संदेहपूर्ण है। वर्तमान शोध बताते हैं कि 80% सटीकता की भी संभावना नहीं है; क्षेत्र के शीर्ष विशेषज्ञ आमतौर पर 60 के दशक के मध्य में सटीकता हासिल करते हैं।

कितनी भावना श्रेणियों की भविष्यवाणी की जा रही है?
कुछ वेंडर केवल उन ट्वीट्स पर सटीकता का मूल्यांकन करते हैं जिन्हें मानव मूल्यांकनकर्ताओं द्वारा निश्चित रूप से सकारात्मक या नकारात्मक के रूप में पहचाना गया है, सभी तटस्थ ट्वीट्स को छोड़कर। किसी सिस्टम की सटीकता के लिए बहुत अधिक आसान दिखाई देता है जब जोरदार भावनात्मक ट्वीट्स और केवल दो संभावित परिणामों (सकारात्मक या नकारात्मक) के साथ काम करते हैं।

जंगली में, हालांकि, अधिकांश ट्वीट्स तटस्थ या अस्पष्ट हैं। जब किसी प्रणाली का मूल्यांकन केवल सकारात्मक और नकारात्मक के खिलाफ किया जाता है, तो यह जानना असंभव है कि सिस्टम तटस्थ ट्वीट्स के साथ कितनी अच्छी तरह से मुकाबला करता है - जो आप वास्तव में देखते हैं, उसका अधिकांश हिस्सा।

उनके परीक्षण सेट में किस प्रकार के ट्वीट शामिल हैं?
एक भावना विश्लेषण प्रणाली को उन ट्वीट्स पर बनाया और परीक्षण किया जाना चाहिए जो वास्तविक दुनिया की स्थितियों के प्रतिनिधि हैं। कुछ भावना विश्लेषण प्रणाली डोमेन-विशिष्ट ट्वीट्स का उपयोग करके बनाई गई हैं जिन्हें सिस्टम को समझने के लिए जितना संभव हो उतना आसान बनाने के लिए फ़िल्टर और साफ किया गया है।

उदाहरण के लिए, एक विक्रेता को पहले से मौजूद डेटासेट मिल सकता है जिसमें केवल एयरलाइन उद्योग के बारे में दृढ़ता से भावनात्मक ट्वीट्स शामिल हैं, जिसमें कोई स्पैम या ऑफ-टॉपिक ट्वीट्स शामिल नहीं हैं। यह सटीकता उच्च होने का कारण होगा, लेकिन केवल जब बहुत ही समान ट्वीट्स पर उपयोग किया जाता है। यदि आप एक अलग डोमेन में काम कर रहे हैं, या कोई ऑफ-टॉपिक या स्पैम ट्वीट प्राप्त करते हैं, तो आपको बहुत कम सटीकता दिखाई देगी।

परीक्षण डेटासेट कितना बड़ा था?
कई अलग-अलग परिदृश्यों में सिस्टम के प्रदर्शन को मापने के लिए कई हजार ट्वीट्स पर सेंटीमेंट एनालिसिस सिस्टम का मूल्यांकन किया जाना चाहिए। आपको सिस्टम की सटीकता का सही माप नहीं मिलेगा, जब सिस्टम केवल कुछ सौ ट्वीट्स पर परीक्षण किया जाता है।


९५५ परी संख्या अर्थ

यहां स्प्राउट में, हमने ट्विटर से यादृच्छिक नमूने से तैयार किए गए 50,000 ट्वीट्स के संग्रह पर अपना मॉडल बनाया। क्योंकि हमारे ट्वीट्स डोमेन-विशिष्ट नहीं हैं, हमारी भावना विश्लेषण प्रणाली डोमेन की एक विस्तृत श्रृंखला पर अच्छा प्रदर्शन करती है।

इसके अतिरिक्त, हम सकारात्मक, नकारात्मक और तटस्थ श्रेणियों के लिए अलग-अलग भविष्यवाणियां करते हैं; जब अन्य भविष्यवाणियां विफल हो जाती हैं तो हम केवल तटस्थ लागू नहीं करते हैं। हमारी सटीकता को 10,000 ट्वीट्स पर परीक्षण किया गया था, जिनमें से कोई भी सिस्टम बनाने के लिए उपयोग नहीं किया गया था।

स्प्राउट के सेंटेंस एनालिसिस लाइव को श्रोताओं के साथ देखें

दुनिया में सभी शोध पहली प्रणाली के मूल्यांकन के लिए कोई विकल्प नहीं हैं। हमारी नई भावना विश्लेषण प्रणाली को हमारे नवीनतम सामाजिक सुनने वाले टूलसेट के भीतर एक परीक्षण ड्राइव दें, श्रोताओं , और देखें कि यह आपके लिए कैसे काम करता है। अंततः, सबसे अच्छा सामाजिक श्रवण उपकरण वह है जो आपकी आवश्यकताओं को पूरा करता है और आपको सामाजिक से अधिक मूल्य प्राप्त करने में मदद करता है। चलिए आज हम आपकी मदद करते हैं।

अपने दोस्तों के साथ साझा करें: