I’m not a big fan of wordclouds, but management seems to like them. Recently, I was working on a wordcloud of domains and generated some unexpected results. For demonstration purposes, I grabbed the domains of stories Firefox Pocket recommended to me and shoved them into a dataframe:
df_domains = pd.DataFrame(domains, columns=['domain'])
df_domains.head()
Then, I took a list of the domains and preprocessed them in the conventional way you do for the package: you join them together likes words of text with spaces in between:
text = ' '.join(df_domains.domain.tolist())
Finally, I loaded those words into a wordcloud object:
wordcloud = WordCloud().generate(text)
_ = plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
_ = plt.title('Random Domains')
Which produced this wordcloud:
Excellent…except…where are the top-level domains? All the .coms, .nets, etc? By Jove, they’re not there! If you check out the frequency map the wordcloud created, you can start to get a clue about what happened:
wordcloud.words_
{'theatlantic': 1.0,
'theguardian': 0.6666666666666666,
'outsideonline': 0.6666666666666666,
'bbc': 0.6666666666666666,
'theoutline': 0.6666666666666666,
'washingtonpost': 0.3333333333333333,
'mentalfloss': 0.3333333333333333,
'citylab': 0.3333333333333333,
'bloomberg': 0.3333333333333333,
'popsci': 0.3333333333333333,
'espn': 0.3333333333333333,
'nytimes': 0.3333333333333333,
'rollingstone': 0.3333333333333333,
'inverse': 0.3333333333333333,
'livescience': 0.3333333333333333,
'newyorker': 0.3333333333333333,
'nautil': 0.3333333333333333,
'us': 0.3333333333333333,
'theconversation': 0.3333333333333333,
'vox': 0.3333333333333333,
'hbr': 0.3333333333333333,
'org': 0.3333333333333333,
'wired': 0.3333333333333333,
'lifehacker': 0.3333333333333333,
'dariusforoux': 0.3333333333333333,
'atlasobscura': 0.3333333333333333}
The “generate” function removed all the .coms, .nets, and so on when it built the frequency map. A little more digging and we can see that the default regular expression is the problem: “\w[\w’]+”. It’s looking for words (and even apostrophes), but stopping with punctuation marks like periods. Now, you can futz around with providing your own regular expression that will include the full domain–I tried that–but regular expressions are hard and there’s actually a better way: the pandas value_counts function. The value_counts function will let you generate your own frequency map that you can provide to the wordcloud package directly. First, let’s just take a look at what value_counts produces. We’ll pipe the results to a dictionary so that the data is in a form the wordcloud package needs:
df_domains.domain.value_counts().to_dict()
{'theatlantic.com': 3,
'theoutline.com': 2,
'outsideonline.com': 2,
'bbc.com': 2,
'theguardian.com': 2,
'bloomberg.com': 1,
'rollingstone.com': 1,
'theconversation.com': 1,
'wired.com': 1,
'inverse.com': 1,
'popsci.com': 1,
'atlasobscura.com': 1,
'mentalfloss.com': 1,
'newyorker.com': 1,
'espn.com': 1,
'nytimes.com': 1,
'hbr.org': 1,
'nautil.us': 1,
'washingtonpost.com': 1,
'lifehacker.com': 1,
'livescience.com': 1,
'vox.com': 1,
'citylab.com': 1,
'dariusforoux.com': 1}
True, the values are integers and not floats, but wordcloud doesn’t care:
freqs = df_domains.domain.value_counts().to_dict()
wordcloud = WordCloud().generate_from_frequencies(freqs)
_ = plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
_ = plt.title('Random Domains')
And now we have a wordcloud of domains, complete with their top-level domain parts. Nice!
Recent Comments