Charis SIL, used in the Longman Pronunciation Dictionary

Fonts for phonetic transcriptions: An overview

In 2014, I started compiling a list of fonts for typesetting phonetic transcriptions using symbols of the International Phonetic Alphabet (IPA). It is probably the most comprehensive and up-to-date list of such fonts, providing short, yet detailed reviews of the typefaces and the quality of their symbols – but it has two disadvantages: First, the reviews are written in German, which most people do not read. Second, the list – featuring more than 40 typefaces – has grown quite long and maybe even a bit confusing. If you are looking for a decent sans-serif typeface that includes phonetic symbols in its bold style, the long list will not be much help. That is why created a table of all fonts for phonetic transcriptions I am aware of (thanks to Friedrich Althausen, the designer of the Vollkorn typeface, for the suggestion!).
Charis SIL, used in the Longman Pronunciation Dictionary by John C. Wells
For each font family, I have indicated whether the roman and italic styles in the regular and bold weights contain phonetic symbols (R: Regular Roman; I: Regular Italic; B: Bold Roman; BI: Bold Italic).¹ Whenever a typeface family includes more than these four styles, this is noted in the ‘More styles’ column (but you’ll have to look up the details for yourself). This is also true when a typeface has more than one bold weight (e.g., Semibold and Bold) or more than one italic style (e.g., ‘true’ italics and oblique). If you want to read the reviews of the typefaces, click on their names (warning: ?? content ahead).

In each category,  means that a (more or less) complete set of phonetic symbols is available. Even if a font is marked that way, some symbols may be missing. (✓) means that a style or weight is present in the typeface, but that it does not contain phonetic symbols.  means that a style or weight is missing entirely from the typeface in question.² The last column contains a rating: This is not about whether a typeface is nice in general, but only refers to the completeness, drawing quality and functioning of the phonetic symbols. Please note that a five-star rating, used for the best typefaces in this area, does not imply that the typeface is absolutely complete and utterly flawless; minor deficiencies may remain. In any case, the rating is subjective, of course, so feel free to comment if your evaluation differs from mine. Also, please let me know if you know of any other typefaces with phonetic symbols.


Valse klemtoonvrienden:
Wortbetonung im Deutschen und Niederländischen

Als ›falsche Freunde‹ bezeichnet man Paare von Begriffen, die in zwei Sprachen eine ähnliche Form, aber eine unterschiedliche Bedeutung haben. Am häufigsten kommen solche Paare in Sprachen mit gemeinsamem Ursprung vor. Listen deutsch-englischer falscher Freunde füllen Bücher, während die Kombination Kurdisch/Guaraní an solchen Stolperfallen eher arm sein dürfte. Meist geht es nämlich um Kognaten, also Wörter identischer Herkunft, die sich über die Jahrhunderte semantisch weiter als lautlich voneinander entfernt haben. Falsche Freunde sind diese Begriffe deshalb, weil sie beim Zweitspracherwerb für Schwierigkeiten sorgen: Wer eine Sprache lernt, die der eigenen Erstsprache bzw. einer bereits erlernten Zweitsprache ähnlich ist, nutzt das Vorwissen und versucht anfangs, sich die neue Sprache durch den Transfer von Elementen der bekannten Sprache zu erschließen. Oft trennt die Erst- und die Zweitsprache ja bloß eine unbedeutende Lautverschiebung bei tatsächlich identischer Bedeutung.

Transfer findet aber auch statt, wenn es nicht um Semantik geht. Im morphologischen Bereich ist zum Beispiel bekannt, dass deutsche Muttersprachler das grammatikalische Geschlecht (Genus) niederländischer Wörter mit hoher Trefferquote nennen können – schlicht auf der Basis ihrer Kenntnis des Deutschen. Falsche Freunde in diesem Bereich wären Wörter wie ›Orgel‹ (gleichbedeutend in beiden Sprachen), das im Deutschen ein Femininum ist, im Niederländisch dagegen ein Neutrum. Ein Bereich, in dem seltener über Transfer gesprochen wird, ist die Wortbetonung. Allerdings dürfte auch hier der Spracherwerb zumindest anfangs auf Transfer basieren. Man geht – nicht ganz zu Unrecht – davon aus, dass die Betonung ähnlicher Wörter in ähnlichen Sprachen auf derselben Silbe liegt.

Im Folgenden stelle ich eine Liste von mehr als 60 Wortpaaren vor, die im Deutschen und Niederländischen (fast) gleich geschrieben, aber (meist) unterschiedlich betont werden. Eine Frage, die ich hier nicht beantworten werde, ist die nach dem Warum – allerdings nicht, weil sie uninteressant wäre. Der Grund ist, dass die Liste mehrheitlich relativ rezente Fremd- und Lehnwörter enthält. Bei solchen Wörtern wird die Wortbetonung – anders als bei nativen Wörtern oder älteren Lehnwörtern – nicht ausschließlich von fonologischen Prinzipien bestimmt. Oft spielen auch die Herkunfts- oder Vermittlersprache bzw. sprachinterne Ähnlichkeiten eine Rolle. Diese Faktoren für die untenstehenden Wörter zu entwirren, geht über das hinaus, was ich hier leisten kann. Sollte sich jemand die Mühe dieser Arbeit machen, bitte ich um Nachricht. Selbiges gilt bei Fehlern und Unvollständigkeiten, insbesondere in Bezug auf Lautungen, die außerhalb von Deutschland oder den Niederlanden gebräuchlich sind.


Phonetic repair service: Fixing ATypI’s IPA

The 2015 edition of the annual conference of the Association Typographique Internationale (ATypI) took place in São Paulo, Brazil. Its visual identity was based on the phonetic transcription of the local pronunciation of the name of the host city: /ˌsɐ̃w ˈpawlu/. From this transcription, one symbol was isolated and used as a sort of logo: /ɐ̃/ – both an interesting glyph design-wise and the symbol of a characteristic sound of Portuguese (a nasalised centralised vowel). I think it was a great choice for a type conference in Brazil. What’s more, I liked the typefaces they used in their visual identity, among others Voces (by Ana Paula Megda & Pablo Ugerman) and Brasilica (by Rafael Dietzsch). An extension of the latter, including phonetic symbols, has been announced for 2016 (and I’m quite curious about that).

Logo of the 2015 ATypI conference, using a phonetic symbol

Despite the cleverness of the concept, not all of its implementations were equally successful. I saw one on YouTube that I was a bit disappointed about: The video recordings of all conference talks – kudos for making them available – had thumbnails showing the names of the speakers and phonetic transcriptions of their names. As I already pointed out on Twitter, many of the transcriptions were inaccurate. In some cases, it was not even clear to me if the transcription was supposed to represent an Anglicised pronunciation or the way speakers would pronounce their names in their native languages. Admittedly, making phonetic transcriptions is not that easy – whether you use the International Phonetic Alphabet (IPA), as they wisely did, or any other system. I don’t know who created the transcriptions in the thumbnails and I don’t know why they ended up being inaccurate: Maybe the transcriber was lacking information or it was a rush job or correct transcriptions were garbled in the design process.

What I want to do here is to provide correct transcriptions of the native pronunciation of the speakers’ names (or at least, I will try to avoid the most egregious mistakes that were made in the original transcriptions). As I said before, making phonetic transcriptions can be difficult: Language varies a lot – across place, time, situation etc. Not everyone agrees on how to describe all this variation; not everyone agrees on how to transcribe it. Trying to pin down the symbol that exactly represents one sound has led to heated debates among linguists more than just once. For that reason, I’d like to invite you to let me know if you disagree with the way I transcribed any of the names.

For all those who do not read IPA transcriptions fluently, there are some audio recordings: Whenever you see a ? symbol next to a name, you can click on it to listen to the speaker’s own pronunciation of their name. Most speakers say something along the lines of ‘Hi, my name is […], I come from […] and my mother tongue is […]’ – all that in (one of) their native language(s). I hope to add more recordings in the future, but this may take some time. Similarly, some transcriptions require a bit of research, so the list will not be complete from the outset, but be filled over time. Anyway, here is the list:


Celebrating Dialect Month: 31 songs in small Germanic varieties

In 1986, SONT – a dialect organisation from the Netherlands – declared March to be ‘Dialect Month’. In 2016, March as Dialect Month is surprisingly still celebrated in the Netherlands. Perhaps not so surprisingly, the idea did not catch on anywhere else (not even in Belgium). That is too bad.

My 2016 contribution to promoting March as Dialect Month outside the Netherlands – and slightly widening its focus – was this: On each day of March, I posted and tweeted about a song that is sung in a small Germanic variety. In my definition, this is any variety that belongs to the Germanic branch of the Indo-European language family, except for standardised varieties of the most widely spoken national languages (e.g. English, German, Dutch, Swedish etc.). You know what these standard varieties sound like (and if you don’t, that is easily remedied). My list of songs features varieties that are not used by as many speakers and therefore not heard as frequently. Some of the varieties in my list may even be at risk of becoming extinct in a not-too-distant future. Let’s listen to them while they are still being used.

Below is a highly subjective, completely unrepresentative list of 31 songs in small Germanic varieties. On Twitter, I used #SiSGV (Songs in Small Germanic Varieties) as a hashtag. All songs can be found in this Spotify playlist (I am sorry if you can’t listen to all songs in your country) and, whenever possible, I tried to supply links to other legal sources as well as the lyrics of each song. If you have any questions, suggestions or corrections, feel free to comment. Here is the list:


Der oder das Blog? – Update einer Korpusanalyse

Vor gut vier Jahren berichtete Anatol Stefanowitsch bei SciLogs über Korpusdaten zum Genus der Wörter ›Blog‹ und ›Weblog‹. Die Daten aus dem Deutschen Referenzkorpus (DeReKo) zeigten damals eine Verschiebung des grammatikalischen Geschlechts vom Neutrum zum Maskulinum. Im Jahr 2010 wurde ›Blog‹ bei rund 70% der genuseindeutigen Belege als Maskulinum verwendet.

Seit der damaligen Auswertung ist das DeReKo erheblich gewachsen. Und wir sind natürlich vier Jahre Sprachverwendung weiter. Aus diesem Grund habe ich eine Aktualisierung und Fortschreibung der Daten zum Genus von ›Blog‹ und ›Weblog‹ erstellt. Die Frage: Ist der Anteil der Belege für Verwendung als Maskulinum weiter gestiegen und, wenn ja, bis zu welchem Niveau? Hier ist die Antwort:

Der oder das (We)blog?

Diese Daten stammen aus den geschriebenen Korpora, die im DeReKo zu den Archiven W, W2, W3 und W4 zusammengefasst sind. Berücksichtigt wurden nur Wortfolgen, bei denen Artikel und Kopfnomen direkt nebeneinander standen. Dieses Diagramm zeigt prozentuale Angaben zu drei Variablen: In rot sieht man den Anteil maskuliner Definitartikel (›der‹ im Nominativ und ›den‹ im Akkusativ) in Nominalphrasen, deren Kopfnomen ›Blog‹ ist. In grün sieht man den Anteil maskuliner Definitartikel in Nominalphrasen, deren Kopfnomen ›Weblog‹ ist. In beiden Fällen entfallen zu 100 fehlende Prozentpunkte auf die Verwendung des neutralen Definitartikels (›das‹ im Nominativ und Akkusativ). In blau sieht man den Anteil der Nominalphrasen mit Kopfnomen ›Weblog‹ an der Gesamtzahl der Nominalphrasen. Hier sind zu 100 fehlende Prozentpunkte der Verwendung von ›Blog‹ als Kopfnomen zuzurechnen.

Interessant an diesem Diagramm finde ich dreierlei:

Zum ersten zeigt sich, dass die Verwendung des Wortes als Maskulinum, die in der alten Auswertung erst 2006 nachzuweisen war, bereits 2002 in der Presse vorkam. Aus diesem Jahr stammt der früheste Beleg für ›der/den Weblog‹ in der aktuellen Version der DeReKo. Die Verwendung von ›Weblog‹ als Maskulinum in dieser Zeit muss man meines Erachtens nicht unbedingt als die Frühphase des Wandels vom Neutrum zum Maskulinum deuten. Sie könnte auch schlicht ein Hinweis darauf sein, dass das Genus dieses seinerzeit noch relativ neuen Lehnwortes – wie das so vieler Lehnwörter – schwankte. ›Der/den Blog‹ ist in der neuen Auswertung bereits in Zeitungen aus dem Jahr 2004 zu finden.

Zum zweiten veranschaulicht das Diagramm den engen Zusammenhang zwischen dem Übergang von ›Weblog‹ zu ›Blog‹ und dem Übergang vom Neutrum zum Maskulinum. Bei ›Weblog‹ überwog die Verwendung als Maskulinum in keinem Jahr (Maximum: 44,6% im Jahr 2006). ›Blog‹ dagegen stieg 2004 bereits mit einem satten Drittel an Verwendungen als Maskulinum ein. Im zweiten Jahr, in dem ›Blog‹ überhaupt als Maskulinum in diesem Korpus nachgewiesen wurde, war das Neutrum schon in der Minderheit. Seit 2007 dominiert das Maskulinum bei ›Blog‹ deutlich. Die Gründe, warum ›Blog‹ eher maskulines Genus annimmt als ›Weblog‹, wurden bereits 2010 besprochen: ›Weblog‹ erinnert noch an ›(das) Logbuch‹, von dem das neutrale Genus auf diese Form des Lehnworts übergegangen sein mag. ›Blog‹ dagegen neigt aus zwei Gründen zum Maskulinum: Einerseits haben Wörter dieser Silbenstruktur (CCVC mit kurzem Vokal) im Deutschen überwiegend maskulines Genus (wie Klaus-Michael Köpcke 1982 in seiner Dissertation gezeigt hat). Andererseits wird die Kurzform genauso ausgesprochen wie ›(der) Block‹ (eines dieser maskulinen CCVC-Wörter), was zur Genusübertragung einlädt.

Zum dritten finde ich es bemerkenswert, dass sich bei beiden Formen – ›Blog‹ und ›Weblog‹ – seit 2007 (oder spätestens 2008) nichts Dramatisches an den Anteilen der Genera geändert hat. Obwohl der Anteil von ›Weblog‹ an der Gesamtzahl der Verwendungen in dieser Zeit von einem knappen Drittel unter zwei Prozent gesunken ist, bleibt der Anteil der Verwendungen als Maskulinum bei rund 30% (mit Ausschlägen nach oben und unten). Und obwohl parallel dazu die Form ›Blog‹ praktisch universell geworden ist, wird sie auch im Jahr 2014 in rund 20% der Fälle als Neutrum verwendet. Das ist insofern ein symbolischer Wert, als auch ›Weblog‹ im ersten Jahr, das unsere Zeitreihe erfasst, in rund 20% der Fälle als Maskulinum verwendet wurde. Vielleicht sind 20% an Sprechern, die ein anderes Genus als die Mehrheit verwenden, einfach ein Residuum an Abweichlern, das nicht so schnell verschwindet – zumindest nicht in den ersten 20, 25 Jahren, die ein Lehnwort in einer Sprache verbringt.

Monotype Library Subscription: A user’s experience

MLS. That’s not the name of a tropical disease or some obscure government agency. The abbreviation stands for Monotype Library Subscription. Launched a few days ago, MLS is a subscription-based service that gives members access to “more than 9,000 fonts (2,200 font families)” (Monotype says). The price tag is at no more than €/$ 14.99 per month (or €/$ 119.99 per year). The fonts can be used in desktop applications, but – unlike the fonts on Typekit, a competing service by Adobe – not on websites.

For graphic designers, this sounds like a good deal. €/$ 14.99 per month for high-quality typefaces is next to nothing. A regular licence of most typeface families available through the MLS would cost twenty times as much or more. The choice seems ample: The library, Monotype says, features “reliable workhorses” (such as Avenir Next), “unique choices” (such as Ginkgo, Linotype’s take on the Dolly genre) and “attention grabbing” typefaces (such as Balega). Let’s be clear, though, that most of what you get is hardly at the cutting edge of contemporary type design. Innovation happens elsewhere. This may be a deal breaker for all those who are trying to produce fresh or even innovative work. In that industry, Rockwell (released in 1934 and based on earlier models) probably won’t count as ‘attention grabbing’ any more and Oranda (from the mid-80s) does not qualify as ‘unique’. That may be less of a concern for those interested in subdued text typography: MLS includes a number of modern classics that have aged with grace and can still be used nicely (such as Caecilia), along with some good recent releases (such as Quire Sans). It helps, by the way, if you only need to use Latin-based alphabets: For those, the language support of most typefaces is good. For Greek, Cyrillic or Arabic, not so much.


Wied van hoes: Grunneger muziek op Spotify

n Zet leden zee ain tegen mie dat der gain underground meer is in de muziek. In de joaren 60 en 70 mozzen je volgens hom nog noar Londen of New York tou om ploaten te kopen dij je naargens aans kriegen konden. Of teminnent noar Amsterdam. Tegenswoordeg moakt t nait meer oet woar of je zitten. t Staait toch apmoal op internet. Dou k lest op zuik was noar n laidje, docht k weer aan dat wat e zee. En ik denk dat e gain geliek haar. In t joar 2016 sprekt de underground Grunnegers – of n aandere streektoal. Nait dat streektoalmuziek n sub- of tegencultuur vertegenwoordigt, integendail zulfs, mor de distributiewegen doun mie n beetje denken aan de underground van dou. Juust in dat opzicht lopt streektoalmuziek noamelk achter op muziek in grotere (standaard)toalen, veuraal as wie t over de ‘back catalogue’ hebben – oldere muziek dus. As je doar geern noar luustern, kinnen je nog aal beter op t Knoal zitten as in New York. In de bibeltaik op t Knoal hebben ze noamelk nog n exemploar van ‘Zo mor n dag’, n album van Age van der Velde oet 2000. As spaigelploatje kinnen je dat nait meer kopen (en as t aal kon, din wil k nait waiten houveul of t kost om t noar New York tou te sturen) en op internet staait t ook nait. Mit nijere Grunneger muziek zit t wel wat beter. En doar gaait mie t hier aiglieks om. Zoezen dat bepoalde dingen nait beschikboar binnen, helpt ja toch nait (nou joa, meschains n beetje).

As je in New York zitten en je willen noar muziek in t Grunnegers luustern, wat binnen din joen opties? Je kinnen via internet noar de live-oetzendens van Radio Noord luustern. Mor meer as ain laidje in t Grunnegers per haalfuur draaien ze doar ook weer nait, behaalven in ‘Twij deuntjes veur ain cent’ (aal waarkdoagen, 12–13 uur New Yorkse tied). Dat kinnen je traauwens ook terugluustern – en as je hail goud zuiken, din vinden je asmis ook de playlist. Of je kinnen op YouTube op zuik goan: doar vinden je zulfs n poar olle laidjes van Age van der Velde, mor de geluudskwaliteit vaalt mie voak n beetje òf.

As ik noar muziek in welke toal din ook luustern wil, broek ik mainsttieds Spotify. Veur dijent dij der nog niks van heurd hebben: dat is n dainst doar je, zo laank as je der lid van binnen, noar muziek luustern kinnen. As je joen account ophevven, binnen je ale muziek weer kwiet – dat is n noadail. n Veurdail: elkenain kin Spotify broeken zunder doar veur te betoalen. En as je der aal n tientje veur over hebben, din hebben je gain last meer van recloames en kriegen je der nog wat extra’s bie.

Nou heb ik lieste soamensteld mit – beweer ik – ale laidjes in t Grunnegers dij je op Spotify vinden kinnen. Kaans is groot dat k nait ale laidjes vonden heb, mor tot t tegenbewies der is, beweer ik dat gewoon. Veur dij lieste heb k onder andere op ale Grunneger artiesten zöcht dij nuimd worden op, n site dij sunt n joar of twinneg deur Joop van den Bremen bieholden wordt. Dat binnen der zo’n 500. As k toch n laidje mist heb, maggen je hieronder n reactie achterloaten. Din luuster k even noar t laidje, voug t tou aan de lieste en bin joe slim dankboar (nou joa, as t n mooi laidje is). Net zo goud zol t kinnen dat der laidjes in de lieste stoan dij in n aandere toal as t Grunnegers zongen binnen of doar haildaal gainent in zingt. Ook dat maggen je mie waiten loaten; din hoal k t laidje vot.

De òfspeullieste mit laidjes in t Grunnegers op Spotify staait hier.

Der stoan nou 747 nummers op van meer as 60 artiesten. D’artiesten doar de mainste laidjes van op Spotify stoan, binnen Arnold Veeman (> 100), de Stroatklinkers (> 80), Erwin de Vries (> 60), Pé Daalemmer & Rooie Rinus, Plat (> 50), Martin Korthuis (> 40) en Bert Hadders (> 30). De populairste artiesten – as wie op de ‘Alle 50 Goud’-lieste van 2015 òfgoan – doar je haildaal of hoast niks van op Spotify vinden kinnen, binnen Ede Staal, Wia Buze, De Bende van Baflo Bill en Lianne Abeln. Veur heur muziek mouten je din toch weer bie Noord of op YouTube wezen (nou joa, of gewoon in de bibeltaik op t Knoal).

Auf ein Wort (23): Marcelo Rebelo de Sousa

Marcelo Nuno Duarte Rebelo de Sousa port. (EP) [mɐɾˌsɛlu ˌnunu ˌdwaɾtɯ ʁɯˈbelu dɯ ˈsozɐ]


›Nuno‹ ist hier der zweite Vorname, ›Duarte‹ der Nachname der Mutter, ›Rebelo de Sousa‹ der zweiteilige Nachname des Vaters. Als Kurzform des Namens wird Marcelo Rebelo de Sousa verwendet.

Vor allem europäisches Portugiesisch zeichnet sich durch ein hohes Maß an Reduktion unbetonter Vokale, Schwächung intervokalischer Konsonanten und Sandhi aus. In zusammenhängender Sprache lautet der Name dementsprechend eher [mɾ̩ˌsɛɫ ʁɯˌβɯltˈsozɐ̥] oder ähnlich.


Auf die Eindeutschung müssen diese phonetischen Prozesse nicht unbedingt Einfluss haben. Die Hauptsache ist bei diesem Namen, dass die Qualität der betonten Vokale stimmt. In der 20-Uhr-tagesschau von gestern sowie in den heutigen Frühausgaben wurde der letzte Teil des Namens als [ˈsuːza] ausgesprochen. In einer heutigen Frühausgabe von heute Xpress war von [ˈsaʊ̯sa] die Rede. Das ist beides eher suboptimal. Sinnvoll erscheint mir folgende eingedeutschte Lautung: [maʁˌsɛlu ʁəˌbɛlu də ˈsoːza] (ungefähre Umschrift, betonte Silben fett: marr-SELLU re-BELLU de SOH-za).

Auf ein Wort (22): Vladimir Plahotniuc

Vladimir Plahotniuc rumän. [vladiˈmiɾ plahɔtˈnʲuk]

Plahotniuc ist ein Unternehmer und Politiker aus der Republik Moldau. Die Amtssprache des Landes ist Rumänisch. Bis 2013 wurde die moldauische Varietät des Rumänischen offiziell als ›Moldauisch‹ bezeichnet, obwohl sie sich von der in Rumänien gesprochenen Varietät kaum unterscheidet. Bis 1989 wurde die moldauische Varietät mit Buchstaben des kyrillischen Alphabets geschrieben. Seitdem wird, wie in Rumänien, das lateinische Alphabet (mit einigen Sonderzeichen) verwendet.

Das Lautsystem des Rumänischen ähnelt dem des Italienischen, vor allem im Hinblick auf die Konsonanten. Bei den Vokalen fallen folgende Unterschiede auf: Das Rumänische hat zwei Zentralvokale, die dem Italienischen fehlen: [ɨ] (orthografisch ‹â› oder ‹î›) und [ɜ] (orthografisch ‹ă›), das auch [ə] transkribiert wird. Dafür gibt es im Rumänischen, anders als im Italienischen, keinen Kontrast zwischen halboffenen und halbgeschlossenen Vokalen, also /ɛ/ vs. /e/ und /ɔ/ vs. /o/. Im Rumänischen gibt es jeweils nur ein Vokalphonem in diesem Bereich, das etwa in der Mitte zwischen den italienischen Phonemen realisiert wird, also [ɛ̝] und [ɔ̝]. /a/ ist in beiden Sprachen gegenüber dem Kardinalvokal zentralisiert, also [ä]. Auch sind in beiden Sprachen alveolare Plosive – /t/ und /d/ – dental, also [t̪] und [d̪].

Nice italics, bad #Eszett:
My tweets about the 2015 Typodarium

On each day of 2015, I tweeted a micro-review of the typefaces in the Typodarium, a tear-off cal— no, wait, I think I said that before. This now is the fun part. Using CLAN (a piece of software by psychologist Brian MacWhinney et al.), I did some basic lexical frequency analysis on the 365 tweets I wrote – or rather I checked which content words I used most frequently and created a word cloud from these. Don’t worry, I am not confusing a word cloud with a full-fledged lexical analysis of a proper corpus (as others may do). The tweet corpus is small anyway (just over 5,000 words) and a fine example of the observer’s paradox. The idea to analyse the tweets did not occur to me on 1 January just after midnight, but sometime last autumn, so I wrote about a third of the tweets knowing that I would analyse them later on.

The word cloud was made using Wordle. You can ask it to filter out highly frequent (function) words. If you did not, the most frequent words in the corpus – the, a, is, this etc. – would dominate the picture. ‘The’ alone was used 189 times, that is, more than three times as frequently as the most frequent word that was not filtered (‘typeface’). Due to the filtering, one word is missing from the picture: ‘but’. If you look at one of the many lists of most common English words, you will find ‘but’ in the top 50, but not really high on the list (22nd, 33rd, 36th – you get the idea). In my corpus, by contrast, ‘but’ appeared 105 times, that is, in almost a third of the tweets. It is the fifth most frequent word. Just so you know.

As you may have guessed, the size of the words in the cloud reflects their frequency. The colours, on the other hand, don’t mean a thing. And if you wondered, the typeface I used is League Gothic from The League of Moveable Type, which was released under the SIL Open Font License.

Typodarium 2015: Wordcloud

Here is what I think you can learn from this cloud: