Archiv der Kategorie: Sprache

Decoding Dodpo Momaubatg: A very welcoming mess-up

I recently passed through the entrance hall of a public building (which shall not be named). As in the entrance halls of many public buildings, there was a welcome carpet. Welcome carpets tend to be large, but ‘Welcome’ is a short word, so at some time, the makers of welcome carpets came up with the idea of translating the word ‘Welcome’ to other languages and putting these translations on the carpet as well. When you know the location of a carpet, you can predict the selection of translations quite accurately. In Germany, there will be few carpets that feature no English or French translation alongside the Ger­man word. Foreign languages that are widely taught (such as Italian or Spanish) and native languages of large immigrant groups (such as Turkish or Arabic) are also often encountered on these carpets.

Going by this, the carpet I saw was a fairly typical one. It had German (obviously), English and French, Italian and Spanish, Turkish (with a minor spelling mistake) and Arabic, and – eh, what is that?

‘Dodpo momaubatg’ did not look like a phrase from any of the languages I speak. The ‘-tg’ ending of the second word seemed to give it a Catalan tinge (but I knew that the Catalan word for ‘welcome’ is ‘benvinguts’). As a whole, the phrase was not recognisably related to any of the terms for ‘welcome’ I was aware of. I did a quick online search, but it did not turn up anything relevant, so I forgot about it and only showed the picture to a friend a few days later. She could not identify the language either, but said that the look of the phrase reminded her of Russian or another language written with the Cyrillic alphabet. To readers like her who only know the Latin alphabet well, Cyrillic letters look vaguely familiar, but you don’t know which sounds they represent and the combination does not make any sense.

The Russian phrase for ‘welcome’ is Добро пожаловать (Dobro požalovat’), but the connection with the phrase on the carpet is not immediately evident. One of my first thoughts was that this might be an example of encoding gone awry – but once you think it through, it does not hold up. First, the number of letters in ‘Dodpo momaubatg’ and the original Russian phrase is not identical (the original phrase has an additional letter in the second word). Second, the first and third letters of both words are different in Russian, but identical on the carpet. Even in a scenario with incorrect encoding or decoding, you would expect different (albeit unexpected) characters in the output for different letters in the input. So what happened instead? To be honest, I am still not entirely sure, but here is my best guess:

Weiterlesen

On cognates and friends, true and false

Learning a language is hard, so every little bit helps: If English is your mother tongue and you start learning German, you will be delighted to hear that the German word for hand is Hand. You may be less delighted to hear that the English word gift does not translate to its German orthographic counterpart Gift (which means ‘poison’), but to Geschenk. Then again, if you like linguistics, you will be delighted to hear that not just the former, but also the latter pair of words is etymologically related (both gift in English and Gift in German refer to something that is given to someone, the verb give also being related to the nouns). So, we have three aspects of relatedness in words: the origin (where words come from); the form (how they are written); the meaning (how we define them). For some clusters of relatedness, there are established terms: The term I have always used for words that share the same spelling, but not the same meaning is ‘false friends’ (e.g., gift/Gift). Today I learned through a blog post by Jonathon Owen that some English speakers (erroneously) refer to such false friends as ‘false cognates’ – a term that would properly be applied to words that share the same meaning and the same form across languages, but that are in fact etymologically unrelated. Inspired by said blog post, I made an overview of different types of relations between word pairs across languages, based on origin, form, meaning or some combination thereof. You can download a PDF version of the chart by clicking on the image below:

An overview of words that share the same origin, form, meaning or some combination thereof

Auf ein Wort (24): Céline Dion

Céline Dion frz. (QC) [seˌlɪn ˈd͡zjɒ̃]; frz. (FR) [seˌlin ˈdjɔ̃]; engl. (AE) [səˌlɪn diˈɑn]

Erläuterungen

Angesichts der Bekanntheit von Céline Dion war ich überrascht, wenig Diskussionen über die Aussprache ihres Namens zu finden. Als ›ursprüngliche‹ Lautung kann man wohl die betrachten, die der quebecischen Aussprache des Französischen folgt. Mit dieser Varietät ist die Sängerin aufgewachsen. Im Vergleich zur Aussprache in Frankreich, die hier als Zweites angegeben ist, fallen einige Unterschiede auf.

Zum einen ist der Vokal in der zweiten Silbe des Vornamens in der kanadischen Aussprache zentralisiert. Zu den geschlossenen Vokalen [i], [y] und [u] in Frankreich kommen in Québec [ɪ], [ʏ] und [ʊ] hinzu, die erstere in vielen geschlossenen Silben ersetzen und sowohl lang als auch, wie hier, kurz sein können. In ihrer englischen Aussprache des eigenen Namens übernimmt Céline Dion diesen zentralisierten Vokal. Es sei darauf hingewiesen, dass die Lautung mit [iː] – also [səˈliːn] oder auch [seˈliːn] mit Vollvokal in der ersten Silbe – im Englischen von anderen Sprechern am häufigsten zu hören ist.

Ein weiterer Unterschied zwischen den zwei französischen Varietäten findet sich im Nachnamen: Im quebecischen Französisch werden [t] und [d] vor Vordervokalen affriziert, also [t͜s] bzw. [d͜z] gesprochen. Außerdem ist der Nasalvokal am Ende im Vergleich mit der Aussprache in Frankreich offener. In Québec werden die Laute, die in Frankreich nasale Monophthonge sind, zudem von einigen Sprechern diphthongiert – im Fall von [ɔ̃] zu [ɒ̃ʊ̯̃]. Die Aussprache des Nachnamens in einer Silbe wird im Englischen zu zwei Silben aufgebrochen, wobei in der zweiten, betonten Silbe meist ein Vokal aus dem ›lexical set‹ von lot verwendet wird, also [ɒ] im britischen und [ɑ(ː)] im amerikanischen Englisch.

Eindeutschung

Für deutsche Sprecher ist der Name keine allzu große Herausforderung. Als Eindeutschung zu empfehlen wäre [seˌliːn ˈdi̯õː] (ungefähr: ßee-LIHN DIÕ). Der Vorname reimt auf ›Berlin‹. Der Nachname kann auch zweisilbig – also [diˈjɔ̃] – ausgesprochen werden. Wer kann, sollte der im Deutschen verbreiteten Tendenz widerstehen, den Nasalvokal denasaliert und gefolgt von [ŋ] auszusprechen.

Quellen

Valse klemtoonvrienden:
Wortbetonung im Deutschen und Niederländischen

Als ›falsche Freunde‹ bezeichnet man Paare von Begriffen, die in zwei Sprachen eine ähnliche Form, aber eine unterschiedliche Bedeutung haben. Am häufigsten kommen solche Paare in Sprachen mit gemeinsamem Ursprung vor. Listen deutsch-englischer falscher Freunde füllen Bücher, während die Kombination Kurdisch/Guaraní an solchen Stolperfallen eher arm sein dürfte. Meist geht es nämlich um Kognaten, also Wörter identischer Herkunft, die sich über die Jahrhunderte semantisch weiter als lautlich voneinander entfernt haben. Falsche Freunde sind diese Begriffe deshalb, weil sie beim Zweitspracherwerb für Schwierigkeiten sorgen: Wer eine Sprache lernt, die der eigenen Erstsprache bzw. einer bereits erlernten Zweitsprache ähnlich ist, nutzt das Vorwissen und versucht anfangs, sich die neue Sprache durch den Transfer von Elementen der bekannten Sprache zu erschließen. Oft trennt die Erst- und die Zweitsprache ja bloß eine unbedeutende Lautverschiebung bei tatsächlich identischer Bedeutung.

Transfer findet aber auch statt, wenn es nicht um Semantik geht. Im morphologischen Bereich ist zum Beispiel bekannt, dass deutsche Muttersprachler das grammatikalische Geschlecht (Genus) niederländischer Wörter mit hoher Trefferquote nennen können – schlicht auf der Basis ihrer Kenntnis des Deutschen. Falsche Freunde in diesem Bereich wären Wörter wie ›Orgel‹ (gleichbedeutend in beiden Sprachen), das im Deutschen ein Femininum ist, im Niederländisch dagegen ein Neutrum. Ein Bereich, in dem seltener über Transfer gesprochen wird, ist die Wortbetonung. Allerdings dürfte auch hier der Spracherwerb zumindest anfangs auf Transfer basieren. Man geht – nicht ganz zu Unrecht – davon aus, dass die Betonung ähnlicher Wörter in ähnlichen Sprachen auf derselben Silbe liegt.

Im Folgenden stelle ich eine Liste von mehr als 60 Wortpaaren vor, die im Deutschen und Niederländischen (fast) gleich geschrieben, aber (meist) unterschiedlich betont werden. Eine Frage, die ich hier nicht beantworten werde, ist die nach dem Warum – allerdings nicht, weil sie uninteressant wäre. Der Grund ist, dass die Liste mehrheitlich relativ rezente Fremd- und Lehnwörter enthält. Bei solchen Wörtern wird die Wortbetonung – anders als bei nativen Wörtern oder älteren Lehnwörtern – nicht ausschließlich von fonologischen Prinzipien bestimmt. Oft spielen auch die Herkunfts- oder Vermittlersprache bzw. sprachinterne Ähnlichkeiten eine Rolle. Diese Faktoren für die untenstehenden Wörter zu entwirren, geht über das hinaus, was ich hier leisten kann. Sollte sich jemand die Mühe dieser Arbeit machen, bitte ich um Nachricht. Selbiges gilt bei Fehlern und Unvollständigkeiten, insbesondere in Bezug auf Lautungen, die außerhalb von Deutschland oder den Niederlanden gebräuchlich sind.

Weiterlesen

Phonetic repair service: Fixing ATypI’s IPA

The 2015 edition of the annual conference of the Association Typographique Internationale (ATypI) took place in São Paulo, Brazil. Its visual identity was based on the phonetic transcription of the local pronunciation of the name of the host city: /ˌsɐ̃w ˈpawlu/. From this transcription, one symbol was isolated and used as a sort of logo: /ɐ̃/ – both an interesting glyph design-wise and the symbol of a characteristic sound of Portuguese (a nasalised centralised vowel). I think it was a great choice for a type conference in Brazil. What’s more, I liked the typefaces they used in their visual identity, among others Voces (by Ana Paula Megda & Pablo Ugerman) and Brasilica (by Rafael Dietzsch). An extension of the latter, including phonetic symbols, has been announced for 2016 (and I’m quite curious about that).

Logo of the 2015 ATypI conference, using a phonetic symbol

Despite the cleverness of the concept, not all of its implementations were equally successful. I saw one on YouTube that I was a bit disappointed about: The video recordings of all conference talks – kudos for making them available – had thumbnails showing the names of the speakers and phonetic transcriptions of their names. As I already pointed out on Twitter, many of the transcriptions were inaccurate. In some cases, it was not even clear to me if the transcription was supposed to represent an Anglicised pronunciation or the way speakers would pronounce their names in their native languages. Admittedly, making phonetic transcriptions is not that easy – whether you use the International Phonetic Alphabet (IPA), as they wisely did, or any other system. I don’t know who created the transcriptions in the thumbnails and I don’t know why they ended up being inaccurate: Maybe the transcriber was lacking information or it was a rush job or correct transcriptions were garbled in the design process.

What I want to do here is to provide correct transcriptions of the native pronunciation of the speakers’ names (or at least, I will try to avoid the most egregious mistakes that were made in the original transcriptions). As I said before, making phonetic transcriptions can be difficult: Language varies a lot – across place, time, situation etc. Not everyone agrees on how to describe all this variation; not everyone agrees on how to transcribe it. Trying to pin down the symbol that exactly represents one sound has led to heated debates among linguists more than just once. For that reason, I’d like to invite you to let me know if you disagree with the way I transcribed any of the names.

For all those who do not read IPA transcriptions fluently, there are some audio recordings: Whenever you see a ? symbol next to a name, you can click on it to listen to the speaker’s own pronunciation of their name. Most speakers say something along the lines of ‘Hi, my name is […], I come from […] and my mother tongue is […]’ – all that in (one of) their native language(s). I hope to add more recordings in the future, but this may take some time. Similarly, some transcriptions require a bit of research, so the list will not be complete from the outset, but be filled over time. Anyway, here is the list:

Weiterlesen

Celebrating Dialect Month: 31 songs in small Germanic varieties

In 1986, SONT – a dialect organisation from the Netherlands – declared March to be ‘Dialect Month’. In 2016, March as Dialect Month is surprisingly still celebrated in the Netherlands. Perhaps not so surprisingly, the idea did not catch on anywhere else (not even in Belgium). That is too bad.

My 2016 contribution to promoting March as Dialect Month outside the Netherlands – and slightly widening its focus – was this: On each day of March, I posted and tweeted about a song that is sung in a small Germanic variety. In my definition, this is any variety that belongs to the Germanic branch of the Indo-European language family, except for standardised varieties of the most widely spoken national languages (e.g. English, German, Dutch, Swedish etc.). You know what these standard varieties sound like (and if you don’t, that is easily remedied). My list of songs features varieties that are not used by as many speakers and therefore not heard as frequently. Some of the varieties in my list may even be at risk of becoming extinct in a not-too-distant future. Let’s listen to them while they are still being used.

Below is a highly subjective, completely unrepresentative list of 31 songs in small Germanic varieties. On Twitter, I used #SiSGV (Songs in Small Germanic Varieties) as a hashtag. All songs can be found in this Spotify playlist (I am sorry if you can’t listen to all songs in your country) and, whenever possible, I tried to supply links to other legal sources as well as the lyrics of each song. If you have any questions, suggestions or corrections, feel free to comment. Here is the list:

Weiterlesen

Der oder das Blog? – Update einer Korpusanalyse

Vor gut vier Jahren berichtete Anatol Stefanowitsch bei SciLogs über Korpusdaten zum Genus der Wörter ›Blog‹ und ›Weblog‹. Die Daten aus dem Deutschen Referenzkorpus (DeReKo) zeigten damals eine Verschiebung des grammatikalischen Geschlechts vom Neutrum zum Maskulinum. Im Jahr 2010 wurde ›Blog‹ bei rund 70% der genuseindeutigen Belege als Maskulinum verwendet.

Seit der damaligen Auswertung ist das DeReKo erheblich gewachsen. Und wir sind natürlich vier Jahre Sprachverwendung weiter. Aus diesem Grund habe ich eine Aktualisierung und Fortschreibung der Daten zum Genus von ›Blog‹ und ›Weblog‹ erstellt. Die Frage: Ist der Anteil der Belege für Verwendung als Maskulinum weiter gestiegen und, wenn ja, bis zu welchem Niveau? Hier ist die Antwort:

Der oder das (We)blog?

Diese Daten stammen aus den geschriebenen Korpora, die im DeReKo zu den Archiven W, W2, W3 und W4 zusammengefasst sind. Berücksichtigt wurden nur Wortfolgen, bei denen Artikel und Kopfnomen direkt nebeneinander standen. Dieses Diagramm zeigt prozentuale Angaben zu drei Variablen: In rot sieht man den Anteil maskuliner Definitartikel (›der‹ im Nominativ und ›den‹ im Akkusativ) in Nominalphrasen, deren Kopfnomen ›Blog‹ ist. In grün sieht man den Anteil maskuliner Definitartikel in Nominalphrasen, deren Kopfnomen ›Weblog‹ ist. In beiden Fällen entfallen zu 100 fehlende Prozentpunkte auf die Verwendung des neutralen Definitartikels (›das‹ im Nominativ und Akkusativ). In blau sieht man den Anteil der Nominalphrasen mit Kopfnomen ›Weblog‹ an der Gesamtzahl der Nominalphrasen. Hier sind zu 100 fehlende Prozentpunkte der Verwendung von ›Blog‹ als Kopfnomen zuzurechnen.

Interessant an diesem Diagramm finde ich dreierlei:

Zum ersten zeigt sich, dass die Verwendung des Wortes als Maskulinum, die in der alten Auswertung erst 2006 nachzuweisen war, bereits 2002 in der Presse vorkam. Aus diesem Jahr stammt der früheste Beleg für ›der/den Weblog‹ in der aktuellen Version der DeReKo. Die Verwendung von ›Weblog‹ als Maskulinum in dieser Zeit muss man meines Erachtens nicht unbedingt als die Frühphase des Wandels vom Neutrum zum Maskulinum deuten. Sie könnte auch schlicht ein Hinweis darauf sein, dass das Genus dieses seinerzeit noch relativ neuen Lehnwortes – wie das so vieler Lehnwörter – schwankte. ›Der/den Blog‹ ist in der neuen Auswertung bereits in Zeitungen aus dem Jahr 2004 zu finden.

Zum zweiten veranschaulicht das Diagramm den engen Zusammenhang zwischen dem Übergang von ›Weblog‹ zu ›Blog‹ und dem Übergang vom Neutrum zum Maskulinum. Bei ›Weblog‹ überwog die Verwendung als Maskulinum in keinem Jahr (Maximum: 44,6% im Jahr 2006). ›Blog‹ dagegen stieg 2004 bereits mit einem satten Drittel an Verwendungen als Maskulinum ein. Im zweiten Jahr, in dem ›Blog‹ überhaupt als Maskulinum in diesem Korpus nachgewiesen wurde, war das Neutrum schon in der Minderheit. Seit 2007 dominiert das Maskulinum bei ›Blog‹ deutlich. Die Gründe, warum ›Blog‹ eher maskulines Genus annimmt als ›Weblog‹, wurden bereits 2010 besprochen: ›Weblog‹ erinnert noch an ›(das) Logbuch‹, von dem das neutrale Genus auf diese Form des Lehnworts übergegangen sein mag. ›Blog‹ dagegen neigt aus zwei Gründen zum Maskulinum: Einerseits haben Wörter dieser Silbenstruktur (CCVC mit kurzem Vokal) im Deutschen überwiegend maskulines Genus (wie Klaus-Michael Köpcke 1982 in seiner Dissertation gezeigt hat). Andererseits wird die Kurzform genauso ausgesprochen wie ›(der) Block‹ (eines dieser maskulinen CCVC-Wörter), was zur Genusübertragung einlädt.

Zum dritten finde ich es bemerkenswert, dass sich bei beiden Formen – ›Blog‹ und ›Weblog‹ – seit 2007 (oder spätestens 2008) nichts Dramatisches an den Anteilen der Genera geändert hat. Obwohl der Anteil von ›Weblog‹ an der Gesamtzahl der Verwendungen in dieser Zeit von einem knappen Drittel unter zwei Prozent gesunken ist, bleibt der Anteil der Verwendungen als Maskulinum bei rund 30% (mit Ausschlägen nach oben und unten). Und obwohl parallel dazu die Form ›Blog‹ praktisch universell geworden ist, wird sie auch im Jahr 2014 in rund 20% der Fälle als Neutrum verwendet. Das ist insofern ein symbolischer Wert, als auch ›Weblog‹ im ersten Jahr, das unsere Zeitreihe erfasst, in rund 20% der Fälle als Maskulinum verwendet wurde. Vielleicht sind 20% an Sprechern, die ein anderes Genus als die Mehrheit verwenden, einfach ein Residuum an Abweichlern, das nicht so schnell verschwindet – zumindest nicht in den ersten 20, 25 Jahren, die ein Lehnwort in einer Sprache verbringt.

Auf ein Wort (23): Marcelo Rebelo de Sousa

Marcelo Nuno Duarte Rebelo de Sousa port. (EP) [mɐɾˌsɛlu ˌnunu ˌdwaɾtɯ ʁɯˈbelu dɯ ˈsozɐ]

Erläuterungen

›Nuno‹ ist hier der zweite Vorname, ›Duarte‹ der Nachname der Mutter, ›Rebelo de Sousa‹ der zweiteilige Nachname des Vaters. Als Kurzform des Namens wird Marcelo Rebelo de Sousa verwendet.

Vor allem europäisches Portugiesisch zeichnet sich durch ein hohes Maß an Reduktion unbetonter Vokale, Schwächung intervokalischer Konsonanten und Sandhi aus. In zusammenhängender Sprache lautet der Name dementsprechend eher [mɾ̩ˌsɛɫ ʁɯˌβɯltˈsozɐ̥] oder ähnlich.

Eindeutschung

Auf die Eindeutschung müssen diese phonetischen Prozesse nicht unbedingt Einfluss haben. Die Hauptsache ist bei diesem Namen, dass die Qualität der betonten Vokale stimmt. In der 20-Uhr-tagesschau von gestern sowie in den heutigen Frühausgaben wurde der letzte Teil des Namens als [ˈsuːza] ausgesprochen. In einer heutigen Frühausgabe von heute Xpress war von [ˈsaʊ̯sa] die Rede. Das ist beides eher suboptimal. Sinnvoll erscheint mir folgende eingedeutschte Lautung: [maʁˌsɛlu ʁəˌbɛlu də ˈsoːza] (ungefähre Umschrift, betonte Silben fett: marr-SELLU re-BELLU de SOH-za).

Auf ein Wort (22): Vladimir Plahotniuc

Vladimir Plahotniuc rumän. [vladiˈmiɾ plahɔtˈnʲuk]

Plahotniuc ist ein Unternehmer und Politiker aus der Republik Moldau. Die Amtssprache des Landes ist Rumänisch. Bis 2013 wurde die moldauische Varietät des Rumänischen offiziell als ›Moldauisch‹ bezeichnet, obwohl sie sich von der in Rumänien gesprochenen Varietät kaum unterscheidet. Bis 1989 wurde die moldauische Varietät mit Buchstaben des kyrillischen Alphabets geschrieben. Seitdem wird, wie in Rumänien, das lateinische Alphabet (mit einigen Sonderzeichen) verwendet.

Das Lautsystem des Rumänischen ähnelt dem des Italienischen, vor allem im Hinblick auf die Konsonanten. Bei den Vokalen fallen folgende Unterschiede auf: Das Rumänische hat zwei Zentralvokale, die dem Italienischen fehlen: [ɨ] (orthografisch ‹â› oder ‹î›) und [ɜ] (orthografisch ‹ă›), das auch [ə] transkribiert wird. Dafür gibt es im Rumänischen, anders als im Italienischen, keinen Kontrast zwischen halboffenen und halbgeschlossenen Vokalen, also /ɛ/ vs. /e/ und /ɔ/ vs. /o/. Im Rumänischen gibt es jeweils nur ein Vokalphonem in diesem Bereich, das etwa in der Mitte zwischen den italienischen Phonemen realisiert wird, also [ɛ̝] und [ɔ̝]. /a/ ist in beiden Sprachen gegenüber dem Kardinalvokal zentralisiert, also [ä]. Auch sind in beiden Sprachen alveolare Plosive – /t/ und /d/ – dental, also [t̪] und [d̪].

Nice italics, bad #Eszett:
My tweets about the 2015 Typodarium

On each day of 2015, I tweeted a micro-review of the typefaces in the Typodarium, a tear-off cal— no, wait, I think I said that before. This now is the fun part. Using CLAN (a piece of software by psychologist Brian MacWhinney et al.), I did some basic lexical frequency analysis on the 365 tweets I wrote – or rather I checked which content words I used most frequently and created a word cloud from these. Don’t worry, I am not confusing a word cloud with a full-fledged lexical analysis of a proper corpus (as others may do). The tweet corpus is small anyway (just over 5,000 words) and a fine example of the observer’s paradox. The idea to analyse the tweets did not occur to me on 1 January just after midnight, but sometime last autumn, so I wrote about a third of the tweets knowing that I would analyse them later on.

The word cloud was made using Wordle. You can ask it to filter out highly frequent (function) words. If you did not, the most frequent words in the corpus – the, a, is, this etc. – would dominate the picture. ‘The’ alone was used 189 times, that is, more than three times as frequently as the most frequent word that was not filtered (‘typeface’). Due to the filtering, one word is missing from the picture: ‘but’. If you look at one of the many lists of most common English words, you will find ‘but’ in the top 50, but not really high on the list (22nd, 33rd, 36th – you get the idea). In my corpus, by contrast, ‘but’ appeared 105 times, that is, in almost a third of the tweets. It is the fifth most frequent word. Just so you know.

As you may have guessed, the size of the words in the cloud reflects their frequency. The colours, on the other hand, don’t mean a thing. And if you wondered, the typeface I used is League Gothic from The League of Moveable Type, which was released under the SIL Open Font License.

Typodarium 2015: Wordcloud

Here is what I think you can learn from this cloud:

Weiterlesen