Archiv der Kategorie: Sprache

Der oder das Blog? – Update einer Korpusanalyse

Vor gut vier Jahren berichtete Anatol Stefanowitsch bei SciLogs über Korpusdaten zum Genus der Wörter ›Blog‹ und ›Weblog‹. Die Daten aus dem Deutschen Referenzkorpus (DeReKo) zeigten damals eine Verschiebung des grammatikalischen Geschlechts vom Neutrum zum Maskulinum. Im Jahr 2010 wurde ›Blog‹ bei rund 70% der genuseindeutigen Belege als Maskulinum verwendet.

Seit der damaligen Auswertung ist das DeReKo erheblich gewachsen. Und wir sind natürlich vier Jahre Sprachverwendung weiter. Aus diesem Grund habe ich eine Aktualisierung und Fortschreibung der Daten zum Genus von ›Blog‹ und ›Weblog‹ erstellt. Die Frage: Ist der Anteil der Belege für Verwendung als Maskulinum weiter gestiegen und, wenn ja, bis zu welchem Niveau? Hier ist die Antwort:

Der oder das (We)blog?

Diese Daten stammen aus den geschriebenen Korpora, die im DeReKo zu den Archiven W, W2, W3 und W4 zusammengefasst sind. Berücksichtigt wurden nur Wortfolgen, bei denen Artikel und Kopfnomen direkt nebeneinander standen. Dieses Diagramm zeigt prozentuale Angaben zu drei Variablen: In rot sieht man den Anteil maskuliner Definitartikel (›der‹ im Nominativ und ›den‹ im Akkusativ) in Nominalphrasen, deren Kopfnomen ›Blog‹ ist. In grün sieht man den Anteil maskuliner Definitartikel in Nominalphrasen, deren Kopfnomen ›Weblog‹ ist. In beiden Fällen entfallen zu 100 fehlende Prozentpunkte auf die Verwendung des neutralen Definitartikels (›das‹ im Nominativ und Akkusativ). In blau sieht man den Anteil der Nominalphrasen mit Kopfnomen ›Weblog‹ an der Gesamtzahl der Nominalphrasen. Hier sind zu 100 fehlende Prozentpunkte der Verwendung von ›Blog‹ als Kopfnomen zuzurechnen.

Interessant an diesem Diagramm finde ich dreierlei:

Zum ersten zeigt sich, dass die Verwendung des Wortes als Maskulinum, die in der alten Auswertung erst 2006 nachzuweisen war, bereits 2002 in der Presse vorkam. Aus diesem Jahr stammt der früheste Beleg für ›der/den Weblog‹ in der aktuellen Version der DeReKo. Die Verwendung von ›Weblog‹ als Maskulinum in dieser Zeit muss man meines Erachtens nicht unbedingt als die Frühphase des Wandels vom Neutrum zum Maskulinum deuten. Sie könnte auch schlicht ein Hinweis darauf sein, dass das Genus dieses seinerzeit noch relativ neuen Lehnwortes – wie das so vieler Lehnwörter – schwankte. ›Der/den Blog‹ ist in der neuen Auswertung bereits in Zeitungen aus dem Jahr 2004 zu finden.

Zum zweiten veranschaulicht das Diagramm den engen Zusammenhang zwischen dem Übergang von ›Weblog‹ zu ›Blog‹ und dem Übergang vom Neutrum zum Maskulinum. Bei ›Weblog‹ überwog die Verwendung als Maskulinum in keinem Jahr (Maximum: 44,6% im Jahr 2006). ›Blog‹ dagegen stieg 2004 bereits mit einem satten Drittel an Verwendungen als Maskulinum ein. Im zweiten Jahr, in dem ›Blog‹ überhaupt als Maskulinum in diesem Korpus nachgewiesen wurde, war das Neutrum schon in der Minderheit. Seit 2007 dominiert das Maskulinum bei ›Blog‹ deutlich. Die Gründe, warum ›Blog‹ eher maskulines Genus annimmt als ›Weblog‹, wurden bereits 2010 besprochen: ›Weblog‹ erinnert noch an ›(das) Logbuch‹, von dem das neutrale Genus auf diese Form des Lehnworts übergegangen sein mag. ›Blog‹ dagegen neigt aus zwei Gründen zum Maskulinum: Einerseits haben Wörter dieser Silbenstruktur (CCVC mit kurzem Vokal) im Deutschen überwiegend maskulines Genus (wie Klaus-Michael Köpcke 1982 in seiner Dissertation gezeigt hat). Andererseits wird die Kurzform genauso ausgesprochen wie ›(der) Block‹ (eines dieser maskulinen CCVC-Wörter), was zur Genusübertragung einlädt.

Zum dritten finde ich es bemerkenswert, dass sich bei beiden Formen – ›Blog‹ und ›Weblog‹ – seit 2007 (oder spätestens 2008) nichts Dramatisches an den Anteilen der Genera geändert hat. Obwohl der Anteil von ›Weblog‹ an der Gesamtzahl der Verwendungen in dieser Zeit von einem knappen Drittel unter zwei Prozent gesunken ist, bleibt der Anteil der Verwendungen als Maskulinum bei rund 30% (mit Ausschlägen nach oben und unten). Und obwohl parallel dazu die Form ›Blog‹ praktisch universell geworden ist, wird sie auch im Jahr 2014 in rund 20% der Fälle als Neutrum verwendet. Das ist insofern ein symbolischer Wert, als auch ›Weblog‹ im ersten Jahr, das unsere Zeitreihe erfasst, in rund 20% der Fälle als Maskulinum verwendet wurde. Vielleicht sind 20% an Sprechern, die ein anderes Genus als die Mehrheit verwenden, einfach ein Residuum an Abweichlern, das nicht so schnell verschwindet – zumindest nicht in den ersten 20, 25 Jahren, die ein Lehnwort in einer Sprache verbringt.

Auf ein Wort (23): Marcelo Rebelo de Sousa

Marcelo Nuno Duarte Rebelo de Sousa port. (EP) [mɐɾˌsɛlu ˌnunu ˌdwaɾtɯ ʁɯˈbelu dɯ ˈsozɐ]

Erläuterungen

›Nuno‹ ist hier der zweite Vorname, ›Duarte‹ der Nachname der Mutter, ›Rebelo de Sousa‹ der zweiteilige Nachname des Vaters. Als Kurzform des Namens wird Marcelo Rebelo de Sousa verwendet.

Vor allem europäisches Portugiesisch zeichnet sich durch ein hohes Maß an Reduktion unbetonter Vokale, Schwächung intervokalischer Konsonanten und Sandhi aus. In zusammenhängender Sprache lautet der Name dementsprechend eher [mɾ̩ˌsɛɫ ʁɯˌβɯltˈsozɐ̥] oder ähnlich.

Eindeutschung

Auf die Eindeutschung müssen diese phonetischen Prozesse nicht unbedingt Einfluss haben. Die Hauptsache ist bei diesem Namen, dass die Qualität der betonten Vokale stimmt. In der 20-Uhr-tagesschau von gestern sowie in den heutigen Frühausgaben wurde der letzte Teil des Namens als [ˈsuːza] ausgesprochen. In einer heutigen Frühausgabe von heute Xpress war von [ˈsaʊ̯sa] die Rede. Das ist beides eher suboptimal. Sinnvoll erscheint mir folgende eingedeutschte Lautung: [maʁˌsɛlu ʁəˌbɛlu də ˈsoːza] (ungefähre Umschrift, betonte Silben fett: marr-SELLU re-BELLU de SOH-za).

Auf ein Wort (22): Vladimir Plahotniuc

Vladimir Plahotniuc rumän. [vladiˈmiɾ plahɔtˈnʲuk]

Plahotniuc ist ein Unternehmer und Politiker aus der Republik Moldau. Die Amtssprache des Landes ist Rumänisch. Bis 2013 wurde die moldauische Varietät des Rumänischen offiziell als ›Moldauisch‹ bezeichnet, obwohl sie sich von der in Rumänien gesprochenen Varietät kaum unterscheidet. Bis 1989 wurde die moldauische Varietät mit Buchstaben des kyrillischen Alphabets geschrieben. Seitdem wird, wie in Rumänien, das lateinische Alphabet (mit einigen Sonderzeichen) verwendet.

Das Lautsystem des Rumänischen ähnelt dem des Italienischen, vor allem im Hinblick auf die Konsonanten. Bei den Vokalen fallen folgende Unterschiede auf: Das Rumänische hat zwei Zentralvokale, die dem Italienischen fehlen: [ɨ] (orthografisch ‹â› oder ‹î›) und [ɜ] (orthografisch ‹ă›), das auch [ə] transkribiert wird. Dafür gibt es im Rumänischen, anders als im Italienischen, keinen Kontrast zwischen halboffenen und halbgeschlossenen Vokalen, also /ɛ/ vs. /e/ und /ɔ/ vs. /o/. Im Rumänischen gibt es jeweils nur ein Vokalphonem in diesem Bereich, das etwa in der Mitte zwischen den italienischen Phonemen realisiert wird, also [ɛ̝] und [ɔ̝]. /a/ ist in beiden Sprachen gegenüber dem Kardinalvokal zentralisiert, also [ä]. Auch sind in beiden Sprachen alveolare Plosive – /t/ und /d/ – dental, also [t̪] und [d̪].

Nice italics, bad #Eszett:
My tweets about the 2015 Typodarium

On each day of 2015, I tweeted a micro-review of the typefaces in the Typodarium, a tear-off cal— no, wait, I think I said that before. This now is the fun part. Using CLAN (a piece of software by psychologist Brian MacWhinney et al.), I did some basic lexical frequency analysis on the 365 tweets I wrote – or rather I checked which content words I used most frequently and created a word cloud from these. Don’t worry, I am not confusing a word cloud with a full-fledged lexical analysis of a proper corpus (as others may do). The tweet corpus is small anyway (just over 5,000 words) and a fine example of the observer’s paradox. The idea to analyse the tweets did not occur to me on 1 January just after midnight, but sometime last autumn, so I wrote about a third of the tweets knowing that I would analyse them later on.

The word cloud was made using Wordle. You can ask it to filter out highly frequent (function) words. If you did not, the most frequent words in the corpus – the, a, is, this etc. – would dominate the picture. ‘The’ alone was used 189 times, that is, more than three times as frequently as the most frequent word that was not filtered (‘typeface’). Due to the filtering, one word is missing from the picture: ‘but’. If you look at one of the many lists of most common English words, you will find ‘but’ in the top 50, but not really high on the list (22nd, 33rd, 36th – you get the idea). In my corpus, by contrast, ‘but’ appeared 105 times, that is, in almost a third of the tweets. It is the fifth most frequent word. Just so you know.

As you may have guessed, the size of the words in the cloud reflects their frequency. The colours, on the other hand, don’t mean a thing. And if you wondered, the typeface I used is League Gothic from The League of Moveable Type, which was released under the SIL Open Font License.

Typodarium 2015: Wordcloud

Here is what I think you can learn from this cloud:

Weiterlesen

Der Vater und die Freundin:
Definitartikel in possessiver Verwendung

Wenn man im Deutschen auf etwas Definites verweisen will, hat man die Wahl zwischen verschiedenen Artikelwörtern. Man kann den Definitartikel (auch: bestimmter Artikel) wählen: ›der Baum‹. Demonstrativartikel werden ebenfalls üblicherweise als definit aufgefasst: ›Dieser Baum‹ und ›jener Baum‹ sind zwei bestimmte Bäume. Das Gleiche gilt für Possessivartikel: ›Mein Baum‹ ist nicht irgendein Baum. Diese Artikelwörter sind aufgrund ihrer Bedeutung meist nicht gegeneinander austauschbar – aber manchmal anscheinend doch. Ich bin vor Kurzem auf eine Konstruktion gestoßen, in der einige Sprecherinnen und Sprecher Possessivartikel durch Definitartikel ersetzen. Gelesen habe ich im Techniktagebuch (für das ich selbst auch schreibe) den folgenden Satz, der am Anfang eines Textes steht:

Wenn wir mit einem Mietwagen in fremden Gegenden unterwegs sind, haben wir – der Mann und ich – immer unser eigenes Navigationsgerät […] dabei.

›Der Mann‹ ist in diesem Text der erste Verweis auf eine Person, bei der es sich um den Ehemann der Autorin zu handeln scheint. Das klingt ungewöhnlich in meinen Ohren. Wenn ich ›der Mann‹ lese, erwarte ich, dass es um eine Person geht, die bereits in den Text eingeführt wurde (›Ich sah einen Mann mit einem grauen Schlapphut. Der Mann …‹), oder dass das definite Nomen im Satz selbst näher bestimmt wird, zum Beispiel in Form einer eingebetteten Possessivphrase (›der Mann meines Chefs‹) bzw. eines erklärenden Nebensatzes (›der Mann, der hier auf der Ecke wohnt‹). Das alles ist in dem Satz aus dem Techniktagebuch nicht der Fall. ›Der Mann‹ wird weder näher bestimmt noch wurde er bereits vorgestellt. Ich hätte an dieser Stelle ›mein Mann‹ geschrieben, also einen possessiven Artikel verwendet – aber ich glaube nicht, dass die Autorin des Textes einen Fehler gemacht hat. Zum einen geht es in dem zitierten Text noch ein paar Mal um ihren Ehemann, der in allen Fällen mit ›der Mann‹ bezeichnet wird (wo ich jeweils an ›mein Mann‹ festhalten würde). Diese Konstruktion wird von ihr also systematisch verwendet. Zum anderen stößt man beim Blättern im Techniktagebuch, das ich hier als kleines, bequem durchsuchbares Korpus verwenden möchte, auf weitere Belege desselben Typs:

Weiterlesen

Auf ein Wort (21): Burger

Burger dt. [ˈbœɐ̯ɡɐ]

Der DUDEN irrt eher selten, aber in diesem Fall liegt er meines Erachtens falsch. Die aktuelle Ausgabe des Rechtschreibwörterbuchs (auch online) transkribiert das englische Lehnwort ›Burger‹ als [ˈbøːɐ̯ɡɐ]. Diese Lautung kann ich mir in einer Varietät, die dem, was man als Standardsprache bezeichnen könnte, nahekommt, nicht recht vorstellen. In den Teilen Norddeutschlands, in denen man ungespannte Kurzvokale vor /r/ spannt und längt, also ›Herz‹ [heːɐ̯t͜s] ausspricht, wird sicher hier und da mal ein [ˈbøːɐ̯ɡɐ] geordert. Ansonsten dominiert das [œ] als Wiedergabe des nicht-rhotischen [ɜː] bzw. des rhotischen [ɝː] im Englischen. Auch der Sprecher, dessen Aufnahme auf der DUDEN-Website hinterlegt ist, sagt [ˈbœɐ̯ɡɐ]. Die Transkription der gängigeren Lautung hätte man in einem Produkt aus eigenem Hause nachsehen können, nämlich dem Aussprachewörterbuch. Der ›Burger‹ wird hier nicht geführt, wohl aber der ›Hamburger‹. Den spricht man laut Band 6 entweder [ˈhɛmbøːɐ̯ɡɐ] (vielleicht hat der Fehler hier seinen Ursprung) oder eben [ˈhɛmbœʁɡɐ]. Dass /r/ nach dem korrekten Kurzvokal als konsonantisches [ʁ] (bzw. [r] nach der dortigen Transkriptionskonvention) statt als vokalisches [ɐ̯] wiedergegeben wird, ist ein Detail. Die konsonantische Umsetzung wirkt ein bisschen förmlicher, ohne dass die Vokalisierung informell wäre. Auch das Deutsche Aussprachewörterbuch (Krech et al. 2009) gibt die Aussprache als [hˈɛmbœːɐɡɐ] wieder. Warum der Vokal hier lang transkribiert wird, weiß ich nicht; meines Erachtens ist er kurz. Nicht verschwiegen werden soll übrigens ein Unterschied zwischen Burger mit und ohne Ham, dem alle genannten Wörterbücher Rechnung tragen. Den mit kann man nämlich auch [ˈhambʊʁɡɐ] aussprechen, also wie einen Einwohner des Stadtstaats (in dem bestimmt einige Leute [ˈbøːɐ̯ɡɐ] bestellen). Beim bloßen ›Burger‹ begegnet man der deutschen Aussprache nicht.

Im Niederländischen ist es übrigens umgekehrt: Nicht für ›Hamburger‹, sondern für ›Burger‹ gibt es zwei mögliche Aussprachen (wozu der Van Dale, der niederländische DUDEN, allerdings nichts sagt). Der mit Ham lautet immer /ˈhɑmbʏrxər/, was aus dem Mund eines westniederländischen Sprechers zum Beispiel [ˈɦɑmbɵ̟ɹx̠ɚ] lauten könnte, in Belgien eher [ˈɦɑ̟mbʏ̈ɾɣəɾ]. Die letzten beiden Silben sind dabei identisch mit der Aussprache des Wortes für ›Bürger‹, also ›burger‹. Dieselbe Aussprache kann man ebenfalls verwenden um den anderen ›burger‹ – das belegte Brötchen – zu bezeichnen. Alternativ kann der Burger ohne Ham aber auch /ˈbʏrɡər/ ausgesprochen werden – mit einem Lautwert für orthografisches ›g‹, der im Niederländischen nur in Fremdwörtern (game, goodie, gestalt, glühwein, garçon, gobelin) zu finden ist. Diese Aussprache ist allerdings weniger gängig als die, bei der der verzehrende Bürger und der verzehrte Burger genau gleich lauten. Dafür, dass im Niederländischen als betonter Vokal schlicht /ʏ/ verwendet wird, also die in Nicht-Lehnwörtern häufigste Realisierung von orthografischem ›u‹, sehe ich zwei Gründe: Zum einen hat Niederländisch zwar ein Phonem /œː/, wie es im Deutschen (und Französischen) für den englischen Vokal eingesetzt wird, aber außer in einigen Lehnwörtern kommt es praktisch nicht vor. Zum anderen ist [ɵ], die Realisierung von /ʏ/ in den Niederlanden, dem englischen Vokal ohnehin recht nah, womöglich näher als das deutsche [œ]. Die optimale Lösung scheint also zugleich die einfachste zu sein. Wann kommt so was schon mal vor?

Auf ein Wort (20): Jupiler

Jupiler frz. [ʒypiˈlɛːʀ]

Jupiler ist eine Biermarke aus dem französischsprachigen Teil Belgiens, der Wallonie. Sie hat ihren Namen von dem Ort, in dem sich die Brauerei Piedbœuf [pjeˈbœf] befindet, die dieses Bier braut: Jupille-sur-Meuse [ʒyˌpij syʀˈmøːz] (früher selbstständige ›commune‹, heute Stadtteil von Liège/Luik/Lüttich).

Allerdings wird der Markenname nicht nur, wie oben angegeben, auf Französisch ausgesprochen, sondern auch häufig in niederländischsprachigen Kontexten – und zwar aus zwei Gründen: Erstens ist Belgien ein dreisprachiges Land; das Bier wird auch in Flandern (und gewiss auch im deutschsprachigen Teil des Landes) getrunken. Zweitens ist Jupiler Hauptsponsor der Pro League, der höchsten Spielklasse im belgischen Fußball, und der Eerste Divisie, der zweithöchsten Klasse im niederländischen Fußball. Dabei unterscheidet sich die übliche Aussprache in Belgien und den Niederlanden: In Belgien, wo die französische Lautung vielen bekannt ist, hört man im Niederländischen meist [ˈʒypilɛːɾ] (wobei das Phonem, für das ich hier [ɾ] notiert habe, den jeweiligen regionalen Lautwert annimmt). Im Vergleich mit der französischen Aussprache rutscht also nur die Betonung an den Wortanfang. In den Niederlanden ist diese Aussprache selten zu hören. Zunächst wird dort das [ɛ] der letzten Silbe von praktisch allen Sprechern zum Schwa reduziert. Einige Niederländer sagen also so etwas wie [ˈʒypiləɹ] (wobei auch hier das Phonem, für das ich die westniederländische Realisierung [ɹ] eingesetzt habe, regionaler Variation unterliegt). Viele andere ersetzen jedoch zusätzlich das französisch anmutende [ʒ] der ersten Silbe durch [j], den Laut also, dem geschriebenes ›j‹ im Niederländischen wortinitial meist entspricht. Das ergibt als gängigste Aussprache des Markennamens in den Niederlanden [ˈjypiləɹ].

Cluster von Toponymsuffixen in Deutschland

Die Karte, die ich hier vorstelle, ist aus der Perspektive des Radfahrers gemacht. Wer in Deutschland und anderswo eine Fahrt über Land macht, dem fällt bald auf, dass sich in vielen Gebieten Orte häufen, deren Namen auf dieselben Suffixe enden: Eine kleine Tour um Mönchengladbach herum könnte zum Beispiel in Sasserath im Süden beginnen, über Güdderath nach Wickrath führen, weiter über Hilderath und Mennrath gen Norden Richtung Gerkerath gehen und am nördlichen Stadtrand in Bettrath enden. Wer will, kann noch einen Abstecher nach Beckrath und Herrath machen.

Von Rath nach Rath

Auf einer vergleichbaren Fahrt rund um Mainz wäre die Ausbeute an Orten auf ›-rath‹ hingegen exakt null. Stattdessen könnte die Runde von Gonsenheim aus über Essenheim, Ebersheim und Gau-Bischofsheim nach Bodenheim führen und von dort, zurück auf Mainzer Stadtgebiet, über Laubenheim und Hechtsheim nach Bretzenheim. Das Phänomen dürfte klar – und vielen schon mal aufgefallen – sein.

Über Toponomastik (Ortsnamenkunde) gibt es natürlich haufenweise wissenschaftliche Publikationen. Dieses hier ist keine davon. Rein zur Unterhaltung – und daher mit einem dem Freizeitcharakter dieses Blogs angemessenen Anspruch an Vollständigkeit usw. – habe ich versucht, 101 auffällige Suffixcluster in Deutschland zu kartografieren. Das Ergebnis erinnert an manche der Karten, die das ZEITmagazin seit einigen Jahren in der Rubrik Deutschlandkarte veröffentlicht. Vielleicht gibt es sogar schon eine Deutschlandkarte zu diesem Thema, aber wenn dem so ist, dann habe ich sie nicht gefunden.

Wie also ist diese Karte entstanden? Ich habe mir eine Liste von deutschen Ortsnamen (inklusive zugehöriger Postleitzahlen) gesucht und rückläufig sortiert. Damit ist es nicht schwierig, sich die häufigsten N-Gramme von hinten herauszufischen und einen Blick auf die regionale Verteilung zu werfen. Die allermeisten Suffixe von Interesse entpuppten sich als Tri- bis Pentagramme. Hätte ich mehr Zeit und bessere Programmierkenntnisse, hätte ich eine interaktive Karte erstellen können, die für jeden Postleitzahlenbereich die häufigsten Suffixe anzeigt (am besten noch inklusive Etymologie). Habe ich aber nicht. Stattdessen ist es eine simple eindimensionale Karte geworden, in der man einfach nur ein paar Ortsnamen sieht. Bei der Auswahl der Beispiele habe ich mich zum einen daran orientiert, wie viel Prozent der Vorkommen eines Suffixes in einen (oder mehrere aneinandergrenzende) Postleitzahlenbereich(e) fallen. Im Postleitzahlenbereich 55 finden sich zum Beispiel 17,5 % aller Orte, deren Namen auf ›-heim‹ enden – der höchste Wert aller PLZ-Bereiche. Zum anderen habe ich danach geschaut, wie viele der Ortsnamen in einem PLZ-Bereich das betreffende Suffix enthalten. Bei ›-heim‹ waren das 27,3 % aller Ortsnamen im Bereich 55. Die genauen Prozentzahlen sollte man aufgrund von kleineren Unsauberkeiten in den Daten, die ich auf die Schnelle nicht beseitigen konnte, nicht überinterpretieren. Wohl aber vermitteln sie einen im Großen und Ganzen akkuraten Eindruck von der Verteilung eines Toponymsuffixes. Den Ausschlag dafür, ob ein Name auf der Karte landete, gab – neben meiner Intuition als deutscher Muttersprachler (Wie lokaltypisch und interessant kommt mir das Suffix vor?) – in vielen Fällen die banale Frage, ob an der betreffenden Stelle noch Platz in der Grafik war.

Um die Suffixe auf der Karte nicht so nackt dastehen zu lassen, habe ich jeweils ›Deutsch-‹ davorgesetzt. Wenn ein Suffix irgendwo auf der Karte steht, dann bedeutet das, dass nach meinen Recherchen ungefähr an dieser Stelle eine Reihe von Orten mit demselben Suffix im Namen liegt. Es bedeutet nicht, dass es nirgendwo sonst ein auf diesem Suffix basierendes Cluster gibt (und schon gar nicht, dass es nicht andernorts vereinzelte Orte mit diesem Suffix gibt). Die Strichstärke der Buchstaben gibt an, wie häufig ein bestimmtes Cluster innerhalb der jeweiligen Region ist (und nicht allgemein deutschlandweit). Die ganz dünne Ultra Light (z. B. ›Deutschheide‹ in Mecklenburg-Vorpommern) steht für um die 10 Orte, die etwas kräftigere Semi Light für maximal 30 Orte (z. B. ›Deutschbeck‹ im nördlichen NRW; das ist die häufigste Kategorie), die Semi Bold für rund 30–60 Orte (z. B. ›Deutschwitz‹ in Sachsen). Für Suffixe mit 60–90 Vertretern habe ich die Extra Bold gewählt (z. B. ›Deutschingen‹ in Baden-Württemberg). Die häufigsten Suffixe sind aus dem Black-Schnitt gesetzt (z. B. ›Deutschleben‹ in Sachsen-Anhalt).

Eine evidente Schwäche der Karte ist, dass sie nur die Stärke und nicht die genaue Ausbreitung der Cluster angibt. Man kann davon ausgehen, dass ein Cluster von 60 Orten mehr Raum in Anspruch nimmt als eines von 10, aber auch bei gleicher Clusterstärke wird es Unterschiede in der Fläche geben. Ein weiterer Nachteil ist, dass disperse Cluster, die sich nicht auf zwei oder drei PLZ-Bereiche beschränken, hier nicht dargestellt werden können: Mir ist zum Beispiel aufgefallen, dass Ortsnamen auf ›-e‹ zu fast drei Vierteln in den PLZ-Bereichen 0, 1, 2, 3 und 4 (also ganz grob gesprochen: in der nördlichen Hälfte Deutschlands) liegen bzw. zu rund 55 % in den Bereichen 1, 2 und 3. Das ist ein kombinierter Effekt zahlreicher Suffixe, der sich in der gewählten Form nicht gut wiedergeben lässt – vielleicht etwas für ein nächstes Projekt. Wie immer dem sei, hier ist die Karte (Lizenz: CC BY-SA 3.0*):

Weiterlesen

Verbvalenz in der Werbesprache

Es kommt selten vor, dass ich einen Werbeslogan originell oder gar witzig finde. Grund genug, zu notieren, wenn es doch mal vorkommt. Der Slogan, um den es geht, ist kein Markenslogan, sondern bewirbt die aktuelle Treuepunkte-Kampagne von Penny. Das Verfahren ist das Übliche: Wenn man bei Penny für mehr als fünf Euro einkauft, bekommt man – je nach Kaufbetrag – eine bestimmte Anzahl von Klebepunkten, die man in einem Heftchen sammeln und später für Kochgeschirr einlösen kann. Der Slogan dazu ist ›Punkten, sparen, garen.‹ Warum ist das witzig oder gar originell? Weil sich die beiden letzten Wörter reimen? Das ist nett, aber, wie ich glaube, nicht der Kern der Sache.

Die Wirkung, die dieser Slogan auf mich hat, sehe ich in der Valenz der Verben begründet. Valenz? Kurzer Blick in Bußmann: Venn-Diagramm, Variabilität, Valenzianisch – ah, da, Valenz. »Aus der Chemie entlehnter Begriff […], dessen Übertragung in die Sprachwissenschaft allgemein Tesnière [tɛˈnjɛːʁ; C. B.] zugeschrieben wird. […] V. ist die Eigenschaft eines Lexems […], seine syntaktischen Umgebungen vorzustrukturieren, indem es anderen Konstituenten im Satz Bedingungen bezüglich ihrer grammatischen Eigenschaften auferlegt.« Konkret gemeint ist damit, dass die Verwendung etwa eines Verbs erfordert, dass man es mit bestimmten anderen syntaktischen Elementen kombiniert. Das Verb ›wohnen‹ zum Beispiel ist zweiwertig: Es erfordert ein Subjekt und eine lokale (Wo?) oder modale (Wie?) Ergänzung. Einfach nur ›Sie wohnt‹ ist zu wenig, aber ›Sie wohnt hier‹ (Wo wohnt sie?) oder ›Sie wohnt zur Miete‹ (Wie wohnt sie?) ist in Ordnung. Auch Adjektive können eine bestimmte Valenz haben: ›behilflich‹ zum Beispiel verlangt eine Ergänzung im Dativ (jemandem behilflich sein); Substantive verlangen dagegen selten nicht weglassbare Ergänzungen. Aber was hat das mit dem Penny-Slogan zu tun?

Weiterlesen

Same source, divergent developments

“Ach, Scheiße!” – that is what the cashier at the supermarket said to me today when he noticed that he had failed to scan one last item that I wanted to buy. It still lay on the conveyor belt while the receipt was being printed. What he said led me to think about the word ‘Scheiße’, one of the most common swearwords in German (and even popular in English song lyrics). Whenever you feel like shouting ‘Shit!’ in English, a speaker of German might chime in and shout ‘Scheiße!’. In the literal sense, ‘Schei­ße’ refers to faeces; it is used in that sense quite frequently. The noun and its corresponding verb, ‘schei­ßen’, are labelled as ‘coarse language’ in German dictionaries. ‘Scheiße(n)’ derives from the Proto-Indo-European root *skeh₂i-d- ‘cut, separate’, which is an extension of PIE *skeh₂i- ‘split, divide’. It is a cognate of English ‘(to) shit’. Cognates are words that, across or within languages, share the same etymology. In some cases, this is quite obvious: The German sentence ‘Das Gras ist grün’ only contains words with cognate equivalents in English that have retained a similar form and meaning, so English speakers won’t have a lot of trouble figuring out what the sentence means. Sometimes the connections are less evident: English ‘lock’ and German ‘Loch’ (meaning: ‘hole, opening’) seem to go back to the same Proto-Indo-European root, for instance. In any case, German ‘Scheiße’ and English ‘shit’ are clearly cognates and used similarly in present-day language. That’s the boring part.

The interesting part is what happened to this root and its derivations in the Dutch part of the West Germanic language area. The verb that corresponds to ‘scheißen’ and ‘to shit’ is ‘schijten’ /ˈsχɛɪ̯tən/. It has the same meaning as in the other two languages and can be used in the literal sense: ‘Zij heeft in haar broek gescheten’ (literally: ‘She has shit in her pants’, meaning: ‘She has shit her pants’). ‘Schijten’ is used much less widely than its German and English cognates. However, there are some fixed multi-word expressions in which it appears, such as ‘zeven kleuren (bagger) schijten’ (literally: ‘to shit seven colours [of mud]’, meaning: ‘to be[come] very frightened’). When words are mainly used in fixed expressions, this is an indication that they might have started to fall into obsolescence. The corresponding noun, ‘schijt’, is even one step further: Some hundreds of years ago, it still referred to faeces, or to liquid stool in particular, but the only meaning in contemporary language is ‘the state of having diarrhoea’. Unlike ‘Scheiße’ and ‘shit’, ‘schijt’ is not used as a swearword in Dutch. Rather, it is almost exclusively encountered in fixed expressions: figurative ones, such as ‘schijt hebben aan iets’ (literally: ‘to have shit on something’, meaning: ‘to not care about something’), and literal ones, such as ‘aan de schijt zijn’ (literally: ‘to be at the shit’, meaning: ‘to have diarrhoea’). What’s even more interesting: The most common Dutch word derived from the same source as ‘Scheiße’ and ‘shit’ is ‘scheet’ (which happens to be identical to the singular simple past form of ‘schijten’). But ‘scheet’ means—wait for it—‘fart’. So, the German and English words for solid excreta and the Dutch word for gaseous excreta are cognates.

What do you call faeces in colloquial Dutch? In fact, English and Dutch are to be greatly envied from a German perspective. A word from nursery language has spread to more general use in both languages, meaning that you can talk about shit without sounding vulgar or clinical. The words I am referring to are ‘poop’ and ‘poep’, the Dutch word being pronounced about the same as the English one. In English, ‘poop’ has a certain childish ring to it. Still, you can use it not only when talking to a toddler, but also in a newspaper headline. This is also the case with Dutch ‘poep’ (and the corresponding verb ‘poepen’), but it sounds even less childish than the English word. A Dutch newspaper recently ran an article that was titled ‘Omdat iedereen poept’ (‘Because everyone poops’). You’d be hard-pressed for a stylistically appropriate translation to German. Well, why don’t the Germans use the cognate equivalent of the Dutch and English words? Here’s the complication: There is an equivalent in German, namely ‘Pup(s)’, but it means—wait for it—‘fart’ (in a slightly childish, euphemistic register). All three words are onomatopoetic, that is, an attempt at a phonetic imitation of a real world sound. What is being imitated is, of course, the sound of flatulence. English ‘poop’ and Dutch ‘poep’ can refer to that as well, but the meaning ‘fart’ has all but died out in English. In Dutch, it is found in—you guessed it—fixed expressions, such as ‘iemand een poepje laten ruiken’ (literally: ‘to have someone smell a little fart’, meaning: ‘to put somebody in their place’). By contrast, the German word ‘Pup(s)’ means nothing but ‘fart’—just like ‘Furz’, the cognate of English ‘fart’, which is perceived to be somewhat more vulgar. So, the Dutch and English words for solid excreta and the German word for gaseous excreta are also cognates.

In consequence, this means that speakers of English and German with no knowledge of Dutch are likely to be led up the garden path when encountering ‘scheet’, just the way English and Dutch speakers with no knowledge of German might be confused by ‘Pups’. Was für eine Scheiße!