|
Opsomming
Taal is reeds sedert De Saussure (1966) as ’n sisteem beskryf en bestudeer, en onlangs ook as ’n komplekse sisteem. Komplekse sisteme kan as komplekse netwerke benader word, en sedert i Cancho en Solé (2001) is ’n verskeidenheid studies oorsee onderneem wat ondersoek instel na die statistiese eienskappe van tale as komplekse netwerke. In so ’n benadering word byvoorbeeld ondersoek ingestel na of ’n taal ’n kleinwêreldnetwerk na aanleiding van Watts en Strogatz (1998) se model is, soos gemeet deur middel van die gemiddelde pad (L) tussen woorde en die mate waarin groepsvorming (C) voorkom, of na die skakelverspreidingspatroon in die netwerk na aanleiding van Barabási en Albert (1999) se netwerkmodel. In die huidige studie word hierdie statistiese eienskappe van Afrikaans as ’n komplekse netwerk ondersoek met verwysing na tekste wat deur 576 skrywers geskryf is en uit ’n totaal van meer as 5 miljoen woorde bestaan. Daar word aangetoon dat Afrikaans, soos Engels, ’n kleinwêreldnetwerk is soos deur Watts en Strogatz (1998) gemodelleer en deur Humphries en Gurney (2008) gekwantifiseer, en dat die skakelverspreidingspatroon tussen woorde in Afrikaans deur die Barabási en Albert-model (1999) beskryf word. Afrikaans deel dus hierdie statistiese eienskappe met ander tale, maar verskille tussen Afrikaans en Engels word ook uitgelig deur gebruik te maak van ’n Engelse datastel wat uit bykans 7 miljoen woorde bestaan. Voorstelle word ook vir verdere navorsing gemaak.
Trefwoorde: Afrikaans; R. Albert; A.-L. Barabási; kleinwêreldsheid; komplekse netwerke; skaalvryenetwerke; S.H. Strogatz; D.J. Watts; woordkovoorkomsnetwerke
Abstract
The statistical properties of written Afrikaans as a complex network
One of the most influential linguists of the 20th century, Ferdinand de Saussure (1966), proposed that language could be studied as a system, and Dorogovtsev and Mendes (2001), Weideman (2009b), Lee, Mikesell, Joaquin, Mates and Schumann (2009), Kwapień and Drożdż (2012), Cong and Liu (2014) and others recently proposed that language could be studied as a complex system. After the seminal publications of Watts and Strogatz (1998) and Barabási and Albert (1999), language has also been approached as a complex network (i Cancho and Sole 2001), and in this approach the study of language entails a precise, quantitative analysis. When language is studied as a complex network, statistical methods developed mainly from physics since the late 1990s are used to measure the similarities and differences between languages and between languages and other complex networks, such as protein-protein interaction networks, social networks, neural networks and power grids. A large number of studies of language as a complex network have also been published in physics journals, in particular in Physica A: Statistical Mechanics and its Applications (Holanda, Pisa, Kinouchi, Martinez and Ruiz 2004; Kosmidis, Kalampokis and Argyrakis 2006; Markošová 2008; Zhou, Hu, Zhang and Guan 2008; Liang, Shi, Tse, Liu, Wang and Cui 2009; Sheng and Li 2009; Ke, Zeng, Ma and Zhu 2014; Amancio, Nunes, Oliveira, Pardo, Antiqueira and Costa 2011). Unlike studies in linguistics, such studies focus on the statistical properties of a language, and especially on the structure of the language as a complex network.
In the study of language as a complex network, Markošová (2008) distinguishes between two approaches: conceptual and positional studies. Conceptual studies examine the relationship between words on a semantic level, and include studies of synonyms, antonyms and hyponyms (Borge-Holthoefer and Arenas 2010; Kenett, Kenett, Ben-Jacob and Faust 2011). Positional studies investigate the surface structure of a language by analysing word co-occurrence networks. The latter approach is taken in the current study, following several overseas studies (e.g. Cancho and Sole in 2001; Masucci and Rodgers 2006, Antiqueira, Nunes, Oliveira and Costa 2007; Markošová 2008; Minett and Wang 2008; Zhou et al. 2008; Liang et al. 2009; Sheng and Li 2009; Grabska-Gradzińska, Kulig, Kwapień and Drożdż 2012; Ke et al. 2014) and a South African study (Senekal and Geldenhuys 2016).
The aim of the present study is to determine the statistical properties of written Afrikaans as a complex network, including in comparison with English. The focus falls on macro-level structural characteristics relating to two network models from mathematical graph theory, namely those of Watts and Strogatz (1998) and Barabási and Albert (1999). More specifically, the comparison of Afrikaans texts and network models relates to:
- Whether the structure of Afrikaans is similar to, and if so, to what extent, the structure of English and other languages in terms of Watts and Strogatz's small-world network model. For this analysis, the average path length (L) and clustering (C) of Afrikaans texts are compared with the Erdös and Rényi random network model (1959) using the method proposed by Humphries and Gurney (2008) that provides a value on the small world index (S).
- Whether the structure of Afrikaans is similar to, and if so, to what extent, the structure of English and other languages regarding degree distribution patterns as found in Barabási and Albert's scale-free network model. For this comparison, the degree distribution of words is compared with the degree distribution in an equivalent Barabási and Albert-network.
In order to conduct the comparison between written Afrikaans as a complex network and the above network models, as well as with English texts, a large data set was analysed. The Afrikaans component of the data set consists of a total of 257 863 sentences and 5 009 819 words, while the English component consists of 374 706 sentences and 6 928 894 words. In total, 11 938 713 words are included in this data set. From this data set, 63 word co-occurrence networks were constructed and analysed.
As found in studies of other languages, a short average path length also characterises Afrikaans, and L was found to be in the range 2,7743 ≤ L ≤ 3,2385 with an average of L = 2,975. For the English texts studied here, L was calculated in the range 2,5752 ≤ L ≤ 3,0448, with an average of L = 2,747. Afrikaans is characterised by a lesser degree of clustering than English, and for the Afrikaans networks studied here C lies in the range 0,2645 ≤ C ≤ 0,4928, with an average of C = 0,386, while C for English networks lies in the range 0,3445 ≤ C ≤ 0,6319 with an average of C = 0,478. Afrikaans can also be shown to be a small-world network using Humphries and Gurney's method, and for all the networks investigated, S was calculated in the range 105 ≤ S ≤ 2544 for Afrikaans networks (with an average of S = 837) and in the range 124 ≤ S ≤ 1907 for English networks (with an average of S = 541). In addition, the distribution of degrees in Afrikaans word co-occurrence networks follows the pattern of the BA rather than the ER network model, with correlations between word co-occurrence networks and the BA model in the range 0,6384 ≤ r ≤ 0,9215 (with an average of r = 0,8358) for Afrikaans texts and 0,6997 ≤ r ≤ 0,9138 (with an average of r = 0,8334) for English texts. On the other hand, a comparison between the word co-occurrence networks studied here and their equivalent ER-models has correlations in the range –0,2393 ≤ r ≤ 0,2067 (with an average of r = –0,1421) for Afrikaans texts and –0,2525 ≤ r ≤ –0,1044 (with an average of r = –0,1916) for English texts, which means that the ER model is not a suitable model for degree distribution patterns in these networks, while the BA model is well suited to representing the degree distributions of words in Afrikaans.
Overall, Afrikaans is found to be statistically similar to English and other languages as studied in previous complex network studies, but differences are also discussed. Suggestions are made for further research.
Keywords: Afrikaans; R. Albert; A.-L. Barabási; complex networks; scale free networks; small-world networks; S.H. Strogatz; D.J. Watts; word co-occurrence networks
1. Inleiding
Taal is ’n belangrike verskynsel om te bestudeer, omdat menslike subjekte dit kenmerkend as objek (ook: medium, instrument) voortbring ter wille van interaksie met ander menslike subjekte. Soos Yu en Xu (2014:626) aanvoer: "Language is generally considered a defining feature of human beings, a key medium for interpersonal communication, a fundamental tool for human thinking and an important vehicle for culture transmission." Wetenskaplike konsepte word in taal geënkodeer, dit vorm die hoeksteen van kulture en taalgemeenskappe, bemiddel die interaksie tussen mense, en taal het ook gereeld – soos onlangse bewegings soos #AfrikaansMustFall getoon het – ’n belangrike politieke dimensie.
Een van die invloedrykste taalkundiges van die 20ste eeu, Ferdinand de Saussure (1966) het voorgestel dat taal as ’n sisteem benader kan word, en Dorogovtsev en Mendes (2001), Weideman (2009b), Lee, Mikesell, Joaquin, Mates en Schumann (2009), Kwapień en Drożdż (2012), Cong en Liu (2014) en ander let daarop dat taal onlangs ook as ’n komplekse sisteem benader is.1 (2014:599) se stelling dat die benadering van taal as ’n sisteem selde verder as ’n metaforiese beskrywing gaan, is, gegewe die hoogbloei en oorheersing (vir bykans vyf dekades) van die strukturalistiese taalkunde sedert De Saussure se pionierswerk in die vroeg-20ste eeu, miskien effe oordrewe. (Vir ’n oorsig oor die strukturalistiese taalkunde, kyk hoofstuk 6 in Weideman 2009a.) Ná die seminale publikasies van Watts en Strogatz (1998) en Barabási en Albert (1999) binne die wiskundige grafiekteorie is taal ook as ’n komplekse netwerk benader (i Cancho en Solé 2001) en in hierdie benaderingswyse is die bestudering van taal beslis nie bloot ’n metaforiese beskrywing nie, maar eerder ’n presiese, kwantitatiewe ontleding.
In só ’n benadering word maatstawwe wat sedert die laat 1990’s hoofsaaklik vanuit die fisika ontwikkel is, aangewend om ondersoek in te stel na die ooreenkomste en verskille tussen verskillende tale en tussen tale en ander komplekse netwerke, byvoorbeeld proteïeninteraksienetwerke, sosiale netwerke, neurale netwerke en kragvoorsieningsnetwerke (kyk byvoorbeeld Newman 2010 vir transdissiplinêre toepassings van die netwerkteorie). ’n Groot aantal studies van tale as netwerke is dan juis in vaktydskrifte binne die fisika gepubliseer, onder andere in Physica A: Statistical Mechanics and its Applications (Holanda, Pisa, Kinouchi, Martinez en Ruiz 2004; Kosmidis, Kalampokis, en Argyrakis 2006; Markošová 2008; Zhou, Hu, Zhang en Guan 2008; Liang, Shi, Tse, Liu, Wang en Cui 2009; Sheng en Li 2009; Ke, Zeng, Ma en Zhu 2014; Amancio, Nunes, Oliveira, Pardo, Antiqueira en Costa 2011). Anders as in studies binne die Taalkunde fokus so ’n benadering op die statistiese eienskappe van ’n taal en dan veral op die struktuur van die taal as ’n komplekse netwerk.
In die bestudering van taal as ’n komplekse netwerk onderskei Markošová (2008) tussen twee benaderingswyses: konseptuele en posisionele studies (kyk ook Peng, Minett en Wang 2008; Yu en Xu 2014). Konseptuele studies ondersoek die samehang tussen woorde op ’n semantiese vlak, en sluit studies van sinonieme, hiponieme en antonieme in (Borge-Holthoefer en Arenas 2010; Kenett, Kenett, Ben-Jacob en Faust 2011). Posisionele studies stel ondersoek in na die oppervlakstruktuur van ’n taal deur woordkovoorkomsnetwerke te ondersoek, oftewel langs watter ander woorde ’n woord binne ’n sin aangetref word. Laasgenoemde benadering word in die huidige studie in navolging van verskeie buitelandse studies (byvoorbeeld i Cancho en Solé 2001; Masucci en Rodgers 2006; Antiqueira, Nunes, Oliveira en Costa 2007; Markošová 2008; Penge e.a., Minett en Wang 2008; Zhou e.a. 2008; Liang e.a. 2009; Sheng en Li 2009; Grabska-Gradzińska, Kulig, Kwapień en Drożdż 2012; Ke e.a. 2014) en een Suid-Afrikaanse studie (Senekal en Geldenhuys 2016) onderneem.
Die meerderheid buitelandse studies van woordkovoorkomsnetwerke ondersoek gedrukte tekste, en ’n verskeidenheid tale is reeds sodanig as woordkovoorkomsnetwerke bestudeer, byvoorbeeld Engels (Dorogovtsev en Mendes 2001; i Cancho en Solé 2001; Masucci en Rodgers 2006), Kroaties (Margan, Martinčić-Ipšićen Meštrovíć 2014), Chinees (Zhou e.a. 2008; Liang e.a. 2009; Sheng en Li 2009), Portugees (Antiqueira e.a. 2007) en Pools (Grabska-Gradzińska e.a. 2012). In Afrikaans is daar slegs Senekal en Geldenhuys (2016), wat die woordkovoorkomsnetwerke in André P. Brink se roman Donkermaan, in Afrikaans, Engels en Nederlands bestudeer het. In navolging van hierdie studies word 25 gepubliseerde Afrikaanse boeke (literêr en vakkundig) van 19 Afrikaanse skrywers in die huidige studie ontleed, asook die totale inhoud van die webblad www.litnet.co.za. Anders as in Senekal en Geldenhuys (2016), wat ’n verkenning van Afrikaans as woordkovoorkomsnetwerk verteenwoordig wat slegs ’n enkele teks bestudeer het, is die oogmerk van die huidige studie om die statistiese eienskappe van Afrikaans in die geheel as geskrewe taal te ondersoek. Daar word ook vergelykings met Engels getref deur gebruik te maak van ’n verdere 38 Engelse literêre werke wat oor die afgelope 500 jaar gepubliseer is.
Netwerkstudies van ander tale as woordkovoorkomsnetwerke ondersoek gereeld slegs enkele tekste. Masucci en Rodgers (2006) ondersoek byvoorbeeld slegs George Orwell se 1984, maar voel selfversekerd genoeg om hul studie Network properties of written human language te noem (asof een teks verteenwoordigend is van alle taalgebruikers en alle tale), terwyl Liu en Cong (2013) 12 vertalings van ’n enkele literêre werk, Nikolai Ostrovsky se roman Kak Zakaljalas’ Stal’ (How the steel was tempered), bestudeer. Sheng en Li (2009) bestudeer slegs twee tekste (een Engels en een Chinees), maar noem hul studie English and Chinese languages as weighted complex networks (asof bevindinge vir die hele taal geld), en Margan e.a., Martinčić-Ipšić en Meštrovíć (2014) bestudeer slegs 10 Kroatiese boeke, maar noem hul studie Preliminary report on the structure of Croatian linguistic co-occurrence networks. In Senekal en Geldenhuys (2016) is die vraag gestel hoe veralgemeenbaar resultate is wanneer slegs een werk van ’n enkele skrywer bestudeer is, maar soos die voorgaande aandui, word dié vraag min in oorsese publikasies gevra. Die huidige studie ondersoek juis ’n massiewe datastel en die werke van verskeie skrywers – wat boonop oor meer as ’n eeu in Afrikaans gepubliseer is – ten einde ook hierdie vraag te kan beantwoord. Omdat hierdie datastel so omvangryk is, sluit die huidige studie ook aan by sogenaamde grootdatastudies, wat ’n rekenaarmatige en statistiese ontleding van groot datastelle behels wat ’n beduidende uitdaging aan bestaande IT-infrastruktuur bied (kyk byvoorbeeld Senekal en Brokensha 2014).
Die oogmerk van die huidige studie is om te bepaal wat die statistiese eienskappe van geskrewe Afrikaans as ’n komplekse netwerk is, onder andere in vergelyking met Engels. Daar word gefokus op makrovlak strukturele eienskappe wat betrekking het op twee netwerkmodelle vanuit die wiskundige grafiekteorie, naamlik dié van Watts en Strogatz en Barabási en Albert. Meer spesifiek word ondersoek ingestel na:
- of die struktuur van Afrikaans ooreenstem met die struktuur van Engels en ander tale ten opsigte van Watts en Strogatz se kleinwêreldnetwerkmodel, en indien wel, tot watter mate
- of die struktuur van Afrikaans ooreenstem met die struktuur van Engels en ander tale ten opsigte van Barabási en Albert se skaalvryenetwerkmodel, en indien wel, tot watter mate.
2. Die datastel
Ten einde Afrikaans as ’n woordkovoorkomsnetwerk te bestudeer, is netwerke van verskeie Afrikaanse tekste saamgestel. Die volgende tekste, soos verkry vanaf die Digitale Bibliotheek voor de Nederlandse Letteren (www.dbnl.org), asook André P. Brink se Donkermaan, wat vir Senekal en Geldenhuys (2016) gedigitaliseer is, Totius se Trekkerswee, wat vanaf Project Gutenberg (www.gutenberg.org) verkry is, Basson (2015) se In die lig. Openbaringe van die Here, wat vanaf http://myafrikaans.com/indielig verkry is, en Marlene van Niekerk se Kaar (2014), wat vir die huidige studie gedigitaliseer is, maak deel uit van die Afrikaanse datastel:
- Basson (2015)
- Brink (2000a)
- Celliers (1908)
- Celliers (1920)
- Coetzee (1988)
- Coetzee (2000)
- Effendi (1979)
- Fagan (1972)
- Kannemeyer (1983)
- Kannemeyer (1984)
- Kannemeyer (1999)
- Leipoldt (1963)
- Leipoldt (1980)
- Malherbe (1924)
- Marais (1984)
- Nienaber en Nienaber (1941)
- Schoonees (1939)
- Totius (1915)
- Van Bruggen (1924)
- Van Bruggen (1933)
- Van den Heever (1935)
- Van den Heever (1939)
- Van Niekerk (2014)
- Visser (1981)
- Von Wielligh (1921).
Verder is die inhoud van www.litnet.co.za wat in 2015 geplaas is, ook onttrek en in sy geheel ontleed. Daar is 557 skrywers wat bydraes tot 1 289 artikels gelewer het in hierdie datastel. Let daarop dat skrywers nie aangedui is vir die komponent wat vanaf www.litnet.co.za saamgestel is nie: hierdie komponent sluit alle inhoud in wat in 2015 op dié webblad geplaas is, ongeag wie die skrywer is wat die inhoud bygedra het. Die totale datastel strek oor meer as ’n eeu, met die oudste tekste (Celliers 1908 en Totius 1915) wat gepubliseer is vóór Afrikaans amptelike status in 1925 verkry het, terwyl die jongste tekste (Basson 2015 en die inhoud van www.litnet.co.za) dateer uit ’n tydperk waarin Afrikaans toenemend onder druk van Engels funksioneer.
Die 37 Engelse tekste wat vir vergelykingsdoeleindes ondersoek is en vanaf Project Gutenberg verkry is, is die volgende (insluitend André P. Brink se The rights of desire, wat vir Senekal en Geldenhuys 2016 gedigitaliseer is):
- Alcott (Little women)
- Andersen (Andersen's fairy tales)
- Austen (Persuasion)
- Austen (Pride and prejudice)
- Austen (Sense and sensibility)
- Brink (The rights of desire)
- Brontë (Jane Ayre)
- Brontë (Wuthering Heights)
- Caroll (Alice's adventures in Wonderland)
- Conrad (Heart of darkness)
- Darwin (The origin of the species)
- Defoe (The life and adventures of Robinson Crusoe)
- Dickens (A tale of two cities)
- Dickens (David Copperfield)
- Dickens (Great expectations)
- Doyle (The adventures of Sherlock Holmes)
- Eliot (Middlemarch)
- Frazer (The golden bough)
- Gaskell (North and South)
- Grimm (Grimm's fairy tales)
- Hardy (Far from the madding crowd)
- Hardy (Tess of the d'Urbervilles)
- Hawthorne (The scarlet letter)
- Joyce (Ulysses)
- Malory (Le Morte D'Arthur)
- Melville (Moby Dick)
- Milton (Paradise lost)
- Schreiner (The story of an African farm)
- Shakespeare (Complete works)
- Shelley (Frankenstein)
- Stevenson (The strange case of Dr. Jekyll and Mr. Hyde)
- Stoker (Dracula)
- Swift (Gulliver's travels into several remote nations of the world)
- Tolstoi (Anne Karenina)
- Tolstoi (War and peace)
- Twain (Adventures of Huckleberry Finn)
- Twain (The adventures of Tom Sawyer).
Daar is dus 30 skrywers in die Engelse datastel, teenoor 576 skrywers in die Afrikaanse datastel. Figuur 1 verskaf ’n opsomming van die getal tekste, sinne en woorde in hierdie datastel.
Figuur 1. ’n Opsomming van die datastel
Die Afrikaanse komponent van die datastel bestaan uit altesaam 257 863 sinne en 5 009 819 woorde, terwyl die Engelse komponent uit 374 706 sinne en 6 928 894 woorde bestaan. Altesaam maak 11 938 713 woorde deel uit van hierdie datastel. Hieruit is 63 woordkovoorkomsnetwerke saamgestel.2 Die oogmerk van die samestelling en ontleding van só ’n groot datastel was om seker te maak dat bevindinge veralgemeenbaar is (binne die perke van geskrewe Afrikaans) en nie beperk is tot ’n individu se taalgebruik nie.
3. Navorsingsinstrumente
’n Objekgeoriënteerde C#-toepassing is in Visual Studio 2013 ontwikkel om die Afrikaanse en Engelse tekste eers om te skakel na individuele sinne en daarna na woordpare. Reëlmatige uitdrukkings ("regular expressions") is in die omskakelingsalgoritmes aangewend om die data te suiwer en te ontleed. Die afvoerdata is in ’n tekslêerformaat gelewer wat aan die vereistes van ’n invoerlêer vir GraphCrunch2 voldoen het.
GraphCrunch2 (Kuchaiev e.a. 2011), wat die verbeterde weergawe van die oorspronklike GraphCrunch (Milenković, Lai en Pržulj 2008) is, is gebruik om woordkovoorkomsnetwerke saam te stel en met netwerkmodelle te vergelyk. GraphCrunch is binne ’n C#-raamwerk ontwikkel, outomatiseer die proses van generering van netwerkmodelle soos dié van Erdös en Rényi (1959) en Barabási en Albert (1999), en evalueer die passing van hierdie netwerkmodelle met ’n werklike netwerk met betrekking tot globale en plaaslike netwerkeienskappe (Milenković e.a., Lai en Pržulj 2008), soos byvoorbeeld die gemiddelde pad, groepsvorming en skakelverspreidingspatrone (wat later verduidelik word). Alhoewel GraphCrunch oorspronklik ontwikkel is om biologiese netwerke te ontleed en met netwerkmodelle te vergelyk, kan dit ook gebruik word in die ontleding van ander netwerke (Milenković, Lai en Pržulj 2008), soos ook die geval is met programmatuur soos Gephi en Cytoscape.
Tableau is aangewend vir basiese berekeninge soos totale en gemiddelde, sowel as vir datavisualisering.
4. Die topologiese kenmerke van Afrikaans as ’n komplekse netwerk
Netwerke bestaan eenvoudig uit nodusse (n) ("nodes" of "vertices") en hul skakels (m) ("links" of "edges"). Die netwerkteorie is ’n transdissiplinêre teorie en het sedert die seminale publikasies van Watts en Strogatz (1998) en Barabási en Albert (1999) toepassings in byna elke dissipline van die wetenskap gevind, van die geografie tot mikrobiologie, van epidemiologie tot sosiologie, en natuurlik ook binne die taalkunde.
Newman (2010) onderskei tussen vier soorte netwerke wat reeds as komplekse netwerke bestudeer is:
- biologiese netwerke, byvoorbeeld proteïeninteraksienetwerke, neurale netwerke, voedselwebbe en metaboliese netwerke
- tegnologiese netwerke, byvoorbeeld krag- en watervoorsieningsnetwerke, die internet en vervoernetwerke
- sosiale netwerke, byvoorbeeld vriendskapsnetwerke, samewerkingsnetwerke soos die internasionale filmakteurnetwerk of medeskrywerskappe van wetenskaplike publikasies
- inligtingsnetwerke, byvoorbeeld die wêreldwye web, verwysingsnetwerke tussen wetenskaplike publikasies en taal.
Die huidige studie is dus gemoeid met ’n inligtingsnetwerk: Afrikaans as taal. Wanneer woordkovoorkomsnetwerke van bogenoemde tekste met behulp van GraphCrunch2 saamgestel word, kan die getal nodusse (n) en die getal skakels (m) van die Afrikaanse netwerke wat deel uitmaak van die huidige ondersoek, soos in figuur 2 aangedui word. Let daarop dat die getal nodusse die getal unieke woorde in ’n teks aandui, nie die totale getal woorde soos in figuur 1 nie. ’n Woordtelling soos in figuur 1 tel hoeveel afsonderlike woorde in ’n teks voorkom, maar wanneer ’n woordkovoorkomsnetwerk saamgestel word, dui die getal nodusse op die getal unieke woorde. Die sin "Ek skop die bal oor die pale" bestaan byvoorbeeld uit 7 woorde, maar die kom twee keer voor, en daarom is daar slegs 6 unieke woorde in hierdie sin, wat beteken dat daar 6 nodusse in ’n woordkovoorkomsnetwerk van hierdie sin sal wees.
Figuur 2. Getal nodusse en skakels in die kovoorkomsnetwerke wat hier bestudeer word
Naas LitNet het die versamelde werke van Eugène Marais (1984) dus die grootste aantal unieke woorde, gevolg deur Kannemeyer (1999) en Schoonees (1939). Die grootste aantal skakels kom ook vir hierdie tekste voor.
Ten einde die konsepte te verduidelik wat in die volgende onderafdelings ter sprake kom, is ’n woordkovoorkomsnetwerk van Jan F.E. Celliers se gedig "Dis al" saamgestel:
Dis die blond,
dis die blou:
dis die veld,
dis die lug;
en ’n voël draai bowe in eensame vlug -
dis alDis ’n balling gekom
oor die oseaan,
dis ’n graf in die gras,
dis ’n vallende traan –
dis al.
Wanneer hierdie teks as ’n woordkovoorkomsnetwerk voorgestel word, lyk dit soos in figuur 3.
Figuur 3. Jan F.E. Celliers se "Dis al" as woordkovoorkomsnetwerk
Daar sal telkens in die komende bespreking van netwerkkonsepte na hierdie voorbeeldnetwerk terugverwys word.
4.1 Gemiddelde pad (L)
Stanley Milgram is een van die wetenskaplikes van die 20ste eeu wat ook bekendheid buite die wetenskap verwerf het. Sy kleinwêreldstudie (1967) het gelei tot die popularisering van die "ses grade van verwydering"- ("six degrees of separation") konsep, waarvolgens mense slegs ses stappe van mekaar verwyderd is. Een populêre toepassing van hierdie beginsel is The Oracle of Bacon (https://oracleofbacon.org), waar ’n persoon ’n akteur se naam kan intik, en dan word aangedui in hoeveel stappe ’n akteur van Kevin Bacon verwyderd is. Jamie Uys is byvoorbeeld twee stappe verwyderd van Kevin Bacon: hy was in die film All the way to Paris saam met Ken Gampu, wat saam met Kevin Bacon in The air up there gespeel het.
’n Pad is ’n belangrike konsep in ’n netwerk en dui op die kleinste getal stappe wat nodig is om een nodus vanaf ’n ander te bereik (Markošová 2008:662; Borge-Holthoefer en Arenas 2010:1267). Kyk byvoorbeeld na die voorbeeldnetwerk in figuur 3. Om van dis na gekom te beweeg, behels 3 stappe: dis → ’n → balling → gekom. Om van eensame na al te beweeg, neem ook 3 stappe: eensame → vlug → dis → al.
Die gemiddelde pad in ’n netwerk (L) is dan die gemiddelde kortste pad tussen al die nodusse in die hele netwerk, soos vervat in vergelyking (1) (Liang e.a. 2009:4902):3
In vergelyking (1) dui dij op die kortste pad (d) wat nodusse i en j verbind, en N stel die totale getal nodusse in die netwerk voor.
Die gemiddelde pad in netwerke het gewoonlik betrekking op diffusie, byvoorbeeld van idees, siektes, gerugte en dies meer. In taalnetwerke beteken ’n kort pad dat die konstruksie van sinne vergemaklik word: woorde kan volgens i Cancho en Solé (2001:2263) makliker deur ’n taalgebruiker gevind word. Figuur 5 dui die gemiddelde pad aan vir die woordkovoorkomsnetwerke wat hier bestudeer is.
Figuur 4. Die gemiddelde pad in die netwerke wat hier ondersoek is
In figuur 5 kan gesien word dat ’n kort gemiddelde pad ook Afrikaans kenmerk, en L lê in die spektrum 2,7743 ≤ L ≤ 3,2385 met ’n gemiddeld van L = 2,975. Vir die Engelse tekste wat hier bestudeer is, is L in die spektrum 2,5752 ≤ L ≤ 3,0448 gevind, met ’n gemiddeld van L = 2,747. Dié bevinding is in ooreenstemming met vorige studies van ander tale: i Cancho en Solé (2001) het byvoorbeeld L in die spektrum 2,63 ≤ L ≤ 2,67 vir ’n Engelse korpus gevind; Grabska-Gradzińska e.a. (2012) het L in die spektrum 2,7 ≤ L ≤ 3,8 vir Engelse en Poolse tekste gevind; Zhou e.a. (2008) het L = 3,04 en L = 2,4 vir twee Chinese tekste gevind; en Liang e.a. (2009) het 2,88 ≤ L ≤ 6,31 vir Chinese en 3,04 ≤ L ≤ 4,56 vir Engelse tekste gevind (kyk ook Liu en Cong 2013:1142 vir hierdie syfers vir 14 tale). Afrikaans is dus in hierdie opsig nie ’n unieke taal nie en word ook deur ’n relatief kort gemiddelde pad gekenmerk.
Cong en Liu (2014:602) noem dat L groter is vir Russies en Tsjeggies as vir Sweeds en Deens, wat daarop dui dat daar soms ’n onderskeid tussen tale getref kan word op grond van L. Die gemiddelde pad in Afrikaanse tekste is ietwat hoër as vir Engelse tekste in die onderhawige studie, wat beteken dat daar tog tot ’n geringe mate ’n statistiese verskil tussen hierdie twee tale bestaan, alhoewel Senekal en Geldenhuys (2016) – wat slegs ’n enkele teks bestudeer het – geen verskil in hierdie opsig tussen Afrikaans en Engels gevind het nie. In figuur 5 kan ook gesien word dat die meerderheid Afrikaanse tekste ’n hoër gemiddelde pad as Engelse tekste het. Daar is egter uitsonderings: Joyce se Ulysses se gemiddelde pad is 10,84% langer as dié van die ander Engelse tekste, terwyl Kannemeyer se twee literatuurgeskiedenisse ’n korter gemiddelde pad as ander Afrikaanse tekste het (6,682% korter). Hier is egter geen patroon te bespeur ten opsigte van die moeilikheidsgraad van tekste, hul publikasiedatums of dergelike nie, wat suggereer dat individuele skrywers se taalgebruik vir die uitsonderings verantwoordelik is.
Kyk byvoorbeeld na Shakespeare se Complete works: alhoewel hierdie werke hoofsaaklik tussen 1589 en 1613 verskyn het, is die twee tekste met die naaste gemiddelde pad Austen se Sense and sensibility en Shelley se Frankenstein, wat onderskeidelik in 1811 en 1818 gepubliseer is. Milton se Paradise lost is op sy beurt in 1667 gepubliseer, maar sy gemiddelde pad is die naaste aan Carrol se Alice's adventures in Wonderland (1865) en Stevenson se The strange case of Dr. Jekyll and Mr. Hyde (1886).Die datum van publikasie oefen duidelik nie die deurslaggewende invloed uit op die gemiddelde pad nie, maar eerder die skrywer se individuele taalgebruik. Let ook daarop dat Brink se twee tekste (2000a; 2000b) bykans dieselfde gemiddelde pad het (onderskeidelik L=2,944 en L=2,937): hy was self verantwoordelik vir die Engelse vertaling van Donkermaan en die feit dat sy Engelse en Afrikaanse tekste bykans dieselfde gemiddelde pad het, ondersteun die afleiding dat individuele taalgebruik in hierdie opsig ook ’n invloed uitoefen (kyk ook na die baie soortgelyke L-waardes van Tolstoi, Dickens en Austen se werke). Gemiddeld het Engelse tekste egter ’n laer L-waarde as Afrikaanse tekste, soos ook duidelik in figuur 5 gesien kan word, wat beteken dat daar, benewens die verskille tussen individuele taalgebruikers, ook ’n verskil tussen Afrikaans en Engels in hierdie opsig waargeneem kan word.
Daar word later teruggekeer na die gemiddelde pad wanneer Watts en Strogatz (1998) se kleinwêreldnetwerkmodel bespreek word.
4.2 Groepsvorming (C)
Groepsvorming ("clustering") meet die waarskynlikheid dat die bure van ’n nodus, met ander woorde die nodusse wat ’n direkte skakel met ’n nodus het, self ook ’n skakel sal hê, of meer presies, die getal skakels wat tussen die bure van ’n nodus aangetref word teenoor die getal moontlike skakels wat aangetref sou kon word (Zhou e.a. 2008:3043).4 Groepsvorming kan met behulp van vergelyking (2) bereken word (Peng, Minett en Wang 2008:250; Zhou e.a. 2008:3043; Liang e.a. 2009:4902):
In vergelyking (2) verwys Ei na die getal skakels tussen die bure van nodus i, en ki na die getal skakels (k) van nodus i. Die gemiddelde groepsvorming in die netwerk (C) is dan die gemiddeld van Ci vir al die nodusse in die betrokke netwerk (Markošová 2008:662).
Figuur 6 dui C aan vir die netwerke wat hier ondersoek is.
Figuur 5. Gemiddelde groepsvorming in die netwerke wat hier bestudeer is
Afrikaans word dus gekenmerk deur ’n mindere mate van groepsvorming as Engels: vir die Afrikaanse netwerke wat hier bestudeer is, lê C in die spektrum 0,2645 ≤ C ≤ 0,4928, met ’n gemiddeld van C = 0,386, terwyl C vir Engelse netwerke in die spektrum 0,3445 ≤ C ≤ 0,6319 lê met ’n gemiddeld van C = 0,478. Dié bevinding is, soos in die geval met L,ook in ooreenstemming met vorige studies van woordkovoorkomsnetwerke: i Cancho en Solé (2001) het byvoorbeeld C in die spektrum 0,437 ≤ C ≤ 0,687 vir ’n Engelse korpus gevind; Grabska-Gradzińska e.a. (2012) het C in die spektrum 0,09 ≤ C ≤ 0,34 gevind, met 0,1 ≤ C ≤ 0,2 vir Poolse en 0,22 ≤ C ≤ 0,34 vir Engelse tekste; Zhou e.a. (2008) het C = 0,5091 en C = 0,7530 vir Chinese tekste gevind, maar Liang e.a. (2009) het 0,0013 ≤ C ≤ 0,242 vir Chinese en 0,029 ≤ C ≤ 0,264 vir Engelse tekste bereken (kyk ook Liu en Cong 2013:1142 vir hierdie syfers vir 14 tale). Afrikaans het dus ook nie in hierdie opsig ’n unieke struktuur nie: C-waardes van Afrikaanse tekste is nie baie hoog nie (C ≥ 0,8, soos gereeld in sosiale netwerke gevind word (Senekal 2015)), maar ook nie baie laag nie.
Soos in die geval van L is daar egter ’n verskil te bespeur tussen Afrikaanse en Engelse tekste ten opsigte van groepsvorming: Afrikaanse tekste het gemiddeld laer C-waardes as Engelse tekste, soos ook gesien kan word in figuur 6. L en C verskil met ander woorde gemiddeld tussen Afrikaans en Engels, maar uitsonderings bestaan steeds: Marais (1984) en LitNet het C-waardes wat meer ooreenstemming met Engelse tekste toon, terwyl Conrad se Heart of darkness en Brink se Rights of desire C-waardes het wat eerder ooreenstemming met die Afrikaanse tekste toon. Alhoewel Brink se twee tekste nie baie soortgelyke C-waardes het nie, kan ’n mens egter daarop let dat ’n hele aantal skrywers, byvoorbeeld Leipoldt, Austen, Tolstoi en Celliers, se tekste baie soortgelyke C-waardes het. Soos in die geval van die gemiddelde pad speel individuele taalgebruik ook ’n rol in groepsvorming, alhoewel Engelse tekste gemiddeld hoër C-waardes as Afrikaanse tekste het. Weer eens is die datum van publikasie nie die primêre faktor wat tot soortgelyke C-waardes lei nie: die laagste C-waardes is byvoorbeeld dié vir Van Niekerk (2014) en Totius (1915), wat net duskant ’n eeu uitmekaar gepubliseer is.
Kortom beteken dit dat individuele taalgebruik die veralgemeenbaarheid van resultate beperk: Afrikaans het wel gemiddeld ’n laer mate van groepsvorming as Engels, maar die presiese waarde word deur die taalgebruiker beïnvloed. Hierdie bevinding illustreer die waarde daarvan om ’n groot verskeidenheid tekste en skrywers se werke te vergelyk: in Senekal en Geldenhuys (2016) is juis die teenoorgestelde gevind, naamlik dat Afrikaans ’n hoër groepsvorming het, en dit is omdat slegs een teks daarin bestudeer is. Wanneer die werke van ander skrywers ook op dieselfde wyse bestudeer word, is die bevinding dus die teenoorgestelde as wat in Senekal en Geldenhuys (2016) gevind is.
Die belangrikheid van die identifisering van hierdie topologiese eienskappe van Afrikaans kom eers werklik ter sprake wanneer Afrikaans met netwerkmodelle vergelyk word wat binne die grafiekteorie ontwikkel is, wat die onderwerp van die volgende afdeling is.
5. Afrikaans en wiskundige netwerkmodelle
Die drie belangrikste netwerkmodelle in die wiskundige grafiek- of netwerkteorie is die lukrakenetwerkmodel van Erdös en Rényi (1959; 1960) (voortaan die ER-model), Watts en Strogatz se kleinwêreldnetwerkmodel (1998) (voortaan die WS-model) en Barabási en Albert se skaalvryenetwerkmodel (1999) (voortaan na verwys as die BA-model) (Borge-Holthoefer en Arenas 2010:1266). Hierdie drie modelle word in hierdie afdeling in kronologiese volgorde bespreek en hul moontlike tersaaklikheid vir die ontleding en karakterisering van woordkovoorkomsnetwerke in Afrikaans uitgespel.
5.1 Die ER-model
Erdös en Rényi (1959; 1960) se lukrakenetwerkmodel is een van die invloedrykste modelle in die wiskundige grafiekteorie en die nulmodel waarteen ander netwerkmodelle en werklike netwerke gemeet word (Humphries en Gurney 2008; Senekal 2015). In die ER-model vind skakelvorming op ’n lukrake wyse plaas, wat beteken dat die waarskynlikheid ewe groot is dat ’n skakel tussen enige twee nodusse aangetref sal word (Erdös en Rényi 1960:17).
Strogatz (2001:272) verduidelik hoe hierdie model gegenereer word:
Imagine n » 1 buttons strewn across the floor. Pick two buttons at random and tie them together with thread. Repeat this process m times, always choosing pairs of buttons at random. (If m is large, you might eventually select buttons that already have threads attached. That is certainly allowed; it merely creates clusters of connected buttons.) The result is a physical example of a random graph with n nodes and m links.
Die skakelverspreidingspatroon van nodusse in die ER-model volg ’n Poissonverspreiding (Peng e.a.2008:243; Liang e.a. 2009:4902; Borge-Holthoefer en Arenas 2010:1272), soos vervat in vergelyking (3) (Boccaletti e.a. 2006:191).
In vergelyking (3) dui P (k) die waarskynlikheid aan dat wanneer ’n nodus lukraak gekies word, dit k skakels sal hê, met die grootste waarskynlikheid by P (‹k›) (met ander woorde by die gemiddeld). Prakties beteken die skakelverspreidingspatroon in ’n ER-model dieselfde as vir ander vorme van statistiek waar ’n Poissonverspreiding aangetref word: die gemiddeld is ’n goeie voorspelling van die waarde van ’n gegewe datapunt, met ander woorde k ≈ ‹k›. Die onderliggende beginsel is dat gebeurtenisse op ’n lukrake wyse plaasvind, en hierdie verspreidings van datapunte is bekend deur die formulering van Poisson (1837). Voorbeelde van Poissonverspreidings wat gereeld in statistiek genoem word, is die getal Pruisiese offisiere wat oor ’n 20-jaar-periode deur hul perde doodgeskop is (Von Bortkiewicz 1898), die aantal oproepe wat per minuut by ’n oproepsentrum ontvang word (Erlang 1920), of waar in Londen Duitse V-1-bomme gedurende die Tweede Wêreldoorlog geval het (Clarke 1946). Ander voorbeelde van ’n Poissonverspreiding in statistiek wat deur Clauset, Shalizi en Newman (2009) genoem word, sluit in die gemiddelde snelhede van motors op ’n snelweg, die gemiddelde seevlak, die gemiddelde lugdruk, die gemiddelde gewig van appels, en die gemiddelde temperatuur.
In die ER-model beteken ’n Poissonverspreiding ook dat die gemiddelde getal skakels (‹k›) in ’n netwerk ’n goeie voorspelling is van die getal skakels k wat ’n individuele nodus sal hê: vir die meerderheid nodusse is k ≈ ‹k›, en dan neem die waarskynlikheid af dat ’n waarde aangetref sal word hoe verder wegbeweeg word van die gemiddeld, totdat dit hoogs onwaarskynlik word dat ’n nodus aangetref sal word met byvoorbeeld k = ‹k›± 1 000. Figuur 7 toon ’n voorbeeldnetwerk wat volgens die ER-model gegenereer is, met n = 5 000 en m = 4 999. Regs is aangedui hoeveel nodusse skakels k in die netwerk het, en links is die persentasie nodusse aangedui wat skakels k het.
Figuur 6. Die skakelverspreidingspatroon in ’n ER-model
Die gemiddelde getal skakels (‹k›) in hierdie voorbeeldnetwerk is 2. In die grafiek regs kan gesien word dat ’n groot aantal nodusse (1 359 nodusse of 27,18% van nodusse in hierdie netwerk) k = 2 het, terwyl die tweede en derde grootste getal nodusse onderskeidelik skakels van k = ‹k›-1 en k = ‹k›+1 het (onderskeidelik 1 372 nodusse of 27,44% en 929 nodusse of 18,58% van nodusse). Die vierde en vyfde grootste groepe nodusse het onderskeidelik skakels van k = ‹k›–2 en k = ‹k›+2. Slegs 4,7% van nodusse het skakels van ‹k› ≥ 3. Die gemiddelde getal skakels (‹k›) is dus ’n goeie voorspelling van die aantal skakels k wat ’n nodus sal hê indien dit op ’n lukrake wyse gekies word.
Erdös en Rényi (1960:19) erken egter dat hul model ’n teoretiese konstruk is, en voer aan: "Of course, if one aims at describing such a real situation, one should replace the hypothesis of equiprobability of all connection by some more realistic hypothesis." Daar word later na hierdie stelling teruggekeer wanneer die BA-model bespreek word.
Netwerke wat volgens die ER-model gegenereer is, word verder gekenmerk deur ’n kort gemiddelde pad (genoteer as LER wanneer hierdie meting betrekking het op L vir die ER-model)5 en ’n lae groepsvorming of oorganklikheid (genoteer as CER wanneer hierdie meting verwys na C vir die ER-model) (Borge-Holthoefer en Arenas 2010). LER kan volgens Peng e.a. (2008:250–1) en Liang e.a. (2009:4902) met behulp van vergelyking (4) geskat word, en CER met behulp van vergelyking (5) (hier genoteer as Lskatting en Cskatting – kyk verderaan).
In ons berekenings het die verskil tussen L vir netwerke wat volgens die ER-model gegenereer is (LER) en die skatting van L soos in Peng e.a. (2008:250–1) en Liang e.a. (2009:4902) (Lskatting), en C vir ’n ER-model (CER) teenoor Cskatting, beduidend verskillende resultate opgelewer, met byvoorbeeld CER » Cskatting. Ter wille van akkuraatheid is LER en CER gevolglik nie in ons studie geskat nie, maar eerder bereken vir netwerke wat volgens die ER-model gegenereer is.
Erdös en Rényi (1959; 1960) het twee verwante netwerkmodelle voorgestel: die G (n, p)-en G (n, m)-modelle. In die G (n, p)-model word begin met ’n vasgestelde getal nodusse (n) en skakels word dan op ’n lukrake wyse met waarskynlikheid p tussen nodusse aangebring. In die <G (n, m)-model word ’n vasgestelde getal skakels (m) op ’n lukrake wyse tussen ’n vasgestelde getal nodusse (n) aangedui, met die gevolg dat beide die getal nodusse as skakels vooraf bepaal kan word. Omdat dit noodsaaklik is om ’n werklike netwerk te vergelyk met ’n netwerk van dieselfde grootte (beide ten opsigte van n en m) (Peng, e.a. 2008:250; Senekal 2015:674), word die G (n, m)-model in die volgende onderafdelings gebruik.
5.2 Die WS-model
Watts en Strogatz (1998) het teruggekeer na Milgram (1967) en die kleinwêreldfenomeen gemodelleer. Kleinwêreldsheid is op twee metings gebaseer: gemiddelde pad (L) en groepsvorming of oorganklikheid (C). Watts en Strogatz (1998) het die ER-model as wegspringplek gebruik en op ’n lukrake wyse kort paaie in die netwerk ingebou, met die gevolg dat ’n netwerk ontstaan wat gekenmerk word deur ’n kort gemiddelde pad en ’n hoë mate van groepsvorming.
Ten einde ’n netwerk as ’n kleinwêreldnetwerk te klassifiseer, word die gemiddelde pad in ’n netwerk (L) met die gemiddelde pad in ’n netwerk van dieselfde grootte (beide ten opsigte van n en m) wat volgens die ER-model saamgestel is (LER), vergelyk, terwyl die groepsvorming van die netwerk (C) ook met die groepsvorming in die ekwivalente ER-model (CER) vergelyk word (Peng e.a. 2008:250; Senekal 2015:674). In netwerke wat nader aan die WS-model as die ER-model is, is L≈LER, maar C » CER (i Cancho en Solé 2001; Peng e.a. 2008; Liang e.a. 2009; Solé e.a. 2010). Figuur 8 verskaf die gemiddelde waardes van L teenoor LER, asook C teenoor CER vir die Afrikaanse en Engelse woordkovoorkomsnetwerke wat hier bestudeer is.
Figuur 7. L teenoor LER en C teenoor CER vir die netwerke wat hier bestudeer is
Figuur 8 toon duidelik dat L≈LER en C » CER ook vir Afrikaanse woordkovoorkomsnetwerke geld, wat suggereer dat Afrikaans ook ’n kleinwêreldnetwerk is, soos die geval met Engels is. Humphries en Gurney (2008) kritiseer egter hierdie "semikwantitatiewe" formulering as vaag, en stel die kleinwêreldsindeks (S) voor waarmee kleinwêreldsheid gekwantifiseer kan word. Kleinwêreldsheid (S) word met behulp van vergelykings (6), (7) en (8) bereken.
Indien S ≥ 1, kan ’n netwerk as ’n kleinwêreldnetwerk beskryf word, maar gevalle waar 1 ≤S≤ 3 is grensgevalle, en dus is S > 3 ’n duidelike aanduiding daarvan dat ’n netwerk ’n kleinwêreldnetwerk is (Humphries en Gurney 2008). Figuur 9 verskaf S vir die Afrikaanse en Engelse netwerke wat hier ondersoek is.
Figuur 8. Kleinwêreldsheid in woordkovoorkomsnetwerke
Figuur 8 toon dus onomwonde dat Afrikaans en Engels as kleinwêreldnetwerke geklassifiseer kan word: vir al die netwerke wat hier ondersoek is, val S in die spektrum 105 ≤S ≤2 544 vir Afrikaanse netwerke (met ’n gemiddeld van S = 837) en in die spektrum 124 ≤S ≤1 907 vir Engelse netwerke (met ’n gemiddeld van S = 541). Let daarop dat Afrikaanse netwerke gemiddeld hoër S-waardes as Engelse netwerke het, wat die gevolg is van die verskil in L- en C-waardes van dié twee tale. Ten opsigte van S is daar met ander woorde ook gemiddeld ’n verskil tussen Afrikaans en Engels, alhoewel figuur 9 toon dat daar vele uitsonderings bestaan: die hoogste en laagste S-waardes hier is byvoorbeeld Afrikaanse tekste.
Die waarde wat kleinwêreldsheid in hierdie geval het, is dat kleinwêreldsheid die taalgebruiker in staat stel om maklik sinne saam te stel rondom woorde wat kort paaie in die netwerk vorm (i Cancho en Solé 2001; Liang e.a. 2009; Cong en Liu 2014). Andersins kan aangetoon word dat Afrikaans in hierdie opsig nie veel anders is as Engels of ander tale wat ook al sodanig ondersoek is nie: taal is ’n kleinwêreldnetwerk (Zhou e.a. 2008; Liang e.a. 2009; Solé e.a. 2010), en Afrikaans se unieke wortels en ontwikkeling – asook die feit dat dit een van die jongste tale in die wêreld is – maak dit in hierdie opsig geensins anders as meer gevestigde tale soos Engels nie.
Die skakelverspreidingspatroon van ’n WS-model volg egter ook, soos die ER-model, ’n Poissonverspreiding, anders as in die geval van die BA-model, wat in die volgende onderafdeling bespreek word.
5.3 Die BA-model
Soos voorheen vermeld, het Erdös en Rényi (1960:19) erken dat indien werklike netwerke ondersoek word, ’n gelyke waarskynlikheid dat ’n skakel tussen twee nodusse in ’n netwerk sal voorkom, met ’n ander meganisme vervang sal moet word. In Barabási en Albert (1999) se sogenaamde skaalvryenetwerkmodel is daar juis afgesien van ’n gelyke waarskynlikheid. In hierdie model is ’n vooroordeel ingebou teenoor nodusse wat reeds oor ’n groot aantal skakels beskik (Barabási en Albert 1999:510) – ’n verskynsel waarna verwys word as die Matteus-effek (na Merton 1968) of selektiewe skakelvorming. Kortom beteken dit dat in die BA-model die waarskynlikheid groter is dat nodusse met ’n groot aantal skakels nuwe skakels sal bykry as wat die geval is met nodusse met ’n klein aantal skakels (Barabási en Albert 1999:511).
Die uiteinde van selektiewe skakelvorming is volgens Barabási en Albert (1999) dat die skakelverspreidingspatroon van ’n netwerk wat volgens die BA-model gegenereer is, nie ’n Poissonverspreiding volg soos in die geval van die ER- en WS-modelle nie, maar eerder die kragwet volg. Die kragwet beteken in eenvoudige terme dat daar ’n klein aantal gevalle met hoë waardes, maar ook ’n groot aantal gevalle met lae waardes in ’n datastel voorkom (Liang e.a. 2009:4905). Die kragwet word in vergelyking (9) vervat (i Cancho en Solé 2001:2263; Markošová 2008:662; Solé e.a. 2010:22; Zhou e.a. 2008:3042; Liang e.a. 2009:4902):
Om streng aan die kragwet te voldoen, moet die eksponent in die spektrum 2 ≤γ≤ 3 val (Solé e.a. 2010:22). Kyk na die voorbeeldnetwerk in figuur 10, wat uit dieselfde getal nodusse (n = 5000) en skakels (m = 4999) as die ER-model in figuur 7 bestaan, maar volgens die BA-model gegenereer is. Regs is die getal nodusse aangedui wat skakels k het en links is die persentasie nodusse aangedui wat skakels k het.
Figuur 9. Die skakelverspreidingspatroon in ’n BA-model
In figuur 9 kan gesien word dat die meerderheid nodusse (3 343 of 66,86%) slegs een skakel het. Aangesien die getal skakels en nodusse dieselfde is as vir die voorbeeld-ER-netwerk in figuur 7, is ‹k›=2, beteken dit dat slegs 16,5% van nodusse (825) se getal skakels deur die gemiddeld beskryf word. Die gemiddelde getal skakels is dus hoër as wat die waarde vir die meerderheid nodusse is, wat die gevolg is daarvan dat nodusse aangetref word met tot k = 87. Die klein aantal nodusse met ’n groot aantal skakels veroorsaak dat die gemiddelde getal skakels in die netwerk nie meer ’n goeie voorstelling is van die getal skakels wat die meerderheid nodusse het nie. Die uiteinde is ’n netwerk waar byvoorbeeld k=‹k›±1 000 nie meer onwaarskynlik is soos in die ER-model nie, maar gereeld aangetref word wanneer daar genoeg nodusse bestaan.
Die kragwet is reeds vantevore in ’n verskeidenheid kontekste ondersoek. Pareto (1897) het die verspreiding van inkomstes in verskeie bevolkings ondersoek, en ’n verskynsel geïdentifiseer wat rofweg met die 80/20-reël beskryf word: 80% van die inkomste in ’n gemeenskap is in die hande van 20% van die bevolking. Hy het verskillende gemeenskappe ondersoek, onder andere antieke Peru, Cherokee-Indiane en Pruise, en tot die gevolgtrekking gekom dat só ’n oneweredige inkomsteverspreidingspatroon kenmerkend is van enige gemeenskap. Ander ontdekkings van soortgelyke oneweredige verspreidingspatrone is Lotka (1926) se wet van wetenskaplike produktiwiteit (’n klein aantal navorsers lewer ’n groot aantal navorsingsuitsette, terwyl die meerderheid min publiseer); Zipf (1935) se wet van die frekwensies waarmee woorde gebruik word (’n klein aantal woorde het ’n baie hoë gebruiksfrekwensie, terwyl die meerderheid woorde ’n lae gebruiksfrekwensie het); Richardson (1960) se bestudering van ongevalle in oorloë (’n klein aantal oorloë lei tot ’n baie hoë lewensverlies, terwyl die meerderheid oorloë tot ’n lae lewensverlies lei); en Price (1965) se identifisering van verwysingsverspreidings van wetenskaplike publikasies (’n klein aantal publikasies ontvang ’n baie hoë getal verwysings, terwyl die meerderheid geensins na verwys word nie, of baie min).
Barabási en Albert (1999) se bydrae was dat hulle dié oneweredige verspreiding in komplekse netwerke geïdentifiseer en gemodelleer het, en verskeie publikasies daarna het ook ondersoek ingestel na die voorkoms van die kragwet in ander komplekse netwerke, byvoorbeeld metaboliese netwerke (Jeong e.a. 2000), die wêreldwye web (Broder e.a. 2000), telefoonoproepe (Aiello, Chung en Lu 2000), seksuelekontaknetwerke (Liljeros e.a. 2001), lugvaartnetwerke (Gautreau, Barrat en Barthélemy 2008), padnetwerke (Jiang 2009), proteïeninteraksies (Jeong e.a. 2001) en filmakteurnetwerke (Guillaume en Latapy 2006).
Daar is egter heelwat kritiek uitgespreek oor die identifisering van die kragwet in komplekse netwerke, soos bespreek in Clauset e.a. (2009). Kortom kom kritiek daarop neer dat onvolledige datastelle soms gebruik word, en andersins is daar probleme met die metode om die kragwet op ’n datastel te pas deur van ’n log-log-plot gebruik te maak. Stumpf en Porter (2012:666) maak egter ’n belangrike stelling: "[K]nowledge of whether or not a distribution is heavy-tailed is far more important than whether it can be fit using a power law." In die huidige studie word daar eerder gefokus op die identifisering van ’n oneweredige skakelverspreidingspatroon (teenoor ’n Poissonverspreiding) as op die kwantifisering van die kragwet, aangesien Stumpf en Porter (2012:666) se stelling sinvol is: dit is belangriker om aan te toon dat ’n oneweredige skakelverspreidingspatroon in ’n datastel voorkom as wat dit is dat die eksponent binne die spektrum 2 ≤γ≤ 3 val. Ten einde die skakelverspreidingspatrone van Afrikaanse woordkovoorkomsnetwerke met die BA-model te vergelyk, word eerder gebruik gemaak van Pearson se korrelasiekoëffisiënt, wat aandui tot watter mate hierdie netwerke met die BA-model gemodelleer kan word ten opsigte van skakelverspreidingspatrone. Pearson se korrelasiekoëffisiënt is hier gebruik omdat dié maatstaf deur Kuchaiev e.a. (2011) se netwerkvergelykingsprogrammatuur aanbeveel word om komplekse netwerke ten opsigte van skakelverspreidingspatrone mee te vergelyk.
Die korrelasie met die skakelverspreidingspatroon van ekwivalente ER-modelle (met ander woorde waar n en m gelyk is aan die werklike netwerk) is ook vir vergelykingsdoeleindes bereken, soos gesien kan word in figuur 10. Sterk korrelasies (r ≥ │0,6│) is met die ligpienk strook aangedui, en swak korrelasies ( r ≤ │0,25│) is met die grys strook aangedui.
Figuur 10. Korrelasies tussen die skakelverspreidingspatrone van netwerke en ER- en BA-modelle
Dit is dus duidelik dat die skakelverspreidingspatrone van Afrikaanse woordkovoorkomsnetwerke – soos die Engelse netwerke wat hier ondersoek is – eerder die patroon van die BA- as die ER-model volg, met korrelasies in die spektrum 0,6384≤r ≤0,9215 (met ’n gemiddeld van r = 0,8358) vir Afrikaanse tekste teenoor 0,6997≤ r ≤ 0,9138 (met ’n gemiddeld van r = 0,8334) vir Engelse tekste. Hierteenoor vertoon ’n vergelyking tussen Afrikaanse tekste en die ER-model korrelasies in die spektrum –0,2393≤ r ≤ 0,2067 (met ’n gemiddeld van r = –0,1421) vir Afrikaanse tekste en –0,2525≤ r ≤ –0,1044 (met ’n gemiddeld van r = –0,1916) vir Engelse tekste, wat beteken dat die ER-model nie ’n gepaste model vir skakelverspreidingspatrone in hierdie netwerke is nie.
Voorheen is ’n oneweredige skakelverspreidingspatroon ook in studies van onder andere Engelse (i Cancho en Solé 2001; Sheng en Li 2009) en Chinese (Liang e.a. 2009; Sheng en Li 2009) tekste gevind. Dít beteken weer eens dat Afrikaans ook in hierdie opsig nie ’n unieke taal is nie, maar dat dit hier ook gevind word dat ’n klein aantal woorde ’n baie hoë kovoorkoms het, terwyl die meerderheid woorde ’n lae kovoorkoms het. Anders as in die geval met L- en C-waardes is daar egter nie ’n beduidende verskil tussen Afrikaans en Engels ten opsigte van skakelverspreidingspatrone nie.
Volgens i Cancho en Sole (2001) en Dorogovtsev en Mendes (2001) is hierdie voorkoms van woorde met baie skakels die gevolg van hoe sinne geskep word: nuwe woorde word bygevoeg met ’n groter waarskynlikheid dat hulle skakels sal vorm met woorde wat reeds baie skakels het. Die woorde wat sulke hoë getalle skakels het, is gewoonlik lidwoorde en voorsetsels, wat die boustene van sinne vorm.
6. Ten slotte
Hierdie artikel het die eerste veralgemeenbare kwantitatiewe ontleding van geskrewe Afrikaans as komplekse netwerk onderneem, en aspekte soos die gemiddelde pad (L) en groepsvorming (C) ondersoek, asook vergelykings met die belangrikste netwerkmodelle in die wiskundige grafiekteorie, naamlik die ER-, WS- en BA-modelle. Daar is aangetoon dat Afrikaans, soos Engels, óók ’n kleinwêreldnetwerk is deur dié verskynsel met behulp van Humphries en Gurney (2008) se kleinwêreldindeks (S) te kwantifiseer, en daar is ook aangedui dat die skakelverspreidingspatrone van woorde in Afrikaans beter gemodelleer word deur die BA- as die ER-model: die skakelverspreidingspatrone van Afrikaanse tekste volg ’n oneweredige verspreidingspatroon eerder as ’n Poissonverspreiding.
’n Belangrike beperking van die huidige studie is egter dat slegs geskrewe Afrikaans, soos meestal aangetref in gepubliseerde boeke (met die uitsondering van LitNet), ondersoek is. Liang e.a. (2009) dui aan dat daar statistiese verskille tussen verskillende soorte tekste bestaan, wat iets is wat nie in die huidige studie ondersoek is nie. Dit is moontlik dat ander vorme van Afrikaanse taalgebruik, byvoorbeeld gesproke Afrikaans of elektroniese kommunikasie soos Twitter-boodskappe, of selfs Wikipedia, waar enigeen bydraes kan lewer sonder dat die teks geredigeer word, ander statistiese eienskappe kan vertoon, en toekomstige studies kan dus ondersoek instel na of dit wel die geval is. Liu en Cong (2013) dui ook aan dat woordkovoorkomsnetwerke gebruik kan word om tale te klassifiseer, wat uiteraard toepassings in Suid-Afrika met sy 11 amptelike landstale het. ’n Belangrike verdere vraag is egter of die gehalte van taalgebruik deur hierdie statistiese eienskappe weerspieël word: Antiqueira e.a. (2007) voer byvoorbeeld aan dat studente se taalvaardigheid en skryfvermoë verband hou met die mate waarin groepsvorming (C) in hul skryfwerk voorkom (kyk ook Ke e.a. 2014), terwyl daar sterk aanduidings is dat daar statisties beduidende verskille tussen kinder- en volwassene-taalgebruik in hierdie opsig bestaan (Solé e.a. 2010; Cong en Liu 2014; Ke e.a. 2014). Amancio e.a. (2011) voer op hul beurt aan dat sulke statistieke aangewend kan word om die gehalte van vertalings te beoordeel. Indien ’n statisties beduidende verskil gevind kan word tussen die gebruik van Afrikaans soos hier ondersoek, wat meestal ’n meer formele taalgebruik verteenwoordig, en studente se taalgebruik, skep dit die geleentheid om taalvaardigheid op ’n objektiewe en rekenaarmatige wyse te beoordeel.
Bibliografie
Aiello, W., F. Chung en L. Lu. 2000. A random graph model for massive graphs. Proceedings of the 32nd ACM Symposium on Theory of Computing.
Amancio, D.R., M.G.V. Nunes, O.N. Oliveira, T.A.S. Pardo, L. Antiqueira en L. da F. Costa. 2011. Using metrics from complex networks to evaluate machine translation. Physica A: Statistical Mechanics and its Applications, 390:131–42.
Antiqueira, L., M.G.V. Nunes, O.N. Oliveira en L. da F. Costa. 2007. Strong correlations between text quality and complex networks features. Physica A: Statistical Mechanics and its Applications, 373:811–20.
Barabási, A.-L. en R. Albert. 1999. Emergence of scaling in random networks. Science, 286:509–11.
Basson, A. 2015. In die lig. Openbaringe van die Here. Krugersdorp: Anet Basson.
Boccaletti, S., V. Latora, Y. Moreno, M. Chavez en D.-U. Hwanga. 2006. Complex networks: structure and dynamics. Physics Reports, 424:175–308.
Borge-Holthoefer, J. en A. Arenas. 2010. Semantic networks: structure and dynamics. Entropy, 12(5):1264–302.
Brink, A.P. 2000a. Donkermaan. Kaapstad: Human & Rousseau.
—. 2000b. The rights of desire. Londen: Vintage.
Broder, A., R. Kumar, F. Maghoul, P. Raghavan, S. Rajagopalan, R. Stata, A. Tomkins en J. Wiener. 2000. Graph structure in the web. Computer Networks, 33:309.
Celliers, J.F.E. 1920. Martjie. Pretoria: J.H. de Bussy.
—. 1908. Die vlakte en andere gedigte. Pretoria: Volkstem-drukkerij.
Clarke, R.D. 1946. An application of the Poisson Distribution. Journal of the Institute of Actuaries, 72:481.
Clauset, A., C.R. Shalizi en M.E.J. Newman. 2009. Power-law distributions in empirical data. SIAM Review, 51(4):661–703.
Coetzee, A. 1988. Marxisme en die Afrikaanse letterkunde. Bellville: Universiteit van Wes-Kaapland.
—. 2000. ’n Hele os vir ’n ou broodmes. Grond en die plaasnarratief sedert 1595. Pretoria: Van Schaik Uitgewers.
Cong, J. en H. Liu. 2014. Approaching human language with complex networks. Physics of Life Reviews, 11:598–618.
De Saussure, F. 1966. Course of general linguistics. New York: McGraw-Hill.
Dorogovtsev, S.N. en J.F.F. Mendes. 2001. Language as an evolving word web. Proceedings of the Royal Society of London. Series B: Biological Sciences, 268(1485):2603–6.
Du Toit, J.D. 1915. Trekkerswee. Potchefstroom: Het Westen Drukkerij.
Effendi, A.B. 1979. Uiteensetting van die godsdiens. Amsterdam: North-Holland.
Erdös, P. en A. Rényi. 1959. On random graphs. Publicationes Mathematicae, 6:290–7.
—. 1960. On the evolution of random graphs. Publications of the Mathematical Institute of the Hungarian Academy of Sciences, 5:17–61.
Erlang, A.K. 1920. Telefon-Ventetider. Et Stykke Sandsynlighedsregning. Matematisk Tidsskrift, 31:25–42.
Fagan, H.A. 1972. Ousus. Kaapstad: Tafelberg.
Gautreau, A., A. Barrat en M. Barthélemy. 2008. Global disease spread: statistics and estimation of arrival times. Journal of Theoretical Biology, 251(3):509–22.
Grabska-Gradzińska, I., A. Kulig, J. Kwapień en S. Drożdż. 2012. Complex network analysis of literary and scientific texts. International Journal of Modern Physics C, 23(7):1250051.
Guillaume, J.-L. en M. Latapy. 2006. Bipartite graphs as models of complex networks. Physica A: Statistical Mechanics and its Applications, 371:795–813.
Holanda, A. de J., I.T. Pisa, O. Kinouchi, A.S. Martinez en E.E.S. Ruiz. 2004. Thesaurus as a complex network. Physica A: Statistical Mechanics and its Applications, 344:530–6.
Humphries, M.D. en K. Gurney. 2008. Network “small-world-ness”: a quantitative method for determining canonical network equivalence. PloS one, 3(4):e0002051.
i Cancho, R.F. en R.V. Solé. 2001. The small world of human language. Proceedings of the Royal Society B, London, 268:2261–5.
Jeong, H., S.P. Mason, A.-L. Barabási en Z.N. Oltvai. 2001. Lethality and centrality in protein networks. Nature, 411:41–2.
Jeong, H., B. Tombor, R. Albert, Z.N. Oltvai en A.-L. Barabási. 2000. The large-scale organization of metabolic networks. Nature, 407:651.
Jiang, B. 2009. Street hierarchies: a minority of streets account for a majority of traffic flow. International Journal of Geographical Information Science, 23(8):1033–48.
Kannemeyer, J.C. 1983. Geskiedenis van die Afrikaanse literatuur 1. Pretoria: Academica.
—. 1984. Geskiedenis van die Afrikaanse literatuur 2. Pretoria: Academica.
—. 1999. Leipoldt. ’n Lewensverhaal. Kaapstad: Tafelberg.
Ke, X., Y. Zeng, Q. Ma en L. Zhu. 2014. Complex dynamics of text analysis. Physica A: Statistical Mechanics and its Applications, 415:307–14.
Kenett, Y.N., D.Y. Kenett, E. Ben-Jacob en M. Faust. 2011. Global and local features of semantic networks: evidence from the Hebrew mental lexicon. PLoS ONE, 6(8):e23912.
Kosmidis, K., A. Kalampokis en P. Argyrakis. 2006. Statistical mechanical approach to human language. Physica A: Statistical Mechanics and its Applications, 366:495–502.
Kuchaiev, O., A. Stevanović, W. Hayes en N. Pržulj. 2011. GraphCrunch 2: Software tool for network modeling, alignment and clustering. BMC Bioinformatics, 12(24):1–13.
Kwapień, J. en S. Drożdż. 2012. Physical approach to complex systems. Physics Reports, 515(3):115–226.
Lee, N., L. Mikesell, A.D.L. Joaquin, E.W. Mates en J.H. Schumann. 2009. The interactional instinct: The evolution and acquisition of language. Oxford: Oxford University Press.
Leipoldt, C.L. 1980. Versamelde gedigte. Kaapstad: Tafelberg.
—. 1963. Polfyntjies vir die proe. Kaapstad: Tafelberg.
Liang, W., Y. Shi, C.K. Tse, J. Liu, Y. Wang en X. Cui. 2009. Comparison of co-occurrence networks of the Chinese and English languages. Physica A: Statistical Mechanics and its Applications, 388:4901–9.
Liljeros, F., C.R. Edling, L.A.N. Amaral, H. E. Stanley en Y. Åberg. 2001. The web of human sexual contacts. Nature, 411:907–8.
Liu, H. en J. Cong. 2013. Language clustering with word co-occurrence networks based on parallel texts. Chinese Scientific Bulletin, 58:1139–44.
Lotka, A. 1926. The frequency distribution of scientific productivity. Journal of the Washington Academy of Sciences, 16(12):317–24.
Malherbe, F.E.J. 1924. Humor in die algemeen en sy uiting in die Afrikaanse letterkunde. Amsterdam: Swets & Zeitlinger.
Marais, E. 1984. Versamelde werke. Pretoria: J.L. van Schaik.
Margan, D., S. Martinčić-Ipšić en A. Meštrovíć. 2014. Preliminary report on the structure of Croatian linguistic co-occurrence networks. arXiv preprint, 1–8.
Markošová, M. 2008. Network model of human language. Physica A: Statistical Mechanics and its Applications, 387:661–6.
Masucci, A.P. en G.J. Rodgers. 2006. Network properties of written human language. Physical Review E, 74(2):026102.
Merton, R.K. 1968. The Matthew Effect in science. Science, 159(3810):56–63.
Milenković, T., J. Lai en N. Pržulj. 2008. GraphCrunch: A tool for large network analyses. BMC Bioinformatics, 9 (70).
Milgram, S. 1967. The small world problem. Psychology Today, 2:60–7.
Newman, M.E.J. 2010. Networks. Oxford: Oxford University Press.
Nienaber, P.J. en G.S. Nienaber. 1941. Geskiedenis van die Afrikaanse letterkunde. Pretoria: J.L. van Schaik.
Pareto, V. 1897. Le cours d’economie politique. Londen: Macmillan.
Peng, G., J.W. Minett en W.S.-Y. Wang. 2008. The networks of syllables and characters in Chinese. Journal of Quantitative Linguistics, 15(3):243–55.
Poisson, S.D. 1837. Recherches sur la probabilité des jugements en matière criminelle et en matière civile; précédées des règles générales du calcul des probabilités. Parys: Bachelier.
Price, D.J.d.S. 1965. Networks of scientific papers. Science, 149:510–5.
Richardson, L.F. 1960. Statistics of deadly quarrels. Pittsburgh: The Boxwood Press.
Schoonees, P.C. 1939. Die prosa van die tweede Afrikaanse beweging. Pretoria: J.H. de Bussy.
Senekal, B.A. 2015. ’n Kwantifisering van kleinwêreldheid in Afrikaanse kulturele netwerke in vergelyking met ander komplekse netwerke. LitNet Akademies, 12(3):665–88. http://www.litnet.co.za/wp-content/uploads/2015/12/LitNet_Akademies_12-3_BurgertSenekal_665-688.pdf.
Senekal, B.A. en S. Brokensha. 2014. Surfers van die tsunami. Navorsing en inligtingstegnologie binne die Geesteswetenskappe. Bloemfontein: SunPress.
Senekal, B.A. en C. Geldenhuys. 2016. Afrikaans as ’n komplekse netwerk: Die woordko-voorkomsnetwerke van woorde in André P. Brink se Donkermaan in Afrikaans, Nederlands en Engels, Suid-Afrikaanse Tydskrif vir Natuurwetenskap en Tegnologie, 35(1):a1368.
Sheng, L. en C. Li. 2009. English and Chinese languages as weighted complex networks. Physica A: Statistical Mechanics and its Applications, 388:2561–70.
Solé, R.V., B. Corominas-Murtra, S. Valverde en L. Steels. 2010. Language networks: their structure, function, and evolution. Complexity, 15(6):20–6.
Strogatz, S.H. 2001. Exploring complex networks. Nature, 410:268–76.
Stumpf, M.P.H. en M.A. Porter. 2012. Critical truths about power laws. Science, 335:665–6.
Van Bruggen, J. 1924. Ampie. Amsterdam: Swets & Zeitlinger.
—. 1933. Die sprinkaanbeampte van Sluis. Pretoria: J.L. van Schaik.
Van den Heever, C.M. 1935. Somer. Pretoria: J.L. van Schaik.
—. 1939. Laat vrugte. Bloemfontein: Nasionale Pers.
Van Niekerk, M. 2014. Kaar. Kaapstad: Human & Rousseau.
Visser, A.G. 1981. Versamelde gedigte. Kaapstad: Tafelberg.
Von Bortkiewicz, L. 1898. Das Gesetz der kleinen Zahlen. Leipzig: B.G. Teubner.
Von Wielligh, G.R. 1921. Jakob Platjie. Pretoria: J.H. De Bussy.
Watts, D.J. en S.H. Strogatz. 1998. Collective dynamics of “small-world” networks. Nature, 393(6684):409–10.
Weideman, A. 2009a. Beyond expression: A systematic study of the foundations of linguistics. Grand Rapids, MI: Paideia Press.
—. 2009b. Uncharted territory: a complex systems approach as an emerging paradigm in applied linguistics. Per Linguam, 25(1):61–75.
Yu, S. en C. Xu. 2014. Properties of language networks and language systems. Physics of Life Reviews, 11:626–7.
Zhou, S., G. Hu, Z. Zhang en J. Guan. 2008. An empirical study of Chinese language networks. Physica A: Statistical Mechanics and its Applications, 387:3039–47.
Zipf, G.K. 1935. The psychobiology of language. Boston: Houghton-Mifflin.
Eindnotas
1 Vir ’n bespreking van taal as ’n komplekse sisteem, kyk byvoorbeeld Kwapień en Drożdż (2012) en Senekal en Geldenhuys (2016).
2 In navolging van i Cancho en Sole (2001), Grabska-Gradzińska e.a. (2012) en Senekal en Geldenhuys (2016) is leestekens uit die tekste verwyder, alhoewel ander navorsers (Masucci en Rodgers 2006; Sheng en Li 2009) leestekens ook as betekenisvol ag. Die onderhawige studie fokus egter op leksikale items en laat gevolglik leestekens uit.
3 Verskillende vergelykings word gebruik om die gemiddelde pad mee te bereken, maar die resultaat is dieselfde. Kyk byvoorbeeld na Senekal (2015) en Senekal en Geldenhuys (2016) vir ander vergelykings.
4 ’n Verwante konsep, oorganklikheid (transitivity), meet die getal driehoeke wat in ’n netwerk voorkom teenoor die moontlike getal driehoeke wat sou kon voorkom en word ook soms in plaas van groepsvorming gebruik.
5 In Senekal (2015) en Senekal en Geldenhuys (2016) is Humphries en Gurney (2008) se notasie van Lrand en Crand gebruik. In die huidige artikel verkies ons LER en CER ter wille van akkuraatheid (dit verwys na die presiese netwerkmodel), asook ’n keuse weg van die Engelse term random network.
LitNet Akademies (ISSN 1995-5928) is geakkrediteer by die SA Departement Onderwys en vorm deel van die Suid-Afrikaanse lys goedgekeurde vaktydskrifte (South African list of Approved Journals). Hierdie artikel is portuurbeoordeel vir LitNet Akademies en kwalifiseer vir subsidie deur die SA Departement Onderwys.
The post Die statistiese eienskappe van geskrewe Afrikaans as ’n komplekse netwerk appeared first on LitNet.