Kako koristiti alat 'Ngram Viewer' u Google knjigama

Ngram, također poznat kao N-gram, je statistička analiza sadržaja teksta ili govora kako bi pronašla n (broj) neke vrste stavke u tekstu. To bi moglo biti sve vrste stvari, poput fonema, prefiksa, fraza ili pisama. Iako je N-gram nešto nejasan izvan istraživača, zapravo se koristi u različitim područjima, a ima mnogo implikacija za ljude koji rade računalne programe koji razumiju i reagiraju prirodnim govornim jezikom. To bi, ukratko, bio Googleov interes za ideju.

U slučaju Google knjiga Ngram Viewer, tekst koji se analizira dolazi od ogromne količine knjiga koje je Google skenirala u narodnim bibliotekama kako bi popunila tražilicu Google Knjige . Za Google Knjige Ngram Viewer, oni se odnose na tekst koji ćete pretraživati ​​kao "korpus". Tjelesnik u Ngram Vieweru podijeljen je jezikom, iako možete zasebno analizirati britanski i američki engleski jezik ili ih složiti zajedno. Završava biti super zanimljiv za prebacivanje s britanskog na američku upotrebu pojmova i promjenu grafikona.

Kako Ngram radi

  1. Idite na Google knjige Ngram Viewer na books.google.com/ngrams.
  2. Stavke razlikuju velika i mala slova, za razliku od Googleovih pretraživanja weba, stoga svakako capitalize odgovarajuće imenice.
  3. Upišite bilo koji izraz ili fraze koje želite analizirati. Svakako razdvojite svaki fraza zarezom. Google sugerira, "Albert Einstein, Sherlock Holmes, Frankenstein" da biste započeli.
  4. Zatim unesite datumski raspon. Zadana je od 1800 do 2000, no ima više novijih knjiga (2011 je najnovije navedeno na Googleovoj dokumentaciji, ali to se možda promijenilo.)
  5. Odaberite korpus. Možete pretraživati ​​tekstove stranih jezika ili engleski, a osim standardnih izbora, na dnu ćete primijetiti stvari poput "engleski (2009) ili američki engleski (2009)". To su starije korporacije koje je Google ažuriralo, ali možda imate razloga za usporedbu s starim skupovima podataka. Većina ih korisnika može ih ignorirati i usredotočiti se na najnovije korpuse.
  6. Postavite razinu izravnavanja. Glatko se odnosi na to kako je glatka traka na kraju. Najprecizniji prikaz bio bi razina izravnavanja od 0, ali to može biti teško čitati. Zadana postavka je 3. U većini slučajeva to ne morate podesiti.
  1. Pritisnite gumb Pretraži puno knjiga . (Jednostavno pritisnite tipku Enter u traci za pretraživanje.)

Što je Ngram prikazano?

Google knjige Ngram Viewer izdaje graf koji predstavlja upotrebu određene fraze u knjigama kroz vrijeme. Ako ste unijeli više od jedne riječi ili fraze, vidjet ćete crte u boji za razliku od različitih pojmova za pretraživanje. Ovo je prilično slično Google trendovima , samo pretraživanje traje dulje vrijeme.

Evo primjera iz stvarnog života. Nedavno smo bili znatiželjni za pite od octa. Spominjani su u Lauri Ingalls Wilderovoj Little House na seriji Prairie , ali nikada nismo čuli za takvu stvar. Prvo smo se koristili Googleovim pretraživanjem weba kako bismo saznali više o pite od octa. Očigledno, oni se smatraju dijelom američke južne kuhinje i zapravo su izrađeni od octa. Oni se osluškuju u vrijeme kad svi nisu imali pristup svježim proizvodima u svako doba godine. Je li to cijela priča?

Pretražili smo Google Ngram Viewer, a postoje i neke spominjanja torte u ranoj i kasnoj 1800. godini, mnogo spomena u četrdesetim godinama prošlog stoljeća i sve veći broj spomena u novije vrijeme (možda neka pita nostalgija). Pa, postoje neki problem s podacima na razini izglađivanja od 3. Postoji plato iznad spomena u 1800-ima. Sigurno nije bilo jednak broj spominjanja jedne kolače svake godine pet godina? Ono što se događa je to jer nema puno knjiga objavljenih tijekom tog vremena, a zbog toga što su naši podaci postavljeni na glatko, iskrivljuje sliku. Vjerojatno je postojala jedna knjiga koja je spomenula pita od octa, i to je samo prosjek da izbjegne šiljak. Postavljanjem zaglađivanja na 0 možemo vidjeti da je upravo to slučaj. Šiljka se usredotočuje 1869. godine, a još 1897. i 1900.

Nitko nije govorio o octu pite ostatak vremena? Vjerojatno su razgovarali o tim pite. Bilo je vjerojatno recepata koji plutaju po cijelom mjestu. Jednostavno nisu pisali o njima u knjigama, a to je ograničenje tih pretraživanja u Ngramu.

Napredni Ngram Pretraživanja

Sjećate li se kako smo rekli da se Ngrams može sastojati od svih vrsta različitih pretraživanja teksta? Google vam omogućuje i vrlo malo bušenje s Ngram Viewerom. Ako želite tražiti ribu glagol umjesto ribe imenicu, to možete učiniti pomoću oznaka. U tom bi slučaju pretražili pojam "fish_VERB"

Google pruža kompletan popis naredbi koje možete koristiti i druge napredne dokumente na svojoj web stranici.