Skip to main content

Com utilitzar l'eina 'Ngram Viewer' a Google Llibres

Anonim

Un ngram, també conegut com un gram-n, és una anàlisi estadística del contingut de text o de veu que es pot trobar n (un nombre) d'algun tipus d'element en el text.

L'element de cerca podria ser tot tipus de coses, com fonemes, prefixos, frases o lletres. Encara que el N-gram és una mica fosca fora de la comunitat investigadora, s'utilitza en diversos àmbits i té moltes implicacions per als desenvolupadors que codifiquen programes informàtics que entenen i responen al llenguatge oral.

En el cas de Google Books Ngram Viewer, el text que cal analitzar prové de la gran quantitat de llibres que Google ha escanejat a les biblioteques públiques per omplir el motor de cerca de Google Books. Per a Google Books Ngram Viewer, es refereixen al text que voleu cercar com a corpus . El agregador de Ngram Viewer per idioma, encara que es pot analitzar per separat l'anglès britànic i americà o combinar-los junts.

Com funciona Ngram

  1. Aneu a Google Books Ngram Viewer a books.google.com/ngrams.

  2. Escriviu qualsevol frase o frase que vulgueu analitzar. Separeu cada frase amb una coma. Google suggereix: "Albert Einstein, Sherlock Holmes, Frankenstein" per començar. Els elements distingeixen entre majúscules i minúscules, a diferència de les cerques web de Google.

  3. Escriviu un interval de dates. El valor predeterminat és de 1800 a 2000.

  4. Tria un corpus. Podeu cercar textos d'idioma estranger o anglès i, a més de les opcions estàndard, podeu observar coses com "Anglès (2009) o Anglès Americà (2009)" a la part inferior. Aquests són corpus més antics que Google ha actualitzat, però és possible que tingueu alguna raó per fer les vostres comparacions contra conjunts de dades antics. La majoria dels usuaris poden ignorar-los i centrar-se en els corpus més recents.

  5. Estableix el nivell de suavitzat. El suavitzat fa referència al grau d'eficàcia del gràfic al final. La representació més precisa seria un nivell de suavitzat de 0, però aquesta configuració pot ser difícil de llegir. El valor predeterminat s'estableix a 3. En la majoria dels casos, no és necessari ajustar-lo.

  6. Premeu el botó Cerca molts llibres botó

Google us permet analitzar un poc amb el visualitzador Ngram. Si voleu cercar peix el verbo en lloc del peix el nom, podeu fer-ho usant les etiquetes. En aquest cas, cerqueu "fish_VERB"

Google proporciona una llista completa d'ordres que podeu utilitzar i d'altres documents avançats al seu lloc web.

Què es mostra Ngram?

Google Books Ngram Viewer mostrarà un gràfic que representa l'ús d'una frase particular en llibres al llarg del temps. Si heu introduït més d'una paraula o frase, veureu línies codificades amb colors per contrastar els diferents termes de cerca. Això és bastant similar a Google Trends, només la cerca inclou un període de temps més llarg.

Estudi de cas

Considereu l'estudi de casos de pastissos de vinagre. Es mencionen a Laura Ingalls Wilder's Petita casa a la prada sèrie Explorar amb la cerca web de Google per obtenir més informació sobre pastissos de vinagre revela que són considerats part de la cuina sud-americana i que realment estan elaborats amb vinagre. Es rememoren als temps en què no tots tenien accés a productes frescos en tot moment de l'any. Però és que tota la història?

Cerca Google Ngram Viewer per a pastís de vinagre i trobareu algunes mencions del pastís tant a principis de finals de finals de finals de finals de finals de finals de finals de finals de finals de finals de finals de finals de finals de finals de finals de finals de finals de finals de finals de finals de finals de finals de finals de 1800, No obstant això, amb un nivell de suavitzat de 3, veureu un altiplà sobre les mencions del 1800. Perquè no hi ha molts llibres publicats durant aquest temps, i perquè les nostres dades estan ben definides, distorsiona la imatge. Probablement hi hagués un llibre que va esmentar el pastís de vinagre, i només es va promediar per evitar una pica. En establir el suavitzat a 0, podem veure que aquest és exactament el cas. L'espiga se centra en 1869, i hi ha un altre punt en 1897 i 1900.

És poc probable que ningú parli de pastissos de vinagre la resta del temps: hi ha hagut receptes que flotant per tot arreu, però la gent no escriure sobre ells en llibres, i aquesta és una limitació important d'aquestes cerques de Ngram.