А Ngram, също често наричан N-грам, е статистически анализ на съдържанието на текст или реч, който да се намери п (число) на някакъв елемент в текста.
Елементът за търсене може да бъде всякакви неща, като например фонеми, префикси, фрази или букви. Въпреки че N-грамът е малко неясен извън изследователската общност, той се използва в различни области и има много последствия за разработчиците, които кодират компютърни програми, които разбират и отговарят на естествения говорим език.
В случая на Google Books Ngram Viewer, текстът, който трябва да се анализира, идва от огромното количество книги, които Google сканира от обществените библиотеки, за да попълни търсещата си машина в Google Книги. За Ngram Viewer на Google Книги те се отнасят до текста, който ще търсите като сборник , Ngram Viewer се агрегира по език, въпреки че можете да анализирате отделно британски и американски английски или да ги обедините.
Как работи Нграм
-
Отворете Ngram Viewer на Google Книги на адрес books.google.com/ngrams.
-
Въведете всяка фраза или фрази, които искате да анализирате. Отделете всяка фраза с запетая. Google предлага "Алберт Айнщайн, Шерлок Холмс, Франкенщайн", за да започнете. Елементите се различават от малки и малки букви, за разлика от търсенията в мрежата на Google.
-
Въведете период от време. По подразбиране е 1800-2000.
-
Изберете корпус. Можете да търсите текстове на чужд език или английски, а в допълнение към стандартните избори, може да забележите неща като "Английски (2009) или Американски (2009)" в дъното. Това са по-стари корпуси, които Google оттогава е актуализиран, но може да имате някаква причина да направите сравненията си срещу стари набори от данни. Повечето потребители могат да ги игнорират и да се съсредоточат върху най-новите корпуси.
-
Задайте нивото на изглаждане. Изглаждането се отнася до това колко гладко е графиката в края. Най-точното представяне би било нивото на изглаждане от 0, но тази настройка може да е трудна за четене. По подразбиране е зададено 3. В повечето случаи не е необходимо да го коригирате.
-
Натисни Търсете много книги бутон.
Google ви позволява да проследите малко с Ngram Viewer. Ако искате да търсите за риба глаголът, вместо да рибите съществителното, можете да го направите, като използвате маркери. В този случай бихте търсили "fish_VERB"
Google предоставя пълен списък на командите, които можете да използвате, и друга разширена документация на уебсайта си.
Какво представлява Ngram?
Google Books Ngram Viewer ще изведе графика, която представя използването на определена фраза в книгите във времето. Ако сте въвели повече от една дума или фраза, ще видите цветно кодирани редове, за да контрастирате различните думи за търсене. Това е доста подобно на Google Тенденции, само търсенето обхваща по-дълъг период от време.
Казус
Обмислете казуса на оцет пайове. Споменават се в "Лора Ингълс Уайлдър" Малката къща на прерията серия. Изследването с търсенето в мрежата на Google, за да научите повече за оцетските пайове, разкрива, че те се считат за част от американската южна кухня и наистина са направени от оцет. Те слушат време, когато не всеки има достъп до пресни продукти по всяко време на годината. Но това е цялата история?
Търсене Google Ngram Viewer за оцет пай и ще срещнете някои споменавания за пай в ранните и късните 1800 г., много от споменаванията през 40-те години на миналия век и все по-голям брой споменавания в последно време. Въпреки това, с изглаждане ниво 3 ще видите плато над споменаванията през 1800s. Тъй като през това време няма публикувани много книги и тъй като данните ни са нагласени да изглаждат, то изкривява картината. Вероятно имаше една книга, в която се споменава оцет пай, а току-що е усреднено, за да се избегне скок. Като нагласим изглаждането до 0, можем да видим, че точно такъв е случаят. Спайк центрове на 1869, а има и още един скок през 1897 и 1900.
Малко вероятно е никой да не говори за оцет пай през останалото време: имаше вероятно рецепти плаващи навсякъде, но хората просто не пиша за тях в книгите и това е важно ограничение на тези търсения на Нгр.