Bis zu 50 % günstiger als neu 3 Jahre rebuy Garantie Professionelles Refurbishment
ElektronikMedien
Tipps & News
AppleAlle anzeigen
TabletsAlle anzeigen
HandyAlle anzeigen
Fairphone
AppleAlle anzeigen
iPhone Air Generation
GoogleAlle anzeigen
Pixel Fold
HonorAlle anzeigen
HuaweiAlle anzeigen
Honor SerieY-Serie
NothingAlle anzeigen
OnePlusAlle anzeigen
OnePlus 11 GenerationOnePlus 12 Generation
SamsungAlle anzeigen
Galaxy XcoverWeitere Modelle
SonyAlle anzeigen
Weitere Modelle
XiaomiAlle anzeigen
Weitere Modelle
Tablets & eBook ReaderAlle anzeigen
Google
AppleAlle anzeigen
HuaweiAlle anzeigen
MatePad Pro Serie
MicrosoftAlle anzeigen
XiaomiAlle anzeigen
Kameras & ZubehörAlle anzeigen
ObjektiveAlle anzeigen
System & SpiegelreflexAlle anzeigen
WearablesAlle anzeigen
Fitness TrackerAlle anzeigen
SmartwatchesAlle anzeigen
Xiaomi
Konsolen & ZubehörAlle anzeigen
Lenovo Legion GoMSI Claw
NintendoAlle anzeigen
Nintendo Switch Lite
PlayStationAlle anzeigen
XboxAlle anzeigen
Audio & HiFiAlle anzeigen
KopfhörerAlle anzeigen
FairphoneGoogle
LautsprecherAlle anzeigen
Beats by Dr. DreGoogleYamahatonies
iPodAlle anzeigen

Handgeprüfte Gebrauchtware

Bis zu 50 % günstiger als neu

Der Umwelt zuliebe

Optischer Zustand
Beschreibung
The World Wide Web constitutes the largest existing source of texts written in a great variety of languages. A feasible and sound way of exploiting this data for linguistic research is to compile a static corpus for a given language. There are several adavantages of this approach: (i) Working with such corpora obviates the problems encountered when using Internet search engines in quantitative linguistic research (such as non-transparent ranking algorithms). (ii) Creating a corpus from web data is virtually free. (iii) The size of corpora compiled from the WWW may exceed by several orders of magnitudes the size of language resources offered elsewhere. (iv) The data is locally available to the user, and it can be linguistically post-processed and queried with the tools preferred by her/him. This book addresses the main practical tasks in the creation of web corpora up to giga-token size. Among these tasks are the sampling process (i.e., web crawling) and the usual cleanups including boilerplate removal and removal of duplicated content. Linguistic processing and problems with linguistic processing coming from the different kinds of noise in web corpora are also covered. Finally, the authors show how web corpora can be evaluated and compared to other corpora (such as traditionally compiled corpora). For additional material please visit the companion website: sites.morganclaypool.com/wcc Table of Contents: Preface / Acknowledgments / Web Corpora / Data Collection / Post-Processing / Linguistic Processing / Corpus Evaluation and Comparison / Bibliography / Authors' Biographies
35,30 €
Broschiert | Neu

oder

Auf Lager Versandbereit in 2-3 Werktagen
zzgl.

Du kannst wie immer einen Kaufalarm setzen, wenn du auf das gebrauchte Buch warten möchtest.

Auf Lager Versandbereit in 2-3 Werktagen
zzgl.

Handgeprüfte Gebrauchtware

Bis zu 50 % günstiger als neu

Der Umwelt zuliebe

Technische Daten


Erscheinungsdatum
22.07.2013
Sprache
Englisch
EAN
9783031010248
Herausgeber
Springer International Publishing
Titel in Originalsprache
Web Corpus Construction
Serien- oder Bandtitel
Synthesis Lectures on Human Language Technologies
Sonderedition
Nein
Autor
Roland Schäfer, Felix Bildhauer
Seitenanzahl
129
Auflage
1

Hersteller: Springer Nature Customer Service Center GmbH, ProductSafety@springernature.com

Warnhinweise und Sicherheitsinformationen

Informationen nach EU Data Act

-.-
Leider noch keine Bewertungen
Leider noch keine Bewertungen
Schreib die erste Bewertung für dieses Produkt!
Wenn du eine Bewertung für dieses Produkt schreibst, hilfst du allen Kund:innen, die noch überlegen, ob sie das Produkt kaufen wollen. Vielen Dank, dass du mitmachst!