Tokenisierung

Definition - Was bedeutet Tokenisierung?

Tokenisierung ist der Vorgang des Aufbrechens einer Folge von Zeichenfolgen in Teile wie Wörter, Schlüsselwörter, Phrasen, Symbole und andere Elemente, die als Token bezeichnet werden. Token können einzelne Wörter, Phrasen oder sogar ganze Sätze sein. Bei der Tokenisierung werden einige Zeichen wie Satzzeichen verworfen. Die Token werden zur Eingabe für einen anderen Prozess wie Parsen und Text Mining.

Tokenisierung wird in der Informatik verwendet, wo sie eine große Rolle im Prozess der lexikalischen Analyse spielt.

Technische.me erklärt Tokenization

Die Tokenisierung basiert hauptsächlich auf einfachen Heuristiken, um Token in wenigen Schritten zu trennen:

  • Token oder Wörter werden durch Leerzeichen, Satzzeichen oder Zeilenumbrüche getrennt
  • Leerzeichen oder Satzzeichen können je nach Bedarf enthalten sein oder nicht
  • Alle Zeichen in zusammenhängenden Zeichenfolgen sind Teil des Tokens. Token können nur aus allen Alpha-Zeichen, alphanumerischen Zeichen oder numerischen Zeichen bestehen.

Token selbst können auch Trennzeichen sein. In den meisten Programmiersprachen können Bezeichner beispielsweise zusammen mit arithmetischen Operatoren ohne Leerzeichen platziert werden. Obwohl es so aussieht, als würde dies als ein einzelnes Wort oder Token erscheinen, betrachtet die Grammatik der Sprache den mathematischen Operator (ein Token) tatsächlich als Trennzeichen. Selbst wenn mehrere Token zusammengefasst sind, können sie dennoch über das mathematische getrennt werden Operator.