トークン
トークンとは、LLMが文章を処理する最小単位。「単語」より細かく、英語なら約4文字 = 1トークン、日本語なら1〜2文字 = 1トークンが目安。API料金もトークン単位で決まります。
トークン
ひと言で: AIが文章を扱う「最小単位」のこと。料金もここで決まります。
トークンとは
トークン(Token)は、LLMが文章を処理する際に分割する最小単位です。単語よりやや細かい区切りで、
- 英語: 約4文字 ≒ 1トークン("hello" = 1トークン、"unbelievable" = 2〜3トークン)
- 日本語: 1〜2文字 ≒ 1トークン(漢字熟語などは1トークンになることも)
OpenAI・Anthropic・Googleなど主要LLMは、入力(プロンプト)と出力(回答)の両方をトークン単位で処理し、 APIの料金もトークン数で課金 されます。
なぜ重要か
LLMには「コンテキスト長(処理できるトークン数の上限)」があり、長い文章を入れると古い部分が忘れられたり処理しきれなかったりします(例: GPT-4は8K〜128Kトークン、Claudeは200K〜1Mトークン)。LLMO観点では コンテンツが適切な長さで意味のあるブロックに区切られているか が、AIに正しく理解・引用されるかに影響します。
例・具体例
- 「こんにちは、世界!」 ≒ 5〜7トークン
- 1000文字の日本語記事 ≒ 700〜1500トークン程度
- OpenAIの公式トークナイザー(tiktoken / Tokenizer Tool)で正確に確認可能
初心者向けまとめ
- トークン = LLMが扱う最小単位
- 日本語は1〜2文字で1トークン
- API料金とコンテキスト長を決める基本単位
関連用語
もっと詳しく
関連用語
- AI Overview(AIオーバービュー)
AI Overviewとは、Google検索結果の最上部にAI(Gemini)が要約回答を表示する機能。2024年5月から米国で本格導入され、2024年8月以降日本を含む各国に拡大。SEO/LLMOの最重要トピックです。
- AEO(Answer Engine Optimization)
AEOとは「Answer Engine Optimization(回答エンジン最適化)」の略。フィーチャードスニペット・音声検索・AI回答など、ユーザーの質問に直接答える形式の検索結果に最適化する取り組みです。
- SGE(Search Generative Experience)
SGEとは「Search Generative Experience(検索生成体験)」の略で、Googleが2023年に発表した生成AI検索の実験名。2024年5月にAI Overviewへリブランドされ、現在はSGE = AI Overviewと考えてOKです。
- LLM(大規模言語モデル)
LLMとは「Large Language Model(大規模言語モデル)」の略で、膨大なテキストデータで学習された巨大なAIモデル。ChatGPT、Gemini、Claudeなどの中身がLLMで、現代の生成AIの中核技術です。