- 印刷する
- PDF
CLOVA Studio JP とは
- 印刷する
- PDF
Classic/VPC環境で利用できます。
CLOVA Studio JP を利用する全体シナリオを学習する前に、CLOVA Studio JPについてのいくつかの概念を説明します。ここで説明される主な概念は、次の通りです。
CLOVA Studio JPの概念を円滑に理解するため、CLOVA Studio JP の用語をご参照ください。
プロンプトと結果値
プロンプトとは、CLOVA Studio JPでタスクを行うために入力する必要のある内容を意味します。CLOVA Studio JPで入力したプロンプトに基づいて、HyperCLOVA言語モデルが結果値を作成します。HyperCLOVA言語モデルは確率を基盤に作動するため、同じプロンプトを入力しても異なる結果値を作成できます。
例) プロンプトに「夕焼け小焼けの赤とんぼ」を入力した場合、高い確率で「追われてみたのはいつの日か」という結果値が作成されます。
トークン
トークンとは、自然言語処理のために一つの単語を分割した単語のパーツを意味します。通常韓国語の単語は、形態素単位の1~2トークンに分けられます。HyperCLOVA言語モデルが学習した内容に合わせてトークンを分けるため、同じ表現が常に同じトークンで構成されるわけではありません。
例) 「赤とんぼ」という表現はそれぞれ「赤」と「とんぼ」という2つのトークンに分けられます。
確率基盤の言語モデル
確率基盤の言語モデルとは、確率に基づいて次に出てくる単語を予測できる言語モデルを意味します。CLOVA Studio JPで使用する HyperCLOVA言語モデルは確率基盤の言語モデルであり、確率に基づいて結果値を作成します。
例) プロンプトに自然を描写してほしいと入力した場合、結果値の最初のトークンが「あの」に選択された場合、後に来る単語として「木」、「花」、「山」を予測できます。このとき、各単語ごとに確率が存在し、HyperCLOVA言語モデルは、この中で最も確率が高い「木」と「に」を選択して、「あの木に」という結果を作成する原理として作動します。
パラメータ
パラメータとは、フレーズを作成するためにプレイグラウンドで設定する値を意味し、プレイグラウンドの左サイドバーで設定できます。パラメータ項目は、次の通りです。
- Engine
- Top K
- Top P
- Maximum tokens
- Temperature
- Repetition penalty
- Stop sequences
- Inject start text
- Inject restart text
- Show probabilities
Engine
Engine(以下、エンジン)は、CLOVA Studio JPでフレーズを作成する際に使用する言語モデルです。CLOVA Studio JPは日本語エンジンである LJ-B、LJ-C、LJ-D を提供し、ユーザーはその中から1つ選択できます。モデルのサイズが大きくなるほど性能がよくなりますが、速度が落ちることがあります。
- 日本語エンジンのモデルサイズ
LJ-B < LJ-C < LJ-D - 日本語エンジンのモデル速度
LJ-D < LJ-C < LJ-B
Top K
Top Kは、自然言語処理モデルが予測したトークンの選択確率分布で確率値が最も高い K個の中で1つを選択したとき使用する基準値です。Top Kは特殊な場合でなければ0に設定することをお勧めします。
例) Top K=5の場合、最も高い確率値が5つのトークンの中から1つのトークンが選択されます。このとき、最も確率値が高いトークンが選択される可能性が高いですが、場合によって確率値がより低いトークンが選択されることもあります。
Top P
Top Pは、選択確率値が高いトークンを順に並べた後、設定した累積確率値に含まれないトークンを除去するときに使用する基準値です。Top Pは特殊な場合でなければ0.8~1に設定することをお勧めします。
例) Top P=0.8の場合、累積確率値が上位80%に含まれたトークンのみを候補として選択します。
Maximum tokens
Maximum tokensは、結果値を作成するときに使用する最大トークン数です。トークン数を高く設定するほど長い結果値を出力します。プロンプトと結果値を含めて最大2048トークンまでのみ許可されます。
Temperature
Temperatureは、確率分布にウェイトを付与し、文章の多様性を調節する値です。Temperatureを低く設定すると候補に含まれたトークンの順位は変わりませんが、確率が高かったトークンはより確率値が高くなり、低かったトークンは確率値がより低くなります。最も高い順位のトークンが選択される可能性が高いため、定型的な結果値を作成します。一方、Temperatureを高く設定すると各トークンの確率値の差が小さくなり、様々な文章を作れますが、規則から少し外れる文章を作成することもあり、品質が多少落ちることもあります。したがって、Top P値を固定しておいた状態で Temperatureを必要に応じて調節することをお勧めします。
Repetition penalty
Repetition penaltyは、CLOVA Studio JPでフレーズを作成するときに反復的な結果値を作成しないように、繰り返されるトークンにはペナルティを与える値です。Repetition penaltyが高いほど同じ結果値を反復的に作成する確率が減少します。
Stop sequences
Stop sequencesは、結果作成を中断するときに使用する文字列です。Stop sequencesは複数登録でき、CLOVA Studio JPが結果を作成する際に Stop sequencesのいずれかが結果に含まれる場合、その以前までの内容のみ出力されます。
例) プロンプトを「夕焼け小焼けの赤とんぼ」と入力し、Stop sequencesに「いつの日か」という文字列を追加すると「追われてみたのは」までのみ結果に出力され、「いつの日か」からは出力されません。
Inject start text
Inject start textは、CLOVA Studio JPが出力する結果値の前に常に出力されるテキストです。
例) ユーザーと CLOVA間の会話をするフレーズを作成する時、プロンプトに「ユーザー: 今日の天気を教えて」を入力し、Inject start textに「CLOVA:」を設定して話者を区分できます。
Inject restart text
Inject restart textは、CLOVA Studio JPが出力する結果値の後ろに常に出力されるテキストです。
例) Inject restart textに「ユーザー:」を設定すると、最初に入力したプロンプトの結果値とともに「ユーザー:」が出力され、次のプロンプト入力時に「ユーザー:」を入力しなくてすみます。
Show probabilities
Show probabilitiesは、作成された各トークンが選択される確率を表示するように設定するオプションです。他の候補値に何があるか確認できます。
Generation type
Generation typeは、結果値の作成方式です。Generation typeの種類と説明は、次の通りです。
Rolling
Rollingはプロンプトを入力後、結果値を作成した後にもう一度作成しようとしたとき、それまでに作成された結果値をもう一度プロンプトの一部として認識して作成する方式です。最初に入力したプロンプトの後に作成された結果値はユーザーが入力したものではないため、作成を繰り返すほど最初のプロンプトを入力した時に意図していた方向から外れることがあります。
One-time
One-timeは、プロンプトを入力して作成した結果値をエディタ領域にただちに出力せずプレビューの形で表示し、結果値を確認した後にエディタ領域に適用できる方式です。
Multiple
Multipleは、プロンプトを入力して結果値を作成する際に指定した数字の分だけ結果値を作成した後、適用する結果値を選択できる方式です。
Examples
Examplesは、プロンプトを入力して結果値を作成するときに希望する回答に近い内容を追加で入力し、意図した方向に近い結果値を得られる方式です。
チューニング
チューニングとは、事前に学習されたモデルパラメータの一部をユーザーの目的に合わせて変形し、ユーザーのデータについてモデルの一部を再学習する方式を意味します。ユーザーは一定量の学習/検証データセットを投入し、チューニングを通じて希望するタスクタイプとデータに最適化されたモデルを学習し、テストできます。このようにアップデートされたモデルを API化し、新しいデータと様々な目的に合わせて活用できます。
タスク
タスクとは、チューニングを行う基準単位を意味します。ユーザーは一つのタスク当たり一つのタスクタイプ、言語、モデルエンジンをそれぞれ選択します。その後ユーザーデータセットを通じて学習を行い、タスクタイプ、言語、モデルエンジン、データセットに最適化されたモデルを作成します。
テストアプリ
テストアプリとは、テストあるいはサービスの可能性をチェックする用途で臨時の APIを提供するアプリを意味します。使用制限(期間、呼び出し量)があり、テストアプリを実際のサービスに適用するとサービスの品質に問題が発生することがあるため、テストアプリを実サービスに使用するとブロックされます。ベータ期間には付与されたトークンの数だけテストアプリを使用できます。
サービスアプリ
サービスアプリとは、CLOVA Studio JP APIにアクセスでき、実際にユーザーが利用できるように提供されるアプリを意味します。サービスアプリの審査発行手順を経た後に承認を得るとキーを発行し、審査内容と異なる目的でサービスアプリを使用すると、事前通知なしにアプリ提供をブロックします。