- 印刷する
- PDF
CLOVA Studio とは
- 印刷する
- PDF
Classic/VPC環境で利用できます。
CLOVA Studioを利用する全体シナリオを学習する前に、CLOVA Studioについてのいくつかの概念を説明します。ここで説明する主な概念は、次の通りです。
CLOVA Studioの概念を円滑に理解するために、CLOVA Studio の用語をご参照ください。
プロンプトと結果値
プロンプトとは、CLOVA Studioでタスクを行うために入力する必要のある内容を意味します。CLOVA Studioで入力したプロンプトに基づいて、HyperCLOVA言語モデルが結果値を作成します。HyperCLOVA言語モデルは確率をもとに動作するため、同じプロンプトを入力しても異なる結果値を作成できます。
例) プロンプトに「夕焼け小焼けの赤とんぼ」を入力した場合、高い確率で「追われてみたのはいつの日か」という結果値が作成されます。
トークン
トークンとは、自然言語処理のために1つの単語を分割した単語のパーツを意味します。通常韓国語の単語は、形態素単位の1~2トークンに分けられます。HyperCLOVA言語モデルが学習した内容に合わせてトークンを分けるため、同じ表現が常に同じトークンで構成されるわけではありません。
例) 「赤とんぼ」という表現はそれぞれ「赤」と「とんぼ」という2つのトークンに分けられます。
確率的言語モデル
確率的言語モデルとは、確率に基づいて次に出てくる単語を予測できる言語モデルを意味します。CLOVA Studioで使用する HyperCLOVA言語モデルは確率的言語モデルであり、確率に基づいて結果値を作成します。
例) プロンプトに自然を描写してほしいと入力した場合、結果値の最初のトークンが「あの」に選択された場合、後に来る単語として「木」、「花」、「山」を予測できます。このとき、各単語ごとに確率が存在し、HyperCLOVA言語モデルは、この中で最も確率が高い「木」と「に」を選択して、「あの木に」という結果を作成する原理で動作します。
パラメータ
パラメータとは、フレーズを作成するためにプレイグラウンドで設定する値を意味し、プレイグラウンドの左サイドバーで設定できます。パラメータ項目は、次の通りです。
- Engine
- Top K
- Top P
- Maximum tokens
- Temperature
- Repetition penalty
- Stop sequences
- Seed
- Inject start text
- Inject restart text
- Show probabilities
Engine
Engine(以下、エンジン)は、CLOVA Studioでフレーズを作成する際に使用する言語モデルです。CLOVA Studioは韓国語エンジンである LK-B、LK-C、LK-D2と英語エンジンである LE-C、そして HyperCLOVA Xエンジンである HCX-002を提供します。
プレイグラウンドの一般モードで提供される LKエンジンは、モデルのサイズが大きくなるほどパフォーマンスが向上しますが、速度が遅くなることがあります。プレイグラウンドのチャットモードで提供する HCXエンジンは、会話型タスク遂行能力に優れた一段とアップグレードされたエンジンです。
- 韓国語エンジンのモデルサイズ
LK-B < LK-C < LK-D2 - 韓国語エンジンのモデル速度
LK-D2 < LK-C < LK-B - HyperCLOVA X単一モデル
HCX-002
Top K
Top Kは、自然言語処理モデルが予測したトークンの選択確率分布で確率値が最も高い K個の中で1つを選択したとき使用する基準値です。Top Kは特殊な場合を除き、0に設定することをお勧めします。
例) Top K=5の場合、最も高い確率値が5つのトークンの中から1つのトークンが選択されます。このとき、最も確率値が高いトークンが選択される可能性が高いですが、場合によって確率値がより低いトークンが選択されることもあります。
Top P
Top Pは、選択確率値が高いトークンを順に並べた後、設定した累積確率値に含まれないトークンを削除するときに使用する基準値です。Top Pは特殊な場合を除き、0.8~1に設定することをお勧めします。
例) Top P=0.8の場合、累積確率値が上位80%に含まれたトークンのみを候補として選択します。
Maximum tokens
Maximum tokensは、結果値を作成するときに使用する最大トークン数です。トークン数を高く設定するほど長い結果値を出力します。プロンプトと結果値を含め、一般モードで提供する言語モデルの場合は最大2048トークンまで、チャットモードで提供する HyperCLOVA X言語モデルの場合は最大4096トークンまで許可します。
Temperature
Temperatureは、確率分布に重み付けの変化を与え、文章の多様性を調整する値です。Temperatureを低く設定すると候補に含まれたトークンの順位は変わりませんが、確率が高かったトークンはより確率値が高くなり、低かったトークンは確率値がより低くなります。最も高い順位のトークンが選択される可能性が高いため、定型的な結果値を作成します。一方、Temperatureを高く設定すると各トークンの確率値の差が小さくなるため様々な文章を作れますが、ルールから少し外れる文章を作成することもあり、品質が多少落ちることもあります。したがって、Top P値を固定しておいた状態で Temperatureを必要に応じて調整することをお勧めします。
- Temperature値が低い場合
- Temperature値が高い場合
Repetition penalty
Repetition penaltyは、CLOVA Studioでフレーズを作成するときに繰り返し結果値を作成しないように、繰り返されるトークンにはペナルティを与える値です。Repetition penaltyが高いほど同じ結果値を繰り返し作成する確率が減少します。
Stop sequences
Stop sequencesは、結果作成を中断するときに使用する文字列です。Stop sequencesは複数登録でき、CLOVA Studioが結果を作成する際に Stop sequencesのいずれかが結果に含まれる場合、その以前までの内容のみ出力されます。
例) プロンプトを「夕焼け小焼けの赤とんぼ」と入力し、Stop sequencesに「いつの日か」という文字列を追加すると「追われてみたのは」までのみ結果に出力され、「いつの日か」からは出力されません。
Seed
Seedとは、結果値の一貫性を調整する値です。Seedの値が同じ場合、確率的言語モデルを複数回行っても同じ結果を得られます。
ただし、結果の完全性が保証されるものではなく、異なる条件を微細に調整すると結果は少々異なる可能性があります。
Seedの値を「0」に指定する場合、結果はランダムに出力されます。
Inject start text
Inject start textは、CLOVA Studioが出力する結果値の前に常に出力されるテキストです。
例) ユーザーと CLOVA間の会話をするフレーズを作成する時、プロンプトに「ユーザー: 今日の天気を教えて」を入力し、Inject start textに「CLOVA:」を設定して話者を区分できます。
Inject restart text
Inject restart textは、CLOVA Studioが出力する結果値の末尾に常に出力されるテキストです。
例) Inject restart textに「ユーザー:」を設定すると、最初に入力したプロンプトの結果値とともに「ユーザー:」が出力され、次のプロンプト入力時に「ユーザー:」を入力しなくてすみます。
Show probabilities
Show probabilitiesは、作成された各トークンが選択される確率を表示するように設定するオプションです。他の候補値に何があるか確認できます。
Generation type
Generation typeは、結果値の作成方式です。Generation typeの種類と説明は、次の通りです。
Rolling
Rollingはプロンプトを入力後、結果値を作成した後にもう一度作成しようとしたとき、それまでに作成された結果値をもう一度プロンプトの一部として認識して作成する方式です。最初に入力したプロンプトの後に作成された結果値はユーザーが入力したものではないため、作成を繰り返すほど最初のプロンプトを入力した時に意図していた方向から外れることがあります。
### One-time
One-timeは、プロンプトを入力して作成した結果値をエディタ領域にただちに出力せずプレビューの形で表示し、結果値を確認した後にエディタ領域に適用できる方式です。
Multiple
Multipleは、プロンプトを入力して結果値を作成する際に指定した数字の分だけ結果値を作成した後、適用する結果値を選択できる方式です。
Examples
Examplesは、プロンプトを入力して結果値を作成するときに希望する回答に近い内容を追加で入力し、意図した方向に近い結果値を得られる方式です。
チューニング
チューニングは、事前に学習されたモデルパラメータの一部をユーザーの目的に合わせて変形し、ユーザーのデータについてモデルの一部を再学習する方式です。ユーザーは一定量の学習/検証データセットを投入し、チューニングを通じて目的のタスクタイプとデータに最適化されたモデルを学習してテストできます。このようにアップデートされたモデルを API化し、新しいデータと様々な目的に合わせて活用できます。
タスク
タスクは、チューニングを行う基準単位です。ユーザーは1つのタスクごとに1つのタスクタイプ、言語、モデルエンジンをそれぞれ選択します。その後ユーザーデータセットを通じて学習を行い、タスクタイプ、言語、モデルエンジン、データセットに最適化されたモデルを作成します。
テストアプリ
テストアプリとは、テストあるいはサービスの可能性をチェックする用途で一時 APIを提供するアプリを意味します。使用制限(期間、呼び出し量)があり、テストアプリを実際のサービスに適用するとサービスの品質に問題が発生することがあるため、テストアプリを実サービスに使用するとブロックされます。ベータ期間には付与されたトークンの数だけテストアプリを使用できます。
サービスアプリ
サービスアプリは、CLOVA Studio APIにアクセスでき、実際にユーザーが利用できるように提供されるアプリです。サービスアプリの審査発行手順を経た後に承認を得るとキーを発行し、審査内容と異なる目的でサービスアプリを使用すると、事前通知なしにアプリ提供をブロックします。