CLOVA Studio とは

Classic/VPC環境で利用できます。

CLOVA Studioを利用する全体シナリオを学習する前に、CLOVA Studioについてのいくつかの概念を説明します。

プロンプトと結果値

プロンプトとは、CLOVA Studioでタスクを行うために入力する必要のある内容を意味します。CLOVA Studioで入力したプロンプトに基づいて、HyperCLOVA X言語モデルが結果値を作成します。HyperCLOVA X言語モデルは確率に基づいて動作するため、同じプロンプトを入力しても異なる結果が作成されることがあります。
例) プロンプトに「夕焼け小焼けの赤とんぼ」を入力した場合、高い確率で「追われてみたのはいつの日か」という結果値が作成されます。

トークン

トークンとは、自然言語処理のために1つの単語を分割した単語のパーツを意味します。通常韓国語の単語は、形態素単位の1~2トークンに分けられます。HyperCLOVA X言語モデルが学習した内容に合わせてトークンを分けるため、同じ表現が常に同じトークンで構成されるわけではありません。
例) 「赤とんぼ」という表現はそれぞれ「赤」と「とんぼ」という2つのトークンに分けられます。

確率的言語モデル

確率的言語モデルとは、確率に基づいて次に出てくる単語を予測できる言語モデルを意味します。CLOVA Studioで使用する HyperCLOVA X言語モデルは確率的言語モデルであり、確率に基づいて結果値を作成します。
例) プロンプトに自然を描写してほしいと入力した場合、結果値の最初のトークンが「あの」に選択された場合、後に来る単語として「木」、「花」、「山」を予測できます。このとき、各単語ごとに確率が存在し、HyperCLOVA言語モデルは、この中で最も確率が高い「木」と「に」を選択して、「あの木に」という結果を作成する原理で動作します。

パラメータ

パラメータとは、フレーズを作成するためにプレイグラウンドで設定する値を意味し、プレイグラウンドの左サイドバーで設定できます。パラメータ項目は、次の通りです。

Model

Model(以下、モデル)は、CLOVA Studioでフレーズを作成する際に使用する言語モデルです。CLOVA Studioは、複雑な問題を深く理解して推論に特化した HCX-007、軽量化された HCX-DASH-002モデル、画像の解釈と理解が可能なマルチモーダルモデル HCX-005を提供します。プレイグラウンドや Chat Completions v3 APIを通じて使用できます。

Thinking

Thinkingは、モデルが最終的なレスポンスを作成する前に、質問の理解と解決のための推論プロセスを実行する方式です。このプロセスにより、モデルがレスポンスに到達するまでの判断のフローや根拠を確認できます。Thinkingの長さは「短い」、「普通」、「長い」のオプションで調整でき、タスクの複雑さや目的に応じて適切なレベルに設定できます。複雑な問題を分割し、関連する知識を組み合わせて解決の方向性を見出すプロセスが推論によって行われます。HCX-007モデルの選択時のみ有効になります。

Top P

Top Pは、選択確率値が高いトークンを順に並べた後、設定した累積確率値に含まれないトークンを削除するときに使用する基準値です。Top Pは特殊な場合でなければ0.8~1に設定することをお勧めします。
例) Top P=0.8の場合、累積確率値が上位80%に含まれたトークンのみを候補として選択します。

Top K

Top Kは、自然言語処理モデルが予測したトークンの選択確率分布で確率値が最も高い K個の中で1つを選択したとき使用する基準値です。Top Kは特殊な場合を除き、0に設定することをお勧めします。
例) Top K=5の場合、最も高い確率値が5つのトークンの中から1つのトークンが選択されます。このとき、最も確率値が高いトークンが選択される可能性が高いですが、場合によって確率値がより低いトークンが選択されることもあります。

Max tokens

Max tokensは、結果値を作成するときに使用する最大出力トークン数です。トークン数を高く設定するほど長い結果値を出力します。

モデル	許容範囲
HCX-007	入力トークンと出力トークンの合計は最大128000トークンまで可能入力トークンは最大128000トークンまで可能モデルにリクエストする出力トークン(`maxCompletionTokens`、推論のための作成トークンを含む)は最大32,768トークンまで設定
HCX-005	入力トークンと出力トークンの合計は最大128000トークンまで可能入力トークンは最大128000トークンまで可能モデルにリクエストする出力トークン(`maxTokens`)は最大4096トークンまで設定
HCX-003	入力トークンと出力トークンの合計は最大8192トークンまで可能入力トークンは最大7600トークンまで可能モデルにリクエストする出力トークン(`maxTokens`)は最大4096トークンまで設定
HCX-DASH-002	入力トークンと出力トークンの合計は最大32000トークンまで可能入力トークンは最大32000トークンまで可能モデルにリクエストする出力トークン(`maxTokens`)は最大4096トークンまで設定
HCX-DASH-001	入力トークンと出力トークンの合計は最大4096トークンまで可能入力トークンは最大3500トークンまで可能モデルにリクエストする出力トークン(`maxTokens`)は最大4096トークンまで設定

Max tokensの設定値は、タスクによって異なる場合があります。実際に必要な結果値トークン数に対して過剰に設定された場合、不要な出力の長さにより予想外の課金が発生したり処理時間が長くなることがあり、(CLOVA Studio利用量制限ポリシー)の TPM最大利用量超過によるリクエスト未処理がより頻繁に発生する可能性があります。

Temperature

Temperatureは、確率分布に重み付けの変化を与え、文章の多様性を調整する値です。Temperatureを低く設定すると候補に含まれたトークンの順位は変わりませんが、確率が高かったトークンはより確率値が高くなり、低かったトークンは確率値がより低くなります。最も高い順位のトークンが選択される可能性が高いため、定型的な結果値を作成します。一方、Temperatureを高く設定すると各トークンの確率値の差が小さくなるため様々な文章を作れますが、ルールから少し外れる文章を作成することもあり、品質が多少落ちることもあります。したがって、Top P値を固定しておいた状態で Temperatureを必要に応じて調整することをお勧めします。

Temperature値が低い場合
Temperature値が高い場合

Repetition penalty

Repetition penaltyは、言語モデルがフレーズを作成するときに繰り返し結果値を作成しないように、繰り返されるトークンにはペナルティを与える値です。Repetition penaltyが高いほど同じ結果値を繰り返し作成する確率が減少します。1.0~1.1の範囲で0.05単位で微調整することをお勧めします。

Stop sequences

Stop sequencesは、結果作成を中断するときに使用する文字列です。Stop sequencesは複数登録でき、言語モデルが結果を作成する際に Stop sequencesのいずれかが結果に含まれる場合、その以前までの内容のみ出力されます。
例) プロンプトを「夕焼け小焼けの赤とんぼ」と入力し、Stop sequencesに「いつの日か」という文字列を追加すると「追われてみたのは」までのみ結果に出力され、「いつの日か」からは出力されません。

Seed

Seedとは、結果値の一貫性を調整する値です。Seedの値が同じ場合、確率的言語モデルを複数回行っても同じ結果を得られます。
ただし、結果の完全性が保証されるものではなく、異なる条件を微細に調整すると結果は少々異なる可能性があります。
Seedの値を「0」に指定する場合、結果はランダムに出力されます。

チューニング

チューニングは、事前に学習されたモデルパラメータの一部をユーザーの目的に合わせて変形し、ユーザーのデータについてモデルの一部を再学習する方式です。ユーザーは一定量の学習/検証データセットを投入し、チューニングを通じて目的のタスクタイプとデータに最適化されたモデルを学習してテストできます。このようにアップデートされたモデルを API化し、新しいデータと様々な目的に合わせて活用できます。

タスク

タスクは、チューニングを行う基準単位です。ユーザーは1つのタスクごとに1つのタスクタイプ、言語、モデルをそれぞれ選択します。その後、ユーザーデータセットを通じて学習を行い、タスクタイプ、データセットに最適化されたモデルを作成できます。

Function calling

言語モデルが自ら解決できない質問に正確な回答を提供できるように、外部システムや APIから必要な情報を取得する機能です。API、スクリプト、オープンソースライブラリ、データベース、ローカル PCとクラウドに保存されたファイルなど、様々なリソースと連携し、顧客の様々な要件に対する柔軟な処理が可能です。外部から情報を取得するという点ではスキルと似ていますが、スキルはスキルトレーナー内に APIを直接登録して最終回答まで作成するのに対し、Function callingは言語モデルが判断した結果値を基に外部 APIを直接呼び出す方式で、ユーザーの質問から必要なパラメータだけを取得して活用します。

Structured Outputs

Structured Outputは、言語モデルが非構造化されたテキストの代わりに、ユーザーが定義した JSON Schema規格に合わせて構造化されたデータを作成する機能です。ユーザーがレスポンス形式(フィールド名、データ型、有効範囲など)を詳細に指定してスキーマを定義すると、モデルはそれに基づいて正確な JSONオブジェクトを作成します。この機能により、作成されたデータは簡単な検証だけで APIリクエストボディ、データベース入力値、システムログなど様々な用途にすぐに活用でき、後処理に必要なリソースを効果的に削減できます。

サービスアプリ

サービスアプリは、外部にリリースしたり商用環境で活用できるように構成されたアプリを意味します。サービスアプリに登録するためには、別途の申し込み・発行の手続きが必要です。利用量制限ポリシーに基づき、サービスアプリの有無によって最大利用可能なリクエスト数とトークン使用量が異なり、当該ポリシーはサービスの安定性とリソースの公正な使用を保証するために適用されます。