CUEBiC TEC BLOG

キュービックTECチームの技術ネタを投稿しております。

【話題のAI領域】ChatGPTの論文を読んでGPT-4の性能を分析!初心者が使えるプロンプト活用例も!

こんにちは!キュービックインターンのguparupaです。この記事は世間で話題となっているOpenAIのChatGPTについて短く簡潔に書きます!

OpenAIが出している論文『GPT-4 Techical Report 』の内容に沿ってChatGPT-3.5と4.0の違いもみながらGPT-4の機能について見ていきましょう!

ちなみに、MM総研調べによると、ChatGPTの業務利用は日本で7%、さらに約半数は「知らない」というのが現状(日米企業のChatGPT利用率に開き )です。

こんな人に読んでほしい!
  • GPT-3.5と4の違いがわからない、知りたい方
  • GPT-4での日本語の精度はどれくらいなのか知りたい
  • GPTの限界は?
  • テキストと画像の精度の違いは?
  • メディア事業のキュービックが行なっているAIの取り組みと展望を知りたい

目次

1. ChatGPTの仕組み

 難しい話は全くしません。ChatGPTは一般に公開されているデータ(インターネットデータなど)と第三者サービスプロバイダからライセンスを受けたデータの両方を使用して、次のトークンを予測するように事前に訓練されています。その後、人間のフィードバックによって強化学習を利用します。

 例えば、「apple」というトークンに対して、次のトークンの予測確率が
( juice , pie , banana )=( 0.4 , 0.5 , 0.1 )
となった場合、「pie」が選ばれます。このようにして確立が高いものを順々に並べていって文章を作成していきます。実際にはもっと複雑ですので参考程度に考えてください。

2. GPT-4の機能

GPT-4.0の機能を3.5と比較してみていきます。性能が全く違くて驚くと思います😳

2-1. GPT-4が人間の試験に挑戦

試験に関する図をどーん。

(OpenAI 2023)

 まずは成績の比較で見ていきましょう。緑がGPT-4で青がGPT-3.5になっています。図はGPT-3.5の下限値が小さい順に並んでいます。

この結果を見ると、GPT-4の性能が高いことがわかるでしょう。GPT-4はほとんどの試験でGPT-3.5を上回っており、司法試験の模擬試験では受験者の上位10%に入るスコアで合格をしています。GPT-3.5は下位10%という結果となっています。試験などの専門性の高いものに強いイメージがありますね。

図を見ると、専門分野が強い一方、弱い一面もあります。さほど試験結果の良くないAMC10,12、Codeforces Ratingの共通点は競争的な評価になっています。専門分野にも関わらず、点数ではなく、競争の観点で評価される試験は結果が出ない傾向になっています。

2-2. 言語によるGPT-4.0の比較

言語ごとのGPT-3.5と4の違いの図をどーん

(OpenAI 2023)

 比較対象は「GPT-3.5-English(青色)」になっています。GPT-4は緑色です。3.5の英語での回答の正確さは70.1%となっており、4.0では85.5%となっています。さらに4.0で日本語を利用しても回答の正確さが79.9%と、GPT-3.5よりも性能が高くなっていることが分かります。

 個人的にはとてもびっくりな結果で英語の精度が高いのは知っていましたが、日本語でもGPT-4を使うと性能が十分得られていることが分かります。精度が高い順番がこのようになっているのはデータセットの数もありますが、文法の複雑さも関係していると思われます。英語は単純な文法として有名ですし、イタリア語やフランス語、ドイツ語などは英語より複雑な文法になっています。日本語は「ひらがな・カタカナ・漢字」であり、複雑な文法になっているので精度が低くなっていると推測できます。英語が得意な方は英語で質問することをおすすめします。

2-3. GPT-4は画像にも強い

 GPT-4は画像とテキストの両方からなるプロンプトが可能であり、写真・図・スクリーンショットを含む文書など、様々な領域においてGPT-4はテキストのみと同様の能力を発揮しているそうです。

(OpenAI 2023)

 上の画像は例として、「この画像のどこが面白いですか?パネルごとに説明してください」という質問に対しての回答をしています。

2-4. 限界はある

カテゴリー別の図をどーん

(OpenAI 2023)

 図を見ると、どれもGPT-4が圧倒していることがわかります。historyやscienceでは精度が80%を超えており、図の中のどの単元もほとんど70%を超えています。GPT-3.5よりも4の精度は19%増加しています。しかし、精度はどれも80%以下となっている事実はあり、利害関係の強い文脈の場合では、人間によるレビューや追加の根拠づけを行った方が良さそうですね。利害という点におけるリスクも注視しなければなりません。

3. GPTのリスクと緩和・低減

 危険の伴うプロンプトに対して、「情報を提供できない」と表示させるようにOpenAIは取り組んでいます。長期的なAIアライメントリスク、サイバーセキュリティ、バイオリスク、国際安全保障などの領域から50人以上の専門家がモデルのテストを行なっていた。

(OpenAI 2023)

 上の図は許可されていないプロンプトに対する不正な動作の割合です。GPT-3.5が青、GPT-4が緑であり、値が小さいほど良いほど性能です。有害なコンテンツの生成を拒否したり、無害な要求を拒否しないなど、正しい行動を取れるようにOpenAIは取り組んでおり、安全性指標の改善により許可されていないコンテンツのリクエストに応答する傾向が82%減少、GPT-4は29%多く規約に従ってセンシティブなリクエストに応答することになっています。

 図からGPT-4のセンシティブなプロンプトと許可されていないプロンプトに対する不正な動作の割合が他と比べて大幅に小さいことが分かっています。

APIを使ってbotを作成したら想像以上に使いやすかったのでそちらは以下の記事をみてください!↓

cuebic.hatenablog.com

4. キュービックもAIに力を入れている

私たちはwebメディア事業に取り組んでいるためSGE(Search Generative Engine)の動向を追う必要があります。その分野におけるAIの活用余地は十分に有ります。そこで私たちは大きく3つのことを取り組んでいます。また今後の未来像も記載しておきます。

4-1. AI技術チームを組成

 AI技術チームを各チームからメンバーをアサインし、全社的にAIに対しての理解を深めようと考えています。理解を深めることで活用余地を模索できるようにし、それを簡単にアウトプットできる場も今後作り出そうと考えています。

4-2. AIによる記事生成

 新規記事の生成から既存記事の改善にも取り組んでいます。ChatGPT以外にもFinetuningなどで検証を行っており、注意すべきは『オートパイロットではなく、コパイロットの利用』を考えていることです。上記に記載したChatGPTの限界から絶対に人間の目を通す必要があり、「AI」中心ではなく「人」中心で取り組む必要があるからです。

4-3. AIによる素材生成(画像)

 これはクリエイティブやバナー、スライドにおける素材の生成を一部AIにしていくという取り組みです。素材を探す手間を減らし、理想の素材を生成できるようになることを目指しています。

4-4. 未来像

 最後に未来像について述べます。今まで一つの記事を作成するにも多くの時間を費やしていました。しかし、より工数とリードタイムを圧縮し、今まで以上に高品質な記事を発信していきたいという思いからAIの活用の検討を進め、取り組みを始めました。ChatGPTのデータはWeb上のデータも学習せいているからこそ、ChatGPtよりも高品質な記事をいつまでも届け続けようと考えています。それを実現するために、ChatGPTと人間の二軸で成長していき、早く高品質なメディアの運営を目指しています

5. ChatGPTの活用例!

ChatGPTの活用例をブログを書く人やビジネスマン、エンジニア向けに一つずつ紹介します。最適なプロンプトがわからない場合は最初にGPTにどんな内容を書けばいいか聞いています。どの分野でも応用が可能なので、その結果も残しておきます。

ブログを書く人向け

アイディアを一緒に考えることができます。私はハッカソンを社内で開催するためにどのような発表の形式にするべきか、ハッカソンのテーマ決め、などを考えるために利用しました。また、目次や実際の記事の内容も提案してもらえ、文章の添削も可能です。

 しかし、GPTの精度にも限界はあるのでその内容が正しいかどうかの確認はしていかなければなりません。また、自分なりに書き方やデザインは決まっているので、使い方は人それぞれです。

以下の質問をしました。このようにすることでどのような情報をGPTに渡せばいいか明確になります。

質問内容
回答
アイディアの提案 1
アイディアの提案 2

項目を書いてくれるだけではなく、アイディア例も出してくれました。最後は「情熱や需要」で選ぶようにと言ってくれており人間らしさも考慮した配慮がされています。

ビジネスマン向け

ペルソナを設定して疑似インタビューも実施することができます!三人分のペルソナを設定し、その人たちがグループワークをするという設定で、どのような点に気をつけるべきか、誰がどのような役割を持てばいいかを話し合えます。ペルソナを設定し、実際に他の人の時間を割くことなく、インタビューが可能なので時間の削減は可能です。

質問内容
回答

指定された項目を埋めていき、インタビューをお願いすると回答を始めてくれます。初心者の方はこのような使い方もいいですね。

エンジニア向け

プログラムのエラー修正です。プログラムをすべて書いてもらうことができますが、それよりもパイロットとして使うことをおすすめします。「限界はある」の図からコードの精度はGPT-4で70%程度、それ以下だと60%にも満たしません。低くはありませんが限界が存在するのでコードを見やすい形に変えてもらうという使い方が良いかも知れません。勉強で使う分には便利かも知れません。

添削願い
添削1
続き

このように一見わからないようなエラーも添削で見つけてもらえます。(今回はわかりやすく簡単なコードにしています。)コードの見やすさは抜群ですね。

6. まとめ

hotな話題であるChatGPTについて触れてきましたが、GPT-4の性能が少しでも理解できたのではないかなと思います。日本語での性能も高く、テキストだけではなく画像の性能も高くなっています。詳しい内容な下の参考文献より確認してください。本記事は最小限の説明に抑えています。ChatGPTの難しさはプロンプトにあると思います。最近は「プロンプトエンジニアリング」の研究も進んでいます。ネット上でもプロンプトのテンプレがたくさん出ています。どのようにプロンプトが最も最適なのかは今後も研究を進めていく必要がありますね!今後はキュービックもAI技術チームでAIの可能性を広げつつ、Missionである『インサイトに挑み、ヒトに確かな前進を。』に向かって行こうと思います!
最後まで読んでいただきありがとうございました!

参考文献

OpenAI. (2023). GPT-4 Technical Report(arXiv:2303.08774). arXiv.

https://arxiv.org/abs/2303.08774

herp.careers