OpenAI、新音声モデル「GPT-Realtime-2」 即時翻訳や低遅延文字起こしも
OpenAIは7日(米国時間)、リアルタイム音声エージェント向け「Realtime API」において、新たな音声モデルを発表した。音声対話向け「GPT-Realtime-2」、リアルタイム翻訳向け「GPT-Realtime-Translate」、ストリーミング音声認識向け「GPT-Realtime-Whisper」の3種で、開発者がより自然な音声アプリを構築できるようにする。
GPT-Realtime-2は、GPT-5クラスの推論能力を備えたリアルタイム音声対話向けモデル。会話を進めながら要求を推論し、ツール呼び出しや修正、割り込みに対応する。推論レベルはminimal、low、medium、high、xhighから選択でき、用途に応じて応答速度と推論精度のバランスを調整できる。
同モデルでは、メインの応答前に「確認します」や「少々お待ちください」といった短い発話を挟む機能や、複数ツールの並列呼び出しにも対応する。コンテキストウィンドウは従来の32Kから128Kへ拡大し、長時間の対話や複雑なタスクフローに対応しやすくした。専門用語や固有名詞、医療用語などの保持能力も向上している。
GPT-Realtime-Translateは、70以上の入力言語から13の出力言語への翻訳に対応するリアルタイム翻訳向けモデル。話者のペースに合わせて音声の翻訳と文字起こしができ、カスタマーサポートや越境販売、教育、イベント、メディア、クリエイター向けプラットフォームなどでの利用を想定する。
GPT-Realtime-Whisperは、発話と同時に文字起こしを行なう低遅延のストリーミング音声認識モデル。リアルタイムで字幕表示を行ない、会議や授業、音声エージェント、顧客対応、医療、営業、採用などの音声でのやり取りが多いワークフローに活用できる。
GPT-Realtime-2の推論能力はGPT-Realtime-1.5より向上しており、音声入力に対応した言語モデルの推論能力を評価する「Big Bench Audio」では、GPT-Realtime-2(high)がGPT-Realtime-1.5を15.2%上回った。音声対話システムにおける複数ターンの会話能力を評価する「Audio MultiChallenge」でも、GPT-Realtime-2(xhigh)がGPT-Realtime-1.5を13.8%上回っている。
新モデルはRealtime APIで利用できる。GPT-Realtime-2の価格は、音声入力100万トークンあたり32ドル(キャッシュ済み入力は0.4ドル)、音声出力100万トークンあたり64ドル。GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドル。新モデルはPlaygroundでも試用できる。
OpenAIは7日(米国時間)、リアルタイム音声エージェント向け「Realtime API」において、新たな音声モデルを発表した。音声対話向け「GPT-Realtime-2」、リアルタイム翻訳向け「GPT-Realtime-Translate」、ストリーミング音声認識向け「GPT-Realtime-Whisper」の3種で、開発者がより自然な音声アプリを構築できるようにする。 GPT-Realtime-2は、GPT-5クラスの推論能力を備えたリアルタイム音声対話向けモデル。会話を進めながら要求を推論し、ツール呼び出しや修正、割り込みに対応する。推論レベルはminimal、low、medium、high、xhighから選択でき、用途に応じて応答速度と推論精度のバランスを調整できる。 同モデルでは、メインの応答前に「確認します」や「少々お待ちください」といった短い発話を挟む機能や、複数ツールの並列呼び出しにも対応する。コンテキストウィンドウは従来の32Kから128Kへ拡大し、長時間の対話や複雑なタスクフローに対応しやすくした。専門用語や固有名詞、医療用語などの保持能力も向上している。 GPT-Realtime-Translateは、70以上の入力言語から13の出力言語への翻訳に対応するリアルタイム翻訳向けモデル。話者のペースに合わせて音声の翻訳と文字起こしができ、カスタマーサポートや越境販売、教育、イベント、メディア、クリエイター向けプラットフォームなどでの利用を想定する。 GPT-Realtime-Whisperは、発話と同時に文字起こしを行なう低遅延のストリーミング音声認識モデル。リアルタイムで字幕表示を行ない、会議や授業、音声エージェント、顧客対応、医療、営業、採用などの音声でのやり取りが多いワークフローに活用できる。 GPT-Realtime-2の推論能力はGPT-Realtime-1.5より向上しており、音声入力に対応した言語モデルの推論能力を評価する「Big Bench Audio」では、GPT-Realtime-2(high)がGPT-Realtime-1.5を15.2%上回った。音声対話システムにおける複数ターンの会話能力を評価する「Audio MultiChallenge」でも、GPT-Realtime-2(xhigh)がGPT-Realtime-1.5を13.8%上回っている。 新モデルはRealtime APIで利用できる。GPT-Realtime-2の価格は、音声入力100万トークンあたり32ドル(キャッシュ済み入力は0.4ドル)、音声出力100万トークンあたり64ドル。GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドル。新モデルはPlaygroundでも試用できる。
OpenAIは7日(米国時間)、リアルタイム音声エージェント向け「Realtime API」において、新たな音声モデルを発表した。音声対話向け「GPT-Realtime-2」、リアルタイム翻訳向け「GPT-Realtime-Translate」、ストリーミング音声認識向け「GPT-Realtime-Whisper」の3種で、開発者がより自然な音声アプリを構築できるようにする。 GPT-Realtime-2は、GPT-5クラスの推論能力を備えたリアルタイム音声対話向けモデル。会話を進めながら要求を推論し、ツール呼び出しや修正、割り込みに対応する。推論レベルはminimal、low、medium、high、xhighから選択でき、用途に応じて応答速度と推論精度のバランスを調整できる。 同モデルでは、メインの応答前に「確認します」や「少々お待ちください」といった短い発話を挟む機能や、複数ツールの並列呼び出しにも対応する。コンテキストウィンドウは従来の32Kから128Kへ拡大し、長時間の対話や複雑なタスクフローに対応しやすくした。専門用語や固有名詞、医療用語などの保持能力も向上している。 GPT-Realtime-Translateは、70以上の入力言語から13の出力言語への翻訳に対応するリアルタイム翻訳向けモデル。話者のペースに合わせて音声の翻訳と文字起こしができ、カスタマーサポートや越境販売、教育、イベント、メディア、クリエイター向けプラットフォームなどでの利用を想定する。 GPT-Realtime-Whisperは、発話と同時に文字起こしを行なう低遅延のストリーミング音声認識モデル。リアルタイムで字幕表示を行ない、会議や授業、音声エージェント、顧客対応、医療、営業、採用などの音声でのやり取りが多いワークフローに活用できる。 GPT-Realtime-2の推論能力はGPT-Realtime-1.5より向上しており、音声入力に対応した言語モデルの推論能力を評価する「Big Bench Audio」では、GPT-Realtime-2(high)がGPT-Realtime-1.5を15.2%上回った。音声対話システムにおける複数ターンの会話能力を評価する「Audio MultiChallenge」でも、GPT-Realtime-2(xhigh)がGPT-Realtime-1.5を13.8%上回っている。 新モデルはRealtime APIで利用できる。GPT-Realtime-2の価格は、音声入力100万トークンあたり32ドル(キャッシュ済み入力は0.4ドル)、音声出力100万トークンあたり64ドル。GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドル。新モデルはPlaygroundでも試用できる。
Vocabulary
General
Proper noun
JLPT N2
JLPT N1
| # | 言葉 | 意味 |
|---|---|---|
| 22 | 音声 | おんせい (音声) : 1. voice; speech; sound of a voice 2. sound (e.g. of a TV) |
| 14 | 向け | むけ (向け) : intended for ...; oriented towards ...; aimed at ... |
| 12 | 推論 | すいろん (推論) : inference; deduction; induction; reasoning |
| 12 | 対応 | たいおう (対応) : 1. correspondence (to); equivalence 2. suitability; coordination; matching; being appropriate (for) |
| 10 | 能力 | のうりょく (能力) : ability; faculty |
| 8 | 対話 | たいわ (対話) : dialogue; discussion; conversation; interaction |
| 8 | 入力 | にゅうりょく (入力) : input; (data) entry |
| 8 | あたり | あたり (当たり) : 1. hit 2. success |
| 4 | 音声認識 | おんせいにんしき (音声認識) : voice recognition; speech recognition |
| 4 | 呼び出し | よびだし (呼び出し) : 1. call; summons; paging; curtain call 2. usher who calls the names of wrestlers, sweeps the ring, etc. |
| 4 | 応答 | おうとう (応答) : reply; answer; response |
| 4 | 発話 | はつわ (発話) : utterance; speech |
| 4 | 複数 | ふくすう (複数) : plural; multiple; several |
| 4 | 医療 | いりょう (医療) : medical care; medical treatment |
| 4 | 向上 | こうじょう (向上) : elevation; rise; improvement; advancement; progress |
| 4 | 言語 | げんご (言語) : language |
| 4 | 文字起こし | もじおこし (文字起こし) : tape transcription; transcribing from recorded tape; audio-typing |
| 4 | 行なう | おこなう (行う) : to perform; to do; to conduct oneself; to carry out |
| 4 | 評価 | ひょうか (評価) : 1. valuation; appraisal; evaluation; assessment; estimation; rating; judging 2. appreciation; recognition; acknowledgement; rating highly; praising |
| 4 | 上回る | うわまわる (上回る) : to exceed (esp. figures: profits, unemployment rate, etc.); to surpass; to be more than; to be better than |
| 2 | 米国 | べいこく (米国) : (United States of) America; USA; US |
| 2 | 時間 | じかん (時間) : 1. time 2. hour |
| 2 | 新た | あらた (新た) : new; fresh; novel |
| 2 | 発表 | はっぴょう (発表) : announcement; publication; presenting; statement; communique; making known; breaking (news story); expressing (one's opinion); releasing; unveiling |
| 2 | 種 | しゅ (種) : 1. kind; variety 2. (biological) species |
| 2 | 開発者 | かいはつしゃ (開発者) : developer |
| 2 | 自然 | しぜん (自然) : 1. nature 2. natural; spontaneous; automatic |
| 2 | 構築 | こうちく (構築) : construction; building; putting up; erecting; creation; formulation; architecture (systems, agreement, etc.) |
| 2 | 備える | そなえる (備える) : 1. to furnish with; to equip with; to provide; to install 2. to prepare for; to make preparations for; to make provision for |
| 2 | 進める | すすめる (進める) : 1. to advance; to move forward; to put (a clock, watch) forward 2. to carry forward (plans, work, etc.); to proceed with; to make progress in; to further; to advance; to hasten; to speed up |
| 2 | 要求 | ようきゅう (要求) : demand; firm request; requisition; requirement; desire |
| 2 | 修正 | しゅうせい (修正) : amendment; correction; revision; modification; alteration; retouching; update; fix |
| 2 | 割り込む | わりこむ (割り込む) : 1. to cut into (a line, conversation, etc.); to force oneself into (e.g. a crowd); to wedge oneself into; to squeeze oneself into; to intrude on; to interrupt 2. to fall below (of stock prices, sales, etc.); to drop below |
| 2 | 選択 | せんたく (選択) : selection; choice; option |
| 2 | 用途 | ようと (用途) : use; service; purpose |
| 2 | 応ずる | おうずる (応ずる) : 1. to answer; to respond; to meet 2. to satisfy; to accept |
| 2 | 速度 | そくど (速度) : 1. speed; velocity; pace; rate 2. velocity |
| 2 | 精度 | せいど (精度) : precision; accuracy |
| 2 | 調整 | ちょうせい (調整) : adjustment; regulation; coordination; reconciliation; tuning; fixing; tailoring |
| 2 | 確認 | かくにん (確認) : confirmation; verification; validation; review; check; affirmation; identification |
| 2 | 少々 | しょうしょう (少々) : just a minute; small quantity |
| 2 | 待つ | まつ (待つ) : 1. to wait 2. to await; to look forward to; to anticipate |
| 2 | 挟む | はさむ (挟む) : 1. to hold between (e.g. one's fingers, chopsticks); to grip (from both sides) 2. to put between; to sandwich between; to insert; to interpose |
| 2 | 機能 | きのう (機能) : function; facility; faculty; feature |
| 2 | 並列 | へいれつ (並列) : 1. arranging in a line; standing in a row 2. parallel (electronics, computing, etc.) |
| 2 | 従来 | じゅうらい (従来) : 1. up to now; so far 2. traditional; conventional; usual; existing |
| 2 | 拡大 | かくだい (拡大) : magnification; enlargement; expansion; amplification |
| 2 | 長時間 | ちょうじかん (長時間) : long time |
| 2 | やすく | やすく (安く) : inexpensively |
| 2 | 専門用語 | せんもんようご (専門用語) : technical term |
| 2 | 固有名詞 | こゆうめいし (固有名詞) : proper noun |
| 2 | 用語 | ようご (用語) : 1. term; terminology 2. wording; choice of words; phraseology |
| 2 | 保持 | ほじ (保持) : retention; maintenance; preservation |
| 2 | 出力 | しゅつりょく (出力) : output (electrical, signal, etc.) |
| 2 | 話者 | わしゃ (話者) : 1. speaker; narrator 2. speaker (of a language) |
| 2 | 合わせる | あわせる (合わせる) : 1. to match (rhythm, speed, etc.) 2. to join together; to unite; to combine; to add up |
| 2 | 越境 | えっきょう (越境) : border transgression |
| 2 | 販売 | はんばい (販売) : sales; selling; marketing |
| 2 | 想定 | そうてい (想定) : hypothesis; supposition; assumption |
| 2 | 同時 | どうじ (同時) : simultaneous; concurrent; same time; synchronous; together |
| 2 | 低 | てい (低) : low (level, value, price, etc.) |
| 2 | 遅延 | ちえん (遅延) : delay; latency |
| 2 | 字幕 | じまく (字幕) : subtitles; captioning |
| 2 | 表示 | ひょうじ (表示) : 1. indication; expression; showing; manifestation; demonstration 2. display; displaying |
| 2 | 顧客 | こきゃく (顧客) : customer; client; patron |
| 2 | 営業 | えいぎょう (営業) : 1. business; trade; operations 2. sales |
| 2 | 採用 | さいよう (採用) : 1. use; adoption; acceptance 2. appointment; employment; engagement; recruitment |
| 2 | やり取り | やりとり (やり取り) : giving and taking; exchange (of letters); arguing back and forth; (conversational) exchange |
| 2 | 活用 | かつよう (活用) : 1. practical use; application 2. conjugation; inflection |
| 2 | 価格 | かかく (価格) : price; value; cost |
| 2 | 済み | ずみ (済み) : arranged; taken care of; settled; completed; finished |
| 2 | 試用 | しよう (試用) : trial; experimental use |