← Back

OpenAI、新音声モデル「GPT-Realtime-2」 即時翻訳や低遅延文字起こしも

Source
OpenAIは7日(米国時間)、リアルタイム音声エージェント向け「Realtime API」において、新た音声モデルを発表した。音声対話向け「GPT-Realtime-2」、リアルタイム翻訳向け「GPT-Realtime-Translate」、ストリーミング音声認識向け「GPT-Realtime-Whisper」の3で、開発者がより自然音声アプリを構築できるようにする。 GPT-Realtime-2は、GPT-5クラスの推論能力備えたリアルタイム音声対話向けモデル。会話を進めながら要求推論し、ツール呼び出し修正割り込み対応する。推論レベルはminimal、low、medium、high、xhighから選択でき、用途応じ応答速度推論精度のバランスを調整できる。 同モデルでは、メインの応答前に「確認します」や「少々待ちください」といった短い発話挟む機能や、複数ツールの並列呼び出しにも対応する。コンテキストウィンドウは従来の32Kから128Kへ拡大し、長時間対話や複雑なタスクフローに対応やすくした。専門用語固有名詞医療用語などの保持能力向上している。 GPT-Realtime-Translateは、70以上の入力言語から13の出力言語への翻訳に対応するリアルタイム翻訳向けモデル。話者のペースに合わせ音声の翻訳と文字起こしができ、カスタマーサポートや越境販売、教育、イベント、メディア、クリエイター向けプラットフォームなどでの利用を想定する。 GPT-Realtime-Whisperは、発話同時文字起こし行なう遅延のストリーミング音声認識モデル。リアルタイムで字幕表示行ない、会議や授業、音声エージェント、顧客対応医療営業採用などの音声でのやり取りが多いワークフローに活用できる。 GPT-Realtime-2の推論能力はGPT-Realtime-1.5より向上しており、音声入力対応した言語モデルの推論能力評価する「Big Bench Audio」では、GPT-Realtime-2(high)がGPT-Realtime-1.5を15.2%上回った。音声対話システムにおける複数ターンの会話能力評価する「Audio MultiChallenge」でも、GPT-Realtime-2(xhigh)がGPT-Realtime-1.5を13.8%上回っている。 新モデルはRealtime APIで利用できる。GPT-Realtime-2の価格は、音声入力100万トークンあたり32ドル(キャッシュ済み入力は0.4ドル)、音声出力100万トークンあたり64ドル。GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドル。新モデルはPlaygroundでも試用できる。

OpenAIは7日(米国時間)、リアルタイム音声エージェント向け「Realtime API」において、新た音声モデルを発表した。音声対話向け「GPT-Realtime-2」、リアルタイム翻訳向け「GPT-Realtime-Translate」、ストリーミング音声認識向け「GPT-Realtime-Whisper」の3で、開発者がより自然音声アプリを構築できるようにする。 GPT-Realtime-2は、GPT-5クラスの推論能力備えたリアルタイム音声対話向けモデル。会話を進めながら要求推論し、ツール呼び出し修正割り込み対応する。推論レベルはminimal、low、medium、high、xhighから選択でき、用途応じ応答速度推論精度のバランスを調整できる。 同モデルでは、メインの応答前に「確認します」や「少々待ちください」といった短い発話挟む機能や、複数ツールの並列呼び出しにも対応する。コンテキストウィンドウは従来の32Kから128Kへ拡大し、長時間対話や複雑なタスクフローに対応やすくした。専門用語固有名詞医療用語などの保持能力向上している。 GPT-Realtime-Translateは、70以上の入力言語から13の出力言語への翻訳に対応するリアルタイム翻訳向けモデル。話者のペースに合わせ音声の翻訳と文字起こしができ、カスタマーサポートや越境販売、教育、イベント、メディア、クリエイター向けプラットフォームなどでの利用を想定する。 GPT-Realtime-Whisperは、発話同時文字起こし行なう遅延のストリーミング音声認識モデル。リアルタイムで字幕表示行ない、会議や授業、音声エージェント、顧客対応医療営業採用などの音声でのやり取りが多いワークフローに活用できる。 GPT-Realtime-2の推論能力はGPT-Realtime-1.5より向上しており、音声入力対応した言語モデルの推論能力評価する「Big Bench Audio」では、GPT-Realtime-2(high)がGPT-Realtime-1.5を15.2%上回った。音声対話システムにおける複数ターンの会話能力評価する「Audio MultiChallenge」でも、GPT-Realtime-2(xhigh)がGPT-Realtime-1.5を13.8%上回っている。 新モデルはRealtime APIで利用できる。GPT-Realtime-2の価格は、音声入力100万トークンあたり32ドル(キャッシュ済み入力は0.4ドル)、音声出力100万トークンあたり64ドル。GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドル。新モデルはPlaygroundでも試用できる。

Vocabulary

General Proper noun JLPT N2 JLPT N1
# 言葉 意味
22 音声おんせい (音声) : 1. voice; speech; sound of a voice 2. sound (e.g. of a TV)
14 向けむけ (向け) : intended for ...; oriented towards ...; aimed at ...
12 推論すいろん (推論) : inference; deduction; induction; reasoning
12 対応たいおう (対応) : 1. correspondence (to); equivalence 2. suitability; coordination; matching; being appropriate (for)
10 能力のうりょく (能力) : ability; faculty
8 対話たいわ (対話) : dialogue; discussion; conversation; interaction
8 入力にゅうりょく (入力) : input; (data) entry
8 あたりあたり (当たり) : 1. hit 2. success
4 音声認識おんせいにんしき (音声認識) : voice recognition; speech recognition
4 呼び出しよびだし (呼び出し) : 1. call; summons; paging; curtain call 2. usher who calls the names of wrestlers, sweeps the ring, etc.
4 応答おうとう (応答) : reply; answer; response
4 発話はつわ (発話) : utterance; speech
4 複数ふくすう (複数) : plural; multiple; several
4 医療いりょう (医療) : medical care; medical treatment
4 向上こうじょう (向上) : elevation; rise; improvement; advancement; progress
4 言語げんご (言語) : language
4 文字起こしもじおこし (文字起こし) : tape transcription; transcribing from recorded tape; audio-typing
4 行なうおこなう (行う) : to perform; to do; to conduct oneself; to carry out
4 評価ひょうか (評価) : 1. valuation; appraisal; evaluation; assessment; estimation; rating; judging 2. appreciation; recognition; acknowledgement; rating highly; praising
4 上回るうわまわる (上回る) : to exceed (esp. figures: profits, unemployment rate, etc.); to surpass; to be more than; to be better than
2 米国べいこく (米国) : (United States of) America; USA; US
2 時間じかん (時間) : 1. time 2. hour
2 新たあらた (新た) : new; fresh; novel
2 発表はっぴょう (発表) : announcement; publication; presenting; statement; communique; making known; breaking (news story); expressing (one's opinion); releasing; unveiling
2 しゅ (種) : 1. kind; variety 2. (biological) species
2 開発者かいはつしゃ (開発者) : developer
2 自然しぜん (自然) : 1. nature 2. natural; spontaneous; automatic
2 構築こうちく (構築) : construction; building; putting up; erecting; creation; formulation; architecture (systems, agreement, etc.)
2 備えるそなえる (備える) : 1. to furnish with; to equip with; to provide; to install 2. to prepare for; to make preparations for; to make provision for
2 進めるすすめる (進める) : 1. to advance; to move forward; to put (a clock, watch) forward 2. to carry forward (plans, work, etc.); to proceed with; to make progress in; to further; to advance; to hasten; to speed up
2 要求ようきゅう (要求) : demand; firm request; requisition; requirement; desire
2 修正しゅうせい (修正) : amendment; correction; revision; modification; alteration; retouching; update; fix
2 割り込むわりこむ (割り込む) : 1. to cut into (a line, conversation, etc.); to force oneself into (e.g. a crowd); to wedge oneself into; to squeeze oneself into; to intrude on; to interrupt 2. to fall below (of stock prices, sales, etc.); to drop below
2 選択せんたく (選択) : selection; choice; option
2 用途ようと (用途) : use; service; purpose
2 応ずるおうずる (応ずる) : 1. to answer; to respond; to meet 2. to satisfy; to accept
2 速度そくど (速度) : 1. speed; velocity; pace; rate 2. velocity
2 精度せいど (精度) : precision; accuracy
2 調整ちょうせい (調整) : adjustment; regulation; coordination; reconciliation; tuning; fixing; tailoring
2 確認かくにん (確認) : confirmation; verification; validation; review; check; affirmation; identification
2 少々しょうしょう (少々) : just a minute; small quantity
2 待つまつ (待つ) : 1. to wait 2. to await; to look forward to; to anticipate
2 挟むはさむ (挟む) : 1. to hold between (e.g. one's fingers, chopsticks); to grip (from both sides) 2. to put between; to sandwich between; to insert; to interpose
2 機能きのう (機能) : function; facility; faculty; feature
2 並列へいれつ (並列) : 1. arranging in a line; standing in a row 2. parallel (electronics, computing, etc.)
2 従来じゅうらい (従来) : 1. up to now; so far 2. traditional; conventional; usual; existing
2 拡大かくだい (拡大) : magnification; enlargement; expansion; amplification
2 長時間ちょうじかん (長時間) : long time
2 やすくやすく (安く) : inexpensively
2 専門用語せんもんようご (専門用語) : technical term
2 固有名詞こゆうめいし (固有名詞) : proper noun
2 用語ようご (用語) : 1. term; terminology 2. wording; choice of words; phraseology
2 保持ほじ (保持) : retention; maintenance; preservation
2 出力しゅつりょく (出力) : output (electrical, signal, etc.)
2 話者わしゃ (話者) : 1. speaker; narrator 2. speaker (of a language)
2 合わせるあわせる (合わせる) : 1. to match (rhythm, speed, etc.) 2. to join together; to unite; to combine; to add up
2 越境えっきょう (越境) : border transgression
2 販売はんばい (販売) : sales; selling; marketing
2 想定そうてい (想定) : hypothesis; supposition; assumption
2 同時どうじ (同時) : simultaneous; concurrent; same time; synchronous; together
2 てい (低) : low (level, value, price, etc.)
2 遅延ちえん (遅延) : delay; latency
2 字幕じまく (字幕) : subtitles; captioning
2 表示ひょうじ (表示) : 1. indication; expression; showing; manifestation; demonstration 2. display; displaying
2 顧客こきゃく (顧客) : customer; client; patron
2 営業えいぎょう (営業) : 1. business; trade; operations 2. sales
2 採用さいよう (採用) : 1. use; adoption; acceptance 2. appointment; employment; engagement; recruitment
2 やり取りやりとり (やり取り) : giving and taking; exchange (of letters); arguing back and forth; (conversational) exchange
2 活用かつよう (活用) : 1. practical use; application 2. conjugation; inflection
2 価格かかく (価格) : price; value; cost
2 済みずみ (済み) : arranged; taken care of; settled; completed; finished
2 試用しよう (試用) : trial; experimental use