グーグル、埋め込みモデル「Gemini Embedding 2」 マルチモーダル対応
Googleは10日(米国時間)、マルチモーダル対応の埋め込みモデル「Gemini Embedding 2」を発表し、Gemini APIおよびVertex AIを通じてパブリックプレビューで提供開始した。テキスト、画像、動画、音声、ドキュメントを単一の埋め込み空間にマッピングし、異なる種類のメディアを横断した検索や分類に対応する。
Gemini Embedding 2は、Geminiアーキテクチャをベースにした同社初のネイティブなマルチモーダル埋め込みモデル。100以上の言語にわたってデータの意味内容を捉えられるとしており、Retrieval-Augmented Generation(RAG)やセマンティック検索、感情分析、データクラスタリングなどの処理能力向上につなげる。
入力仕様として、テキストは最大8,192トークン、画像はPNG/JPEG形式で1リクエストあたり最大6枚、動画はMP4/MOV形式で最大120秒、音声は途中で文字起こしを介さずに直接埋め込みできる。ドキュメントは最大6ページのPDFを直接埋め込める。
画像とテキストのように複数のモダリティを1つのリクエストでまとめて入力でき、異なる種類のデータ間の関係も捉えられる。また、埋め込みの出力はデフォルトの3,072次元から1,536次元や768次元などへ柔軟に縮小可能なMatryoshka Representation Learning(MRL)も採用した。
GoogleはGemini Embedding 2について、従来モデルの改良にとどまらず、マルチモーダル領域で新たな性能水準を打ち立てるモデルと位置付ける。強力な音声認識機能を備えるほか、テキスト、画像、動画の各タスクで高い性能を発揮し、多様な埋め込みニーズに対応できるとしている。
利用はGemini APIまたはVertex AIから開始できる。Gemini APIとVertex AI向けの対話型Colabノートブックも公開しているほか、LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB、Vector Searchからも利用できる。
Googleは10日(米国時間)、マルチモーダル対応の埋め込みモデル「Gemini Embedding 2」を発表し、Gemini APIおよびVertex AIを通じてパブリックプレビューで提供開始した。テキスト、画像、動画、音声、ドキュメントを単一の埋め込み空間にマッピングし、異なる種類のメディアを横断した検索や分類に対応する。 Gemini Embedding 2は、Geminiアーキテクチャをベースにした同社初のネイティブなマルチモーダル埋め込みモデル。100以上の言語にわたってデータの意味内容を捉えられるとしており、Retrieval-Augmented Generation(RAG)やセマンティック検索、感情分析、データクラスタリングなどの処理能力向上につなげる。 入力仕様として、テキストは最大8,192トークン、画像はPNG/JPEG形式で1リクエストあたり最大6枚、動画はMP4/MOV形式で最大120秒、音声は途中で文字起こしを介さずに直接埋め込みできる。ドキュメントは最大6ページのPDFを直接埋め込める。 画像とテキストのように複数のモダリティを1つのリクエストでまとめて入力でき、異なる種類のデータ間の関係も捉えられる。また、埋め込みの出力はデフォルトの3,072次元から1,536次元や768次元などへ柔軟に縮小可能なMatryoshka Representation Learning(MRL)も採用した。 GoogleはGemini Embedding 2について、従来モデルの改良にとどまらず、マルチモーダル領域で新たな性能水準を打ち立てるモデルと位置付ける。強力な音声認識機能を備えるほか、テキスト、画像、動画の各タスクで高い性能を発揮し、多様な埋め込みニーズに対応できるとしている。 利用はGemini APIまたはVertex AIから開始できる。Gemini APIとVertex AI向けの対話型Colabノートブックも公開しているほか、LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB、Vector Searchからも利用できる。
Googleは10日(米国時間)、マルチモーダル対応の埋め込みモデル「Gemini Embedding 2」を発表し、Gemini APIおよびVertex AIを通じてパブリックプレビューで提供開始した。テキスト、画像、動画、音声、ドキュメントを単一の埋め込み空間にマッピングし、異なる種類のメディアを横断した検索や分類に対応する。 Gemini Embedding 2は、Geminiアーキテクチャをベースにした同社初のネイティブなマルチモーダル埋め込みモデル。100以上の言語にわたってデータの意味内容を捉えられるとしており、Retrieval-Augmented Generation(RAG)やセマンティック検索、感情分析、データクラスタリングなどの処理能力向上につなげる。 入力仕様として、テキストは最大8,192トークン、画像はPNG/JPEG形式で1リクエストあたり最大6枚、動画はMP4/MOV形式で最大120秒、音声は途中で文字起こしを介さずに直接埋め込みできる。ドキュメントは最大6ページのPDFを直接埋め込める。 画像とテキストのように複数のモダリティを1つのリクエストでまとめて入力でき、異なる種類のデータ間の関係も捉えられる。また、埋め込みの出力はデフォルトの3,072次元から1,536次元や768次元などへ柔軟に縮小可能なMatryoshka Representation Learning(MRL)も採用した。 GoogleはGemini Embedding 2について、従来モデルの改良にとどまらず、マルチモーダル領域で新たな性能水準を打ち立てるモデルと位置付ける。強力な音声認識機能を備えるほか、テキスト、画像、動画の各タスクで高い性能を発揮し、多様な埋め込みニーズに対応できるとしている。 利用はGemini APIまたはVertex AIから開始できる。Gemini APIとVertex AI向けの対話型Colabノートブックも公開しているほか、LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB、Vector Searchからも利用できる。
Vocabulary
General
Proper noun
JLPT N2
JLPT N1
| # | 言葉 | 意味 |
|---|---|---|
| 10 | 埋め込む | うめこむ (埋め込む) : to bury; to embed; to implant |
| 8 | 画像 | がぞう (画像) : image; picture; portrait |
| 8 | 最大 | さいだい (最大) : biggest; greatest; largest; maximum |
| 6 | 対応 | たいおう (対応) : 1. correspondence (to); equivalence 2. suitability; coordination; matching; being appropriate (for) |
| 6 | 動画 | どうが (動画) : 1. video; movie; moving picture 2. animation; animated cartoon |
| 6 | 次元 | じげん (次元) : 1. dimension 2. perspective; point of reference; level (of something) |
| 4 | 開始 | かいし (開始) : start; commencement; beginning; initiation |
| 4 | 音声 | おんせい (音声) : 1. voice; speech; sound of a voice 2. sound (e.g. of a TV) |
| 4 | 異なる | ことなる (異なる) : to differ; to vary; to disagree |
| 4 | 種類 | しゅるい (種類) : 1. variety; kind; type; category 2. counter for kinds, species, etc. |
| 4 | 検索 | けんさく (検索) : looking up (e.g. a word in a dictionary); retrieval (e.g. data); searching for; referring to |
| 4 | 捉える | とらえる (捉える) : 1. to catch; to capture; to seize; to arrest; to grab; to catch hold of 2. to grasp (e.g. meaning); to perceive; to capture (e.g. features) |
| 4 | 入力 | にゅうりょく (入力) : input; (data) entry |
| 4 | 形式 | けいしき (形式) : 1. form (as opposed to substance); formality 2. method; system; style |
| 4 | 直接 | ちょくせつ (直接) : direct; immediate; personal; firsthand |
| 4 | 性能 | せいのう (性能) : ability; performance; efficiency |
| 2 | 米国 | べいこく (米国) : (United States of) America; USA; US |
| 2 | 時間 | じかん (時間) : 1. time 2. hour |
| 2 | 発表 | はっぴょう (発表) : announcement; publication; presenting; statement; communique; making known; breaking (news story); expressing (one's opinion); releasing; unveiling |
| 2 | および | および (及び) : and; as well as |
| 2 | 通ずる | つうずる (通ずる) : 1. to be open (to traffic); to lead to; to communicate (with) 2. to flow (liquid, current); to pass; to get through to |
| 2 | 提供 | ていきょう (提供) : 1. offer; tender; providing; supplying; making available; donating (blood, organs, etc.) 2. sponsoring (a TV program) |
| 2 | 単一 | たんいつ (単一) : single; simple; sole; individual; unitary |
| 2 | 空間 | くうかん (空間) : space; room; airspace |
| 2 | 横断 | おうだん (横断) : 1. crossing; traversing 2. traversing horizontally; passing west to east (or east to west) |
| 2 | 分類 | ぶんるい (分類) : classification; categorization; sorting |
| 2 | 同社 | どうしゃ (同社) : the same firm |
| 2 | 初 | はつ (初) : first; new |
| 2 | 言語 | げんご (言語) : language |
| 2 | 意味内容 | いみないよう (意味内容) : semantic content (of a term); meaning (of a sentence) |
| 2 | 感情 | かんじょう (感情) : emotion; feeling; feelings; sentiment |
| 2 | 分析 | ぶんせき (分析) : analysis |
| 2 | 処理 | しょり (処理) : processing; dealing with; treatment; disposition; disposal |
| 2 | 能力 | のうりょく (能力) : ability; faculty |
| 2 | 向上 | こうじょう (向上) : elevation; rise; improvement; advancement; progress |
| 2 | つなげる | つなげる (繋げる) : 1. to connect 2. to tie; to fasten |
| 2 | 仕様 | しよう (仕様) : 1. way; method; means; resource; remedy 2. (technical) specification |
| 2 | あたり | あたり (当たり) : 1. hit 2. success |
| 2 | 秒 | びょう (秒) : 1. second (unit of time) 2. arc second |
| 2 | 文字起こし | もじおこし (文字起こし) : tape transcription; transcribing from recorded tape; audio-typing |
| 2 | 介す | かいす (介す) : 1. to use as an intermediary; to mediate; to assist 2. to worry; to mind; to care |
| 2 | 複数 | ふくすう (複数) : plural; multiple; several |
| 2 | まとめる | まとめる (纏める) : 1. to collect; to put (it all) together; to integrate; to consolidate; to unify 2. to summarize; to aggregate |
| 2 | 埋め込み | うめこみ (埋め込み) : 1. embedding; implantation 2. embedding |
| 2 | 出力 | しゅつりょく (出力) : output (electrical, signal, etc.) |
| 2 | 柔軟 | じゅうなん (柔軟) : flexible; lithe; soft; pliable |
| 2 | 縮小 | しゅくしょう (縮小) : reduction; curtailment |
| 2 | 可能 | かのう (可能) : possible; potential; practicable; feasible |
| 2 | 採用 | さいよう (採用) : 1. use; adoption; acceptance 2. appointment; employment; engagement; recruitment |
| 2 | 従来 | じゅうらい (従来) : 1. up to now; so far 2. traditional; conventional; usual; existing |
| 2 | 改良 | かいりょう (改良) : improvement; reform |
| 2 | とどまる | とどまる (止まる) : 1. to remain; to abide; to stay (in the one place) 2. to be limited to; to be confined to; to only account for |
| 2 | 領域 | りょういき (領域) : area; domain; territory; field; range; region; regime |
| 2 | 新た | あらた (新た) : new; fresh; novel |
| 2 | 水準 | すいじゅん (水準) : 1. level; standard 2. water level |
| 2 | 打ち立てる | うちたてる (打ち立てる) : to establish; to formulate |
| 2 | 位置 | いち (位置) : place; situation; position; location |
| 2 | 強力 | きょうりょく (強力) : powerful; strong |
| 2 | 音声認識 | おんせいにんしき (音声認識) : voice recognition; speech recognition |
| 2 | 機能 | きのう (機能) : function; facility; faculty; feature |
| 2 | 備える | そなえる (備える) : 1. to furnish with; to equip with; to provide; to install 2. to prepare for; to make preparations for; to make provision for |
| 2 | 各 | かく (各) : each; every; all |
| 2 | 発揮 | はっき (発揮) : show (of power, ability, etc.); exhibition; demonstration; display; manifestation |
| 2 | 多様 | たよう (多様) : diverse; varied |
| 2 | 向け | むけ (向け) : intended for ...; oriented towards ...; aimed at ... |
| 2 | 対話型 | たいわがた (対話型) : interactive |
| 2 | 公開 | こうかい (公開) : opening to the public; making available to the public; putting on display; exhibiting; showing (play, movie, etc.); holding (interview, etc.); open; public |