Published: 2025-03-07 12:39

仏Mistral AI、Markdown出力も可能な「Mistral OCR」

フランスのAIスタートアップ企業のMistral AI(ミストラルAI)は、光学文字認識(OCR)技術を用いたドキュメント理解API「Mistral OCR」を発表した。価格は1,000ページあたり1ドルで、APIプラットフォーム「la Plateforme」を通じ利用可能

【この記事関する別の画像を見る】

Mistral OCRは、画像やPDFを入力し、順序保持した形でテキストと画像抽出できる。また、複雑なレイアウトの文書やマルチモーダルドキュメント(スライド資料や科学論文など)にも対応し、高度構造解析実現している。

画像とテキストが交互配置された「インターリーブ」構造保持したまま解析できる点が特長文書構造維持したまま、Markdown(マークダウン)形式での出力可能で、見出し箇条書き、表、強調などの情報自動的付与し、元のドキュメントの構成反映する。これにより、OCRで抽出した内容そのままドキュメント管理システムやナレッジベースへ組み込むことができる。

同社は、OCR性能評価するベンチマークにおいて、GoogleドキュメントAIやAzure OCR、GPT-4oなどほかの主要なモデルを上回るスコアを記録。特に数学、スキャン文書多言語処理、表解析分野優れ精度示したという。さらに毎分最大2,000ページの高速処理実現している。

価格は1,000ページあたり1ドルで、APIは「la Plateforme」経由で利用できるほか、同社のLLM「le Chat」でも無料試用可能今後、クラウドパートナーやオンプレミス環境での展開も予定している。

# 言葉 意味
4 がぞう (画像) : image; picture; portrait
3 ぶんしょ (文書) : 1. document; writing; letter; papers; notes; records; archives 2. document addressed to someone
3 こうぞう (構造) : structure; construction; makeup; framework; organization; pattern
3 かいせき (解析) : 1. analysis; analytical study 2. parsing; parse
2 かかく (価格) : price; value; cost
2 あたり (当たり) : 1. hit 2. success
2 ほじ (保持) : retention; maintenance; preservation
2 ちゅうしゅつ (抽出) : 1. extraction; abstraction 2. selection (from a group); sampling
2 じつげん (実現) : implementation (e.g. of a system); materialization; materialisation; realization; realisation; actualization; actualisation
2 うば (乳母) : wet nurse; nursing mother
2 かのう (可能) : possible; potential; practicable; feasible
2 どうしゃ (同社) : the same firm
2 しょり (処理) : processing; dealing with; treatment; disposition; disposal
1 きぎょう (企業) : enterprise; business; company; corporation
1 こうがくもじにんしき (光学文字認識) : optical character recognition; OCR
1 もちいる (用いる) : to use; to make use of; to utilize; to utilise
1 りかい (理解) : understanding; comprehension; appreciation; sympathy
1 はっぴょう (発表) : announcement; publication; presenting; statement; communique; making known; breaking (news story); expressing (one's opinion); releasing; unveiling
1 つうずる (通ずる) : 1. to be open (to traffic); to lead to; to communicate (with) 2. to flow (liquid, current); to pass; to get through to
1 りようかのう (利用可能) : available; usable (e.g. bandwidth)
1 きじ (記事) : article; news story; report; account
1 かんする (関する) : to concern; to be related
1 にゅうりょく (入力) : input; (data) entry
1 じゅんじょ (順序) : order; sequence; procedure
1 しりょう (資料) : materials; data; document
1 ろんぶん (論文) : thesis; essay; treatise; paper; article
1 たいおう (対応) : 1. correspondence (to); equivalence 2. suitability; coordination; matching; being appropriate (for)
1 こうど (高度) : 1. altitude; height; elevation 2. high-degree; high-grade; advanced; sophisticated; strong
1 こうご (交互) : alternate; alternating; mutual; reciprocal
1 はいち (配置) : arrangement (of resources); deployment; stationing; posting; disposition; configuration; layout
1 とくちょう (特長) : forte; merit
1 いじ (維持) : maintenance; preservation; improvement
1 けいしき (形式) : 1. form (as opposed to substance); formality 2. method; system; style
1 しゅつりょく (出力) : output (electrical, signal, etc.)
1 みだし (見出し) : 1. heading; headline; title; caption 2. index
1 かじょう (箇条) : item; article; clause; section; point
1 かく (書く) : 1. to write; to compose; to pen 2. to draw; to paint
1 きょうちょう (強調) : emphasis; highlight; stress; stressed point
1 じょうほう (情報) : 1. information; news; intelligence; advices 2. information; data contained in characters, signals, code, etc.
1 じどうてき (自動的) : automatic
1 ふよ (付与) : grant; allowance; endowment; bestowal; assignment; conferment
1 こうせい (構成) : composition; construction; formation; makeup; structure; organization; organisation
1 はんえい (反映) : 1. reflection (light, image, situation, attitude, etc.); reflecting 2. influence; application (e.g. of an update)
1 ないよう (内容) : contents; content; substance; matter; detail; import
1 そのまま (其のまま) : 1. without change; as is 2. just like; extremely similar
1 かんりシステム (管理システム) : management system
1 くみこむ (組み込む) : to insert; to include; to incorporate; to cut in (printing)
1 せいのう (性能) : ability; performance; efficiency
1 ひょうか (評価) : 1. valuation; appraisal; evaluation; assessment; estimation; rating; judging 2. appreciation; recognition; acknowledgement; rating highly; praising
1 おく (奥) : inner part; inside; interior; depths (e.g. of a forest); back (of a house, drawer, etc.); bottom (e.g. of one's heart); recesses; heart
1 グーグル (Google) : Google
1 しゅよう (主要) : chief; main; principal; major
1 うわまわる (上回る) : to exceed (esp. figures: profits, unemployment rate, etc.); to surpass; to be more than; to be better than
1 きろく (記録) : 1. record; minutes; document 2. record (e.g. in sports); results; score
1 たげんご (多言語) : multilingual
1 ぶんや (分野) : field; sphere; realm; division; branch
1 すぐれる (優れる) : to surpass; to outstrip; to excel
1 せいど (精度) : precision; accuracy
1 しめす (示す) : 1. to (take out and) show; to demonstrate; to tell; to exemplify; to make apparent 2. to point out (finger, clock hand, needle, etc.)
1 さらに (更に) : furthermore; again; after all; more and more; moreover; even more
1 まいふん (毎分) : every minute; per minute
1 さいだい (最大) : biggest; greatest; largest; maximum
1 こうそく (高速) : 1. high-speed; rapid; express 2. highway; freeway; expressway; motorway
1 けいゆ (経由) : going through; going via; going by way of
1 むりょう (無料) : free (of charge); gratuitous
1 しよう (試用) : trial; experimental use
1 こんご (今後) : from now on; hereafter
1 かんきょう (環境) : environment; circumstance
1 てんかい (展開) : 1. development; evolution; progression; unfolding; (plot) twist 2. expansion; spreading out; extending; deployment; building up