すべての抽出結果をソーステキストの正確な位置にマッピングし、視覚的なハイライト表示により簡単な追跡と検証を可能にします。
少数ショット例に基づいて一貫した出力スキーマを強制し、Geminiなどのサポートされたモデルの制御された生成を活用します。
最適化されたテキストチャンキング、並列処理、複数パスを使用して「干し草の山から針を探す」課題を克服し、より高いリコールを実現します。
わずかな例を使用してあらゆるドメインの抽出タスクを定義できます。モデルの微調整を必要とせずにニーズに適応します。
インタラクティブなHTML可視化を生成し、直感的なハイライト表示でコンテキスト内の抽出エンティティをレビューできます。
Apache 2.0ライセンスの下で無料で使用できます。完全な透明性を持つコミュニティ主導の開発。
臨床ノートや医療レポートから重要な情報を抽出し、ソースの追跡可能性を維持します。
契約書や法的文書から条項、日付、当事者、その他の情報を抽出します。
文献を分析し、学術論文からエンティティを抽出し、未整理のテキストデータを構造化します。
ビジネス文書を構造化データに変換し、分析と意思決定に活用します。
開発者コミュニティはLangExtractに対して非常に興奮し、積極的な反応を示しています
言語を構造化されたゴールドに変換し、前例のないAIの透明性と追跡可能性の可能性を持っています。
データサイエンスの未来にとって大きな前進であり、複雑な文書から構造化データを抽出できます。
すべての開発プロジェクトで非常に有用であり、ワークフローの効率を大幅に向上させます。
国際的な開発者コミュニティからの強い関心を含め、世界中で注目を集めています。
医療レポートや臨床文書の処理に最適
金融文書分析とデータ抽出に完璧
学術研究と文献分析のための強力なツール
クラウドとローカルモデルの両方を優れた性能でサポート
3ステップでLangExtractを始める
抽出をガイドするプロンプトと例を作成します
import langextract as lx # 抽出ルールを定義 prompt = "テキストからキャラクターと感情を抽出" # 高品質な例を提供 examples = [ lx.data.ExampleData( text="ROMEO: But soft! What light...", extractions=[ lx.data.Extraction( extraction_class="character", extraction_text="ROMEO" ) ] ) ]
定義されたタスクでテキストを処理します
result = lx.extract( text_or_documents=input_text, prompt_description=prompt, examples=examples, model_id="gemini-2.5-flash" )
インタラクティブなHTML可視化を生成します
# 結果を保存 lx.io.save_annotated_documents( [result], output_name="results.jsonl" ) # 可視化を生成 html_content = lx.visualize("results.jsonl") with open("visualization.html", "w") as f: f.write(html_content)
さまざまなドメインでのLangExtractの活用例を見る
ロミオとジュリエットからキャラクター、感情、関係を抽出(147,843文字)
臨床ノートを構造化し、薬物、用量、患者情報を抽出
リアルタイム処理で放射線レポートを構造化するライブデモ
Geminiなどのクラウドモデルの場合、APIキーを設定してください