context-compressor

Name	context-compressor JSON
Version	1.0.3 JSON
	download
home_page	None
Summary	AI-powered text compression for RAG systems and API calls to reduce token usage and costs
upload_time	2025-08-15 11:13:51
maintainer	None
docs_url	None
author	None
requires_python	>=3.8
license	MIT
keywords	ai nlp text-compression rag tokens api-optimization semantic-compression llm
VCS
bugtrack_url
requirements	numpy scikit-learn pydantic typing-extensions torch transformers sentence-transformers datasets fastapi uvicorn python-multipart langchain openai anthropic tiktoken spacy nltk textstat rouge-score scipy matplotlib seaborn plotly pandas tqdm joblib
Travis-CI	No Travis.
coveralls test coverage	No coveralls.

            # Context Compressor

[![Python Version](https://img.shields.io/badge/python-3.8%2B-blue.svg)](https://python.org)
[![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT)
[![Code Style: Black](https://img.shields.io/badge/code%20style-black-000000.svg)](https://github.com/psf/black)
[![PyPI Version](https://img.shields.io/pypi/v/context-compressor.svg)](https://pypi.org/project/context-compressor/)
[![Downloads](https://img.shields.io/pypi/dm/context-compressor.svg)](https://pypi.org/project/context-compressor/)

**The most powerful AI-powered text compression library for RAG systems and API calls. Reduce token usage by up to 80% while preserving semantic meaning with state-of-the-art compression strategies.**

*Developed by Mohammed Huzaifa*

## 🚀 Features

### Core Compression Engine
- **4 Advanced Compression Strategies**: Extractive, Abstractive, Semantic, and Hybrid approaches using state-of-the-art AI models
- **Transformer-Powered**: Built on BERT, BART, T5, and other cutting-edge models for maximum compression quality
- **Query-Aware Intelligence**: Context-aware compression that prioritizes relevant content based on user queries
- **Multi-Model Support**: Works with OpenAI GPT, Anthropic Claude, Google PaLM, and custom models

### Quality & Performance
- **Comprehensive Quality Metrics**: ROUGE scores, semantic similarity, entity preservation, readability analysis
- **Up to 80% Token Reduction**: Achieve massive cost savings while maintaining content quality
- **Parallel Batch Processing**: High-performance processing of thousands of documents
- **Intelligent Caching**: Advanced TTL-based caching with cleanup for optimal performance

### Enterprise-Ready Integrations
- **LangChain Integration**: Seamless document transformer for RAG pipelines
- **OpenAI API Optimization**: Direct integration with GPT models and token counting
- **Anthropic Claude Support**: Native integration with Claude API
- **REST API Service**: Production-ready FastAPI microservice with OpenAPI documentation
- **Framework Agnostic**: Works with any Python ML/AI framework

### Advanced Features
- **Custom Strategy Development**: Plugin system for implementing custom compression algorithms
- **Real-time Monitoring**: Built-in metrics and performance tracking
- **Visualization Tools**: Matplotlib, Seaborn, and Plotly integration for compression analytics
- **NLP Enhancement**: SpaCy, NLTK integration for advanced text processing
- **Production Deployment**: Docker, Kubernetes, and cloud deployment ready

## 📦 Installation

### Full Installation (Recommended)

```bash
pip install context-compressor
```

*This now includes ALL features by default: ML models, API service, integrations, and NLP processing.*

### Advanced Installation Options

```bash
# For specific features only (legacy support)
pip install "context-compressor[ml]"          # ML models only
pip install "context-compressor[api]"         # API service only
pip install "context-compressor[integrations]" # Framework integrations
pip install "context-compressor[nlp]"         # NLP enhancements

# Development installation
pip install "context-compressor[dev]"         # Testing and development tools
pip install "context-compressor[docs]"        # Documentation generation
```

### Development Installation

```bash
git clone https://github.com/Huzaifa785/context-compressor.git
cd context-compressor
pip install -e ".[dev]"
```

## 🏁 Quick Start

### Basic Usage

```python
from context_compressor import ContextCompressor

# Initialize the compressor
compressor = ContextCompressor()

# Compress text
text = """
Artificial Intelligence (AI) is a broad field of computer science focused on 
creating systems that can perform tasks that typically require human intelligence. 
These tasks include learning, reasoning, problem-solving, perception, and language 
understanding. AI has applications in various domains including healthcare, finance, 
transportation, and entertainment. Machine learning, a subset of AI, enables 
computers to learn and improve from experience without being explicitly programmed.
"""

result = compressor.compress(text, target_ratio=0.5)

print("Original text:")
print(text)
print(f"\nCompressed text ({result.actual_ratio:.1%} of original):")
print(result.compressed_text)
print(f"\nTokens saved: {result.tokens_saved}")
print(f"Quality score: {result.quality_metrics.overall_score:.2f}")
```

**Expected Output:**
```
Original text:
Artificial Intelligence (AI) is a broad field of computer science focused on 
creating systems that can perform tasks that typically require human intelligence. 
These tasks include learning, reasoning, problem-solving, perception, and language 
understanding. AI has applications in various domains including healthcare, finance, 
transportation, and entertainment. Machine learning, a subset of AI, enables 
computers to learn and improve from experience without being explicitly programmed.

Compressed text (45.2% of original):
Artificial Intelligence (AI) creates systems performing human-like tasks: learning, 
reasoning, problem-solving, perception, language understanding. AI applications span 
healthcare, finance, transportation, entertainment. Machine learning enables computers 
to learn from experience without explicit programming.

Tokens saved: 32
Quality score: 0.87
```

### 📊 Complete Response Structure

The `compress()` method returns a `CompressionResult` object with comprehensive information:

```python
from context_compressor import ContextCompressor

compressor = ContextCompressor(enable_quality_evaluation=True)
result = compressor.compress(text, target_ratio=0.5)

# Access all result properties
print(f"Strategy used: {result.strategy_used}")
print(f"Original tokens: {result.original_tokens}")
print(f"Compressed tokens: {result.compressed_tokens}")
print(f"Target ratio: {result.target_ratio}")
print(f"Actual ratio: {result.actual_ratio:.3f}")
print(f"Processing time: {result.processing_time:.3f}s")
print(f"Timestamp: {result.timestamp}")

# Quality metrics (if enabled)
if result.quality_metrics:
    metrics = result.quality_metrics
    print(f"\nQuality Metrics:")
    print(f"  Semantic similarity: {metrics.semantic_similarity:.3f}")
    print(f"  ROUGE-1: {metrics.rouge_1:.3f}")
    print(f"  ROUGE-2: {metrics.rouge_2:.3f}")
    print(f"  ROUGE-L: {metrics.rouge_l:.3f}")
    print(f"  Entity preservation: {metrics.entity_preservation_rate:.3f}")
    print(f"  Readability score: {metrics.readability_score:.1f}")
    print(f"  Overall score: {metrics.overall_score:.3f}")

# Additional properties
print(f"\nDerived Properties:")
print(f"  Tokens saved: {result.tokens_saved}")
print(f"  Token savings %: {result.token_savings_percentage:.1f}%")
print(f"  Compression efficiency: {result.compression_efficiency:.3f}")

# Export to dictionary or JSON
result_dict = result.to_dict()
result_json = result.to_json(indent=2)
result.save_to_file('compression_result.json')
```

### Query-Aware Compression

```python
# Compress with focus on specific topic
query = "machine learning applications"

result = compressor.compress(
    text=text,
    target_ratio=0.3,
    query=query
)

print(f"Query-focused compression: {result.compressed_text}")
print(f"Query used: {result.query}")
print(f"Compression ratio: {result.actual_ratio:.1%}")
```

**Output with Query Focus:**
```
Query-focused compression: Machine learning, AI subset, enables computers 
to learn from experience. AI applications include healthcare, finance, 
transportation, entertainment domains.

Query used: machine learning applications
Compression ratio: 28.3%
```

**Comparison - Without Query:**
```python
result_no_query = compressor.compress(text, target_ratio=0.3)
print(f"Without query: {result_no_query.compressed_text}")
# Output: Artificial Intelligence creates systems performing human tasks. 
# Learning, reasoning, problem-solving, perception, language understanding.
```

### Batch Processing

```python
texts = [
    "Artificial Intelligence revolutionizes industries through automated decision-making, "
    "pattern recognition, and predictive analytics across healthcare, finance, and technology sectors.",
    "Natural Language Processing enables computers to understand, interpret, and generate "
    "human language through tokenization, sentiment analysis, and semantic understanding.",
    "Computer Vision allows machines to identify, analyze, and interpret visual information "
    "from images and videos using convolutional neural networks and deep learning algorithms."
]

batch_result = compressor.compress_batch(
    texts=texts,
    target_ratio=0.4,
    parallel=True,
    max_workers=4
)

# Comprehensive batch results
print(f"Batch Processing Results:")
print(f"  Processed: {len(batch_result.results)} texts")
print(f"  Success rate: {batch_result.success_rate:.1%}")
print(f"  Total processing time: {batch_result.total_processing_time:.3f}s")
print(f"  Parallel processing: {batch_result.parallel_processing}")
print(f"  Average compression ratio: {batch_result.average_compression_ratio:.1%}")
print(f"  Total tokens saved: {batch_result.total_tokens_saved}")
print(f"  Average quality score: {batch_result.average_quality_score:.3f}")

# Individual results
for i, result in enumerate(batch_result.results):
    print(f"\nText {i+1}:")
    print(f"  Original length: {len(result.original_text)} chars")
    print(f"  Compressed: {result.compressed_text[:100]}...")
    print(f"  Compression: {result.actual_ratio:.1%}")
    print(f"  Tokens saved: {result.tokens_saved}")

# Failed items (if any)
if batch_result.failed_items:
    print(f"\nFailed items: {len(batch_result.failed_items)}")
    for failed in batch_result.failed_items:
        print(f"  Error: {failed['error']}")
```

**Expected Batch Output:**
```
Batch Processing Results:
  Processed: 3 texts
  Success rate: 100.0%
  Total processing time: 0.245s
  Parallel processing: True
  Average compression ratio: 42.1%
  Total tokens saved: 87
  Average quality score: 0.854

Text 1:
  Original length: 142 chars
  Compressed: AI revolutionizes industries through automated decisions, pattern recognition, predictive...
  Compression: 41.5%
  Tokens saved: 28

Text 2:
  Original length: 138 chars
  Compressed: NLP enables computers to understand, interpret, generate human language via tokenization...
  Compression: 43.2%
  Tokens saved: 31

Text 3:
  Original length: 145 chars
  Compressed: Computer Vision allows machines to analyze visual information using CNNs, deep learning...
  Compression: 41.7%
  Tokens saved: 28
```

## 🔧 Configuration

### Strategy Selection

```python
from context_compressor import ContextCompressor
from context_compressor.strategies import ExtractiveStrategy

# Use specific strategy
extractive_strategy = ExtractiveStrategy(
    scoring_method="tfidf",
    min_sentence_length=20,
    position_bias=0.2
)

compressor = ContextCompressor(strategies=[extractive_strategy])

# Or let the system auto-select
compressor = ContextCompressor(default_strategy="auto")
```

### Quality Evaluation Settings

```python
compressor = ContextCompressor(
    enable_quality_evaluation=True,
    enable_caching=True,
    cache_ttl=3600  # 1 hour
)

result = compressor.compress(text, target_ratio=0.5)

# Access detailed quality metrics
print(f"ROUGE-1: {result.quality_metrics.rouge_1:.3f}")
print(f"ROUGE-2: {result.quality_metrics.rouge_2:.3f}")
print(f"ROUGE-L: {result.quality_metrics.rouge_l:.3f}")
print(f"Semantic similarity: {result.quality_metrics.semantic_similarity:.3f}")
print(f"Entity preservation: {result.quality_metrics.entity_preservation_rate:.3f}")
```

## 🎯 Compression Strategies with Examples

### 1. Extractive Strategy (Default) 🎫

Extracts the most important sentences using advanced scoring algorithms:

```python
from context_compressor import ContextCompressor
from context_compressor.strategies import ExtractiveStrategy

# Configure extractive strategy
strategy = ExtractiveStrategy(
    scoring_method="combined",  # "tfidf", "frequency", "position", "combined"
    min_sentence_length=10,
    position_bias=0.2,
    query_weight=0.3
)

compressor = ContextCompressor(strategies=[strategy])

text = """
Climate change is one of the most pressing issues of our time. Rising global temperatures 
have led to melting ice caps and rising sea levels. Scientists worldwide are studying 
the effects of greenhouse gas emissions on our planet's atmosphere. The Paris Agreement 
of 2015 brought together 196 countries to combat climate change. Renewable energy sources 
like solar and wind power are becoming increasingly important. Governments and corporations 
are investing heavily in clean technology solutions. Individual actions like reducing 
carbon footprints also play a crucial role in addressing this global challenge.
"""

result = compressor.compress(text, target_ratio=0.5)

print(f"Strategy: {result.strategy_used}")
print(f"Compression: {result.actual_ratio:.1%}")
print(f"Output: {result.compressed_text}")
```

**Extractive Output Example:**
```
Strategy: extractive
Compression: 48.3%
Output: Climate change is one of the most pressing issues of our time. Rising global 
temperatures have led to melting ice caps and rising sea levels. The Paris Agreement 
of 2015 brought together 196 countries to combat climate change. Renewable energy 
sources like solar and wind power are becoming increasingly important.
```

### 2. Abstractive Strategy (AI-Powered) 🤖

Generates new, concise text using transformer models:

```python
from context_compressor.strategies import AbstractiveStrategy

# Configure abstractive strategy
strategy = AbstractiveStrategy(
    model_name="facebook/bart-large-cnn",
    max_length=150,
    min_length=50,
    do_sample=False,
    early_stopping=True
)

compressor = ContextCompressor(strategies=[strategy])
result = compressor.compress(text, target_ratio=0.4)

print(f"Strategy: {result.strategy_used}")
print(f"Compression: {result.actual_ratio:.1%}")
print(f"Output: {result.compressed_text}")
print(f"Quality Score: {result.quality_metrics.overall_score:.3f}")
```

**Abstractive Output Example:**
```
Strategy: abstractive
Compression: 39.7%
Output: Climate change, driven by greenhouse gas emissions, causes rising temperatures 
and sea levels. The 2015 Paris Agreement united 196 countries to address this challenge 
through renewable energy investments and clean technology solutions.

Quality Score: 0.912
```

### 3. Semantic Strategy (Clustering-Based) 🧠

Groups similar content and selects representative sentences:

```python
from context_compressor.strategies import SemanticStrategy

# Configure semantic strategy
strategy = SemanticStrategy(
    embedding_model="all-MiniLM-L6-v2",
    clustering_method="kmeans",
    n_clusters="auto",  # or specific number like 3
    similarity_threshold=0.7
)

compressor = ContextCompressor(strategies=[strategy])
result = compressor.compress(text, target_ratio=0.6)

print(f"Strategy: {result.strategy_used}")
print(f"Compression: {result.actual_ratio:.1%}")
print(f"Output: {result.compressed_text}")
print(f"Semantic Similarity: {result.quality_metrics.semantic_similarity:.3f}")
```

**Semantic Output Example:**
```
Strategy: semantic
Compression: 58.2%
Output: Climate change is one of the most pressing issues of our time. Scientists 
worldwide are studying the effects of greenhouse gas emissions. The Paris Agreement 
of 2015 brought together 196 countries to combat climate change. Governments and 
corporations are investing heavily in clean technology solutions.

Semantic Similarity: 0.887
```

### 4. Hybrid Strategy (Best of All Worlds) ✨

Combines multiple strategies for optimal results:

```python
from context_compressor.strategies import HybridStrategy

# Configure hybrid strategy
strategy = HybridStrategy(
    primary_strategy="extractive",
    secondary_strategy="semantic",
    combination_method="weighted",
    primary_weight=0.7,
    secondary_weight=0.3
)

compressor = ContextCompressor(strategies=[strategy])
result = compressor.compress(text, target_ratio=0.45)

print(f"Strategy: {result.strategy_used}")
print(f"Compression: {result.actual_ratio:.1%}")
print(f"Output: {result.compressed_text}")
print(f"Compression Efficiency: {result.compression_efficiency:.3f}")
```

**Hybrid Output Example:**
```
Strategy: hybrid
Compression: 44.1%
Output: Climate change is one of the most pressing issues of our time. Rising global 
temperatures have led to melting ice caps and rising sea levels. The Paris Agreement 
brought together 196 countries to combat climate change. Renewable energy sources 
are becoming increasingly important for clean technology solutions.

Compression Efficiency: 0.394
```

### 📈 Strategy Comparison

```python
# Compare all strategies on the same text
strategies = [
    ("extractive", ExtractiveStrategy()),
    ("abstractive", AbstractiveStrategy(model_name="facebook/bart-large-cnn")),
    ("semantic", SemanticStrategy()),
    ("hybrid", HybridStrategy())
]

comparison_results = []
for name, strategy in strategies:
    compressor = ContextCompressor(strategies=[strategy])
    result = compressor.compress(text, target_ratio=0.5)
    comparison_results.append({
        'strategy': name,
        'compression': result.actual_ratio,
        'tokens_saved': result.tokens_saved,
        'quality': result.quality_metrics.overall_score if result.quality_metrics else None,
        'time': result.processing_time
    })

# Display comparison
for result in comparison_results:
    print(f"{result['strategy']:<12} | "
          f"Compression: {result['compression']:<5.1%} | "
          f"Tokens Saved: {result['tokens_saved']:<3} | "
          f"Quality: {result['quality']:<5.3f} | "
          f"Time: {result['time']:<6.3f}s")
```

**Strategy Comparison Output:**
```
extractive    | Compression: 48.3% | Tokens Saved: 31  | Quality: 0.854 | Time: 0.089s
abstractive  | Compression: 39.7% | Tokens Saved: 38  | Quality: 0.912 | Time: 1.245s
semantic     | Compression: 58.2% | Tokens Saved: 26  | Quality: 0.887 | Time: 0.234s
hybrid       | Compression: 44.1% | Tokens Saved: 35  | Quality: 0.891 | Time: 0.156s
```

## 🔌 Integrations

### LangChain Integration

```python
from context_compressor.integrations.langchain import ContextCompressorTransformer

# Use as a document transformer
transformer = ContextCompressorTransformer(
    compressor=compressor,
    target_ratio=0.6
)

# Apply to document chain
compressed_docs = transformer.transform_documents(documents)
```

### OpenAI Integration

```python
from context_compressor.integrations.openai import compress_for_openai

# Compress text before sending to OpenAI API
compressed_prompt = compress_for_openai(
    text=long_context,
    target_ratio=0.4,
    model="gpt-4"  # Automatically uses appropriate tokenizer
)
```

## 🌐 REST API

Start the API server:

```bash
uvicorn context_compressor.api.main:app --reload
```

### 📚 API Endpoints & Response Structures

#### Compress Text

**Request:**
```bash
curl -X POST "http://localhost:8000/compress" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Artificial Intelligence (AI) is transforming industries through automation, machine learning, and data analytics. Companies leverage AI for predictive modeling, natural language processing, and computer vision applications across healthcare, finance, and technology sectors.",
    "target_ratio": 0.5,
    "strategy": "extractive",
    "query": "AI applications in healthcare",
    "enable_quality_evaluation": true
  }'
```

**Response Structure:**
```json
{
  "compressed_text": "AI transforms industries through automation, ML, analytics. Companies use AI for predictive modeling, NLP, computer vision in healthcare, finance, technology.",
  "original_text": "Artificial Intelligence (AI) is transforming...",
  "strategy_used": "extractive",
  "target_ratio": 0.5,
  "actual_ratio": 0.487,
  "original_tokens": 52,
  "compressed_tokens": 25,
  "tokens_saved": 27,
  "token_savings_percentage": 51.9,
  "processing_time": 0.145,
  "compression_efficiency": 0.423,
  "query": "AI applications in healthcare",
  "timestamp": "2024-01-15T10:30:45.123456",
  "quality_metrics": {
    "semantic_similarity": 0.892,
    "rouge_1": 0.756,
    "rouge_2": 0.634,
    "rouge_l": 0.723,
    "entity_preservation_rate": 0.889,
    "readability_score": 65.2,
    "compression_ratio": 0.487,
    "overall_score": 0.854
  },
  "strategy_metadata": {
    "name": "extractive",
    "description": "Sentence extraction based on importance scoring",
    "version": "1.0.0",
    "computational_complexity": "medium",
    "memory_requirements": "low"
  }
}
```

#### Batch Compression

**Request:**
```bash
curl -X POST "http://localhost:8000/compress/batch" \
  -H "Content-Type: application/json" \
  -d '{
    "texts": [
      "Machine learning algorithms analyze vast datasets to identify patterns and make predictions.",
      "Deep learning neural networks mimic human brain structure for complex pattern recognition.",
      "Natural language processing enables computers to understand and generate human language."
    ],
    "target_ratio": 0.4,
    "strategy": "extractive",
    "parallel": true,
    "max_workers": 3
  }'
```

**Response Structure:**
```json
{
  "results": [
    {
      "compressed_text": "ML algorithms analyze datasets to identify patterns, make predictions.",
      "original_text": "Machine learning algorithms analyze vast datasets...",
      "strategy_used": "extractive",
      "actual_ratio": 0.423,
      "tokens_saved": 8,
      "processing_time": 0.089
    },
    {
      "compressed_text": "Deep learning networks mimic brain structure for pattern recognition.",
      "original_text": "Deep learning neural networks mimic human...",
      "strategy_used": "extractive",
      "actual_ratio": 0.398,
      "tokens_saved": 9,
      "processing_time": 0.094
    },
    {
      "compressed_text": "NLP enables computers to understand, generate human language.",
      "original_text": "Natural language processing enables computers...",
      "strategy_used": "extractive",
      "actual_ratio": 0.412,
      "tokens_saved": 7,
      "processing_time": 0.087
    }
  ],
  "total_processing_time": 0.298,
  "strategy_used": "extractive",
  "target_ratio": 0.4,
  "parallel_processing": true,
  "success_rate": 1.0,
  "average_compression_ratio": 0.411,
  "total_tokens_saved": 24,
  "average_quality_score": 0.867,
  "failed_items": [],
  "timestamp": "2024-01-15T10:35:22.456789"
}
```

#### List Available Strategies

**Request:**
```bash
curl "http://localhost:8000/strategies"
```

**Response:**
```json
{
  "strategies": [
    {
      "name": "extractive",
      "description": "Extracts important sentences based on TF-IDF and position scoring",
      "version": "1.0.0",
      "author": "Context Compressor Team",
      "supported_languages": ["en"],
      "optimal_compression_ratios": [0.3, 0.5, 0.7],
      "requires_query": false,
      "supports_batch": true,
      "computational_complexity": "medium",
      "memory_requirements": "low",
      "dependencies": ["scikit-learn", "numpy"]
    },
    {
      "name": "abstractive",
      "description": "Uses transformer models for content summarization",
      "version": "1.0.0",
      "supported_languages": ["en"],
      "optimal_compression_ratios": [0.2, 0.4, 0.6],
      "requires_query": false,
      "supports_batch": true,
      "computational_complexity": "high",
      "memory_requirements": "high",
      "dependencies": ["transformers", "torch"]
    }
  ],
  "total_strategies": 2,
  "default_strategy": "extractive"
}
```

#### Health Check

**Request:**
```bash
curl "http://localhost:8000/health"
```

**Response:**
```json
{
  "status": "healthy",
  "version": "1.0.2",
  "timestamp": "2024-01-15T10:40:15.789012",
  "uptime_seconds": 3600.5,
  "total_compressions": 1245,
  "cache_hit_rate": 23.7,
  "average_processing_time": 0.156
}
```

### API Documentation

Visit `http://localhost:8000/docs` for interactive API documentation.

## 📊 Quality Metrics & Evaluation

The system provides comprehensive quality evaluation with detailed metrics and examples:

### 🔍 Core Quality Metrics

#### Semantic Similarity (0.0 - 1.0)
Measures how well the compressed text preserves the original meaning using word embeddings.

```python
from context_compressor import ContextCompressor

compressor = ContextCompressor(enable_quality_evaluation=True)
result = compressor.compress(
    "The revolutionary breakthrough in quantum computing promises to solve complex problems "
    "that are currently intractable for classical computers, potentially transforming "
    "cryptography, drug discovery, and optimization challenges.",
    target_ratio=0.5
)

print(f"Semantic Similarity: {result.quality_metrics.semantic_similarity:.3f}")
# Output: Semantic Similarity: 0.892
# Interpretation: 89.2% of semantic meaning preserved
```

#### ROUGE Scores (0.0 - 1.0)
Standard summarization metrics comparing n-gram overlap between original and compressed text.

```python
metrics = result.quality_metrics
print(f"ROUGE-1 (unigram overlap): {metrics.rouge_1:.3f}")
print(f"ROUGE-2 (bigram overlap): {metrics.rouge_2:.3f}")
print(f"ROUGE-L (longest common subsequence): {metrics.rouge_l:.3f}")

# Example output:
# ROUGE-1 (unigram overlap): 0.756
# ROUGE-2 (bigram overlap): 0.634
# ROUGE-L (longest common subsequence): 0.723
```

**Interpretation:**
- **ROUGE-1 > 0.7**: Excellent word overlap
- **ROUGE-2 > 0.5**: Good phrase preservation
- **ROUGE-L > 0.6**: Strong structural similarity

#### Entity Preservation Rate (0.0 - 1.0)
Tracks retention of named entities, numbers, dates, and other important factual information.

```python
original = "Apple Inc. reported $394.3 billion revenue in 2022, with CEO Tim Cook "
           "announcing new products on September 7th at their Cupertino headquarters."

result = compressor.compress(original, target_ratio=0.6)

print(f"Entity Preservation: {result.quality_metrics.entity_preservation_rate:.3f}")
print(f"Compressed: {result.compressed_text}")

# Output:
# Entity Preservation: 0.889
# Compressed: Apple Inc. reported $394.3 billion revenue in 2022, with CEO Tim Cook 
#            announcing new products at Cupertino headquarters.
# Analysis: 8/9 entities preserved (missing "September 7th")
```

#### Readability Score (0-100, Flesch Reading Ease)
Measures text readability - higher scores indicate easier reading.

```python
print(f"Readability Score: {result.quality_metrics.readability_score:.1f}")

# Interpretation:
# 90-100: Very Easy (5th grade)
# 80-89:  Easy (6th grade)
# 70-79:  Fairly Easy (7th grade)
# 60-69:  Standard (8th-9th grade)
# 50-59:  Fairly Difficult (10th-12th grade)
# 30-49:  Difficult (College level)
# 0-29:   Very Difficult (Graduate level)
```

#### Overall Quality Score (0.0 - 1.0)
Weighted combination of all metrics, providing a single quality indicator.

```python
overall = result.quality_metrics.overall_score
print(f"Overall Quality: {overall:.3f}")

# Quality Thresholds:
if overall >= 0.9:
    quality_level = "Excellent"
elif overall >= 0.8:
    quality_level = "Very Good"
elif overall >= 0.7:
    quality_level = "Good"
elif overall >= 0.6:
    quality_level = "Acceptable"
else:
    quality_level = "Poor"

print(f"Quality Level: {quality_level}")
```

### 📈 Quality Analysis Examples

#### Detailed Quality Report

```python
def generate_quality_report(result):
    """Generate comprehensive quality analysis report."""
    if not result.quality_metrics:
        return "Quality evaluation not enabled"
    
    metrics = result.quality_metrics
    
    report = f"""
📊 COMPRESSION QUALITY REPORT
{'='*50}

📝 Text Statistics:
   Original tokens: {result.original_tokens}
   Compressed tokens: {result.compressed_tokens}
   Compression ratio: {result.actual_ratio:.1%}
   Tokens saved: {result.tokens_saved}

🎯 Quality Metrics:
   Semantic Similarity: {metrics.semantic_similarity:.3f} {'✅' if metrics.semantic_similarity >= 0.8 else '⚠️' if metrics.semantic_similarity >= 0.6 else '❌'}
   ROUGE-1: {metrics.rouge_1:.3f} {'✅' if metrics.rouge_1 >= 0.7 else '⚠️' if metrics.rouge_1 >= 0.5 else '❌'}
   ROUGE-2: {metrics.rouge_2:.3f} {'✅' if metrics.rouge_2 >= 0.5 else '⚠️' if metrics.rouge_2 >= 0.3 else '❌'}
   ROUGE-L: {metrics.rouge_l:.3f} {'✅' if metrics.rouge_l >= 0.6 else '⚠️' if metrics.rouge_l >= 0.4 else '❌'}
   Entity Preservation: {metrics.entity_preservation_rate:.3f} {'✅' if metrics.entity_preservation_rate >= 0.8 else '⚠️' if metrics.entity_preservation_rate >= 0.6 else '❌'}
   Readability: {metrics.readability_score:.1f} {'✅' if 60 <= metrics.readability_score <= 80 else '⚠️'}
   
🏆 Overall Score: {metrics.overall_score:.3f} {'✅ Excellent' if metrics.overall_score >= 0.9 else '✅ Very Good' if metrics.overall_score >= 0.8 else '⚠️ Good' if metrics.overall_score >= 0.7 else '⚠️ Acceptable' if metrics.overall_score >= 0.6 else '❌ Poor'}

⚡ Efficiency Score: {result.compression_efficiency:.3f}
   (Balances compression ratio with quality)
    """
    
    return report

# Usage
result = compressor.compress(long_text, target_ratio=0.4)
print(generate_quality_report(result))
```

#### Quality Comparison Across Strategies

```python
def compare_quality_across_strategies(text, target_ratio=0.5):
    """Compare quality metrics across different compression strategies."""
    strategies = [
        ("Extractive", ExtractiveStrategy()),
        ("Semantic", SemanticStrategy()),
        ("Hybrid", HybridStrategy())
    ]
    
    results = []
    
    for name, strategy in strategies:
        compressor = ContextCompressor(
            strategies=[strategy],
            enable_quality_evaluation=True
        )
        result = compressor.compress(text, target_ratio=target_ratio)
        
        if result.quality_metrics:
            results.append({
                'strategy': name,
                'compression': result.actual_ratio,
                'semantic_sim': result.quality_metrics.semantic_similarity,
                'rouge_1': result.quality_metrics.rouge_1,
                'rouge_l': result.quality_metrics.rouge_l,
                'entity_preservation': result.quality_metrics.entity_preservation_rate,
                'overall': result.quality_metrics.overall_score,
                'efficiency': result.compression_efficiency
            })
    
    # Display comparison table
    print(f"{'Strategy':<12} | {'Comp.':<6} | {'Sem.':<6} | {'R-1':<6} | {'R-L':<6} | {'Ent.':<6} | {'Overall':<7} | {'Effic.':<7}")
    print("-" * 80)
    
    for r in results:
        print(f"{r['strategy']:<12} | "
              f"{r['compression']:<6.1%} | "
              f"{r['semantic_sim']:<6.3f} | "
              f"{r['rouge_1']:<6.3f} | "
              f"{r['rouge_l']:<6.3f} | "
              f"{r['entity_preservation']:<6.3f} | "
              f"{r['overall']:<7.3f} | "
              f"{r['efficiency']:<7.3f}")
    
    return results

# Usage
comparison = compare_quality_across_strategies(sample_text)
```

**Example Output:**
```
Strategy     | Comp.  | Sem.   | R-1    | R-L    | Ent.   | Overall | Effic. 
--------------------------------------------------------------------------------
Extractive   | 48.3%  | 0.854  | 0.756  | 0.723  | 0.889  | 0.854   | 0.412  
Semantic     | 58.2%  | 0.887  | 0.712  | 0.698  | 0.845  | 0.836   | 0.486  
Hybrid       | 44.1%  | 0.891  | 0.789  | 0.756  | 0.923  | 0.891   | 0.393  
```

### 🎯 Quality Optimization Strategies

```python
def optimize_for_quality_metric(text, target_metric='overall', min_score=0.8):
    """Optimize compression for specific quality metrics."""
    strategies_config = {
        'semantic_similarity': [
            SemanticStrategy(similarity_threshold=0.8),
            HybridStrategy(primary_weight=0.3, secondary_weight=0.7)
        ],
        'entity_preservation': [
            ExtractiveStrategy(entity_boost=0.4),
            HybridStrategy(entity_preservation_weight=0.3)
        ],
        'rouge_scores': [
            ExtractiveStrategy(scoring_method="tfidf"),
            AbstractiveStrategy(model_name="facebook/bart-large-cnn")
        ],
        'overall': [
            HybridStrategy(),
            ExtractiveStrategy(scoring_method="combined")
        ]
    }
    
    target_strategies = strategies_config.get(target_metric, strategies_config['overall'])
    
    best_result = None
    best_score = 0
    
    for strategy in target_strategies:
        compressor = ContextCompressor(strategies=[strategy])
        result = compressor.compress(text, target_ratio=0.5)
        
        if result.quality_metrics:
            score = getattr(result.quality_metrics, target_metric, result.quality_metrics.overall_score)
            
            if score > best_score and score >= min_score:
                best_score = score
                best_result = result
    
    return best_result

# Usage examples
best_semantic = optimize_for_quality_metric(text, 'semantic_similarity', 0.85)
best_entity = optimize_for_quality_metric(text, 'entity_preservation_rate', 0.9)
best_overall = optimize_for_quality_metric(text, 'overall', 0.8)
```

## 🎛️ Advanced Configuration

### Custom Strategy Development

```python
from context_compressor.strategies.base import CompressionStrategy
from context_compressor.core.models import StrategyMetadata

class CustomStrategy(CompressionStrategy):
    def _create_metadata(self) -> StrategyMetadata:
        return StrategyMetadata(
            name="custom",
            description="Custom compression strategy",
            version="1.0.0",
            author="Your Name"
        )
    
    def _compress_text(self, text: str, target_ratio: float, **kwargs) -> str:
        # Implement your compression logic
        return compressed_text

# Register and use
compressor.register_strategy(CustomStrategy())
```

### Cache Configuration

```python
from context_compressor.utils.cache import CacheManager

# Custom cache manager
cache_manager = CacheManager(
    ttl=7200,  # 2 hours
    max_size=2000,
    cleanup_interval=600  # 10 minutes
)

compressor = ContextCompressor(cache_manager=cache_manager)
```

## 🚀 Advanced Techniques & Best Practices

### 🎨 Advanced Strategy Configuration

#### Dynamic Strategy Selection

```python
from context_compressor import ContextCompressor
from context_compressor.strategies import ExtractiveStrategy, AbstractiveStrategy

def select_strategy_by_content(text: str, target_ratio: float):
    """Dynamically select strategy based on content characteristics."""
    text_length = len(text.split())
    
    if text_length < 100:
        # Short text: use extractive for speed
        return ExtractiveStrategy(scoring_method="tfidf")
    elif target_ratio < 0.3:
        # Aggressive compression: use abstractive
        return AbstractiveStrategy(model_name="facebook/bart-large-cnn")
    else:
        # Balanced: use hybrid approach
        return ExtractiveStrategy(scoring_method="combined")

# Usage
text = "Your content here..."
strategy = select_strategy_by_content(text, target_ratio=0.4)
compressor = ContextCompressor(strategies=[strategy])
result = compressor.compress(text, target_ratio=0.4)
```

#### Custom Scoring Functions

```python
from context_compressor.strategies import ExtractiveStrategy
import numpy as np

def custom_importance_scorer(sentences, query=None):
    """Custom sentence importance scoring."""
    scores = []
    for sentence in sentences:
        score = 0.0
        
        # Length-based scoring
        if 10 <= len(sentence.split()) <= 25:
            score += 0.3
        
        # Question sentences get higher scores
        if sentence.strip().endswith('?'):
            score += 0.4
        
        # Keyword boosting
        keywords = ['important', 'key', 'main', 'primary', 'essential']
        for keyword in keywords:
            if keyword.lower() in sentence.lower():
                score += 0.2
        
        # Query relevance (if provided)
        if query:
            query_words = set(query.lower().split())
            sentence_words = set(sentence.lower().split())
            overlap = len(query_words.intersection(sentence_words))
            score += overlap * 0.1
        
        scores.append(score)
    
    return np.array(scores)

# Create custom strategy
strategy = ExtractiveStrategy(
    scoring_method="custom",
    custom_scorer=custom_importance_scorer
)
```

### 📊 Advanced Quality Control

#### Quality-Aware Compression

```python
def compress_with_quality_threshold(compressor, text, target_ratio, min_quality=0.8):
    """Compress text while maintaining minimum quality threshold."""
    result = compressor.compress(text, target_ratio=target_ratio)
    
    if result.quality_metrics and result.quality_metrics.overall_score < min_quality:
        # Try with less aggressive compression
        adjusted_ratio = min(target_ratio + 0.2, 0.9)
        print(f"Quality too low ({result.quality_metrics.overall_score:.3f}), "
              f"adjusting ratio from {target_ratio} to {adjusted_ratio}")
        result = compressor.compress(text, target_ratio=adjusted_ratio)
    
    return result

# Usage
compressor = ContextCompressor(enable_quality_evaluation=True)
result = compress_with_quality_threshold(
    compressor, text, target_ratio=0.3, min_quality=0.85
)
print(f"Final quality: {result.quality_metrics.overall_score:.3f}")
```

#### Multi-Metric Quality Optimization

```python
def multi_objective_compression(compressor, text, target_ratio):
    """Optimize for multiple quality metrics simultaneously."""
    strategies = [
        ("extractive", ExtractiveStrategy()),
        ("semantic", SemanticStrategy()),
        ("hybrid", HybridStrategy())
    ]
    
    best_result = None
    best_score = -1
    
    for name, strategy in strategies:
        temp_compressor = ContextCompressor(strategies=[strategy])
        result = temp_compressor.compress(text, target_ratio=target_ratio)
        
        if result.quality_metrics:
            # Weighted quality score
            composite_score = (
                result.quality_metrics.semantic_similarity * 0.3 +
                result.quality_metrics.rouge_l * 0.3 +
                result.quality_metrics.entity_preservation_rate * 0.2 +
                (1 - result.actual_ratio) * 0.2  # Compression bonus
            )
            
            print(f"{name:<12}: Quality={composite_score:.3f}, "
                  f"Compression={result.actual_ratio:.1%}")
            
            if composite_score > best_score:
                best_score = composite_score
                best_result = result
    
    return best_result
```

### 🔄 Pipeline Integration Patterns

#### RAG System Integration

```python
from context_compressor.integrations.langchain import ContextCompressorTransformer
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings

def create_compressed_rag_pipeline():
    """Create a RAG pipeline with context compression."""
    # Initialize components
    embeddings = OpenAIEmbeddings()
    vectorstore = FAISS.from_texts(documents, embeddings)
    compressor = ContextCompressor(
        default_strategy="hybrid",
        enable_quality_evaluation=True
    )
    
    # Create compression transformer
    transformer = ContextCompressorTransformer(
        compressor=compressor,
        target_ratio=0.6,
        min_quality_threshold=0.8
    )
    
    def query_with_compression(query: str, k: int = 5):
        # Retrieve relevant documents
        docs = vectorstore.similarity_search(query, k=k)
        
        # Compress retrieved context
        compressed_docs = transformer.transform_documents(docs)
        
        # Calculate compression statistics
        original_length = sum(len(doc.page_content) for doc in docs)
        compressed_length = sum(len(doc.page_content) for doc in compressed_docs)
        compression_ratio = compressed_length / original_length
        
        print(f"Retrieved {len(docs)} documents")
        print(f"Compression: {compression_ratio:.1%} of original")
        print(f"Context length: {original_length} → {compressed_length} chars")
        
        return compressed_docs
    
    return query_with_compression

# Usage
rag_query = create_compressed_rag_pipeline()
compressed_context = rag_query("What are the benefits of renewable energy?")
```

#### API Cost Optimization

```python
from context_compressor.integrations.openai import compress_for_openai
import openai

def cost_optimized_api_call(prompt: str, context: str, model: str = "gpt-4"):
    """Optimize API costs through intelligent compression."""
    # Estimate original cost
    original_tokens = len(context.split()) * 1.3  # Rough token estimate
    
    # Determine optimal compression ratio based on model pricing
    if model.startswith("gpt-4"):
        target_ratio = 0.4  # Aggressive compression for expensive models
    elif model.startswith("gpt-3.5"):
        target_ratio = 0.6  # Moderate compression
    else:
        target_ratio = 0.8  # Light compression for cheaper models
    
    # Compress context
    compressed_context = compress_for_openai(
        text=context,
        target_ratio=target_ratio,
        model=model,
        preserve_entities=True
    )
    
    # Calculate savings
    compressed_tokens = len(compressed_context.split()) * 1.3
    token_savings = original_tokens - compressed_tokens
    
    # Make API call
    full_prompt = f"{prompt}\n\nContext: {compressed_context}"
    
    print(f"Token reduction: {original_tokens:.0f} → {compressed_tokens:.0f} "
          f"({token_savings/original_tokens:.1%} savings)")
    
    response = openai.ChatCompletion.create(
        model=model,
        messages=[{"role": "user", "content": full_prompt}]
    )
    
    return response, token_savings
```

## 📈 Performance Optimization

### 📊 Performance Tips & Best Practices

#### Optimal Worker Configuration

```python
import multiprocessing as mp

def get_optimal_workers(text_count: int, avg_text_length: int) -> int:
    """Calculate optimal number of workers based on workload."""
    cpu_count = mp.cpu_count()
    
    # For small texts, use more workers
    if avg_text_length < 100:
        return min(cpu_count, text_count)
    # For large texts, use fewer workers to avoid memory issues
    elif avg_text_length > 1000:
        return max(1, cpu_count // 2)
    else:
        return max(1, int(cpu_count * 0.75))

# Dynamic batch processing
def smart_batch_processing(texts: list, target_ratio: float = 0.5):
    """Intelligently process batches based on content characteristics."""
    avg_length = sum(len(text.split()) for text in texts) / len(texts)
    optimal_workers = get_optimal_workers(len(texts), avg_length)
    
    print(f"Processing {len(texts)} texts with {optimal_workers} workers")
    print(f"Average text length: {avg_length:.0f} words")
    
    compressor = ContextCompressor()
    batch_result = compressor.compress_batch(
        texts=texts,
        target_ratio=target_ratio,
        parallel=True,
        max_workers=optimal_workers
    )
    
    return batch_result
```

### 🛠️ Smart Caching Strategies

```python
from context_compressor.utils.cache import CacheManager
import hashlib

def create_intelligent_cache_manager():
    """Create cache manager with intelligent eviction policies."""
    
    def content_based_key(text: str, target_ratio: float, strategy: str) -> str:
        """Generate cache key based on content characteristics."""
        # Hash content but consider similar texts
        content_hash = hashlib.md5(text.encode()).hexdigest()[:8]
        length_bucket = len(text) // 1000  # Group by content length
        ratio_bucket = int(target_ratio * 10)  # Group by compression ratio
        
        return f"{strategy}_{length_bucket}k_{ratio_bucket}_{content_hash}"
    
    cache_manager = CacheManager(
        ttl=7200,  # 2 hours
        max_size=1000,
        cleanup_interval=300,  # 5 minutes
        key_generator=content_based_key
    )
    
    return cache_manager

# Usage
cache = create_intelligent_cache_manager()
compressor = ContextCompressor(cache_manager=cache)
```

### 🚀 Optimized Batch Processing

```python
def optimized_batch_processing(texts: list, target_ratio: float = 0.5):
    """Optimize batch processing with intelligent partitioning."""
    import multiprocessing as mp
    
    # Partition texts by characteristics
    short_texts = [t for t in texts if len(t.split()) < 100]
    medium_texts = [t for t in texts if 100 <= len(t.split()) < 500]
    long_texts = [t for t in texts if len(t.split()) >= 500]
    
    results = []
    
    # Process short texts with extractive (fast)
    if short_texts:
        extractive_compressor = ContextCompressor(
            strategies=[ExtractiveStrategy()],
            enable_caching=True
        )
        short_results = extractive_compressor.compress_batch(
            short_texts, target_ratio=target_ratio,
            parallel=True, max_workers=mp.cpu_count()
        )
        results.extend(short_results.results)
    
    # Process medium texts with hybrid
    if medium_texts:
        hybrid_compressor = ContextCompressor(
            strategies=[HybridStrategy()]
        )
        medium_results = hybrid_compressor.compress_batch(
            medium_texts, target_ratio=target_ratio,
            parallel=True, max_workers=mp.cpu_count() // 2
        )
        results.extend(medium_results.results)
    
    # Process long texts with semantic (memory efficient)
    if long_texts:
        semantic_compressor = ContextCompressor(
            strategies=[SemanticStrategy()],
            enable_caching=False  # Save memory for large texts
        )
        for text in long_texts:
            result = semantic_compressor.compress(text, target_ratio=target_ratio)
            results.append(result)
    
    return results

# Usage
large_text_batch = ["text1...", "text2...", "text3..."]
results = optimized_batch_processing(large_text_batch, target_ratio=0.4)
print(f"Processed {len(results)} texts efficiently")
```

### 📊 Memory Management & Monitoring

```python
import psutil
import gc
from typing import List, Optional

def memory_aware_compression(compressor, texts: List[str], target_ratio=0.5):
    """Compress with memory monitoring and management."""
    initial_memory = psutil.Process().memory_info().rss / 1024 / 1024  # MB
    
    results = []
    for i, text in enumerate(texts):
        # Compress text
        result = compressor.compress(text, target_ratio=target_ratio)
        results.append(result)
        
        # Monitor memory every 10 items
        if i % 10 == 0:
            current_memory = psutil.Process().memory_info().rss / 1024 / 1024
            memory_increase = current_memory - initial_memory
            
            print(f"Processed {i+1}/{len(texts)} texts, Memory: {current_memory:.1f}MB (+{memory_increase:.1f}MB)")
            
            # Trigger cleanup if memory usage is high
            if memory_increase > 500:  # 500MB threshold
                print("High memory usage detected, performing cleanup...")
                gc.collect()  # Force garbage collection
                
                # Clear cache if available
                if hasattr(compressor, '_cache_manager') and compressor._cache_manager:
                    compressor._cache_manager.clear_expired()
    
    final_memory = psutil.Process().memory_info().rss / 1024 / 1024
    print(f"Final memory: {final_memory:.1f}MB (peak increase: {final_memory - initial_memory:.1f}MB)")
    
    return results

# For memory-constrained environments
def create_lightweight_compressor():
    """Create memory-optimized compressor configuration."""
    return ContextCompressor(
        strategies=[ExtractiveStrategy()],  # Lightweight strategy
        enable_caching=False,  # Disable caching
        enable_quality_evaluation=False,  # Skip quality evaluation
        max_concurrent_processes=2  # Limit parallel processing
    )

# Usage
lightweight_compressor = create_lightweight_compressor()
results = memory_aware_compression(lightweight_compressor, large_text_list)
```

### ⚡ Performance Monitoring & Benchmarking

```python
import time
from dataclasses import dataclass
from typing import List, Dict

@dataclass
class PerformanceMetrics:
    avg_processing_time: float
    tokens_per_second: float
    memory_efficiency: float
    quality_score: float
    cache_hit_rate: float

def benchmark_strategies(texts: List[str], target_ratio: float = 0.5) -> Dict[str, PerformanceMetrics]:
    """Comprehensive benchmarking of different strategies."""
    strategies = {
        "extractive": ExtractiveStrategy(),
        "semantic": SemanticStrategy(),
        "hybrid": HybridStrategy()
    }
    
    results = {}
    
    for name, strategy in strategies.items():
        print(f"\n📊 Benchmarking {name.title()} Strategy...")
        
        # Reset system state
        gc.collect()
        
        start_time = time.time()
        start_memory = psutil.Process().memory_info().rss
        
        # Create compressor with monitoring
        compressor = ContextCompressor(
            strategies=[strategy],
            enable_quality_evaluation=True,
            enable_caching=True
        )
        
        compression_results = []
        cache_hits = 0
        
        # Process texts
        for i, text in enumerate(texts):
            # Check cache before compression
            cache_key = f"{hash(text)}_{target_ratio}_{name}"
            
            result = compressor.compress(text, target_ratio=target_ratio)
            compression_results.append(result)
            
            # Progress indicator
            if (i + 1) % 10 == 0:
                print(f"  Processed {i+1}/{len(texts)} texts...")
        
        end_time = time.time()
        end_memory = psutil.Process().memory_info().rss
        
        # Calculate comprehensive metrics
        total_time = end_time - start_time
        total_tokens = sum(r.original_tokens for r in compression_results)
        avg_quality = sum(
            r.quality_metrics.overall_score 
            for r in compression_results 
            if r.quality_metrics
        ) / len(compression_results)
        
        # Get cache statistics
        cache_stats = getattr(compressor, '_cache_stats', {'hits': 0, 'misses': len(texts)})
        cache_hit_rate = cache_stats.get('hits', 0) / max(1, cache_stats.get('hits', 0) + cache_stats.get('misses', 0))
        
        metrics = PerformanceMetrics(
            avg_processing_time=total_time / len(texts),
            tokens_per_second=total_tokens / max(0.001, total_time),
            memory_efficiency=(end_memory - start_memory) / len(texts) / 1024 / 1024,  # MB per text
            quality_score=avg_quality,
            cache_hit_rate=cache_hit_rate * 100
        )
        
        results[name] = metrics
        
        # Display results
        print(f"  ✅ Results:")
        print(f"    Avg time per text: {metrics.avg_processing_time:.3f}s")
        print(f"    Processing speed: {metrics.tokens_per_second:.1f} tokens/sec")
        print(f"    Memory per text: {metrics.memory_efficiency:.2f}MB")
        print(f"    Avg quality score: {metrics.quality_score:.3f}")
        print(f"    Cache hit rate: {metrics.cache_hit_rate:.1f}%")
    
    # Summary comparison
    print(f"\n🏆 Performance Summary:")
    print(f"{'Strategy':<12} | {'Time/Text':<10} | {'Tokens/Sec':<11} | {'Memory/Text':<12} | {'Quality':<8} | {'Cache':<7}")
    print("-" * 85)
    
    for name, metrics in results.items():
        print(f"{name.title():<12} | "
              f"{metrics.avg_processing_time:<10.3f} | "
              f"{metrics.tokens_per_second:<11.1f} | "
              f"{metrics.memory_efficiency:<12.2f} | "
              f"{metrics.quality_score:<8.3f} | "
              f"{metrics.cache_hit_rate:<7.1f}%")
    
    return results

# Usage
sample_texts = ["Sample text 1...", "Sample text 2...", "Sample text 3..."]
benchmark_results = benchmark_strategies(sample_texts, target_ratio=0.5)
```

### 🔧 Troubleshooting & Error Handling

#### Robust Compression with Fallbacks

```python
from typing import Optional
import logging
import time

def robust_compression(text: str, target_ratio: float = 0.5) -> Optional[CompressionResult]:
    """Compression with comprehensive error handling and fallback strategies."""
    strategies = [
        ("extractive", ExtractiveStrategy()),  # Most reliable
        ("semantic", SemanticStrategy()),     # Fallback 1
        ("simple", ExtractiveStrategy(scoring_method="frequency"))  # Fallback 2
    ]
    
    for i, (name, strategy) in enumerate(strategies):
        try:
            compressor = ContextCompressor(
                strategies=[strategy],
                enable_quality_evaluation=True,
                timeout=30  # 30 second timeout
            )
            
            # Attempt compression
            result = compressor.compress(text, target_ratio=target_ratio)
            
            # Validate result
            if result.compressed_text and len(result.compressed_text.strip()) > 0:
                logging.info(f"Compression successful with {name} strategy")
                return result
            else:
                raise ValueError("Empty compression result")
            
        except Exception as e:
            logging.warning(f"{name.title()} strategy failed: {str(e)}")
            if i == len(strategies) - 1:  # Last strategy failed
                logging.error(f"All compression strategies failed for text: {text[:100]}...")
                return None
            continue
    
    return None

def compress_with_retry(text: str, max_retries: int = 3, backoff_factor: float = 2.0) -> Optional[CompressionResult]:
    """Compress with exponential backoff retry mechanism."""
    for attempt in range(max_retries):
        try:
            result = robust_compression(text)
            if result:
                return result
        except Exception as e:
            logging.warning(f"Compression attempt {attempt + 1} failed: {str(e)}")
        
        if attempt < max_retries - 1:  # Don't sleep on last attempt
            sleep_time = backoff_factor ** attempt
            logging.info(f"Retrying in {sleep_time:.1f} seconds...")
            time.sleep(sleep_time)
    
    logging.error(f"Failed to compress text after {max_retries} attempts")
    return None

# Usage
result = compress_with_retry(problematic_text, max_retries=3)
if result:
    print(f"Successfully compressed: {result.actual_ratio:.1%} compression")
else:
    print("Compression failed after all retry attempts")
```

#### Common Issues & Solutions

```python
def diagnose_compression_issues(text: str, target_ratio: float = 0.5):
    """Diagnose and provide solutions for compression issues."""
    print(f"🔍 Diagnosing compression issues...\n")
    
    # Text characteristics
    word_count = len(text.split())
    char_count = len(text)
    sentence_count = len([s for s in text.split('.') if s.strip()])
    
    print(f"Text Statistics:")
    print(f"  Words: {word_count}")
    print(f"  Characters: {char_count}")
    print(f"  Sentences: {sentence_count}")
    print(f"  Avg words/sentence: {word_count/max(1, sentence_count):.1f}")
    
    # Issue detection
    issues = []
    solutions = []
    
    if word_count < 50:
        issues.append("⚠️ Text too short")
        solutions.append("Use lighter compression (target_ratio > 0.7) or skip compression")
    
    if sentence_count < 3:
        issues.append("⚠️ Too few sentences")
        solutions.append("Use extractive strategy with word-level compression")
    
    if word_count / sentence_count > 50:
        issues.append("⚠️ Very long sentences")
        solutions.append("Use semantic strategy for better sentence splitting")
    
    if target_ratio < 0.2:
        issues.append("⚠️ Aggressive compression ratio")
        solutions.append("Consider target_ratio >= 0.3 for better quality")
    
    # Memory check
    try:
        import psutil
        available_memory = psutil.virtual_memory().available / 1024 / 1024 / 1024  # GB
        if available_memory < 2.0:
            issues.append("⚠️ Low available memory")
            solutions.append("Use lightweight compressor or disable caching")
    except ImportError:
        pass
    
    # Report findings
    if issues:
        print(f"\n🚫 Issues Found:")
        for issue in issues:
            print(f"  {issue}")
        
        print(f"\n💡 Recommended Solutions:")
        for solution in solutions:
            print(f"  {solution}")
    else:
        print(f"\n✅ No issues detected - text should compress well")
    
    # Provide optimal configuration
    print(f"\n🎯 Recommended Configuration:")
    
    if word_count < 100:
        strategy = "ExtractiveStrategy()"
        ratio = min(0.8, target_ratio + 0.2)
    elif word_count > 1000:
        strategy = "SemanticStrategy()"
        ratio = target_ratio
    else:
        strategy = "HybridStrategy()"
        ratio = target_ratio
    
    print(f"  Strategy: {strategy}")
    print(f"  Target Ratio: {ratio:.1f}")
    print(f"  Enable Caching: {available_memory > 2.0 if 'available_memory' in locals() else True}")
    print(f"  Quality Evaluation: {word_count > 50}")

# Usage
diagnose_compression_issues(problematic_text, target_ratio=0.3)
```

### 📊 Production Monitoring

```python
from dataclasses import dataclass
from datetime import datetime
from typing import Dict, List

@dataclass
class ProductionMetrics:
    """Track production compression metrics."""
    total_requests: int = 0
    successful_compressions: int = 0
    failed_compressions: int = 0
    avg_processing_time: float = 0.0
    avg_compression_ratio: float = 0.0
    avg_quality_score: float = 0.0
    cache_hit_rate: float = 0.0
    last_updated: datetime = None

class ProductionMonitor:
    """Monitor compression performance in production."""
    
    def __init__(self):
        self.metrics = ProductionMetrics()
        self.request_history: List[Dict] = []
    
    def log_compression(self, result: CompressionResult, success: bool = True):
        """Log compression result for monitoring."""
        self.metrics.total_requests += 1
        
        if success:
            self.metrics.successful_compressions += 1
            
            # Update running averages
            n = self.metrics.successful_compressions
            self.metrics.avg_processing_time = (
                (self.metrics.avg_processing_time * (n-1) + result.processing_time) / n
            )
            self.metrics.avg_compression_ratio = (
                (self.metrics.avg_compression_ratio * (n-1) + result.actual_ratio) / n
            )
            
            if result.quality_metrics:
                self.metrics.avg_quality_score = (
                    (self.metrics.avg_quality_score * (n-1) + result.quality_metrics.overall_score) / n
                )
        else:
            self.metrics.failed_compressions += 1
        
        self.metrics.last_updated = datetime.now()
        
        # Keep recent history
        self.request_history.append({
            'timestamp': datetime.now(),
            'success': success,
            'processing_time': result.processing_time if success else None,
            'compression_ratio': result.actual_ratio if success else None,
            'tokens_saved': result.tokens_saved if success else None
        })
        
        # Keep only last 1000 requests
        if len(self.request_history) > 1000:
            self.request_history = self.request_history[-1000:]
    
    def get_health_status(self) -> Dict:
        """Get current system health status."""
        success_rate = (
            self.metrics.successful_compressions / max(1, self.metrics.total_requests) * 100
        )
        
        health_status = "healthy"
        if success_rate < 95:
            health_status = "degraded"
        if success_rate < 80:
            health_status = "unhealthy"
        
        return {
            'status': health_status,
            'success_rate': success_rate,
            'total_requests': self.metrics.total_requests,
            'avg_processing_time': self.metrics.avg_processing_time,
            'avg_compression_ratio': self.metrics.avg_compression_ratio,
            'avg_quality_score': self.metrics.avg_quality_score,
            'last_updated': self.metrics.last_updated.isoformat() if self.metrics.last_updated else None
        }
    
    def generate_report(self) -> str:
        """Generate comprehensive monitoring report."""
        health = self.get_health_status()
        
        report = f"""
📊 PRODUCTION MONITORING REPORT
{'='*50}

🟢 System Health: {health['status'].upper()}
📊 Success Rate: {health['success_rate']:.1f}%
📝 Total Requests: {health['total_requests']}
⏱️ Avg Processing Time: {health['avg_processing_time']:.3f}s
📊 Avg Compression: {health['avg_compression_ratio']:.1%}
🎯 Avg Quality: {health['avg_quality_score']:.3f}
🔄 Last Updated: {health['last_updated'] or 'Never'}

📈 Recent Performance Trends:
        """
        
        # Analyze recent trends
        if len(self.request_history) >= 10:
            recent_requests = self.request_history[-10:]
            recent_success_rate = sum(1 for r in recent_requests if r['success']) / len(recent_requests) * 100
            recent_avg_time = sum(r['processing_time'] for r in recent_requests if r['success']) / max(1, sum(1 for r in recent_requests if r['success']))
            
            report += f"  Recent Success Rate (last 10): {recent_success_rate:.1f}%\n"
            report += f"  Recent Avg Time (last 10): {recent_avg_time:.3f}s\n"
        
        return report

# Usage in production
monitor = ProductionMonitor()

# In your compression endpoint
def compress_with_monitoring(text: str, target_ratio: float = 0.5):
    try:
        compressor = ContextCompressor()
        result = compressor.compress(text, target_ratio=target_ratio)
        monitor.log_compression(result, success=True)
        return result
    except Exception as e:
        # Create dummy result for failed compression
        failed_result = CompressionResult(
            original_text=text,
            compressed_text="",
            strategy_used="failed",
            target_ratio=target_ratio,
            actual_ratio=0.0,
            original_tokens=0,
            compressed_tokens=0,
            processing_time=0.0
        )
        monitor.log_compression(failed_result, success=False)
        raise e

# Health check endpoint
def health_check():
    return monitor.get_health_status()

# Monitoring dashboard
print(monitor.generate_report())
```

## 🧪 Testing

Run the test suite:

```bash
# Run all tests
pytest

# Run with coverage
pytest --cov=context_compressor

# Run only unit tests
pytest -m "not integration"

# Run specific test file
pytest tests/test_compressor.py
```

## 📚 Examples

Check out the `examples/` directory for comprehensive usage examples:

- `examples/basic_usage.py` - Basic compression examples
- `examples/batch_processing.py` - Batch processing examples
- `examples/quality_evaluation.py` - Quality metrics examples
- `examples/custom_strategy.py` - Custom strategy development
- `examples/integration_examples.py` - Framework integration examples
- `examples/api_client.py` - REST API client examples

## 🤝 Contributing

We welcome contributions! Please see [CONTRIBUTING.md](CONTRIBUTING.md) for guidelines.

### Development Setup

```bash
git clone https://github.com/Huzaifa785/context-compressor.git
cd context-compressor
pip install -e ".[dev]"
pre-commit install
```

### Running Tests

```bash
pytest
black .
isort .
flake8 .
mypy src/
```

## 📄 License

This project is licensed under the MIT License - see the [LICENSE](LICENSE) file for details.

## 🆘 Support

- **Documentation**: [https://context-compressor.readthedocs.io](https://context-compressor.readthedocs.io)
- **Issues**: [GitHub Issues](https://github.com/Huzaifa785/context-compressor/issues)
- **Discussions**: [GitHub Discussions](https://github.com/Huzaifa785/context-compressor/discussions)
- **PyPI Package**: [https://pypi.org/project/context-compressor/](https://pypi.org/project/context-compressor/)

## 🗺️ Roadmap

- [ ] Additional compression strategies (neural, attention-based)
- [ ] Multi-language support
- [ ] Integration with more LLM providers
- [ ] GUI interface
- [ ] Cloud deployment templates
- [ ] Performance benchmarking suite

## 📖 Citation

If you use Context Compressor in your research, please cite:

```bibtex
@software{context_compressor,
  title={Context Compressor: AI-Powered Text Compression for RAG Systems},
  author={Mohammed Huzaifa},
  url={https://github.com/Huzaifa785/context-compressor},
  year={2024},
  version={1.0.0}
}
```

---

**Made with ❤️ by Mohammed Huzaifa for the AI community**

## 🏆 Why Choose Context Compressor?

- **Production Ready**: Version 1.0.0 with comprehensive testing and documentation
- **Maximum Performance**: State-of-the-art compression algorithms with up to 80% token reduction
- **Enterprise Support**: Full-featured API, monitoring, and deployment tools
- **Complete Package**: All dependencies included by default - no complex setup required
- **Active Development**: Regular updates and feature additions
- **Community Driven**: Open source with active community support

Raw data

            {
    "_id": null,
    "home_page": null,
    "name": "context-compressor",
    "maintainer": null,
    "docs_url": null,
    "requires_python": ">=3.8",
    "maintainer_email": "Mohammed Huzaifa <immdhuzaifa@gmail.com>",
    "keywords": "ai, nlp, text-compression, rag, tokens, api-optimization, semantic-compression, llm",
    "author": null,
    "author_email": "Mohammed Huzaifa <immdhuzaifa@gmail.com>",
    "download_url": "https://files.pythonhosted.org/packages/2a/55/397ccd81537164a04689fdcc867bad7e09482f4c9b89a20988463b366b98/context_compressor-1.0.3.tar.gz",
    "platform": null,
    "description": "# Context Compressor\n\n[![Python Version](https://img.shields.io/badge/python-3.8%2B-blue.svg)](https://python.org)\n[![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT)\n[![Code Style: Black](https://img.shields.io/badge/code%20style-black-000000.svg)](https://github.com/psf/black)\n[![PyPI Version](https://img.shields.io/pypi/v/context-compressor.svg)](https://pypi.org/project/context-compressor/)\n[![Downloads](https://img.shields.io/pypi/dm/context-compressor.svg)](https://pypi.org/project/context-compressor/)\n\n**The most powerful AI-powered text compression library for RAG systems and API calls. Reduce token usage by up to 80% while preserving semantic meaning with state-of-the-art compression strategies.**\n\n*Developed by Mohammed Huzaifa*\n\n## \ud83d\ude80 Features\n\n### Core Compression Engine\n- **4 Advanced Compression Strategies**: Extractive, Abstractive, Semantic, and Hybrid approaches using state-of-the-art AI models\n- **Transformer-Powered**: Built on BERT, BART, T5, and other cutting-edge models for maximum compression quality\n- **Query-Aware Intelligence**: Context-aware compression that prioritizes relevant content based on user queries\n- **Multi-Model Support**: Works with OpenAI GPT, Anthropic Claude, Google PaLM, and custom models\n\n### Quality & Performance\n- **Comprehensive Quality Metrics**: ROUGE scores, semantic similarity, entity preservation, readability analysis\n- **Up to 80% Token Reduction**: Achieve massive cost savings while maintaining content quality\n- **Parallel Batch Processing**: High-performance processing of thousands of documents\n- **Intelligent Caching**: Advanced TTL-based caching with cleanup for optimal performance\n\n### Enterprise-Ready Integrations\n- **LangChain Integration**: Seamless document transformer for RAG pipelines\n- **OpenAI API Optimization**: Direct integration with GPT models and token counting\n- **Anthropic Claude Support**: Native integration with Claude API\n- **REST API Service**: Production-ready FastAPI microservice with OpenAPI documentation\n- **Framework Agnostic**: Works with any Python ML/AI framework\n\n### Advanced Features\n- **Custom Strategy Development**: Plugin system for implementing custom compression algorithms\n- **Real-time Monitoring**: Built-in metrics and performance tracking\n- **Visualization Tools**: Matplotlib, Seaborn, and Plotly integration for compression analytics\n- **NLP Enhancement**: SpaCy, NLTK integration for advanced text processing\n- **Production Deployment**: Docker, Kubernetes, and cloud deployment ready\n\n## \ud83d\udce6 Installation\n\n### Full Installation (Recommended)\n\n```bash\npip install context-compressor\n```\n\n*This now includes ALL features by default: ML models, API service, integrations, and NLP processing.*\n\n### Advanced Installation Options\n\n```bash\n# For specific features only (legacy support)\npip install \"context-compressor[ml]\"          # ML models only\npip install \"context-compressor[api]\"         # API service only\npip install \"context-compressor[integrations]\" # Framework integrations\npip install \"context-compressor[nlp]\"         # NLP enhancements\n\n# Development installation\npip install \"context-compressor[dev]\"         # Testing and development tools\npip install \"context-compressor[docs]\"        # Documentation generation\n```\n\n### Development Installation\n\n```bash\ngit clone https://github.com/Huzaifa785/context-compressor.git\ncd context-compressor\npip install -e \".[dev]\"\n```\n\n## \ud83c\udfc1 Quick Start\n\n### Basic Usage\n\n```python\nfrom context_compressor import ContextCompressor\n\n# Initialize the compressor\ncompressor = ContextCompressor()\n\n# Compress text\ntext = \"\"\"\nArtificial Intelligence (AI) is a broad field of computer science focused on \ncreating systems that can perform tasks that typically require human intelligence. \nThese tasks include learning, reasoning, problem-solving, perception, and language \nunderstanding. AI has applications in various domains including healthcare, finance, \ntransportation, and entertainment. Machine learning, a subset of AI, enables \ncomputers to learn and improve from experience without being explicitly programmed.\n\"\"\"\n\nresult = compressor.compress(text, target_ratio=0.5)\n\nprint(\"Original text:\")\nprint(text)\nprint(f\"\\nCompressed text ({result.actual_ratio:.1%} of original):\")\nprint(result.compressed_text)\nprint(f\"\\nTokens saved: {result.tokens_saved}\")\nprint(f\"Quality score: {result.quality_metrics.overall_score:.2f}\")\n```\n\n**Expected Output:**\n```\nOriginal text:\nArtificial Intelligence (AI) is a broad field of computer science focused on \ncreating systems that can perform tasks that typically require human intelligence. \nThese tasks include learning, reasoning, problem-solving, perception, and language \nunderstanding. AI has applications in various domains including healthcare, finance, \ntransportation, and entertainment. Machine learning, a subset of AI, enables \ncomputers to learn and improve from experience without being explicitly programmed.\n\nCompressed text (45.2% of original):\nArtificial Intelligence (AI) creates systems performing human-like tasks: learning, \nreasoning, problem-solving, perception, language understanding. AI applications span \nhealthcare, finance, transportation, entertainment. Machine learning enables computers \nto learn from experience without explicit programming.\n\nTokens saved: 32\nQuality score: 0.87\n```\n\n### \ud83d\udcca Complete Response Structure\n\nThe `compress()` method returns a `CompressionResult` object with comprehensive information:\n\n```python\nfrom context_compressor import ContextCompressor\n\ncompressor = ContextCompressor(enable_quality_evaluation=True)\nresult = compressor.compress(text, target_ratio=0.5)\n\n# Access all result properties\nprint(f\"Strategy used: {result.strategy_used}\")\nprint(f\"Original tokens: {result.original_tokens}\")\nprint(f\"Compressed tokens: {result.compressed_tokens}\")\nprint(f\"Target ratio: {result.target_ratio}\")\nprint(f\"Actual ratio: {result.actual_ratio:.3f}\")\nprint(f\"Processing time: {result.processing_time:.3f}s\")\nprint(f\"Timestamp: {result.timestamp}\")\n\n# Quality metrics (if enabled)\nif result.quality_metrics:\n    metrics = result.quality_metrics\n    print(f\"\\nQuality Metrics:\")\n    print(f\"  Semantic similarity: {metrics.semantic_similarity:.3f}\")\n    print(f\"  ROUGE-1: {metrics.rouge_1:.3f}\")\n    print(f\"  ROUGE-2: {metrics.rouge_2:.3f}\")\n    print(f\"  ROUGE-L: {metrics.rouge_l:.3f}\")\n    print(f\"  Entity preservation: {metrics.entity_preservation_rate:.3f}\")\n    print(f\"  Readability score: {metrics.readability_score:.1f}\")\n    print(f\"  Overall score: {metrics.overall_score:.3f}\")\n\n# Additional properties\nprint(f\"\\nDerived Properties:\")\nprint(f\"  Tokens saved: {result.tokens_saved}\")\nprint(f\"  Token savings %: {result.token_savings_percentage:.1f}%\")\nprint(f\"  Compression efficiency: {result.compression_efficiency:.3f}\")\n\n# Export to dictionary or JSON\nresult_dict = result.to_dict()\nresult_json = result.to_json(indent=2)\nresult.save_to_file('compression_result.json')\n```\n\n### Query-Aware Compression\n\n```python\n# Compress with focus on specific topic\nquery = \"machine learning applications\"\n\nresult = compressor.compress(\n    text=text,\n    target_ratio=0.3,\n    query=query\n)\n\nprint(f\"Query-focused compression: {result.compressed_text}\")\nprint(f\"Query used: {result.query}\")\nprint(f\"Compression ratio: {result.actual_ratio:.1%}\")\n```\n\n**Output with Query Focus:**\n```\nQuery-focused compression: Machine learning, AI subset, enables computers \nto learn from experience. AI applications include healthcare, finance, \ntransportation, entertainment domains.\n\nQuery used: machine learning applications\nCompression ratio: 28.3%\n```\n\n**Comparison - Without Query:**\n```python\nresult_no_query = compressor.compress(text, target_ratio=0.3)\nprint(f\"Without query: {result_no_query.compressed_text}\")\n# Output: Artificial Intelligence creates systems performing human tasks. \n# Learning, reasoning, problem-solving, perception, language understanding.\n```\n\n### Batch Processing\n\n```python\ntexts = [\n    \"Artificial Intelligence revolutionizes industries through automated decision-making, \"\n    \"pattern recognition, and predictive analytics across healthcare, finance, and technology sectors.\",\n    \"Natural Language Processing enables computers to understand, interpret, and generate \"\n    \"human language through tokenization, sentiment analysis, and semantic understanding.\",\n    \"Computer Vision allows machines to identify, analyze, and interpret visual information \"\n    \"from images and videos using convolutional neural networks and deep learning algorithms.\"\n]\n\nbatch_result = compressor.compress_batch(\n    texts=texts,\n    target_ratio=0.4,\n    parallel=True,\n    max_workers=4\n)\n\n# Comprehensive batch results\nprint(f\"Batch Processing Results:\")\nprint(f\"  Processed: {len(batch_result.results)} texts\")\nprint(f\"  Success rate: {batch_result.success_rate:.1%}\")\nprint(f\"  Total processing time: {batch_result.total_processing_time:.3f}s\")\nprint(f\"  Parallel processing: {batch_result.parallel_processing}\")\nprint(f\"  Average compression ratio: {batch_result.average_compression_ratio:.1%}\")\nprint(f\"  Total tokens saved: {batch_result.total_tokens_saved}\")\nprint(f\"  Average quality score: {batch_result.average_quality_score:.3f}\")\n\n# Individual results\nfor i, result in enumerate(batch_result.results):\n    print(f\"\\nText {i+1}:\")\n    print(f\"  Original length: {len(result.original_text)} chars\")\n    print(f\"  Compressed: {result.compressed_text[:100]}...\")\n    print(f\"  Compression: {result.actual_ratio:.1%}\")\n    print(f\"  Tokens saved: {result.tokens_saved}\")\n\n# Failed items (if any)\nif batch_result.failed_items:\n    print(f\"\\nFailed items: {len(batch_result.failed_items)}\")\n    for failed in batch_result.failed_items:\n        print(f\"  Error: {failed['error']}\")\n```\n\n**Expected Batch Output:**\n```\nBatch Processing Results:\n  Processed: 3 texts\n  Success rate: 100.0%\n  Total processing time: 0.245s\n  Parallel processing: True\n  Average compression ratio: 42.1%\n  Total tokens saved: 87\n  Average quality score: 0.854\n\nText 1:\n  Original length: 142 chars\n  Compressed: AI revolutionizes industries through automated decisions, pattern recognition, predictive...\n  Compression: 41.5%\n  Tokens saved: 28\n\nText 2:\n  Original length: 138 chars\n  Compressed: NLP enables computers to understand, interpret, generate human language via tokenization...\n  Compression: 43.2%\n  Tokens saved: 31\n\nText 3:\n  Original length: 145 chars\n  Compressed: Computer Vision allows machines to analyze visual information using CNNs, deep learning...\n  Compression: 41.7%\n  Tokens saved: 28\n```\n\n## \ud83d\udd27 Configuration\n\n### Strategy Selection\n\n```python\nfrom context_compressor import ContextCompressor\nfrom context_compressor.strategies import ExtractiveStrategy\n\n# Use specific strategy\nextractive_strategy = ExtractiveStrategy(\n    scoring_method=\"tfidf\",\n    min_sentence_length=20,\n    position_bias=0.2\n)\n\ncompressor = ContextCompressor(strategies=[extractive_strategy])\n\n# Or let the system auto-select\ncompressor = ContextCompressor(default_strategy=\"auto\")\n```\n\n### Quality Evaluation Settings\n\n```python\ncompressor = ContextCompressor(\n    enable_quality_evaluation=True,\n    enable_caching=True,\n    cache_ttl=3600  # 1 hour\n)\n\nresult = compressor.compress(text, target_ratio=0.5)\n\n# Access detailed quality metrics\nprint(f\"ROUGE-1: {result.quality_metrics.rouge_1:.3f}\")\nprint(f\"ROUGE-2: {result.quality_metrics.rouge_2:.3f}\")\nprint(f\"ROUGE-L: {result.quality_metrics.rouge_l:.3f}\")\nprint(f\"Semantic similarity: {result.quality_metrics.semantic_similarity:.3f}\")\nprint(f\"Entity preservation: {result.quality_metrics.entity_preservation_rate:.3f}\")\n```\n\n## \ud83c\udfaf Compression Strategies with Examples\n\n### 1. Extractive Strategy (Default) \ud83c\udfab\n\nExtracts the most important sentences using advanced scoring algorithms:\n\n```python\nfrom context_compressor import ContextCompressor\nfrom context_compressor.strategies import ExtractiveStrategy\n\n# Configure extractive strategy\nstrategy = ExtractiveStrategy(\n    scoring_method=\"combined\",  # \"tfidf\", \"frequency\", \"position\", \"combined\"\n    min_sentence_length=10,\n    position_bias=0.2,\n    query_weight=0.3\n)\n\ncompressor = ContextCompressor(strategies=[strategy])\n\ntext = \"\"\"\nClimate change is one of the most pressing issues of our time. Rising global temperatures \nhave led to melting ice caps and rising sea levels. Scientists worldwide are studying \nthe effects of greenhouse gas emissions on our planet's atmosphere. The Paris Agreement \nof 2015 brought together 196 countries to combat climate change. Renewable energy sources \nlike solar and wind power are becoming increasingly important. Governments and corporations \nare investing heavily in clean technology solutions. Individual actions like reducing \ncarbon footprints also play a crucial role in addressing this global challenge.\n\"\"\"\n\nresult = compressor.compress(text, target_ratio=0.5)\n\nprint(f\"Strategy: {result.strategy_used}\")\nprint(f\"Compression: {result.actual_ratio:.1%}\")\nprint(f\"Output: {result.compressed_text}\")\n```\n\n**Extractive Output Example:**\n```\nStrategy: extractive\nCompression: 48.3%\nOutput: Climate change is one of the most pressing issues of our time. Rising global \ntemperatures have led to melting ice caps and rising sea levels. The Paris Agreement \nof 2015 brought together 196 countries to combat climate change. Renewable energy \nsources like solar and wind power are becoming increasingly important.\n```\n\n### 2. Abstractive Strategy (AI-Powered) \ud83e\udd16\n\nGenerates new, concise text using transformer models:\n\n```python\nfrom context_compressor.strategies import AbstractiveStrategy\n\n# Configure abstractive strategy\nstrategy = AbstractiveStrategy(\n    model_name=\"facebook/bart-large-cnn\",\n    max_length=150,\n    min_length=50,\n    do_sample=False,\n    early_stopping=True\n)\n\ncompressor = ContextCompressor(strategies=[strategy])\nresult = compressor.compress(text, target_ratio=0.4)\n\nprint(f\"Strategy: {result.strategy_used}\")\nprint(f\"Compression: {result.actual_ratio:.1%}\")\nprint(f\"Output: {result.compressed_text}\")\nprint(f\"Quality Score: {result.quality_metrics.overall_score:.3f}\")\n```\n\n**Abstractive Output Example:**\n```\nStrategy: abstractive\nCompression: 39.7%\nOutput: Climate change, driven by greenhouse gas emissions, causes rising temperatures \nand sea levels. The 2015 Paris Agreement united 196 countries to address this challenge \nthrough renewable energy investments and clean technology solutions.\n\nQuality Score: 0.912\n```\n\n### 3. Semantic Strategy (Clustering-Based) \ud83e\udde0\n\nGroups similar content and selects representative sentences:\n\n```python\nfrom context_compressor.strategies import SemanticStrategy\n\n# Configure semantic strategy\nstrategy = SemanticStrategy(\n    embedding_model=\"all-MiniLM-L6-v2\",\n    clustering_method=\"kmeans\",\n    n_clusters=\"auto\",  # or specific number like 3\n    similarity_threshold=0.7\n)\n\ncompressor = ContextCompressor(strategies=[strategy])\nresult = compressor.compress(text, target_ratio=0.6)\n\nprint(f\"Strategy: {result.strategy_used}\")\nprint(f\"Compression: {result.actual_ratio:.1%}\")\nprint(f\"Output: {result.compressed_text}\")\nprint(f\"Semantic Similarity: {result.quality_metrics.semantic_similarity:.3f}\")\n```\n\n**Semantic Output Example:**\n```\nStrategy: semantic\nCompression: 58.2%\nOutput: Climate change is one of the most pressing issues of our time. Scientists \nworldwide are studying the effects of greenhouse gas emissions. The Paris Agreement \nof 2015 brought together 196 countries to combat climate change. Governments and \ncorporations are investing heavily in clean technology solutions.\n\nSemantic Similarity: 0.887\n```\n\n### 4. Hybrid Strategy (Best of All Worlds) \u2728\n\nCombines multiple strategies for optimal results:\n\n```python\nfrom context_compressor.strategies import HybridStrategy\n\n# Configure hybrid strategy\nstrategy = HybridStrategy(\n    primary_strategy=\"extractive\",\n    secondary_strategy=\"semantic\",\n    combination_method=\"weighted\",\n    primary_weight=0.7,\n    secondary_weight=0.3\n)\n\ncompressor = ContextCompressor(strategies=[strategy])\nresult = compressor.compress(text, target_ratio=0.45)\n\nprint(f\"Strategy: {result.strategy_used}\")\nprint(f\"Compression: {result.actual_ratio:.1%}\")\nprint(f\"Output: {result.compressed_text}\")\nprint(f\"Compression Efficiency: {result.compression_efficiency:.3f}\")\n```\n\n**Hybrid Output Example:**\n```\nStrategy: hybrid\nCompression: 44.1%\nOutput: Climate change is one of the most pressing issues of our time. Rising global \ntemperatures have led to melting ice caps and rising sea levels. The Paris Agreement \nbrought together 196 countries to combat climate change. Renewable energy sources \nare becoming increasingly important for clean technology solutions.\n\nCompression Efficiency: 0.394\n```\n\n### \ud83d\udcc8 Strategy Comparison\n\n```python\n# Compare all strategies on the same text\nstrategies = [\n    (\"extractive\", ExtractiveStrategy()),\n    (\"abstractive\", AbstractiveStrategy(model_name=\"facebook/bart-large-cnn\")),\n    (\"semantic\", SemanticStrategy()),\n    (\"hybrid\", HybridStrategy())\n]\n\ncomparison_results = []\nfor name, strategy in strategies:\n    compressor = ContextCompressor(strategies=[strategy])\n    result = compressor.compress(text, target_ratio=0.5)\n    comparison_results.append({\n        'strategy': name,\n        'compression': result.actual_ratio,\n        'tokens_saved': result.tokens_saved,\n        'quality': result.quality_metrics.overall_score if result.quality_metrics else None,\n        'time': result.processing_time\n    })\n\n# Display comparison\nfor result in comparison_results:\n    print(f\"{result['strategy']:<12} | \"\n          f\"Compression: {result['compression']:<5.1%} | \"\n          f\"Tokens Saved: {result['tokens_saved']:<3} | \"\n          f\"Quality: {result['quality']:<5.3f} | \"\n          f\"Time: {result['time']:<6.3f}s\")\n```\n\n**Strategy Comparison Output:**\n```\nextractive    | Compression: 48.3% | Tokens Saved: 31  | Quality: 0.854 | Time: 0.089s\nabstractive  | Compression: 39.7% | Tokens Saved: 38  | Quality: 0.912 | Time: 1.245s\nsemantic     | Compression: 58.2% | Tokens Saved: 26  | Quality: 0.887 | Time: 0.234s\nhybrid       | Compression: 44.1% | Tokens Saved: 35  | Quality: 0.891 | Time: 0.156s\n```\n\n## \ud83d\udd0c Integrations\n\n### LangChain Integration\n\n```python\nfrom context_compressor.integrations.langchain import ContextCompressorTransformer\n\n# Use as a document transformer\ntransformer = ContextCompressorTransformer(\n    compressor=compressor,\n    target_ratio=0.6\n)\n\n# Apply to document chain\ncompressed_docs = transformer.transform_documents(documents)\n```\n\n### OpenAI Integration\n\n```python\nfrom context_compressor.integrations.openai import compress_for_openai\n\n# Compress text before sending to OpenAI API\ncompressed_prompt = compress_for_openai(\n    text=long_context,\n    target_ratio=0.4,\n    model=\"gpt-4\"  # Automatically uses appropriate tokenizer\n)\n```\n\n## \ud83c\udf10 REST API\n\nStart the API server:\n\n```bash\nuvicorn context_compressor.api.main:app --reload\n```\n\n### \ud83d\udcda API Endpoints & Response Structures\n\n#### Compress Text\n\n**Request:**\n```bash\ncurl -X POST \"http://localhost:8000/compress\" \\\n  -H \"Content-Type: application/json\" \\\n  -d '{\n    \"text\": \"Artificial Intelligence (AI) is transforming industries through automation, machine learning, and data analytics. Companies leverage AI for predictive modeling, natural language processing, and computer vision applications across healthcare, finance, and technology sectors.\",\n    \"target_ratio\": 0.5,\n    \"strategy\": \"extractive\",\n    \"query\": \"AI applications in healthcare\",\n    \"enable_quality_evaluation\": true\n  }'\n```\n\n**Response Structure:**\n```json\n{\n  \"compressed_text\": \"AI transforms industries through automation, ML, analytics. Companies use AI for predictive modeling, NLP, computer vision in healthcare, finance, technology.\",\n  \"original_text\": \"Artificial Intelligence (AI) is transforming...\",\n  \"strategy_used\": \"extractive\",\n  \"target_ratio\": 0.5,\n  \"actual_ratio\": 0.487,\n  \"original_tokens\": 52,\n  \"compressed_tokens\": 25,\n  \"tokens_saved\": 27,\n  \"token_savings_percentage\": 51.9,\n  \"processing_time\": 0.145,\n  \"compression_efficiency\": 0.423,\n  \"query\": \"AI applications in healthcare\",\n  \"timestamp\": \"2024-01-15T10:30:45.123456\",\n  \"quality_metrics\": {\n    \"semantic_similarity\": 0.892,\n    \"rouge_1\": 0.756,\n    \"rouge_2\": 0.634,\n    \"rouge_l\": 0.723,\n    \"entity_preservation_rate\": 0.889,\n    \"readability_score\": 65.2,\n    \"compression_ratio\": 0.487,\n    \"overall_score\": 0.854\n  },\n  \"strategy_metadata\": {\n    \"name\": \"extractive\",\n    \"description\": \"Sentence extraction based on importance scoring\",\n    \"version\": \"1.0.0\",\n    \"computational_complexity\": \"medium\",\n    \"memory_requirements\": \"low\"\n  }\n}\n```\n\n#### Batch Compression\n\n**Request:**\n```bash\ncurl -X POST \"http://localhost:8000/compress/batch\" \\\n  -H \"Content-Type: application/json\" \\\n  -d '{\n    \"texts\": [\n      \"Machine learning algorithms analyze vast datasets to identify patterns and make predictions.\",\n      \"Deep learning neural networks mimic human brain structure for complex pattern recognition.\",\n      \"Natural language processing enables computers to understand and generate human language.\"\n    ],\n    \"target_ratio\": 0.4,\n    \"strategy\": \"extractive\",\n    \"parallel\": true,\n    \"max_workers\": 3\n  }'\n```\n\n**Response Structure:**\n```json\n{\n  \"results\": [\n    {\n      \"compressed_text\": \"ML algorithms analyze datasets to identify patterns, make predictions.\",\n      \"original_text\": \"Machine learning algorithms analyze vast datasets...\",\n      \"strategy_used\": \"extractive\",\n      \"actual_ratio\": 0.423,\n      \"tokens_saved\": 8,\n      \"processing_time\": 0.089\n    },\n    {\n      \"compressed_text\": \"Deep learning networks mimic brain structure for pattern recognition.\",\n      \"original_text\": \"Deep learning neural networks mimic human...\",\n      \"strategy_used\": \"extractive\",\n      \"actual_ratio\": 0.398,\n      \"tokens_saved\": 9,\n      \"processing_time\": 0.094\n    },\n    {\n      \"compressed_text\": \"NLP enables computers to understand, generate human language.\",\n      \"original_text\": \"Natural language processing enables computers...\",\n      \"strategy_used\": \"extractive\",\n      \"actual_ratio\": 0.412,\n      \"tokens_saved\": 7,\n      \"processing_time\": 0.087\n    }\n  ],\n  \"total_processing_time\": 0.298,\n  \"strategy_used\": \"extractive\",\n  \"target_ratio\": 0.4,\n  \"parallel_processing\": true,\n  \"success_rate\": 1.0,\n  \"average_compression_ratio\": 0.411,\n  \"total_tokens_saved\": 24,\n  \"average_quality_score\": 0.867,\n  \"failed_items\": [],\n  \"timestamp\": \"2024-01-15T10:35:22.456789\"\n}\n```\n\n#### List Available Strategies\n\n**Request:**\n```bash\ncurl \"http://localhost:8000/strategies\"\n```\n\n**Response:**\n```json\n{\n  \"strategies\": [\n    {\n      \"name\": \"extractive\",\n      \"description\": \"Extracts important sentences based on TF-IDF and position scoring\",\n      \"version\": \"1.0.0\",\n      \"author\": \"Context Compressor Team\",\n      \"supported_languages\": [\"en\"],\n      \"optimal_compression_ratios\": [0.3, 0.5, 0.7],\n      \"requires_query\": false,\n      \"supports_batch\": true,\n      \"computational_complexity\": \"medium\",\n      \"memory_requirements\": \"low\",\n      \"dependencies\": [\"scikit-learn\", \"numpy\"]\n    },\n    {\n      \"name\": \"abstractive\",\n      \"description\": \"Uses transformer models for content summarization\",\n      \"version\": \"1.0.0\",\n      \"supported_languages\": [\"en\"],\n      \"optimal_compression_ratios\": [0.2, 0.4, 0.6],\n      \"requires_query\": false,\n      \"supports_batch\": true,\n      \"computational_complexity\": \"high\",\n      \"memory_requirements\": \"high\",\n      \"dependencies\": [\"transformers\", \"torch\"]\n    }\n  ],\n  \"total_strategies\": 2,\n  \"default_strategy\": \"extractive\"\n}\n```\n\n#### Health Check\n\n**Request:**\n```bash\ncurl \"http://localhost:8000/health\"\n```\n\n**Response:**\n```json\n{\n  \"status\": \"healthy\",\n  \"version\": \"1.0.2\",\n  \"timestamp\": \"2024-01-15T10:40:15.789012\",\n  \"uptime_seconds\": 3600.5,\n  \"total_compressions\": 1245,\n  \"cache_hit_rate\": 23.7,\n  \"average_processing_time\": 0.156\n}\n```\n\n### API Documentation\n\nVisit `http://localhost:8000/docs` for interactive API documentation.\n\n## \ud83d\udcca Quality Metrics & Evaluation\n\nThe system provides comprehensive quality evaluation with detailed metrics and examples:\n\n### \ud83d\udd0d Core Quality Metrics\n\n#### Semantic Similarity (0.0 - 1.0)\nMeasures how well the compressed text preserves the original meaning using word embeddings.\n\n```python\nfrom context_compressor import ContextCompressor\n\ncompressor = ContextCompressor(enable_quality_evaluation=True)\nresult = compressor.compress(\n    \"The revolutionary breakthrough in quantum computing promises to solve complex problems \"\n    \"that are currently intractable for classical computers, potentially transforming \"\n    \"cryptography, drug discovery, and optimization challenges.\",\n    target_ratio=0.5\n)\n\nprint(f\"Semantic Similarity: {result.quality_metrics.semantic_similarity:.3f}\")\n# Output: Semantic Similarity: 0.892\n# Interpretation: 89.2% of semantic meaning preserved\n```\n\n#### ROUGE Scores (0.0 - 1.0)\nStandard summarization metrics comparing n-gram overlap between original and compressed text.\n\n```python\nmetrics = result.quality_metrics\nprint(f\"ROUGE-1 (unigram overlap): {metrics.rouge_1:.3f}\")\nprint(f\"ROUGE-2 (bigram overlap): {metrics.rouge_2:.3f}\")\nprint(f\"ROUGE-L (longest common subsequence): {metrics.rouge_l:.3f}\")\n\n# Example output:\n# ROUGE-1 (unigram overlap): 0.756\n# ROUGE-2 (bigram overlap): 0.634\n# ROUGE-L (longest common subsequence): 0.723\n```\n\n**Interpretation:**\n- **ROUGE-1 > 0.7**: Excellent word overlap\n- **ROUGE-2 > 0.5**: Good phrase preservation\n- **ROUGE-L > 0.6**: Strong structural similarity\n\n#### Entity Preservation Rate (0.0 - 1.0)\nTracks retention of named entities, numbers, dates, and other important factual information.\n\n```python\noriginal = \"Apple Inc. reported $394.3 billion revenue in 2022, with CEO Tim Cook \"\n           \"announcing new products on September 7th at their Cupertino headquarters.\"\n\nresult = compressor.compress(original, target_ratio=0.6)\n\nprint(f\"Entity Preservation: {result.quality_metrics.entity_preservation_rate:.3f}\")\nprint(f\"Compressed: {result.compressed_text}\")\n\n# Output:\n# Entity Preservation: 0.889\n# Compressed: Apple Inc. reported $394.3 billion revenue in 2022, with CEO Tim Cook \n#            announcing new products at Cupertino headquarters.\n# Analysis: 8/9 entities preserved (missing \"September 7th\")\n```\n\n#### Readability Score (0-100, Flesch Reading Ease)\nMeasures text readability - higher scores indicate easier reading.\n\n```python\nprint(f\"Readability Score: {result.quality_metrics.readability_score:.1f}\")\n\n# Interpretation:\n# 90-100: Very Easy (5th grade)\n# 80-89:  Easy (6th grade)\n# 70-79:  Fairly Easy (7th grade)\n# 60-69:  Standard (8th-9th grade)\n# 50-59:  Fairly Difficult (10th-12th grade)\n# 30-49:  Difficult (College level)\n# 0-29:   Very Difficult (Graduate level)\n```\n\n#### Overall Quality Score (0.0 - 1.0)\nWeighted combination of all metrics, providing a single quality indicator.\n\n```python\noverall = result.quality_metrics.overall_score\nprint(f\"Overall Quality: {overall:.3f}\")\n\n# Quality Thresholds:\nif overall >= 0.9:\n    quality_level = \"Excellent\"\nelif overall >= 0.8:\n    quality_level = \"Very Good\"\nelif overall >= 0.7:\n    quality_level = \"Good\"\nelif overall >= 0.6:\n    quality_level = \"Acceptable\"\nelse:\n    quality_level = \"Poor\"\n\nprint(f\"Quality Level: {quality_level}\")\n```\n\n### \ud83d\udcc8 Quality Analysis Examples\n\n#### Detailed Quality Report\n\n```python\ndef generate_quality_report(result):\n    \"\"\"Generate comprehensive quality analysis report.\"\"\"\n    if not result.quality_metrics:\n        return \"Quality evaluation not enabled\"\n    \n    metrics = result.quality_metrics\n    \n    report = f\"\"\"\n\ud83d\udcca COMPRESSION QUALITY REPORT\n{'='*50}\n\n\ud83d\udcdd Text Statistics:\n   Original tokens: {result.original_tokens}\n   Compressed tokens: {result.compressed_tokens}\n   Compression ratio: {result.actual_ratio:.1%}\n   Tokens saved: {result.tokens_saved}\n\n\ud83c\udfaf Quality Metrics:\n   Semantic Similarity: {metrics.semantic_similarity:.3f} {'\u2705' if metrics.semantic_similarity >= 0.8 else '\u26a0\ufe0f' if metrics.semantic_similarity >= 0.6 else '\u274c'}\n   ROUGE-1: {metrics.rouge_1:.3f} {'\u2705' if metrics.rouge_1 >= 0.7 else '\u26a0\ufe0f' if metrics.rouge_1 >= 0.5 else '\u274c'}\n   ROUGE-2: {metrics.rouge_2:.3f} {'\u2705' if metrics.rouge_2 >= 0.5 else '\u26a0\ufe0f' if metrics.rouge_2 >= 0.3 else '\u274c'}\n   ROUGE-L: {metrics.rouge_l:.3f} {'\u2705' if metrics.rouge_l >= 0.6 else '\u26a0\ufe0f' if metrics.rouge_l >= 0.4 else '\u274c'}\n   Entity Preservation: {metrics.entity_preservation_rate:.3f} {'\u2705' if metrics.entity_preservation_rate >= 0.8 else '\u26a0\ufe0f' if metrics.entity_preservation_rate >= 0.6 else '\u274c'}\n   Readability: {metrics.readability_score:.1f} {'\u2705' if 60 <= metrics.readability_score <= 80 else '\u26a0\ufe0f'}\n   \n\ud83c\udfc6 Overall Score: {metrics.overall_score:.3f} {'\u2705 Excellent' if metrics.overall_score >= 0.9 else '\u2705 Very Good' if metrics.overall_score >= 0.8 else '\u26a0\ufe0f Good' if metrics.overall_score >= 0.7 else '\u26a0\ufe0f Acceptable' if metrics.overall_score >= 0.6 else '\u274c Poor'}\n\n\u26a1 Efficiency Score: {result.compression_efficiency:.3f}\n   (Balances compression ratio with quality)\n    \"\"\"\n    \n    return report\n\n# Usage\nresult = compressor.compress(long_text, target_ratio=0.4)\nprint(generate_quality_report(result))\n```\n\n#### Quality Comparison Across Strategies\n\n```python\ndef compare_quality_across_strategies(text, target_ratio=0.5):\n    \"\"\"Compare quality metrics across different compression strategies.\"\"\"\n    strategies = [\n        (\"Extractive\", ExtractiveStrategy()),\n        (\"Semantic\", SemanticStrategy()),\n        (\"Hybrid\", HybridStrategy())\n    ]\n    \n    results = []\n    \n    for name, strategy in strategies:\n        compressor = ContextCompressor(\n            strategies=[strategy],\n            enable_quality_evaluation=True\n        )\n        result = compressor.compress(text, target_ratio=target_ratio)\n        \n        if result.quality_metrics:\n            results.append({\n                'strategy': name,\n                'compression': result.actual_ratio,\n                'semantic_sim': result.quality_metrics.semantic_similarity,\n                'rouge_1': result.quality_metrics.rouge_1,\n                'rouge_l': result.quality_metrics.rouge_l,\n                'entity_preservation': result.quality_metrics.entity_preservation_rate,\n                'overall': result.quality_metrics.overall_score,\n                'efficiency': result.compression_efficiency\n            })\n    \n    # Display comparison table\n    print(f\"{'Strategy':<12} | {'Comp.':<6} | {'Sem.':<6} | {'R-1':<6} | {'R-L':<6} | {'Ent.':<6} | {'Overall':<7} | {'Effic.':<7}\")\n    print(\"-\" * 80)\n    \n    for r in results:\n        print(f\"{r['strategy']:<12} | \"\n              f\"{r['compression']:<6.1%} | \"\n              f\"{r['semantic_sim']:<6.3f} | \"\n              f\"{r['rouge_1']:<6.3f} | \"\n              f\"{r['rouge_l']:<6.3f} | \"\n              f\"{r['entity_preservation']:<6.3f} | \"\n              f\"{r['overall']:<7.3f} | \"\n              f\"{r['efficiency']:<7.3f}\")\n    \n    return results\n\n# Usage\ncomparison = compare_quality_across_strategies(sample_text)\n```\n\n**Example Output:**\n```\nStrategy     | Comp.  | Sem.   | R-1    | R-L    | Ent.   | Overall | Effic. \n--------------------------------------------------------------------------------\nExtractive   | 48.3%  | 0.854  | 0.756  | 0.723  | 0.889  | 0.854   | 0.412  \nSemantic     | 58.2%  | 0.887  | 0.712  | 0.698  | 0.845  | 0.836   | 0.486  \nHybrid       | 44.1%  | 0.891  | 0.789  | 0.756  | 0.923  | 0.891   | 0.393  \n```\n\n### \ud83c\udfaf Quality Optimization Strategies\n\n```python\ndef optimize_for_quality_metric(text, target_metric='overall', min_score=0.8):\n    \"\"\"Optimize compression for specific quality metrics.\"\"\"\n    strategies_config = {\n        'semantic_similarity': [\n            SemanticStrategy(similarity_threshold=0.8),\n            HybridStrategy(primary_weight=0.3, secondary_weight=0.7)\n        ],\n        'entity_preservation': [\n            ExtractiveStrategy(entity_boost=0.4),\n            HybridStrategy(entity_preservation_weight=0.3)\n        ],\n        'rouge_scores': [\n            ExtractiveStrategy(scoring_method=\"tfidf\"),\n            AbstractiveStrategy(model_name=\"facebook/bart-large-cnn\")\n        ],\n        'overall': [\n            HybridStrategy(),\n            ExtractiveStrategy(scoring_method=\"combined\")\n        ]\n    }\n    \n    target_strategies = strategies_config.get(target_metric, strategies_config['overall'])\n    \n    best_result = None\n    best_score = 0\n    \n    for strategy in target_strategies:\n        compressor = ContextCompressor(strategies=[strategy])\n        result = compressor.compress(text, target_ratio=0.5)\n        \n        if result.quality_metrics:\n            score = getattr(result.quality_metrics, target_metric, result.quality_metrics.overall_score)\n            \n            if score > best_score and score >= min_score:\n                best_score = score\n                best_result = result\n    \n    return best_result\n\n# Usage examples\nbest_semantic = optimize_for_quality_metric(text, 'semantic_similarity', 0.85)\nbest_entity = optimize_for_quality_metric(text, 'entity_preservation_rate', 0.9)\nbest_overall = optimize_for_quality_metric(text, 'overall', 0.8)\n```\n\n## \ud83c\udf9b\ufe0f Advanced Configuration\n\n### Custom Strategy Development\n\n```python\nfrom context_compressor.strategies.base import CompressionStrategy\nfrom context_compressor.core.models import StrategyMetadata\n\nclass CustomStrategy(CompressionStrategy):\n    def _create_metadata(self) -> StrategyMetadata:\n        return StrategyMetadata(\n            name=\"custom\",\n            description=\"Custom compression strategy\",\n            version=\"1.0.0\",\n            author=\"Your Name\"\n        )\n    \n    def _compress_text(self, text: str, target_ratio: float, **kwargs) -> str:\n        # Implement your compression logic\n        return compressed_text\n\n# Register and use\ncompressor.register_strategy(CustomStrategy())\n```\n\n### Cache Configuration\n\n```python\nfrom context_compressor.utils.cache import CacheManager\n\n# Custom cache manager\ncache_manager = CacheManager(\n    ttl=7200,  # 2 hours\n    max_size=2000,\n    cleanup_interval=600  # 10 minutes\n)\n\ncompressor = ContextCompressor(cache_manager=cache_manager)\n```\n\n## \ud83d\ude80 Advanced Techniques & Best Practices\n\n### \ud83c\udfa8 Advanced Strategy Configuration\n\n#### Dynamic Strategy Selection\n\n```python\nfrom context_compressor import ContextCompressor\nfrom context_compressor.strategies import ExtractiveStrategy, AbstractiveStrategy\n\ndef select_strategy_by_content(text: str, target_ratio: float):\n    \"\"\"Dynamically select strategy based on content characteristics.\"\"\"\n    text_length = len(text.split())\n    \n    if text_length < 100:\n        # Short text: use extractive for speed\n        return ExtractiveStrategy(scoring_method=\"tfidf\")\n    elif target_ratio < 0.3:\n        # Aggressive compression: use abstractive\n        return AbstractiveStrategy(model_name=\"facebook/bart-large-cnn\")\n    else:\n        # Balanced: use hybrid approach\n        return ExtractiveStrategy(scoring_method=\"combined\")\n\n# Usage\ntext = \"Your content here...\"\nstrategy = select_strategy_by_content(text, target_ratio=0.4)\ncompressor = ContextCompressor(strategies=[strategy])\nresult = compressor.compress(text, target_ratio=0.4)\n```\n\n#### Custom Scoring Functions\n\n```python\nfrom context_compressor.strategies import ExtractiveStrategy\nimport numpy as np\n\ndef custom_importance_scorer(sentences, query=None):\n    \"\"\"Custom sentence importance scoring.\"\"\"\n    scores = []\n    for sentence in sentences:\n        score = 0.0\n        \n        # Length-based scoring\n        if 10 <= len(sentence.split()) <= 25:\n            score += 0.3\n        \n        # Question sentences get higher scores\n        if sentence.strip().endswith('?'):\n            score += 0.4\n        \n        # Keyword boosting\n        keywords = ['important', 'key', 'main', 'primary', 'essential']\n        for keyword in keywords:\n            if keyword.lower() in sentence.lower():\n                score += 0.2\n        \n        # Query relevance (if provided)\n        if query:\n            query_words = set(query.lower().split())\n            sentence_words = set(sentence.lower().split())\n            overlap = len(query_words.intersection(sentence_words))\n            score += overlap * 0.1\n        \n        scores.append(score)\n    \n    return np.array(scores)\n\n# Create custom strategy\nstrategy = ExtractiveStrategy(\n    scoring_method=\"custom\",\n    custom_scorer=custom_importance_scorer\n)\n```\n\n### \ud83d\udcca Advanced Quality Control\n\n#### Quality-Aware Compression\n\n```python\ndef compress_with_quality_threshold(compressor, text, target_ratio, min_quality=0.8):\n    \"\"\"Compress text while maintaining minimum quality threshold.\"\"\"\n    result = compressor.compress(text, target_ratio=target_ratio)\n    \n    if result.quality_metrics and result.quality_metrics.overall_score < min_quality:\n        # Try with less aggressive compression\n        adjusted_ratio = min(target_ratio + 0.2, 0.9)\n        print(f\"Quality too low ({result.quality_metrics.overall_score:.3f}), \"\n              f\"adjusting ratio from {target_ratio} to {adjusted_ratio}\")\n        result = compressor.compress(text, target_ratio=adjusted_ratio)\n    \n    return result\n\n# Usage\ncompressor = ContextCompressor(enable_quality_evaluation=True)\nresult = compress_with_quality_threshold(\n    compressor, text, target_ratio=0.3, min_quality=0.85\n)\nprint(f\"Final quality: {result.quality_metrics.overall_score:.3f}\")\n```\n\n#### Multi-Metric Quality Optimization\n\n```python\ndef multi_objective_compression(compressor, text, target_ratio):\n    \"\"\"Optimize for multiple quality metrics simultaneously.\"\"\"\n    strategies = [\n        (\"extractive\", ExtractiveStrategy()),\n        (\"semantic\", SemanticStrategy()),\n        (\"hybrid\", HybridStrategy())\n    ]\n    \n    best_result = None\n    best_score = -1\n    \n    for name, strategy in strategies:\n        temp_compressor = ContextCompressor(strategies=[strategy])\n        result = temp_compressor.compress(text, target_ratio=target_ratio)\n        \n        if result.quality_metrics:\n            # Weighted quality score\n            composite_score = (\n                result.quality_metrics.semantic_similarity * 0.3 +\n                result.quality_metrics.rouge_l * 0.3 +\n                result.quality_metrics.entity_preservation_rate * 0.2 +\n                (1 - result.actual_ratio) * 0.2  # Compression bonus\n            )\n            \n            print(f\"{name:<12}: Quality={composite_score:.3f}, \"\n                  f\"Compression={result.actual_ratio:.1%}\")\n            \n            if composite_score > best_score:\n                best_score = composite_score\n                best_result = result\n    \n    return best_result\n```\n\n### \ud83d\udd04 Pipeline Integration Patterns\n\n#### RAG System Integration\n\n```python\nfrom context_compressor.integrations.langchain import ContextCompressorTransformer\nfrom langchain.vectorstores import FAISS\nfrom langchain.embeddings import OpenAIEmbeddings\n\ndef create_compressed_rag_pipeline():\n    \"\"\"Create a RAG pipeline with context compression.\"\"\"\n    # Initialize components\n    embeddings = OpenAIEmbeddings()\n    vectorstore = FAISS.from_texts(documents, embeddings)\n    compressor = ContextCompressor(\n        default_strategy=\"hybrid\",\n        enable_quality_evaluation=True\n    )\n    \n    # Create compression transformer\n    transformer = ContextCompressorTransformer(\n        compressor=compressor,\n        target_ratio=0.6,\n        min_quality_threshold=0.8\n    )\n    \n    def query_with_compression(query: str, k: int = 5):\n        # Retrieve relevant documents\n        docs = vectorstore.similarity_search(query, k=k)\n        \n        # Compress retrieved context\n        compressed_docs = transformer.transform_documents(docs)\n        \n        # Calculate compression statistics\n        original_length = sum(len(doc.page_content) for doc in docs)\n        compressed_length = sum(len(doc.page_content) for doc in compressed_docs)\n        compression_ratio = compressed_length / original_length\n        \n        print(f\"Retrieved {len(docs)} documents\")\n        print(f\"Compression: {compression_ratio:.1%} of original\")\n        print(f\"Context length: {original_length} \u2192 {compressed_length} chars\")\n        \n        return compressed_docs\n    \n    return query_with_compression\n\n# Usage\nrag_query = create_compressed_rag_pipeline()\ncompressed_context = rag_query(\"What are the benefits of renewable energy?\")\n```\n\n#### API Cost Optimization\n\n```python\nfrom context_compressor.integrations.openai import compress_for_openai\nimport openai\n\ndef cost_optimized_api_call(prompt: str, context: str, model: str = \"gpt-4\"):\n    \"\"\"Optimize API costs through intelligent compression.\"\"\"\n    # Estimate original cost\n    original_tokens = len(context.split()) * 1.3  # Rough token estimate\n    \n    # Determine optimal compression ratio based on model pricing\n    if model.startswith(\"gpt-4\"):\n        target_ratio = 0.4  # Aggressive compression for expensive models\n    elif model.startswith(\"gpt-3.5\"):\n        target_ratio = 0.6  # Moderate compression\n    else:\n        target_ratio = 0.8  # Light compression for cheaper models\n    \n    # Compress context\n    compressed_context = compress_for_openai(\n        text=context,\n        target_ratio=target_ratio,\n        model=model,\n        preserve_entities=True\n    )\n    \n    # Calculate savings\n    compressed_tokens = len(compressed_context.split()) * 1.3\n    token_savings = original_tokens - compressed_tokens\n    \n    # Make API call\n    full_prompt = f\"{prompt}\\n\\nContext: {compressed_context}\"\n    \n    print(f\"Token reduction: {original_tokens:.0f} \u2192 {compressed_tokens:.0f} \"\n          f\"({token_savings/original_tokens:.1%} savings)\")\n    \n    response = openai.ChatCompletion.create(\n        model=model,\n        messages=[{\"role\": \"user\", \"content\": full_prompt}]\n    )\n    \n    return response, token_savings\n```\n\n## \ud83d\udcc8 Performance Optimization\n\n### \ud83d\udcca Performance Tips & Best Practices\n\n#### Optimal Worker Configuration\n\n```python\nimport multiprocessing as mp\n\ndef get_optimal_workers(text_count: int, avg_text_length: int) -> int:\n    \"\"\"Calculate optimal number of workers based on workload.\"\"\"\n    cpu_count = mp.cpu_count()\n    \n    # For small texts, use more workers\n    if avg_text_length < 100:\n        return min(cpu_count, text_count)\n    # For large texts, use fewer workers to avoid memory issues\n    elif avg_text_length > 1000:\n        return max(1, cpu_count // 2)\n    else:\n        return max(1, int(cpu_count * 0.75))\n\n# Dynamic batch processing\ndef smart_batch_processing(texts: list, target_ratio: float = 0.5):\n    \"\"\"Intelligently process batches based on content characteristics.\"\"\"\n    avg_length = sum(len(text.split()) for text in texts) / len(texts)\n    optimal_workers = get_optimal_workers(len(texts), avg_length)\n    \n    print(f\"Processing {len(texts)} texts with {optimal_workers} workers\")\n    print(f\"Average text length: {avg_length:.0f} words\")\n    \n    compressor = ContextCompressor()\n    batch_result = compressor.compress_batch(\n        texts=texts,\n        target_ratio=target_ratio,\n        parallel=True,\n        max_workers=optimal_workers\n    )\n    \n    return batch_result\n```\n\n### \ud83d\udee0\ufe0f Smart Caching Strategies\n\n```python\nfrom context_compressor.utils.cache import CacheManager\nimport hashlib\n\ndef create_intelligent_cache_manager():\n    \"\"\"Create cache manager with intelligent eviction policies.\"\"\"\n    \n    def content_based_key(text: str, target_ratio: float, strategy: str) -> str:\n        \"\"\"Generate cache key based on content characteristics.\"\"\"\n        # Hash content but consider similar texts\n        content_hash = hashlib.md5(text.encode()).hexdigest()[:8]\n        length_bucket = len(text) // 1000  # Group by content length\n        ratio_bucket = int(target_ratio * 10)  # Group by compression ratio\n        \n        return f\"{strategy}_{length_bucket}k_{ratio_bucket}_{content_hash}\"\n    \n    cache_manager = CacheManager(\n        ttl=7200,  # 2 hours\n        max_size=1000,\n        cleanup_interval=300,  # 5 minutes\n        key_generator=content_based_key\n    )\n    \n    return cache_manager\n\n# Usage\ncache = create_intelligent_cache_manager()\ncompressor = ContextCompressor(cache_manager=cache)\n```\n\n### \ud83d\ude80 Optimized Batch Processing\n\n```python\ndef optimized_batch_processing(texts: list, target_ratio: float = 0.5):\n    \"\"\"Optimize batch processing with intelligent partitioning.\"\"\"\n    import multiprocessing as mp\n    \n    # Partition texts by characteristics\n    short_texts = [t for t in texts if len(t.split()) < 100]\n    medium_texts = [t for t in texts if 100 <= len(t.split()) < 500]\n    long_texts = [t for t in texts if len(t.split()) >= 500]\n    \n    results = []\n    \n    # Process short texts with extractive (fast)\n    if short_texts:\n        extractive_compressor = ContextCompressor(\n            strategies=[ExtractiveStrategy()],\n            enable_caching=True\n        )\n        short_results = extractive_compressor.compress_batch(\n            short_texts, target_ratio=target_ratio,\n            parallel=True, max_workers=mp.cpu_count()\n        )\n        results.extend(short_results.results)\n    \n    # Process medium texts with hybrid\n    if medium_texts:\n        hybrid_compressor = ContextCompressor(\n            strategies=[HybridStrategy()]\n        )\n        medium_results = hybrid_compressor.compress_batch(\n            medium_texts, target_ratio=target_ratio,\n            parallel=True, max_workers=mp.cpu_count() // 2\n        )\n        results.extend(medium_results.results)\n    \n    # Process long texts with semantic (memory efficient)\n    if long_texts:\n        semantic_compressor = ContextCompressor(\n            strategies=[SemanticStrategy()],\n            enable_caching=False  # Save memory for large texts\n        )\n        for text in long_texts:\n            result = semantic_compressor.compress(text, target_ratio=target_ratio)\n            results.append(result)\n    \n    return results\n\n# Usage\nlarge_text_batch = [\"text1...\", \"text2...\", \"text3...\"]\nresults = optimized_batch_processing(large_text_batch, target_ratio=0.4)\nprint(f\"Processed {len(results)} texts efficiently\")\n```\n\n### \ud83d\udcca Memory Management & Monitoring\n\n```python\nimport psutil\nimport gc\nfrom typing import List, Optional\n\ndef memory_aware_compression(compressor, texts: List[str], target_ratio=0.5):\n    \"\"\"Compress with memory monitoring and management.\"\"\"\n    initial_memory = psutil.Process().memory_info().rss / 1024 / 1024  # MB\n    \n    results = []\n    for i, text in enumerate(texts):\n        # Compress text\n        result = compressor.compress(text, target_ratio=target_ratio)\n        results.append(result)\n        \n        # Monitor memory every 10 items\n        if i % 10 == 0:\n            current_memory = psutil.Process().memory_info().rss / 1024 / 1024\n            memory_increase = current_memory - initial_memory\n            \n            print(f\"Processed {i+1}/{len(texts)} texts, Memory: {current_memory:.1f}MB (+{memory_increase:.1f}MB)\")\n            \n            # Trigger cleanup if memory usage is high\n            if memory_increase > 500:  # 500MB threshold\n                print(\"High memory usage detected, performing cleanup...\")\n                gc.collect()  # Force garbage collection\n                \n                # Clear cache if available\n                if hasattr(compressor, '_cache_manager') and compressor._cache_manager:\n                    compressor._cache_manager.clear_expired()\n    \n    final_memory = psutil.Process().memory_info().rss / 1024 / 1024\n    print(f\"Final memory: {final_memory:.1f}MB (peak increase: {final_memory - initial_memory:.1f}MB)\")\n    \n    return results\n\n# For memory-constrained environments\ndef create_lightweight_compressor():\n    \"\"\"Create memory-optimized compressor configuration.\"\"\"\n    return ContextCompressor(\n        strategies=[ExtractiveStrategy()],  # Lightweight strategy\n        enable_caching=False,  # Disable caching\n        enable_quality_evaluation=False,  # Skip quality evaluation\n        max_concurrent_processes=2  # Limit parallel processing\n    )\n\n# Usage\nlightweight_compressor = create_lightweight_compressor()\nresults = memory_aware_compression(lightweight_compressor, large_text_list)\n```\n\n### \u26a1 Performance Monitoring & Benchmarking\n\n```python\nimport time\nfrom dataclasses import dataclass\nfrom typing import List, Dict\n\n@dataclass\nclass PerformanceMetrics:\n    avg_processing_time: float\n    tokens_per_second: float\n    memory_efficiency: float\n    quality_score: float\n    cache_hit_rate: float\n\ndef benchmark_strategies(texts: List[str], target_ratio: float = 0.5) -> Dict[str, PerformanceMetrics]:\n    \"\"\"Comprehensive benchmarking of different strategies.\"\"\"\n    strategies = {\n        \"extractive\": ExtractiveStrategy(),\n        \"semantic\": SemanticStrategy(),\n        \"hybrid\": HybridStrategy()\n    }\n    \n    results = {}\n    \n    for name, strategy in strategies.items():\n        print(f\"\\n\ud83d\udcca Benchmarking {name.title()} Strategy...\")\n        \n        # Reset system state\n        gc.collect()\n        \n        start_time = time.time()\n        start_memory = psutil.Process().memory_info().rss\n        \n        # Create compressor with monitoring\n        compressor = ContextCompressor(\n            strategies=[strategy],\n            enable_quality_evaluation=True,\n            enable_caching=True\n        )\n        \n        compression_results = []\n        cache_hits = 0\n        \n        # Process texts\n        for i, text in enumerate(texts):\n            # Check cache before compression\n            cache_key = f\"{hash(text)}_{target_ratio}_{name}\"\n            \n            result = compressor.compress(text, target_ratio=target_ratio)\n            compression_results.append(result)\n            \n            # Progress indicator\n            if (i + 1) % 10 == 0:\n                print(f\"  Processed {i+1}/{len(texts)} texts...\")\n        \n        end_time = time.time()\n        end_memory = psutil.Process().memory_info().rss\n        \n        # Calculate comprehensive metrics\n        total_time = end_time - start_time\n        total_tokens = sum(r.original_tokens for r in compression_results)\n        avg_quality = sum(\n            r.quality_metrics.overall_score \n            for r in compression_results \n            if r.quality_metrics\n        ) / len(compression_results)\n        \n        # Get cache statistics\n        cache_stats = getattr(compressor, '_cache_stats', {'hits': 0, 'misses': len(texts)})\n        cache_hit_rate = cache_stats.get('hits', 0) / max(1, cache_stats.get('hits', 0) + cache_stats.get('misses', 0))\n        \n        metrics = PerformanceMetrics(\n            avg_processing_time=total_time / len(texts),\n            tokens_per_second=total_tokens / max(0.001, total_time),\n            memory_efficiency=(end_memory - start_memory) / len(texts) / 1024 / 1024,  # MB per text\n            quality_score=avg_quality,\n            cache_hit_rate=cache_hit_rate * 100\n        )\n        \n        results[name] = metrics\n        \n        # Display results\n        print(f\"  \u2705 Results:\")\n        print(f\"    Avg time per text: {metrics.avg_processing_time:.3f}s\")\n        print(f\"    Processing speed: {metrics.tokens_per_second:.1f} tokens/sec\")\n        print(f\"    Memory per text: {metrics.memory_efficiency:.2f}MB\")\n        print(f\"    Avg quality score: {metrics.quality_score:.3f}\")\n        print(f\"    Cache hit rate: {metrics.cache_hit_rate:.1f}%\")\n    \n    # Summary comparison\n    print(f\"\\n\ud83c\udfc6 Performance Summary:\")\n    print(f\"{'Strategy':<12} | {'Time/Text':<10} | {'Tokens/Sec':<11} | {'Memory/Text':<12} | {'Quality':<8} | {'Cache':<7}\")\n    print(\"-\" * 85)\n    \n    for name, metrics in results.items():\n        print(f\"{name.title():<12} | \"\n              f\"{metrics.avg_processing_time:<10.3f} | \"\n              f\"{metrics.tokens_per_second:<11.1f} | \"\n              f\"{metrics.memory_efficiency:<12.2f} | \"\n              f\"{metrics.quality_score:<8.3f} | \"\n              f\"{metrics.cache_hit_rate:<7.1f}%\")\n    \n    return results\n\n# Usage\nsample_texts = [\"Sample text 1...\", \"Sample text 2...\", \"Sample text 3...\"]\nbenchmark_results = benchmark_strategies(sample_texts, target_ratio=0.5)\n```\n\n### \ud83d\udd27 Troubleshooting & Error Handling\n\n#### Robust Compression with Fallbacks\n\n```python\nfrom typing import Optional\nimport logging\nimport time\n\ndef robust_compression(text: str, target_ratio: float = 0.5) -> Optional[CompressionResult]:\n    \"\"\"Compression with comprehensive error handling and fallback strategies.\"\"\"\n    strategies = [\n        (\"extractive\", ExtractiveStrategy()),  # Most reliable\n        (\"semantic\", SemanticStrategy()),     # Fallback 1\n        (\"simple\", ExtractiveStrategy(scoring_method=\"frequency\"))  # Fallback 2\n    ]\n    \n    for i, (name, strategy) in enumerate(strategies):\n        try:\n            compressor = ContextCompressor(\n                strategies=[strategy],\n                enable_quality_evaluation=True,\n                timeout=30  # 30 second timeout\n            )\n            \n            # Attempt compression\n            result = compressor.compress(text, target_ratio=target_ratio)\n            \n            # Validate result\n            if result.compressed_text and len(result.compressed_text.strip()) > 0:\n                logging.info(f\"Compression successful with {name} strategy\")\n                return result\n            else:\n                raise ValueError(\"Empty compression result\")\n            \n        except Exception as e:\n            logging.warning(f\"{name.title()} strategy failed: {str(e)}\")\n            if i == len(strategies) - 1:  # Last strategy failed\n                logging.error(f\"All compression strategies failed for text: {text[:100]}...\")\n                return None\n            continue\n    \n    return None\n\ndef compress_with_retry(text: str, max_retries: int = 3, backoff_factor: float = 2.0) -> Optional[CompressionResult]:\n    \"\"\"Compress with exponential backoff retry mechanism.\"\"\"\n    for attempt in range(max_retries):\n        try:\n            result = robust_compression(text)\n            if result:\n                return result\n        except Exception as e:\n            logging.warning(f\"Compression attempt {attempt + 1} failed: {str(e)}\")\n        \n        if attempt < max_retries - 1:  # Don't sleep on last attempt\n            sleep_time = backoff_factor ** attempt\n            logging.info(f\"Retrying in {sleep_time:.1f} seconds...\")\n            time.sleep(sleep_time)\n    \n    logging.error(f\"Failed to compress text after {max_retries} attempts\")\n    return None\n\n# Usage\nresult = compress_with_retry(problematic_text, max_retries=3)\nif result:\n    print(f\"Successfully compressed: {result.actual_ratio:.1%} compression\")\nelse:\n    print(\"Compression failed after all retry attempts\")\n```\n\n#### Common Issues & Solutions\n\n```python\ndef diagnose_compression_issues(text: str, target_ratio: float = 0.5):\n    \"\"\"Diagnose and provide solutions for compression issues.\"\"\"\n    print(f\"\ud83d\udd0d Diagnosing compression issues...\\n\")\n    \n    # Text characteristics\n    word_count = len(text.split())\n    char_count = len(text)\n    sentence_count = len([s for s in text.split('.') if s.strip()])\n    \n    print(f\"Text Statistics:\")\n    print(f\"  Words: {word_count}\")\n    print(f\"  Characters: {char_count}\")\n    print(f\"  Sentences: {sentence_count}\")\n    print(f\"  Avg words/sentence: {word_count/max(1, sentence_count):.1f}\")\n    \n    # Issue detection\n    issues = []\n    solutions = []\n    \n    if word_count < 50:\n        issues.append(\"\u26a0\ufe0f Text too short\")\n        solutions.append(\"Use lighter compression (target_ratio > 0.7) or skip compression\")\n    \n    if sentence_count < 3:\n        issues.append(\"\u26a0\ufe0f Too few sentences\")\n        solutions.append(\"Use extractive strategy with word-level compression\")\n    \n    if word_count / sentence_count > 50:\n        issues.append(\"\u26a0\ufe0f Very long sentences\")\n        solutions.append(\"Use semantic strategy for better sentence splitting\")\n    \n    if target_ratio < 0.2:\n        issues.append(\"\u26a0\ufe0f Aggressive compression ratio\")\n        solutions.append(\"Consider target_ratio >= 0.3 for better quality\")\n    \n    # Memory check\n    try:\n        import psutil\n        available_memory = psutil.virtual_memory().available / 1024 / 1024 / 1024  # GB\n        if available_memory < 2.0:\n            issues.append(\"\u26a0\ufe0f Low available memory\")\n            solutions.append(\"Use lightweight compressor or disable caching\")\n    except ImportError:\n        pass\n    \n    # Report findings\n    if issues:\n        print(f\"\\n\ud83d\udeab Issues Found:\")\n        for issue in issues:\n            print(f\"  {issue}\")\n        \n        print(f\"\\n\ud83d\udca1 Recommended Solutions:\")\n        for solution in solutions:\n            print(f\"  {solution}\")\n    else:\n        print(f\"\\n\u2705 No issues detected - text should compress well\")\n    \n    # Provide optimal configuration\n    print(f\"\\n\ud83c\udfaf Recommended Configuration:\")\n    \n    if word_count < 100:\n        strategy = \"ExtractiveStrategy()\"\n        ratio = min(0.8, target_ratio + 0.2)\n    elif word_count > 1000:\n        strategy = \"SemanticStrategy()\"\n        ratio = target_ratio\n    else:\n        strategy = \"HybridStrategy()\"\n        ratio = target_ratio\n    \n    print(f\"  Strategy: {strategy}\")\n    print(f\"  Target Ratio: {ratio:.1f}\")\n    print(f\"  Enable Caching: {available_memory > 2.0 if 'available_memory' in locals() else True}\")\n    print(f\"  Quality Evaluation: {word_count > 50}\")\n\n# Usage\ndiagnose_compression_issues(problematic_text, target_ratio=0.3)\n```\n\n### \ud83d\udcca Production Monitoring\n\n```python\nfrom dataclasses import dataclass\nfrom datetime import datetime\nfrom typing import Dict, List\n\n@dataclass\nclass ProductionMetrics:\n    \"\"\"Track production compression metrics.\"\"\"\n    total_requests: int = 0\n    successful_compressions: int = 0\n    failed_compressions: int = 0\n    avg_processing_time: float = 0.0\n    avg_compression_ratio: float = 0.0\n    avg_quality_score: float = 0.0\n    cache_hit_rate: float = 0.0\n    last_updated: datetime = None\n\nclass ProductionMonitor:\n    \"\"\"Monitor compression performance in production.\"\"\"\n    \n    def __init__(self):\n        self.metrics = ProductionMetrics()\n        self.request_history: List[Dict] = []\n    \n    def log_compression(self, result: CompressionResult, success: bool = True):\n        \"\"\"Log compression result for monitoring.\"\"\"\n        self.metrics.total_requests += 1\n        \n        if success:\n            self.metrics.successful_compressions += 1\n            \n            # Update running averages\n            n = self.metrics.successful_compressions\n            self.metrics.avg_processing_time = (\n                (self.metrics.avg_processing_time * (n-1) + result.processing_time) / n\n            )\n            self.metrics.avg_compression_ratio = (\n                (self.metrics.avg_compression_ratio * (n-1) + result.actual_ratio) / n\n            )\n            \n            if result.quality_metrics:\n                self.metrics.avg_quality_score = (\n                    (self.metrics.avg_quality_score * (n-1) + result.quality_metrics.overall_score) / n\n                )\n        else:\n            self.metrics.failed_compressions += 1\n        \n        self.metrics.last_updated = datetime.now()\n        \n        # Keep recent history\n        self.request_history.append({\n            'timestamp': datetime.now(),\n            'success': success,\n            'processing_time': result.processing_time if success else None,\n            'compression_ratio': result.actual_ratio if success else None,\n            'tokens_saved': result.tokens_saved if success else None\n        })\n        \n        # Keep only last 1000 requests\n        if len(self.request_history) > 1000:\n            self.request_history = self.request_history[-1000:]\n    \n    def get_health_status(self) -> Dict:\n        \"\"\"Get current system health status.\"\"\"\n        success_rate = (\n            self.metrics.successful_compressions / max(1, self.metrics.total_requests) * 100\n        )\n        \n        health_status = \"healthy\"\n        if success_rate < 95:\n            health_status = \"degraded\"\n        if success_rate < 80:\n            health_status = \"unhealthy\"\n        \n        return {\n            'status': health_status,\n            'success_rate': success_rate,\n            'total_requests': self.metrics.total_requests,\n            'avg_processing_time': self.metrics.avg_processing_time,\n            'avg_compression_ratio': self.metrics.avg_compression_ratio,\n            'avg_quality_score': self.metrics.avg_quality_score,\n            'last_updated': self.metrics.last_updated.isoformat() if self.metrics.last_updated else None\n        }\n    \n    def generate_report(self) -> str:\n        \"\"\"Generate comprehensive monitoring report.\"\"\"\n        health = self.get_health_status()\n        \n        report = f\"\"\"\n\ud83d\udcca PRODUCTION MONITORING REPORT\n{'='*50}\n\n\ud83d\udfe2 System Health: {health['status'].upper()}\n\ud83d\udcca Success Rate: {health['success_rate']:.1f}%\n\ud83d\udcdd Total Requests: {health['total_requests']}\n\u23f1\ufe0f Avg Processing Time: {health['avg_processing_time']:.3f}s\n\ud83d\udcca Avg Compression: {health['avg_compression_ratio']:.1%}\n\ud83c\udfaf Avg Quality: {health['avg_quality_score']:.3f}\n\ud83d\udd04 Last Updated: {health['last_updated'] or 'Never'}\n\n\ud83d\udcc8 Recent Performance Trends:\n        \"\"\"\n        \n        # Analyze recent trends\n        if len(self.request_history) >= 10:\n            recent_requests = self.request_history[-10:]\n            recent_success_rate = sum(1 for r in recent_requests if r['success']) / len(recent_requests) * 100\n            recent_avg_time = sum(r['processing_time'] for r in recent_requests if r['success']) / max(1, sum(1 for r in recent_requests if r['success']))\n            \n            report += f\"  Recent Success Rate (last 10): {recent_success_rate:.1f}%\\n\"\n            report += f\"  Recent Avg Time (last 10): {recent_avg_time:.3f}s\\n\"\n        \n        return report\n\n# Usage in production\nmonitor = ProductionMonitor()\n\n# In your compression endpoint\ndef compress_with_monitoring(text: str, target_ratio: float = 0.5):\n    try:\n        compressor = ContextCompressor()\n        result = compressor.compress(text, target_ratio=target_ratio)\n        monitor.log_compression(result, success=True)\n        return result\n    except Exception as e:\n        # Create dummy result for failed compression\n        failed_result = CompressionResult(\n            original_text=text,\n            compressed_text=\"\",\n            strategy_used=\"failed\",\n            target_ratio=target_ratio,\n            actual_ratio=0.0,\n            original_tokens=0,\n            compressed_tokens=0,\n            processing_time=0.0\n        )\n        monitor.log_compression(failed_result, success=False)\n        raise e\n\n# Health check endpoint\ndef health_check():\n    return monitor.get_health_status()\n\n# Monitoring dashboard\nprint(monitor.generate_report())\n```\n\n## \ud83e\uddea Testing\n\nRun the test suite:\n\n```bash\n# Run all tests\npytest\n\n# Run with coverage\npytest --cov=context_compressor\n\n# Run only unit tests\npytest -m \"not integration\"\n\n# Run specific test file\npytest tests/test_compressor.py\n```\n\n## \ud83d\udcda Examples\n\nCheck out the `examples/` directory for comprehensive usage examples:\n\n- `examples/basic_usage.py` - Basic compression examples\n- `examples/batch_processing.py` - Batch processing examples\n- `examples/quality_evaluation.py` - Quality metrics examples\n- `examples/custom_strategy.py` - Custom strategy development\n- `examples/integration_examples.py` - Framework integration examples\n- `examples/api_client.py` - REST API client examples\n\n## \ud83e\udd1d Contributing\n\nWe welcome contributions! Please see [CONTRIBUTING.md](CONTRIBUTING.md) for guidelines.\n\n### Development Setup\n\n```bash\ngit clone https://github.com/Huzaifa785/context-compressor.git\ncd context-compressor\npip install -e \".[dev]\"\npre-commit install\n```\n\n### Running Tests\n\n```bash\npytest\nblack .\nisort .\nflake8 .\nmypy src/\n```\n\n## \ud83d\udcc4 License\n\nThis project is licensed under the MIT License - see the [LICENSE](LICENSE) file for details.\n\n## \ud83c\udd98 Support\n\n- **Documentation**: [https://context-compressor.readthedocs.io](https://context-compressor.readthedocs.io)\n- **Issues**: [GitHub Issues](https://github.com/Huzaifa785/context-compressor/issues)\n- **Discussions**: [GitHub Discussions](https://github.com/Huzaifa785/context-compressor/discussions)\n- **PyPI Package**: [https://pypi.org/project/context-compressor/](https://pypi.org/project/context-compressor/)\n\n## \ud83d\uddfa\ufe0f Roadmap\n\n- [ ] Additional compression strategies (neural, attention-based)\n- [ ] Multi-language support\n- [ ] Integration with more LLM providers\n- [ ] GUI interface\n- [ ] Cloud deployment templates\n- [ ] Performance benchmarking suite\n\n## \ud83d\udcd6 Citation\n\nIf you use Context Compressor in your research, please cite:\n\n```bibtex\n@software{context_compressor,\n  title={Context Compressor: AI-Powered Text Compression for RAG Systems},\n  author={Mohammed Huzaifa},\n  url={https://github.com/Huzaifa785/context-compressor},\n  year={2024},\n  version={1.0.0}\n}\n```\n\n---\n\n**Made with \u2764\ufe0f by Mohammed Huzaifa for the AI community**\n\n## \ud83c\udfc6 Why Choose Context Compressor?\n\n- **Production Ready**: Version 1.0.0 with comprehensive testing and documentation\n- **Maximum Performance**: State-of-the-art compression algorithms with up to 80% token reduction\n- **Enterprise Support**: Full-featured API, monitoring, and deployment tools\n- **Complete Package**: All dependencies included by default - no complex setup required\n- **Active Development**: Regular updates and feature additions\n- **Community Driven**: Open source with active community support\n",
    "bugtrack_url": null,
    "license": "MIT",
    "summary": "AI-powered text compression for RAG systems and API calls to reduce token usage and costs",
    "version": "1.0.3",
    "project_urls": {
        "Bug Tracker": "https://github.com/Huzaifa785/context-compressor/issues",
        "Changelog": "https://github.com/Huzaifa785/context-compressor/blob/main/CHANGELOG.md",
        "Documentation": "https://github.com/Huzaifa785/context-compressor#readme",
        "Homepage": "https://github.com/Huzaifa785/context-compressor",
        "Repository": "https://github.com/Huzaifa785/context-compressor.git"
    },
    "split_keywords": [
        "ai",
        " nlp",
        " text-compression",
        " rag",
        " tokens",
        " api-optimization",
        " semantic-compression",
        " llm"
    ],
    "urls": [
        {
            "comment_text": null,
            "digests": {
                "blake2b_256": "a2677b7d26704913acc91bcc6a4ddf46c88a33e2b998c31c186a0039f130b4d9",
                "md5": "a2d51d1d56fbf219c324aca146f3ed71",
                "sha256": "816d4d81a15b1de3ce2de43f5de6c38818882e8c8fb81ec4458c824ed9aa8b65"
            },
            "downloads": -1,
            "filename": "context_compressor-1.0.3-py3-none-any.whl",
            "has_sig": false,
            "md5_digest": "a2d51d1d56fbf219c324aca146f3ed71",
            "packagetype": "bdist_wheel",
            "python_version": "py3",
            "requires_python": ">=3.8",
            "size": 62623,
            "upload_time": "2025-08-15T11:13:50",
            "upload_time_iso_8601": "2025-08-15T11:13:50.118670Z",
            "url": "https://files.pythonhosted.org/packages/a2/67/7b7d26704913acc91bcc6a4ddf46c88a33e2b998c31c186a0039f130b4d9/context_compressor-1.0.3-py3-none-any.whl",
            "yanked": false,
            "yanked_reason": null
        },
        {
            "comment_text": null,
            "digests": {
                "blake2b_256": "2a55397ccd81537164a04689fdcc867bad7e09482f4c9b89a20988463b366b98",
                "md5": "b06822f6c2fe96258a6e06f6f0959fd0",
                "sha256": "ee36c8af87fc95975fa6d6e56a3bc2c976d3887a20a25f3bfc4b2d6b37b716b2"
            },
            "downloads": -1,
            "filename": "context_compressor-1.0.3.tar.gz",
            "has_sig": false,
            "md5_digest": "b06822f6c2fe96258a6e06f6f0959fd0",
            "packagetype": "sdist",
            "python_version": "source",
            "requires_python": ">=3.8",
            "size": 136656,
            "upload_time": "2025-08-15T11:13:51",
            "upload_time_iso_8601": "2025-08-15T11:13:51.896936Z",
            "url": "https://files.pythonhosted.org/packages/2a/55/397ccd81537164a04689fdcc867bad7e09482f4c9b89a20988463b366b98/context_compressor-1.0.3.tar.gz",
            "yanked": false,
            "yanked_reason": null
        }
    ],
    "upload_time": "2025-08-15 11:13:51",
    "github": true,
    "gitlab": false,
    "bitbucket": false,
    "codeberg": false,
    "github_user": "Huzaifa785",
    "github_project": "context-compressor",
    "travis_ci": false,
    "coveralls": false,
    "github_actions": false,
    "requirements": [
        {
            "name": "numpy",
            "specs": [
                [
                    ">=",
                    "1.21.0"
                ]
            ]
        },
        {
            "name": "scikit-learn",
            "specs": [
                [
                    ">=",
                    "1.0.0"
                ]
            ]
        },
        {
            "name": "pydantic",
            "specs": [
                [
                    ">=",
                    "2.0.0"
                ]
            ]
        },
        {
            "name": "typing-extensions",
            "specs": [
                [
                    ">=",
                    "4.0.0"
                ]
            ]
        },
        {
            "name": "torch",
            "specs": [
                [
                    ">=",
                    "1.9.0"
                ]
            ]
        },
        {
            "name": "transformers",
            "specs": [
                [
                    ">=",
                    "4.20.0"
                ]
            ]
        },
        {
            "name": "sentence-transformers",
            "specs": [
                [
                    ">=",
                    "2.2.0"
                ]
            ]
        },
        {
            "name": "datasets",
            "specs": [
                [
                    ">=",
                    "2.0.0"
                ]
            ]
        },
        {
            "name": "fastapi",
            "specs": [
                [
                    ">=",
                    "0.100.0"
                ]
            ]
        },
        {
            "name": "uvicorn",
            "specs": [
                [
                    ">=",
                    "0.22.0"
                ]
            ]
        },
        {
            "name": "python-multipart",
            "specs": [
                [
                    ">=",
                    "0.0.6"
                ]
            ]
        },
        {
            "name": "langchain",
            "specs": [
                [
                    ">=",
                    "0.0.200"
                ]
            ]
        },
        {
            "name": "openai",
            "specs": [
                [
                    ">=",
                    "1.0.0"
                ]
            ]
        },
        {
            "name": "anthropic",
            "specs": [
                [
                    ">=",
                    "0.3.0"
                ]
            ]
        },
        {
            "name": "tiktoken",
            "specs": [
                [
                    ">=",
                    "0.4.0"
                ]
            ]
        },
        {
            "name": "spacy",
            "specs": [
                [
                    ">=",
                    "3.4.0"
                ]
            ]
        },
        {
            "name": "nltk",
            "specs": [
                [
                    ">=",
                    "3.8.0"
                ]
            ]
        },
        {
            "name": "textstat",
            "specs": [
                [
                    ">=",
                    "0.7.0"
                ]
            ]
        },
        {
            "name": "rouge-score",
            "specs": [
                [
                    ">=",
                    "0.1.2"
                ]
            ]
        },
        {
            "name": "scipy",
            "specs": [
                [
                    ">=",
                    "1.9.0"
                ]
            ]
        },
        {
            "name": "matplotlib",
            "specs": [
                [
                    ">=",
                    "3.5.0"
                ]
            ]
        },
        {
            "name": "seaborn",
            "specs": [
                [
                    ">=",
                    "0.11.0"
                ]
            ]
        },
        {
            "name": "plotly",
            "specs": [
                [
                    ">=",
                    "5.0.0"
                ]
            ]
        },
        {
            "name": "pandas",
            "specs": [
                [
                    ">=",
                    "1.5.0"
                ]
            ]
        },
        {
            "name": "tqdm",
            "specs": [
                [
                    ">=",
                    "4.64.0"
                ]
            ]
        },
        {
            "name": "joblib",
            "specs": [
                [
                    ">=",
                    "1.2.0"
                ]
            ]
        }
    ],
    "lcname": "context-compressor"
}

None