llama-index-llms-optimum-intel

Name	llama-index-llms-optimum-intel JSON
Version	0.4.0 JSON
	download
home_page	None
Summary	llama-index llms optimum intel integration
upload_time	2025-07-31 02:33:56
maintainer	None
docs_url	None
author	None
requires_python	<4.0,>=3.9
license	None
keywords
VCS
bugtrack_url
requirements	No requirements were recorded.
Travis-CI	No Travis.
coveralls test coverage	No coveralls.

            # LlamaIndex Llms Integration: Optimum Intel IPEX backend

## Installation

To install the required packages, run:

```bash
%pip install llama-index-llms-optimum-intel
!pip install llama-index
```

## Setup

### Define Functions for Prompt Handling

You will need functions to convert messages and completions into prompts:

```python
from llama_index.llms.optimum_intel import OptimumIntelLLM


def messages_to_prompt(messages):
    prompt = ""
    for message in messages:
        if message.role == "system":
            prompt += f"<|system|>\n{message.content}</s>\n"
        elif message.role == "user":
            prompt += f"<|user|>\n{message.content}</s>\n"
        elif message.role == "assistant":
            prompt += f"<|assistant|>\n{message.content}</s>\n"

    # Ensure we start with a system prompt, insert blank if needed
    if not prompt.startswith("<|system|>\n"):
        prompt = "<|system|>\n</s>\n" + prompt

    # Add final assistant prompt
    prompt = prompt + "<|assistant|>\n"

    return prompt


def completion_to_prompt(completion):
    return f"<|system|>\n</s>\n<|user|>\n{completion}</s>\n<|assistant|>\n"
```

### Model Loading

Models can be loaded by specifying parameters using the `OptimumIntelLLM` method:

```python
oi_llm = OptimumIntelLLM(
    model_name="Intel/neural-chat-7b-v3-3",
    tokenizer_name="Intel/neural-chat-7b-v3-3",
    context_window=3900,
    max_new_tokens=256,
    generate_kwargs={"temperature": 0.7, "top_k": 50, "top_p": 0.95},
    messages_to_prompt=messages_to_prompt,
    completion_to_prompt=completion_to_prompt,
    device_map="cpu",
)

response = oi_llm.complete("What is the meaning of life?")
print(str(response))
```

### Streaming Responses

To use the streaming capabilities, you can use the `stream_complete` and `stream_chat` methods:

#### Using `stream_complete`

```python
response = oi_llm.stream_complete("Who is Mother Teresa?")
for r in response:
    print(r.delta, end="")
```

#### Using `stream_chat`

```python
from llama_index.core.llms import ChatMessage

messages = [
    ChatMessage(
        role="system",
        content="You are an American chef in a small restaurant in New Orleans",
    ),
    ChatMessage(role="user", content="What is your dish of the day?"),
]

resp = oi_llm.stream_chat(messages)

for r in resp:
    print(r.delta, end="")
```

### LLM Implementation example

https://docs.llamaindex.ai/en/stable/examples/llm/optimum_intel/

Raw data

            {
    "_id": null,
    "home_page": null,
    "name": "llama-index-llms-optimum-intel",
    "maintainer": null,
    "docs_url": null,
    "requires_python": "<4.0,>=3.9",
    "maintainer_email": null,
    "keywords": null,
    "author": null,
    "author_email": "Your Name <you@example.com>",
    "download_url": "https://files.pythonhosted.org/packages/20/d0/5182ff41b45148c8c499b79a00bd8607d89fb0c135f4c0ed35883c1fe578/llama_index_llms_optimum_intel-0.4.0.tar.gz",
    "platform": null,
    "description": "# LlamaIndex Llms Integration: Optimum Intel IPEX backend\n\n## Installation\n\nTo install the required packages, run:\n\n```bash\n%pip install llama-index-llms-optimum-intel\n!pip install llama-index\n```\n\n## Setup\n\n### Define Functions for Prompt Handling\n\nYou will need functions to convert messages and completions into prompts:\n\n```python\nfrom llama_index.llms.optimum_intel import OptimumIntelLLM\n\n\ndef messages_to_prompt(messages):\n    prompt = \"\"\n    for message in messages:\n        if message.role == \"system\":\n            prompt += f\"<|system|>\\n{message.content}</s>\\n\"\n        elif message.role == \"user\":\n            prompt += f\"<|user|>\\n{message.content}</s>\\n\"\n        elif message.role == \"assistant\":\n            prompt += f\"<|assistant|>\\n{message.content}</s>\\n\"\n\n    # Ensure we start with a system prompt, insert blank if needed\n    if not prompt.startswith(\"<|system|>\\n\"):\n        prompt = \"<|system|>\\n</s>\\n\" + prompt\n\n    # Add final assistant prompt\n    prompt = prompt + \"<|assistant|>\\n\"\n\n    return prompt\n\n\ndef completion_to_prompt(completion):\n    return f\"<|system|>\\n</s>\\n<|user|>\\n{completion}</s>\\n<|assistant|>\\n\"\n```\n\n### Model Loading\n\nModels can be loaded by specifying parameters using the `OptimumIntelLLM` method:\n\n```python\noi_llm = OptimumIntelLLM(\n    model_name=\"Intel/neural-chat-7b-v3-3\",\n    tokenizer_name=\"Intel/neural-chat-7b-v3-3\",\n    context_window=3900,\n    max_new_tokens=256,\n    generate_kwargs={\"temperature\": 0.7, \"top_k\": 50, \"top_p\": 0.95},\n    messages_to_prompt=messages_to_prompt,\n    completion_to_prompt=completion_to_prompt,\n    device_map=\"cpu\",\n)\n\nresponse = oi_llm.complete(\"What is the meaning of life?\")\nprint(str(response))\n```\n\n### Streaming Responses\n\nTo use the streaming capabilities, you can use the `stream_complete` and `stream_chat` methods:\n\n#### Using `stream_complete`\n\n```python\nresponse = oi_llm.stream_complete(\"Who is Mother Teresa?\")\nfor r in response:\n    print(r.delta, end=\"\")\n```\n\n#### Using `stream_chat`\n\n```python\nfrom llama_index.core.llms import ChatMessage\n\nmessages = [\n    ChatMessage(\n        role=\"system\",\n        content=\"You are an American chef in a small restaurant in New Orleans\",\n    ),\n    ChatMessage(role=\"user\", content=\"What is your dish of the day?\"),\n]\n\nresp = oi_llm.stream_chat(messages)\n\nfor r in resp:\n    print(r.delta, end=\"\")\n```\n\n### LLM Implementation example\n\nhttps://docs.llamaindex.ai/en/stable/examples/llm/optimum_intel/\n",
    "bugtrack_url": null,
    "license": null,
    "summary": "llama-index llms optimum intel integration",
    "version": "0.4.0",
    "project_urls": null,
    "split_keywords": [],
    "urls": [
        {
            "comment_text": null,
            "digests": {
                "blake2b_256": "d8fba26f17c4aaf8a57b79ac720023d00870178f29253a850905dd7018e88873",
                "md5": "f3a34f21fc7e609f523cbdaed81082a9",
                "sha256": "164c0a23166c3c35d773db4120e3cf44e88f11d62c11b64876313f2f8794a27b"
            },
            "downloads": -1,
            "filename": "llama_index_llms_optimum_intel-0.4.0-py3-none-any.whl",
            "has_sig": false,
            "md5_digest": "f3a34f21fc7e609f523cbdaed81082a9",
            "packagetype": "bdist_wheel",
            "python_version": "py3",
            "requires_python": "<4.0,>=3.9",
            "size": 4997,
            "upload_time": "2025-07-31T02:33:56",
            "upload_time_iso_8601": "2025-07-31T02:33:56.101068Z",
            "url": "https://files.pythonhosted.org/packages/d8/fb/a26f17c4aaf8a57b79ac720023d00870178f29253a850905dd7018e88873/llama_index_llms_optimum_intel-0.4.0-py3-none-any.whl",
            "yanked": false,
            "yanked_reason": null
        },
        {
            "comment_text": null,
            "digests": {
                "blake2b_256": "20d05182ff41b45148c8c499b79a00bd8607d89fb0c135f4c0ed35883c1fe578",
                "md5": "dce7ef1daa74c10e4402e1734fde28b2",
                "sha256": "48ca233bd8db855ff8b1e879c55ff04ca8bdd89b1d70eafb9c32ece672a05e07"
            },
            "downloads": -1,
            "filename": "llama_index_llms_optimum_intel-0.4.0.tar.gz",
            "has_sig": false,
            "md5_digest": "dce7ef1daa74c10e4402e1734fde28b2",
            "packagetype": "sdist",
            "python_version": "source",
            "requires_python": "<4.0,>=3.9",
            "size": 5175,
            "upload_time": "2025-07-31T02:33:56",
            "upload_time_iso_8601": "2025-07-31T02:33:56.971654Z",
            "url": "https://files.pythonhosted.org/packages/20/d0/5182ff41b45148c8c499b79a00bd8607d89fb0c135f4c0ed35883c1fe578/llama_index_llms_optimum_intel-0.4.0.tar.gz",
            "yanked": false,
            "yanked_reason": null
        }
    ],
    "upload_time": "2025-07-31 02:33:56",
    "github": false,
    "gitlab": false,
    "bitbucket": false,
    "codeberg": false,
    "lcname": "llama-index-llms-optimum-intel"
}

None