openbmb
/

NOSA-3B

@@ -50,10 +50,10 @@ from transformers.utils import (
     replace_return_docstrings,
 )
 from transformers.models.llama.configuration_llama import LlamaConfig
-from moba import moba_attn_varlen
 from functools import lru_cache
 from .cis_pooling import nosa_mean_pooling
-from native_sparse_attention.ops.triton.topk_sparse_attention import topk_sparse_attention
 logger = logging.get_logger(__name__)
@@ -680,7 +680,7 @@ class LlamaFlashAttention2(LlamaAttention):
         return attn_output, attn_weights, past_key_value
-from native_sparse_attention.ops.triton.topk_sparse_attention import topk_sparse_attention
 try:
     from flash_attn import flash_attn_func, flash_attn_varlen_func
     from flash_attn.bert_padding import index_first_axis, pad_input, unpad_input  # noqa

     replace_return_docstrings,
 )
 from transformers.models.llama.configuration_llama import LlamaConfig
 from functools import lru_cache
 from .cis_pooling import nosa_mean_pooling
 logger = logging.get_logger(__name__)
         return attn_output, attn_weights, past_key_value
 try:
     from flash_attn import flash_attn_func, flash_attn_varlen_func
     from flash_attn.bert_padding import index_first_axis, pad_input, unpad_input  # noqa