d0/d84/sbcharsetprober_8py_source.html

from typing import Dict, List, NamedTuple, Optional, Union


from .charsetprober import CharSetProber

from .enums import CharacterCategory, ProbingState, SequenceLikelihood


class SingleByteCharSetModel(NamedTuple):

    charset_name: str

    language: str

    char_to_order_map: Dict[int, int]

    language_model: Dict[int, Dict[int, int]]

    typical_positive_ratio: float

    keep_ascii_letters: bool

    alphabet: str


class SingleByteCharSetProber(CharSetProber):

    SAMPLE_SIZE = 64

    SB_ENOUGH_REL_THRESHOLD = 1024  # 0.25 * SAMPLE_SIZE^2

    POSITIVE_SHORTCUT_THRESHOLD = 0.95

    NEGATIVE_SHORTCUT_THRESHOLD = 0.05


    def __init__(

        self,

        model: SingleByteCharSetModel,

        is_reversed: bool = False,

        name_prober: Optional[CharSetProber] = None,

    ) -> None:

        super().__init__()

        self._model = model

        # TRUE if we need to reverse every pair in the model lookup

        self._reversed = is_reversed

        # Optional auxiliary prober for name decision

        self._name_prober = name_prober

        self._last_order = 255

        self._seq_counters: List[int] = []

        self._total_seqs = 0

        self._total_char = 0

        self._control_char = 0

        self._freq_char = 0

        self.resetreset()


    def reset(self) -> None:

        super().reset()

        # char order of last character

        self._last_order = 255

        self._seq_counters = [0] * SequenceLikelihood.get_num_categories()

        self._total_seqs = 0

        self._total_char = 0

        self._control_char = 0

        # characters that fall in our sampling range

        self._freq_char = 0


    @property


    def charset_name(self) -> Optional[str]:

        if self._name_prober:

            return self._name_prober.charset_name

        return self._model.charset_name


    @property


    def language(self) -> Optional[str]:

        if self._name_prober:

            return self._name_prober.language

        return self._model.language


    def feed(self, byte_str: Union[bytes, bytearray]) -> ProbingState:

        # TODO: Make filter_international_words keep things in self.alphabet

        if not self._model.keep_ascii_letters:

            byte_str = self.filter_international_words(byte_str)

        else:

            byte_str = self.remove_xml_tags(byte_str)

        if not byte_str:

            return self.statestate

        char_to_order_map = self._model.char_to_order_map

        language_model = self._model.language_model

        for char in byte_str:

            order = char_to_order_map.get(char, CharacterCategory.UNDEFINED)

            # XXX: This was SYMBOL_CAT_ORDER before, with a value of 250, but

            #      CharacterCategory.SYMBOL is actually 253, so we use CONTROL

            #      to make it closer to the original intent. The only difference

            #      is whether or not we count digits and control characters for

            #      _total_char purposes.

            if order < CharacterCategory.CONTROL:

                self._total_char += 1

            if order < self.SAMPLE_SIZE:

                self._freq_char += 1

                if self._last_order < self.SAMPLE_SIZE:

                    self._total_seqs += 1

                    if not self._reversed:

                        lm_cat = language_model[self._last_order][order]

                    else:

                        lm_cat = language_model[order][self._last_order]

                    self._seq_counters[lm_cat] += 1

            self._last_order = order


        charset_name = self._model.charset_name

        if self.statestate == ProbingState.DETECTING:

            if self._total_seqs > self.SB_ENOUGH_REL_THRESHOLD:

                confidence = self.get_confidenceget_confidence()

                if confidence > self.POSITIVE_SHORTCUT_THRESHOLD:

                    self.logger.debug(

                        "%s confidence = %s, we have a winner", charset_name, confidence

                    )

                    self._state_state = ProbingState.FOUND_IT

                elif confidence < self.NEGATIVE_SHORTCUT_THRESHOLDNEGATIVE_SHORTCUT_THRESHOLD:

                    self.logger.debug(

                        "%s confidence = %s, below negative shortcut threshold %s",

                        charset_name,

                        confidence,

                        self.NEGATIVE_SHORTCUT_THRESHOLDNEGATIVE_SHORTCUT_THRESHOLD,

                    )

                    self._state_state = ProbingState.NOT_ME


        return self.statestate


    def get_confidence(self) -> float:

        r = 0.01

        if self._total_seqs > 0:

            r = (

                (

                    self._seq_counters[SequenceLikelihood.POSITIVE]

                    + 0.25 * self._seq_counters[SequenceLikelihood.LIKELY]

                )

                / self._total_seqs

                / self._model.typical_positive_ratio

            )

            # The more control characters (proportionnaly to the size

            # of the text), the less confident we become in the current

            # charset.

            r = r * (self._total_char - self._control_char) / self._total_char

            r = r * self._freq_char / self._total_char

            if r >= 1.0:

                r = 0.99

        return r


pip._vendor.chardet.charsetprober.CharSetProber
Definition charsetprober.py:40

pip._vendor.chardet.charsetprober.CharSetProber.logger
logger
Definition charsetprober.py:48

pip._vendor.chardet.charsetprober.CharSetProber.filter_international_words
bytearray filter_international_words(Union[bytes, bytearray] buf)
Definition charsetprober.py:77

pip._vendor.chardet.charsetprober.CharSetProber.reset
None reset(self)
Definition charsetprober.py:50

pip._vendor.chardet.charsetprober.CharSetProber.remove_xml_tags
bytes remove_xml_tags(Union[bytes, bytearray] buf)
Definition charsetprober.py:111

pip._vendor.chardet.charsetprober.CharSetProber.state
ProbingState state(self)
Definition charsetprober.py:65

pip._vendor.chardet.charsetprober.CharSetProber.get_confidence
float get_confidence(self)
Definition charsetprober.py:68

pip._vendor.chardet.charsetprober.CharSetProber._state
_state
Definition charsetprober.py:45

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetModel
Definition sbcharsetprober.py:35

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber
Definition sbcharsetprober.py:45

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber._control_char
_control_char
Definition sbcharsetprober.py:67

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber._freq_char
_freq_char
Definition sbcharsetprober.py:68

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber._last_order
_last_order
Definition sbcharsetprober.py:63

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber.NEGATIVE_SHORTCUT_THRESHOLD
float NEGATIVE_SHORTCUT_THRESHOLD
Definition sbcharsetprober.py:49

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber._name_prober
_name_prober
Definition sbcharsetprober.py:62

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber.SAMPLE_SIZE
int SAMPLE_SIZE
Definition sbcharsetprober.py:46

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber.__init__
None __init__(self, SingleByteCharSetModel model, bool is_reversed=False, Optional[CharSetProber] name_prober=None)
Definition sbcharsetprober.py:56

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber.SB_ENOUGH_REL_THRESHOLD
int SB_ENOUGH_REL_THRESHOLD
Definition sbcharsetprober.py:47

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber.reset
None reset(self)
Definition sbcharsetprober.py:71

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber._reversed
_reversed
Definition sbcharsetprober.py:60

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber.NEGATIVE_SHORTCUT_THRESHOLD
NEGATIVE_SHORTCUT_THRESHOLD
Definition sbcharsetprober.py:138

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber.language
Optional[str] language(self)
Definition sbcharsetprober.py:89

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber.POSITIVE_SHORTCUT_THRESHOLD
float POSITIVE_SHORTCUT_THRESHOLD
Definition sbcharsetprober.py:48

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber._seq_counters
_seq_counters
Definition sbcharsetprober.py:75

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber.charset_name
Optional[str] charset_name(self)
Definition sbcharsetprober.py:83

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber._model
_model
Definition sbcharsetprober.py:58

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber._total_seqs
_total_seqs
Definition sbcharsetprober.py:65

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber._total_char
_total_char
Definition sbcharsetprober.py:66

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber.state
state
Definition sbcharsetprober.py:125

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber.get_confidence
float get_confidence(self)
Definition sbcharsetprober.py:144

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber.feed
ProbingState feed(self, Union[bytes, bytearray] byte_str)
Definition sbcharsetprober.py:94

pip._vendor.chardet.sbcharsetprober.SingleByteCharSetProber._state
_state
Definition sbcharsetprober.py:132

i
for i
Definition prime_search.m:10