d1/d7b/eucjpprober_8py_source.html

from typing import Union


from .chardistribution import EUCJPDistributionAnalysis

from .codingstatemachine import CodingStateMachine

from .enums import MachineState, ProbingState

from .jpcntx import EUCJPContextAnalysis

from .mbcharsetprober import MultiByteCharSetProber

from .mbcssm import EUCJP_SM_MODEL


class EUCJPProber(MultiByteCharSetProber):


    def __init__(self) -> None:

        super().__init__()

        self.coding_sm = CodingStateMachine(EUCJP_SM_MODEL)

        self.distribution_analyzer = EUCJPDistributionAnalysis()

        self.context_analyzer = EUCJPContextAnalysis()

        self.resetresetreset()


    def reset(self) -> None:

        super().reset()

        self.context_analyzer.reset()


    @property


    def charset_name(self) -> str:

        return "EUC-JP"


    @property


    def language(self) -> str:

        return "Japanese"


    def feed(self, byte_str: Union[bytes, bytearray]) -> ProbingState:

        assert self.coding_sm is not None

        assert self.distribution_analyzer is not None


        for i, byte in enumerate(byte_str):

            # PY3K: byte_str is a byte array, so byte is an int, not a byte

            coding_state = self.coding_sm.next_state(byte)

            if coding_state == MachineState.ERROR:

                self.logger.debug(

                    "%s %s prober hit error at byte %s",

                    self.charset_namecharset_namecharset_namecharset_name,

                    self.languagelanguagelanguagelanguage,

                    i,

                )

                self._state_state_state = ProbingState.NOT_ME

                break

            if coding_state == MachineState.ITS_ME:

                self._state_state_state = ProbingState.FOUND_IT

                break

            if coding_state == MachineState.START:

                char_len = self.coding_sm.get_current_charlen()

                if i == 0:

                    self._last_char_last_char[1] = byte

                    self.context_analyzer.feed(self._last_char_last_char, char_len)

                    self.distribution_analyzer.feed(self._last_char_last_char, char_len)

                else:

                    self.context_analyzer.feed(byte_str[i - 1 : i + 1], char_len)

                    self.distribution_analyzer.feed(byte_str[i - 1 : i + 1], char_len)


        self._last_char_last_char[0] = byte_str[-1]


        if self.statestatestate == ProbingState.DETECTING:

            if self.context_analyzer.got_enough_data() and (

                self.get_confidenceget_confidenceget_confidence() > self.SHORTCUT_THRESHOLD

            ):

                self._state_state_state = ProbingState.FOUND_IT


        return self.statestatestate


    def get_confidence(self) -> float:

        assert self.distribution_analyzer is not None


        context_conf = self.context_analyzer.get_confidence()

        distrib_conf = self.distribution_analyzer.get_confidence()

        return max(context_conf, distrib_conf)


pip._vendor.chardet.chardistribution.EUCJPDistributionAnalysis
Definition chardistribution.py:246

pip._vendor.chardet.charsetprober.CharSetProber.logger
logger
Definition charsetprober.py:48

pip._vendor.chardet.charsetprober.CharSetProber.reset
None reset(self)
Definition charsetprober.py:50

pip._vendor.chardet.charsetprober.CharSetProber.state
ProbingState state(self)
Definition charsetprober.py:65

pip._vendor.chardet.charsetprober.CharSetProber.SHORTCUT_THRESHOLD
float SHORTCUT_THRESHOLD
Definition charsetprober.py:42

pip._vendor.chardet.charsetprober.CharSetProber.language
Optional[str] language(self)
Definition charsetprober.py:58

pip._vendor.chardet.charsetprober.CharSetProber.charset_name
Optional[str] charset_name(self)
Definition charsetprober.py:54

pip._vendor.chardet.charsetprober.CharSetProber.get_confidence
float get_confidence(self)
Definition charsetprober.py:68

pip._vendor.chardet.charsetprober.CharSetProber._state
_state
Definition charsetprober.py:45

pip._vendor.chardet.codingstatemachine.CodingStateMachine
Definition codingstatemachine.py:34

pip._vendor.chardet.eucjpprober.EUCJPProber
Definition eucjpprober.py:38

pip._vendor.chardet.eucjpprober.EUCJPProber.charset_name
str charset_name(self)
Definition eucjpprober.py:51

pip._vendor.chardet.eucjpprober.EUCJPProber.reset
None reset(self)
Definition eucjpprober.py:46

pip._vendor.chardet.eucjpprober.EUCJPProber._last_char
_last_char
Definition eucjpprober.py:81

pip._vendor.chardet.eucjpprober.EUCJPProber.language
language
Definition eucjpprober.py:69

pip._vendor.chardet.eucjpprober.EUCJPProber.coding_sm
coding_sm
Definition eucjpprober.py:41

pip._vendor.chardet.eucjpprober.EUCJPProber.distribution_analyzer
distribution_analyzer
Definition eucjpprober.py:42

pip._vendor.chardet.eucjpprober.EUCJPProber.__init__
None __init__(self)
Definition eucjpprober.py:39

pip._vendor.chardet.eucjpprober.EUCJPProber.language
str language(self)
Definition eucjpprober.py:55

pip._vendor.chardet.eucjpprober.EUCJPProber.state
state
Definition eucjpprober.py:89

pip._vendor.chardet.eucjpprober.EUCJPProber.get_confidence
float get_confidence(self)
Definition eucjpprober.py:97

pip._vendor.chardet.eucjpprober.EUCJPProber.charset_name
charset_name
Definition eucjpprober.py:68

pip._vendor.chardet.eucjpprober.EUCJPProber.feed
ProbingState feed(self, Union[bytes, bytearray] byte_str)
Definition eucjpprober.py:58

pip._vendor.chardet.eucjpprober.EUCJPProber._state
_state
Definition eucjpprober.py:72

pip._vendor.chardet.eucjpprober.EUCJPProber.context_analyzer
context_analyzer
Definition eucjpprober.py:43

pip._vendor.chardet.jpcntx.EUCJPContextAnalysis
Definition jpcntx.py:219

pip._vendor.chardet.mbcharsetprober.MultiByteCharSetProber
Definition mbcharsetprober.py:38

pip._vendor.chardet.mbcharsetprober.MultiByteCharSetProber.reset
None reset(self)
Definition mbcharsetprober.py:49

pip._vendor.chardet.mbcharsetprober.MultiByteCharSetProber._last_char
_last_char
Definition mbcharsetprober.py:47

pip._vendor.chardet.mbcharsetprober.MultiByteCharSetProber.language
language
Definition mbcharsetprober.py:67

pip._vendor.chardet.mbcharsetprober.MultiByteCharSetProber.state
state
Definition mbcharsetprober.py:85

pip._vendor.chardet.mbcharsetprober.MultiByteCharSetProber.get_confidence
float get_confidence(self)
Definition mbcharsetprober.py:93

pip._vendor.chardet.mbcharsetprober.MultiByteCharSetProber.charset_name
charset_name
Definition mbcharsetprober.py:66

pip._vendor.chardet.mbcharsetprober.MultiByteCharSetProber._state
_state
Definition mbcharsetprober.py:70

i
for i
Definition prime_search.m:10